CN114490618B

CN114490618B - 基于蚁狮算法的数据填补方法、装置、设备及存储介质

Info

Publication number: CN114490618B
Application number: CN202210138840.9A
Authority: CN
Inventors: 刘艺; 秦伟; 李庚松; 郑奇斌; 刁兴春
Original assignee: Beijing Big Data Advanced Technology Research Institute
Current assignee: Beijing Big Data Advanced Technology Research Institute
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-11-11
Anticipated expiration: 2042-02-15
Also published as: CN114490618A

Abstract

本申请实施例涉及数据处理技术领域，具体涉及一种基于蚁狮算法的数据填补方法、装置、设备及存储介质，旨在提高缺失数据填补任务中数据填补的质量。所述方法包括：接收缺失数据集，根据缺失的数据类型设置多个蚂蚁个体以及蚁狮个体，计算每个蚂蚁个体以及蚁狮个体的适应度值，从中选定适应度值最大的蚁狮个体为精英蚁狮个体，同时为每个蚂蚁个体选择一个选定蚁狮个体，根据选定蚁狮个体的位置编码以及精英蚁狮个体的位置编码对蚂蚁个体的位置编码进行更新，根据更新后的蚂蚁个体更新选定蚁狮个体，进而确定新的精英蚁狮个体，迭代执行上述步骤，根据最终得到的精英蚁狮个体生成数据填补模型，执行数据填补任务。

Description

基于蚁狮算法的数据填补方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种基于蚁狮算法的数据填补方法、装置、设备及存储介质。

背景技术

随着网络的飞速发展，网络上每天会产生海量的数据，为了从网络上海量的数据中提取出有价值的信息，数据挖掘技术应运而生。对数据进行挖掘，需要使用到分类器，而分类器需要通过高质量的数据集进行训练，如果训练用的数据的质量很差，就会影响分类器的性能，进而影响数据挖掘的效果，提取到无用信息，忽略有用的信息。由于一些不可避免的技术问题，在获取训练用的数据集时，数据的采集、存储等阶段不可避免的会发生过损耗，出现数据集中的数据缺失，如果直接忽略掉缺失的数据，可能会导致潜在的有价值的信息的缺失，因此需要对数据集进行缺失数据填补。

现有技术中使用基于距离的方法进行数据填补，没有区分不同数据类型的特征，没有充分利用特征的分布和概率信息，是的数据趋于一致而丧失多样性，填补出的数据也会出现与实际数据之间偏差过大的情况，训练出的分类器对数据的挖掘效果较差，不能满足现有的数据挖掘任务对数据质量的要求。

发明内容

本申请实施例提供一种基于蚁狮算法的数据填补方法、装置、设备及存储介质，旨在提高缺失数据填补任务中数据填补的质量。

本申请实施例第一方面提供一种基于蚁狮算法的数据填补方法，所述方法包括：

读取缺失数据集，所述缺失数据集中包括连续型数据以及枚举型数据；

设置多个蚁狮个体以及蚂蚁个体，通过混沌映射对所述多个蚁狮个体的位置编码以及蚂蚁个体的位置编码进行初始化，得到多个初始化蚁狮个体以及多个初始化蚂蚁个体；

根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值；

根据所述多个初始化蚁狮个体的适应度值，从所述多个初始化蚁狮个体中确定适应度值最大的蚁狮个体，将该蚁狮个体作为精英蚁狮个体；

针对每个所述初始化蚂蚁个体，通过轮盘赌方法从所述多个初始化蚁狮个体中选择一个初始化蚁狮个体，将该蚁狮个体作为选定蚁狮个体；

根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对每个所述初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体；

根据所述缺失数据集，对所述多个更新后的蚂蚁个体中的每个蚂蚁个体分别进行适应度计算，得到所述多个更新后的蚂蚁个体的适应度值；

根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体；

根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体；

迭代执行上述蚂蚁个体更新、蚁狮个体更新以及精英蚁狮个体更新步骤，当满足迭代退出条件时，得到最优精英蚁狮个体；

根据所述最优精英蚁狮个体的位置编码生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果。

可选地，根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，包括：

通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体，对所述缺失数据集进行数据填补，得到多个填补后的数据集；

对于每个所述填补后的数据集，使用均方根误差对所述填补后的数据集进行计算，得到填补数据与原数据之间的距离；

将所述填补数据与原数据之间的距离的倒数作为所述填补后数据集对应的个体的适应度值。

可选地，通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体，对所述缺失数据集进行数据填补，得到多个填补后的数据集，包括：

针对每个所述初始化蚁狮个体以及每个所述初始化蚂蚁个体，通过映射模型对每个个体的位置编码进行映射，得到用于填补连续型数据的均值与标准差以及用于填补枚举型数据的概率取值；

根据所述均值与标准差生成正态分布模型，通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补；

根据所述取值概率，采用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述多个填补后的数据集。

可选地，根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对所述每个初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体，包括：

针对每个所述蚂蚁个体，对所述蚂蚁个体进行归一化随机游走；

根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，分别对所述蚂蚁个体的位置编码进行更新，得到两个初步更新后的蚂蚁个体；

将所述两个初步更新后的蚂蚁个体的位置编码求均值，得到所述更新后的蚂蚁个体。

可选地，根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体，包括：

将每个所述更新后的蚂蚁个体的适应度值与该蚂蚁个体对应的选定蚁狮个体的适应度值进行比较；

当所述更新后的蚂蚁个体的适应度值大于该蚂蚁个体对应的选定蚁狮个体的适应度值时，将所述选定蚁狮个体更新为所述蚂蚁个体。

可选地，根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体，包括：

根据所述缺失数据集，对所述多个更新后的蚁狮个体中的每个蚁狮个体进行适应度评估，得到所述多个更新后的蚁狮个体的适应度值；

将所述多个更新后的蚁狮个体中的适应度值最大的蚁狮个体作为更新后的精英蚁狮个体。

可选地，通过所述数据填补模型进行数据填补，得到数据填补结果，包括：

通过所述数据填补模型接收待填补的缺失数据集；

使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补，使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述数据填补结果。

本申请实施例第二方面提供一种基于蚁狮算法的数据填补装置，所述装置包括：

缺失数据集读取模块，用于读取缺失数据集，所述缺失数据集中包括连续型数据以及枚举型数据；

个体设置模块，用于设置多个蚁狮个体以及蚂蚁个体，通过混沌映射对所述多个蚁狮个体的位置编码以及蚂蚁个体的位置编码进行初始化，得到多个初始化蚁狮个体以及多个初始化蚂蚁个体；

第一适应度评估模块，用于根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值；

精英蚁狮个体确定模块，用于根据所述多个初始化蚁狮个体的适应度值，从所述多个初始化蚁狮个体中确定适应度值最大的蚁狮个体，将该蚁狮个体作为精英蚁狮个体；

选定蚁狮个体确定模块，用于针对每个所述初始化蚂蚁个体，通过轮盘赌方法从所述多个初始化蚁狮个体中选择一个初始化蚁狮个体，将该蚁狮个体作为选定蚁狮个体；

蚂蚁个体更新模块，用于根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对每个所述初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体；

第二适应度评估模块，用于根据所述缺失数据集，对所述多个更新后的蚂蚁个体中的每个蚂蚁个体分别进行适应度计算，得到所述多个更新后的蚂蚁个体的适应度值；

蚁狮个体更新模块，用于根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体；

精英蚁狮个体更新模块，用于根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体；

最优精英蚁狮个体获得模块，用于迭代执行上述蚂蚁个体更新、蚁狮个体更新以及精英蚁狮个体更新步骤，当满足迭代退出条件时，得到最优精英蚁狮个体；

数据填补结果获得模块，用于根据所述最优精英蚁狮个体生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果。本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的基于蚁狮算法的数据填补方法，读取缺失数据集，所述缺失数据集中包括连续型数据以及枚举型数据；设置多个蚁狮个体以及蚂蚁个体，通过混沌映射对所述多个蚁狮个体的位置编码以及蚂蚁个体的位置编码进行初始化，得到多个初始化蚁狮个体以及多个初始化蚂蚁个体；根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值；根据所述多个初始化蚁狮个体的适应度值，从所述多个初始化蚁狮个体中确定适应度值最大的蚁狮个体，将该蚁狮个体作为精英蚁狮个体；针对每个所述初始化蚂蚁个体，通过轮盘赌方法从所述多个初始化蚁狮个体中选择一个初始化蚁狮个体，将该蚁狮个体作为选定蚁狮个体；根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对每个所述初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体；根据所述缺失数据集，对所述多个更新后的蚂蚁个体中的每个蚂蚁个体分别进行适应度计算，得到所述多个更新后的蚂蚁个体的适应度值；根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体；根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体；迭代执行上述蚂蚁个体更新、蚁狮个体更新以及精英蚁狮个体更新步骤，当满足迭代退出条件时，得到最优精英蚁狮个体；根据所述最优精英蚁狮个体的位置编码生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果。本申请将蚁狮算法运用在了数据填补任务中，将用于生成数据填补模型的参数进行了编码，通过蚁狮算法，将不同的编码视作不同的蚁狮和蚂蚁，不断迭代选择出精英蚁狮，即确定了用于生成数据填补模型的最优编码，进而生成数据填补模型，该数据填补模型可以根据数据类型的不同进行适应性填补，有效的保证了对连续型数据和枚举型数据的填补效果，相较于传统的数据填补方法，满足了数据填补的多样性以及准确性，提升了缺失数据填补的填补质量。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的基于蚁狮算法的数据填补方法的流程图；

图2是本申请一实施例提出的蚁狮位置编码以及蚂蚁位置编码的示意图；

图3是本申请一实施例提出的基于蚁狮算法的数据填补装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，是基于蚁狮算法训练出数据填补模型，通过该数据填补模型对数据进行填补，蚁狮算法模仿了自然界中蚁狮在捕猎蚂蚁时的智能行为，蚁狮在猎食蚂蚁时，会挖一个圆锥形的陷阱，等待蚂蚁被困在陷阱中逐渐下落，直到被蚁狮捕食，在该处重新设置陷阱，蚁狮算法将求解问题的解视作蚂蚁和蚁狮，模拟了蚁狮设置陷阱、用陷阱诱捕蚂蚁、捕捉蚂蚁和重建陷阱等步骤，最后选出了一个最优蚁狮个体，作为问题的最优解，在本申请实施例中，通过最优蚁狮个体的位置编码，生成数据填补模型，通过数据填补模型来进行缺失数据的填补。

参考图1，图1是本申请一实施例提出的一种基于蚁狮算法的数据填补方法的流程图。如图1所示，该方法包括以下步骤：

S101：读取缺失数据集，所述缺失数据集中包括连续型数据以及枚举型数据。

本实施例中，缺失数据集是数据发生缺失的数据集，连续型变量指取值是某一个区间中的任意一点的随机变量。离散型变量指随机变量的所有取值能够一一列举出来。

本实施例中，该缺失数据集用于对整个模型进行训练，以生成数据填补模型，该缺失数据集预先进行了标注，标注了缺失数据的向量。

本实施例中，在日常进行数据挖掘时，经常会同时挖掘到连续型数据以及枚举型数据，在进行数据填补时，往往需要同时对连续型数据以及枚举型数据进行填补，基于蚁狮算法对数据进行填补时，需要使用缺失数据集对每个蚁狮个体以及蚂蚁个体进行适应度评估，缺失数据集中包含有连续型数据与枚举型数据，可以有效评估每个个体的适应度值。

示例地，连续型数据可以为人的身高、血压、体重或者某人在公交站台等一班车的时间等。离散型数据可以为人的性别，某部门的人数或者掷骰子实验中每次得到的值等。缺失数据集可以是公司人员信息登记表，学校人员信息登记表。

S102：设置多个蚁狮个体以及蚂蚁个体，通过混沌映射对所述多个蚁狮个体的位置编码以及蚂蚁个体的位置编码进行初始化，得到多个初始化蚁狮个体以及多个初始化蚂蚁个体。

本实施例中，蚁狮个体的位置编码是表示蚁狮在空间中的位置的编码，蚂蚁个体的位置编码是表示空间中蚂蚁位置的编码，混沌映射是将个体随机映射到向量空间中的初始化方法，初始化蚁狮个体和初始化蚂蚁个体的位置编码中的每一位编码值都在0-1之间。多条初始化蚁狮个体构成了初始化蚁狮种群，多条初始化蚂蚁个体构成了初始化蚂蚁种群。

传统的初始化方法为随机初始化，是基于均匀分布的方式随机初始化种群，但该方法的随机性较弱，导致种群难以随机分散在搜索空间中，降低了算法的整体性能，相对于传统的随机初始化方法，混沌映射具备更强的随机性，使个体在空间中更加分散，对算法的整体性能有所提升，更有利于迭代演化出最优精英蚁狮个体。

本实施例中，设置蚁狮个体的位置编码以及蚂蚁个体的位置编码时，针对不同类型的缺失数据，将一部分编码作为填补连续型数据的依据，将一部分编码作为填补离散型数据的依据。

参考图2，图2是本申请一实施例提出的蚁狮位置编码以及蚂蚁位置编码的示意图，如图2所示，设给定数据集上出现缺失数据的变量(特征)有Z个，其中有M个连续型变量，Z-M个枚举型变量，则位置编码长度为

包含有Z组位置编码；δ_i和μ_i为第i个连续型特征f_i的均值和标准差，

为i个枚举型特征取第j个值的概率,R_i为第i个枚举型特征可能的取值个数,且有

本实施例中，在设置好蚁狮个体的位置编码以及蚂蚁个体的位置编码之后，需要对设置的位置编码进行初始化，本实施例使用混沌映射的方法对位置编码进行初始化。

示例的，为了充分利用不同混沌映射的特点，采用3种混沌映射方法，分别初始化蚁狮种群以及蚂蚁种群中三分之一的个体的位置编码，3种混沌映射方法是Fuch映射、Tent映射和Logistic映射，它们的表达式如下所示：

x_n+1＝bx_n(1-x_n),x_n∈[0,1] (3)

其中x代表个体的位置编码，b为固定系数。从上述公式中可看出，x_n的取值范围始终保持在0-1之间，对于不同位置编码的同一个位置上的编码，可以随机生成一个0-1之间的数，再通过上述公式进行演化迭代，使得所有蚂蚁个体的位置编码和蚁狮个体的位置编码上该点位的值都处于0-1之间，从而完成蚂蚁种群和蚁狮种群的初始化，得到初始化蚁狮种群以及初始化蚂蚁种群。

S103：根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值。

本实施例中，为了从多个初始化蚁狮个体以及多个初始化蚂蚁个体中迭代选择出最优的个体，需要首先通过多个初始化蚁狮个体以及多个初始化蚂蚁个体对缺失数据集进行填补，通过对填补好的数据集进行评估，得到对应的个体的适应度值。

本实施例中，根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值的具体步骤为：

S103-1:通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体，对所述缺失数据集进行数据填补，得到多个填补后的数据集。

本实施例中，通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体，对所述缺失数据集进行数据填补，得到多个填补后的数据集的具体步骤为：

S103-1-1：针对每个所述初始化蚁狮个体以及每个所述初始化蚂蚁个体，通过映射模型对每个个体的位置编码进行映射，得到用于填补连续型数据的均值与标准差以及用于填补枚举型数据的概率取值。

本实施例中，映射模型是将位置编码映射为均值和标准差，以及取值概率的模型，均值与标准差用于生成正正态分布模型，正态分布模型用于对连续型数据进行填补，概率取值用于对枚举型数据进行填补。

本实施例中，位置编码不能直接用于生成正态分布模型，通过建立映射模型，将位置编码映射为生成正态分布模型的均值与标准差，在进行映射时，记录缺失数据集中每个特征的最大值和最小值，将特征的最小值加上位置编码值与极值的乘积，得到缺失特征值的特征值范围。

示例的，一个缺失数据集中，某个特征中，特征的最大值为10，特征的最小值为8，位置编码上该特征对应的编码为(0.2,0.6)，经过映射模型映射后，得到的均值为8+(10-8)*0.2＝8.4，标准差不变，对应的正态分布模型为N～(8.4，0.6)。

S103-1-2：根据所述均值与标准差生成正态分布模型，通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补。

本实施例中，连续型数据符合正态分布，因此，通过映射模型得到正态分布模型的均值与标准差，根据该均值与标准差生成正态分布模型，通过正态分布模型生成一个符合该连续型数据的分布特征的特征值进行数据的填补。

示例的，缺失数据集中一个连续型特征为病人1号在不同时刻的血压值，其中早间的血压值为70-100，晚间的血压为60-90，中午的血压值缺失，通过正态分布模型对该数据进行填补，填补的血压值在60-100之间，符合血压的变化规律。

本实施例中，正态分布模型的公式为：

其中，σ为均值，μ为标准差。

S103-1-3:根据所述取值概率，采用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述多个填补后的数据集。

本实施例中，轮盘赌方法是一种统计方法，将每个值的取值概率具象化为轮盘上的面积大小，取值概率越大，在轮盘上占的面积就越大，其对应的值就越容易被选中。

本实施例中，根据图2所示，染色体编码表示了每个枚举型特征选取每个特征值的概率以及特征值的个数，使用轮盘赌的方法，选取一个特征值，对缺失数据集中缺失的枚举型特征进行填补。

示例的，缺失数据集中的一个枚举型特征为一个公司每个部门的人数，部门1的人数为10，部门2的人数为12，部门3的人数为缺失特征，已知部门人数为10的概率最大，部门人数为12的概率排第二，部门人数为20的概率排第三，部门人数为5的概率排最后，则通过轮盘赌方法，部门3人数填补值为10的概率最大。

S103-2：对于每个所述填补后的数据集，使用均方根误差对所述填补后的数据集进行计算，得到填补数据与原数据之间的距离；

S103-3：将所述填补数据与原数据之间的距离的倒数作为所述填补后数据集对应的个体的适应度。

本实施例中，个体的适应度反映了个体的位置编码所对应的数据填补模型的填补效果。

本实施例中，通过多个蚁狮个体的位置编码以及多个蚂蚁个体的位置编码进行了数据填补，得到了多个填补后的数据集，对这些数据集进行适应度评估，可以得到填补该数据集的数据填补模型对应的个体的适应度值。

本实施例中，采用均方根误差RMSE作为评估指标，均方根误差越小说明填补数据越接近真实数据，考虑到算法适应度函数应该满足更优解有更大的适应度值，即将均方根误差的倒数作为对应的蚂蚁和蚁狮的适应度值。均方根误差公式，以及适应度函数如下式：

其中n表示数据集的n个缺失特征，X_fill,i和X_real,i分别表示第i个缺失特征的填补数据向量和真实数据向量，f(ALO)表示蚁狮算法的个体适应度值。

S104：根据所述多个初始化蚁狮个体的适应度值，从所述多个初始化蚁狮个体中确定适应度值最大的蚁狮个体，将该蚁狮个体作为精英蚁狮个体。

本实施例中，精英蚁狮个体即蚁狮种群中适应度值最大的蚁狮个体。

本实施例中，从多个初始化蚁狮个体，即初始化蚁狮种群中选择适应度值最大的蚁狮个体为精英蚁狮个体，精英蚁狮个体对应的数据填补模型，对缺失数据集的数据填补效果最好。

S105：针对每个所述初始化蚂蚁个体，通过轮盘赌方法从所述多个初始化蚁狮个体中选择一个初始化蚁狮个体，将该蚁狮个体作为选定蚁狮个体。

本实施例中，在蚁狮算法中，每个蚂蚁都要选择一个对应的蚁狮，通过轮盘赌的方法随机选择该蚂蚁个体对应的蚁狮个体，将该蚁狮个体作为该蚂蚁个体对应的选定蚁狮个体。

S106：根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对每个所述初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体。

本实施例中，根据所述精英蚁狮个体以及所述选定蚁狮个体，对每个所述初始化蚂蚁个体进行更新，得到多个更新后的蚂蚁个体的具体步骤为：

S106-1：针对每个所述蚂蚁个体，对所述蚂蚁个体进行归一化随机游走。

本实施例中，归一化随机游走是为了保证蚂蚁在可行域内进行随机游走。

S106-2：根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，分别对所述蚂蚁个体的位置编码进行更新，得到两个初步更新后的蚂蚁个体。

S106-3：将所述两个初步更新后的蚂蚁个体的位置编码求均值，得到所述更新后的蚂蚁个体。

本实施例中，模拟了蚂蚁随机游走，蚁狮将沙子抛出陷阱外使蚂蚁滑入陷阱的过程，蚂蚁围绕精英蚁狮和选定蚁狮进行随机游走，在蚂蚁的游走过程中，蚁狮制造的陷阱会影响蚂蚁的游走路线，即选定蚁狮个体的位置编码与精英蚁狮个体的位置编码的参数会对蚂蚁个体的位置编码造成影响。

本实施例中，在整个迭代过程的每次迭代中，蚂蚁在围绕选定蚁狮进行游走时，会根据选定蚁狮个体的位置编码更改蚂蚁个体的位置编码，蚂蚁围绕精英蚁狮进行随机游走时，同样会根据精英蚁狮个体的位置编码更改蚂蚁个体的位置编码，在对游走过程模拟完毕后，取两个位置编码的平均值，即得到更新后的蚂蚁个体的位置，即更新后的蚂蚁个体的位置编码。

S107：根据所述缺失数据集，对所述多个更新后的蚂蚁个体中的每个蚂蚁个体分别进行适应度计算，得到所述多个更新后的蚂蚁个体的适应度值。

本实施例中，在得到多个更新后的蚂蚁个体后，需要根据缺失数据集，对每个蚂蚁个体分别进行适应度计算，得到多个更新后的蚂蚁个体的适应度值。适应度值的计算方法在上述实施例中已经阐明，请参照步骤S103。

S108：根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体。

本实施例中，根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体的具体步骤包括：

S108-1：本实施例中，将每个所述更新后的蚂蚁个体的适应度值与该蚂蚁个体对应的选定蚁狮个体的适应度值进行比较。

S108-2：当所述更新后的蚂蚁个体的适应度值大于该蚂蚁个体对应的选定蚁狮个体的适应度值时，将所述选定蚁狮个体更新为所述蚂蚁个体。

本实施例中，得到多个更新后的蚂蚁个体的适应度值后，将每个蚂蚁个体的适应度值与其对应的选定蚁狮个体的适应度值进行对比，当更新后的蚂蚁个体的适应度值大于其对应的蚁狮个体的适应度值时，将选定蚁狮个体更新为该蚂蚁个体。

本实施例中，当蚂蚁个体的适应度值大于其对应的选定蚁狮个体的适应度值时，将蚁狮个体更新为蚂蚁个体，该步骤模拟了蚁狮捕食蚂蚁，并在被捕食的蚂蚁位置处重新构建陷阱的过程。

S109：根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体。

本实施例中，根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体的步骤包括：

S109-1：根据所述缺失数据集，对所述多个更新后的蚁狮个体中的每个蚁狮个体进行适应度评估，得到所述多个更新后的蚁狮个体的适应度值；

S109-2：将所述多个更新后的蚁狮个体中的适应度值最大的蚁狮个体作为更新后的精英蚁狮个体。

本实施例中，在对蚁狮个体更新完成之后，需要对所有的蚁狮个体再次进行适应度评估，得到多个更新后的蚁狮个体的适应度值后，将多个更新后的蚁狮个体中的适应度值最大的蚁狮个体作为更新后的精英蚁狮个体。

本实施例中，精英蚁狮个体更新完成后，则可以进入下轮迭代。

S110：迭代执行上述蚂蚁个体更新、蚁狮个体更新以及精英蚁狮个体更新步骤，当满足迭代退出条件时，得到最优精英蚁狮个体。

本实施例中，最优精英蚁狮个体是整个迭代过程结束之后，得到的精英蚁狮个体，该蚁狮个体是经过整个迭代过程之后得到的捕获蚂蚁成功率最高的蚁狮个体，即该蚁狮个体的位置编码生成的数据填补模型的数据填补效果是最好的。

本实施例中，迭代退出的条件可以有两个，一个条件是达到预先设置的迭代次数，当达到预先设置的迭代次数后，将最后一次更新后的精英蚁狮个体作为最优精英蚁狮个体。另一个条件是当得到的精英蚁狮个体相比于上一次迭代得到的精英蚁狮个体在适应度值上的提升小于预设阈值时，结束迭代，确定最后一次迭代获得的精英蚁狮为最优精英蚁狮。

S111：根据所述最优精英蚁狮个体的位置编码生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果。

本实施例中，本实施例中，数据填补模型是用于对缺失数据集进行数据填补的模型。

本实施例中，当得到最优精英蚁狮个体后，根据该最优精英蚁狮个体的位置编码，可以得到数据填补模型，该数据填补模型可以根据正态分布填补缺失数据集中的连续型数据，也可以通过概率填补缺失数据集中的枚举型数据。

本实施例中，通过所述数据填补模型进行数据填补，得到数据填补结果的具体步骤为：

S111-1：通过所述数据填补模型接收待填补的缺失数据集。

S111-2：使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补，使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述数据填补结果。

本实施例中，待填补的缺失数据集是数据有缺失的任意数据集，该数据集上没有标签，数据填补模型接收到缺失数据集之后，通过正态分布模型对缺失数据集中的连续性数据进行填补，使用轮盘赌方法对缺失数据集中的枚举型特征进行数据填补，进而输出填补后的数据集，数据填补结果就是该填补后的数据集。

本申请实施例中的基于蚁狮算法的混合缺失数据填补方法，根据混合缺失数据的不同类型的特点，构建了缺失数据和蚁狮算法的蚂蚁个体的位置编码和蚁狮个体的位置编码之间的映射模型，生成了数据填补模型，进行混合缺失数据的预测和填补。还使用了均方根误差评估每个编码的适应度值，有效利用了不同特征的特点以及特征蕴含的概率信息。本申请的数据填补方式对比传统的采用固定的随机值进行填补的方式，在训练性能和泛化性能上更加优异。本申请实施例将蚁狮算法的随机性特征引入了数据填补问题中，这一算法的鲁棒性很高，使用本方法填补出的数据集，训练出的分类器的分类性能更好，有助于提升数据挖掘的效率。

基于同一发明构思，本申请一实施例提供一种基于蚁狮算法的数据填补装置。参考图3，图3是本申请一实施例提出的基于蚁狮算法的数据填补装置300的示意图。如图3所示，该装置包括：

缺失数据集读取模块301，用于读取缺失数据集，所述缺失数据集中包括连续型数据以及枚举型数据；

个体设置模块302，用于设置多个蚁狮个体以及蚂蚁个体，通过混沌映射对所述多个蚁狮个体的位置编码以及蚂蚁个体的位置编码进行初始化，得到多个初始化蚁狮个体以及多个初始化蚂蚁个体；

第一适应度评估模块303，用于根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值；

精英蚁狮个体确定模块304，用于根据所述多个初始化蚁狮个体的适应度值，从所述多个初始化蚁狮个体中确定适应度值最大的蚁狮个体，将该蚁狮个体作为精英蚁狮个体；

选定蚁狮个体确定模块305，用于针对每个所述初始化蚂蚁个体，通过轮盘赌方法从所述多个初始化蚁狮个体中选择一个初始化蚁狮个体，将该蚁狮个体作为选定蚁狮个体；

蚂蚁个体更新模块306，用于根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对每个所述初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体；

第二适应度评估模块307，用于根据所述缺失数据集，对所述多个更新后的蚂蚁个体中的每个蚂蚁个体分别进行适应度计算，得到所述多个更新后的蚂蚁个体的适应度值；

蚁狮个体更新模块308，用于根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体；

精英蚁狮个体更新模块309，用于根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体；

最优精英蚁狮个体获得模块310，用于迭代执行上述蚂蚁个体更新、蚁狮个体更新以及精英蚁狮个体更新步骤，当满足迭代退出条件时，得到最优精英蚁狮个体；

数据填补结果获得模块311，用于根据所述最优精英蚁狮个体生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果。

可选地，所述第一适应度评估模块包括：

数据集填补子模块，用于通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体，对所述缺失数据集进行数据填补，得到多个填补后的数据集；

距离计算子模块，用于对于每个所述填补后的数据集，使用均方根误差对所述填补后的数据集进行计算，得到填补数据与原数据之间的距离；

第一适应度值获得子模块，用于将所述填补数据与原数据之间的距离的倒数作为所述填补后数据集对应的个体的适应度值。

可选地，所述数据集填补子模块包括：

个体映射子模块，针对每个所述初始化蚁狮个体以及每个所述初始化蚂蚁个体，通过映射模型对每个个体的位置编码进行映射，得到用于填补连续型数据的均值与标准差以及用于填补枚举型数据的概率取值；

连续型数据填补子模块，用于根据所述均值与标准差生成正态分布模型，通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补；

枚举型数据填补子模块，用于根据所述取值概率，采用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到填补后的数据集。

可选地，所述蚂蚁个体更新模块包括：

归一化游走子模块，针对每个所述蚂蚁个体，对所述蚂蚁个体进行归一化随机游走；

初步更新子模块，用于根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，分别对所述蚂蚁个体的位置编码进行更新，得到两个初步更新后的蚂蚁个体；

蚂蚁个体更新子模块，用于将所述两个初步更新后的蚂蚁个体的位置编码求均值，得到所述更新后的蚂蚁个体。

可选地，所述蚁狮个体更新模块包括：

适应度值比较子模块，用于将每个所述更新后的蚂蚁个体的适应度值与该蚂蚁个体对应的选定蚁狮个体的适应度值进行比较；

蚁狮个体更新子模块，用于当所述更新后的蚂蚁个体的适应度值大于该蚂蚁个体对应的选定蚁狮个体的适应度值时，将所述选定蚁狮个体更新为所述蚂蚁个体。

可选地，所述精英蚁狮个体更新模块包括：

第二适应度值获得子模块，用于根据所述缺失数据集，对所述多个更新后的蚁狮个体中的每个蚁狮个体进行适应度评估，得到所述多个更新后的蚁狮个体的适应度值；

精英蚁狮个体确定子模块，用于将所述多个更新后的蚁狮个体中的适应度值最大的蚁狮个体作为更新后的精英蚁狮个体。

可选地，所述数据填补结果获得模块包括：

缺失数据集接收子模块，用于通过所述数据填补模型接收待填补的缺失数据集；

数据填补结果获得子模块，用于使用正态分布模型对所述缺失数据集中的连续型数据进行数据填补，使用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述数据填补结果。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的混合缺失数据填补方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的基于蚁狮算法的数据填补方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的基于蚁狮算法的数据填补法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于蚁狮算法的数据填补方法，其特征在于，所述方法包括：

根据所述最优精英蚁狮个体的位置编码生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果；

其中，根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，包括：

通过所述多个初始化蚁狮个体以及多个初始化蚂蚁个体，对所述缺失数据集进行数据填补，得到多个填补后的数据集；包括：针对每个所述初始化蚁狮个体以及每个所述初始化蚂蚁个体，通过映射模型对每个个体的位置编码进行映射，得到用于填补连续型数据的均值与标准差以及用于填补枚举型数据的概率取值；根据所述均值与标准差生成正态分布模型，通过所述正态分布模型对所述缺失数据集中的连续型数据进行数据填补；根据所述概率取值，采用轮盘赌方法对所述缺失数据集中的枚举型数据进行数据填补，得到所述多个填补后的数据集；

2.根据权利要求1所述的方法，其特征在于，根据所述精英蚁狮个体的位置编码以及所述选定蚁狮个体的位置编码，对所述每个初始化蚂蚁个体的位置编码进行更新，得到多个更新后的蚂蚁个体，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述多个更新后的蚂蚁个体的适应度值，对所述多个初始化蚁狮个体进行更新，得到多个更新后的蚁狮个体，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述多个更新后的蚁狮个体，对所述精英蚁狮个体进行更新，得到更新后的精英蚁狮个体，包括：

5.根据权利要求1所述的方法，其特征在于，通过所述数据填补模型进行数据填补，得到数据填补结果，包括：

通过所述数据填补模型接收待填补的缺失数据集；

6.一种基于蚁狮算法的数据填补装置，其特征在于，所述装置包括：

第一适应度评估模块，用于根据所述缺失数据集，对所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体中的每个个体分别进行适应度评估，得到所述多个初始化蚁狮个体以及所述多个初始化蚂蚁个体的适应度值；具体包括：

将所述填补数据与原数据之间的距离的倒数作为所述填补后数据集对应的个体的适应度值；

数据填补结果获得模块，用于根据所述最优精英蚁狮个体生成数据填补模型，通过所述数据填补模型进行数据填补，得到数据填补结果。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至5任一所述的方法中的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至5任一所述的方法的步骤。