CN113157987A

CN113157987A - 用于机器学习算法的数据预处理方法及相关设备

Info

Publication number: CN113157987A
Application number: CN202110513199.8A
Authority: CN
Inventors: 郑凤
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Aerospace network security technology (Shenzhen) Co.,Ltd.
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-07-23

Abstract

本公开提供一种用于机器学习算法的数据预处理方法及相关设备，所述方法包括：获取待处理的原始数据；基于所述原始数据每个特征的缺失值进行筛查，以得到第一筛查数据；基于所述第一筛查数据中每个特征的相同值进行筛查，以确定第二筛查数据；将所述第二筛查数据中每个特征的缺失值进行填充，以得到完整数据；将所述完整数据按照预设的标准化处理规则进行标准化处理，以获取所述标准化处理后的完整数据。本公开实施例能够对结构化数据进行数据预处理，通过对数据的异常值进行处理，提高了数据的可用性和数据质量，节省了在机器学习算法开发时的大量人力物力。

Description

用于机器学习算法的数据预处理方法及相关设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种用于机器学习算法的数据预处理方法及相关设备。

背景技术

随着机器学习技术的发展，越来越多行业的对机器学习技术的需求也越来越迫切。然而在数据挖掘、用户画像等基于结构化数据的机器学习算法开发中，会出现数据采集时会有一定程度的数据丢失，如果不进行筛选直接进行机器学习算法的开发，会造成算法训练时由于无效数据导致训练时间增加，或者性能下降，甚至存在缺失值时无法进行训练，对于缺失值的填充，目前常采用头脑风暴，或咨询相关专家进行填充，造成大量人力物力的浪费。现有技术中通过主成分分析(PCA)降维法，卷积神经网络(CNN)来减少无效特征对结果的影响，前者产生的新特征很难与实际应用场景之间建立，并且需要手动设置、调整累积可解释方差的阈值；后者生物学基础支持不足，没有记忆功能，CNN全连接模式过于冗余、低效；此外上述两种方法均存在：当数据集存在缺失值时，降维方法会失效的问题。

发明内容

有鉴于此，本公开的目的在于提出一种用于机器学习算法的数据预处理方法及相关设备。

基于上述目的，本公开提供了用于机器学习算法的数据预处理方法，包括：

获取待处理的原始数据；

基于所述原始数据每个特征的缺失值进行筛查，以得到第一筛查数据；

基于所述第一筛查数据中每个特征的相同值进行筛查，以确定第二筛查数据；

将所述第二筛查数据中每个特征的缺失值进行填充，以得到完整数据；

将所述完整数据按照预设的标准化处理规则进行标准化处理，以获取所述标准化处理后的完整数据。

进一步，所述原始数据包括离散数据和连续数据，所述离散数据和连续数据均包括多个特征。

进一步，所述基于所述原始数据每个特征的缺失值进行筛查包括：

对所述原始数据中每个特征的缺失值数量进行统计，以确定所述缺失值在所属特征总数据量中的第一占比；

响应于确定所述第一占比大于预设的第一阈值，将包含所述缺失值的特征删除。

进一步，基于所述第一筛查数据中每个特征的相同值进行筛查，包括：

对所述第一筛查数据中的所述离散数据的每个特征执行以下操作：

基于每个相同值的数量，确定所述相同值在所属特征包含所述缺失值的总数据量中的第二占比；

响应于确定所述第二占比大于预设的第二阈值，将包含所述相同值的特征删除；否则

根据任意一个相同值的数量，确定所述相同值在全部相同值总数据量中的第三占比；

响应于确定所述第三占比大于预设的第三阈值，将包含所述相同值的特征删除。

进一步，基于所述第一筛查数据中每个特征的相同值进行筛查，还包括：

对所述第一筛查数据中的所述连续数据的每个特征执行以下操作：

基于每个相同值的数量，确定所述相同值在所属特征包含所述缺失值的总数据量中的第四占比；

响应于确定所述第四占比大于预设的第四阈值，将包含所述相同值特征删除。

进一步，所述将所述第二筛查数据中每个特征的缺失值进行填充，包括：

对于所述第二筛查数据中的所述离散数据的每个特征执行以下操作：

根据缺失值的数量，确定所述缺失值在所属特征总数据量中的第五占比；

响应于确定所述第五占比小于预设的第五阈值，根据每个值出现的频率随机抽取数据对所述缺失值进行填充；否则

基于不包含所述缺失值的数据，通过支持向量机建立分类模型；

根据预先训练的所述分类模型对所述缺失值进行填充。

进一步，所述将所述第二筛查数据中每个特征的缺失值进行填充，还包括；

对于所述第二筛查数据中的所述连续数据的每个特征执行以下操作：

根据缺失值的数量，确定所述缺失值在所属特征总数据量中的第六占比；

响应于确定所述第六占比小于预设的第六阈值，基于非缺失值数据的最大值、最小值以及中位数通过高斯分布对所述缺失值进行填充；否则

基于不包含所述缺失值的数据，通过多项式回归建立回归模型；

根据预先训练的所述回归模型对所述缺失值进行填充。

进一步，所述预设的标准化处理规则包括离散数据的标准化处理准则和连续数据的标准化处理准则，其中，

所述离散数据的标准化处理规则包括独热One-Hot编码；

所述连续数据的标准化处理规则包括离差min-max标准化、z-score标准化以及对数函数转换。

基于同一发明构思，本公开还提供了一种用于机器学习算法的数据预处理装置，包括：

获取模块：被配置为获取待处理的原始数据；

第一筛查模块：被配置为基于所述原始数据每个特征的缺失值进行筛查，以得到第一筛查数据；

第二筛查模块：被配置为基于所述第一筛查数据中每个特征的相同值进行筛查，以确定第二筛查数据；

填充模块：被配置为将所述第二筛查数据中每个特征的缺失值进行填充，以得到完整数据；

标准化模块：被配置为将所述完整数据按照预设的标准化处理规则进行标准化处理，以获取所述标准化处理后的完整数据。

基于同一发明构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的方法。

从上面所述可以看出，本公开提供的用于机器学习算法的数据预处理方法及相关设备，获取待处理的原始数据后，对于原始数据中包括缺失值和冗余的相同值在内的异常数据进行筛查，并对异常数据进行清除，降低了实际数据筛选所需的时间，同时提高了数据的可用性；此外，还对筛查后数据中的缺失值进行填充，在保证数据的完整性的同时提高了数据的质量；最后对数据进行标准化处理，得到的标准化处理后的数据提升了模型训练和数据分析时的准确率和效率，节省了大量的人力物力。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的用于机器学习算法的数据预处理方法流程图；

图2为本公开实施例的用于机器学习算法的数据预处理装置结构示意图；

图3为本公开实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如背景技术部分所述，相关技术中的用于机器学习算法的数据预处理的技术方案，一般是通过主成分分析降维法或卷积神经网络对结构化数据进行处理，申请人在实现本公开的过程中发现通过主成分分析降维法或卷积神经网络进行数据预处理存在以下问题：

主成分分析降维法产生的新特征之间是没有关联性的，因而在一些情况下，新特征无法与实际应用场景之间建立联系，除此之外，需要手动设置、调整累积可解释方差的阈值。

卷积神经网络的生物学基础支持不足，没有记忆功能，并且卷积神经网络全连接模式存在过于冗余、低效的问题。

此外，上述两种方法同时存在当数据集中有缺失值，降维方法会失效的问题，浪费大量的人力物力。

有鉴于此，本公开实施例提供了一种用于机器学习算法的数据预处理方法，能够对结构化数据进行数据预处理，改善了数据特征中的缺失值和相同值引起的缺陷，以提高机器学习算法开发的质量和效率。

以下，通过具体的实施例来详细说明本公开的技术方案。

参考图1，本公开实施例的用于机器学习算法的数据预处理方法，包括以下步骤：

步骤S101：获取待处理的原始数据。

在本步骤中，原始数据包括离散数据和连续数据，离散数据和连续数据均包括多个特征，并且两两特征之间没有逻辑关系，即特征位置的变化不会对数据造成影响；其中，通过在每个特征中设置相应的特征名称，以对不同的特征进行区分。

具体的，连续数据体现的特点为，相同特征中出现的值远小于数据总量，并且值是有限值或以文字形式进行展示的数据；连续数据体现的特点为，相同特征中包含的数据值接近于数据总量，且全为数字。

步骤S102：基于所述原始数据每个特征的缺失值进行筛查，以得到第一筛查数据。

在本步骤中，对原始数据进行初步筛查，具体包括：

具体的，例如，当缺失值在所属特征总数据量中的占比超过50％时，将此特征从原始数据中删除；否则，不对原始数据进行任何操作，并通过筛查。

步骤S103：基于所述第一筛查数据中每个特征的相同值进行筛查，以确定第二筛查数据。

在本步骤中，需要分别对原始数据中的离散数据和连续数据进行筛查，其中，对离散数据进行的筛查包括：

具体的，例如，当离散数据中任意一个相同值在所属特征中的总数据量(包括缺失值)中的占比大于90％时，将包含该相同值的特征进行删除；否则，判断任意一个相同值在所有相同值总数据量中占比大于90％，当大于90％时，将包含此相同值的特征删除，当不大于90％时，通过本步骤的筛查。

进一步的，对连续数据进行的筛查包括：

具体的，例如，当连续数据中任意一个相同值在所属特征中的总数据量(包括缺失值)中的占比大于10％时，将包含该相同值的特征进行删除；否则，通过本步骤的筛查。

步骤S104：将所述第二筛查数据中每个特征的缺失值进行填充，以得到完整数据。

在本步骤中，同样需要分别对第二筛查数据中的离散数据和连续数据每个特征的缺失值进行填充，其中，对离散数据中每个特征的缺失值进行填充包括：

基于不包含所述缺失值的数据，通过支持向量机(SVM)建立分类模型；

根据预先训练的所述分类模型对所述缺失值进行填充。

具体的，例如，当离散数据中缺失值在所属特征总数据量中的占比小于30％时，则根据此特征中每个值出现的频率随机抽取数据对缺失值进行填充；否则，根据此特征中不包含缺失值的数据通过SVM建立分类模型并完成训练，基于训练好的分类模型对缺失值进行填充。

进一步的，对连续数据中每个特征的缺失值进行填充包括：

根据预先训练的所述回归模型对所述缺失值进行填充。

具体的，例如，当连续数据中缺失值在所属特征总数据量中的占比小于30％时，根据此特征中非缺失值数据的最大值、最小值以及中位数利用高斯分布对缺失值进行填充，在用于缺失值填充的高斯分布中，中位数表示高斯分布的期望，最大值和最小值之差的二分之一表示高斯分布的方差；当连续数据中缺失值在所属特征总数据量中的占比不低于30％时，根据此特征中非缺失值的数据通过多项式回归建立回归模型并完成训练，基于训练好的回归模型对缺失值进行填充。

步骤S105：将所述完整数据按照预设的标准化处理规则进行标准化处理，以获取所述标准化处理后的完整数据。

在本步骤中，预设的标准化处理规则包括对离散数据的标准化处理准则和对连续数据的标准化处理准则，其中，对连续数据的标准化处理规则包括离差(min-max)标准化、z-score标准化以及对数函数转换，具体的：

min-max标准化的计算公式如下：

式中，X表示特征向量，x表示未处理的初始数据，x'∈X表示归一化后的单个数据。

z-score标准化的计算公式如下：

式中，X^*表示归一化后的单个数据，μ表示所有数据的均值，σ表示所有数据的方差。

对数函数转化的计算公式如下：

式中，X′表示归一化后的单个数据，max′表示特征中的最大值。

进一步的，离散数据的标准化处理规则为独热(One-Hot)编码。

由此可见，通过对原始数据中的缺失值和相同值进行处理，使最终得到的完整数据在用于机器学习算法开发时，避免了原始数据中的异常数据对机器学习模型训练和数据分析的准确率和效率造成的不良影响，保证机器学习模型的输出具有更高的置信度。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种用于机器学习算法的数据预处理装置。

参考图2，所述用于机器学习算法的数据预处理装置，包括：

获取模块201：被配置为获取待处理的原始数据；

第一筛查模块202：被配置为基于所述原始数据每个特征的缺失值进行筛查，以得到第一筛查数据；

第二筛查模块203：被配置为基于所述第一筛查数据中每个特征的相同值进行筛查，以确定第二筛查数据；

填充模块204：被配置为将所述第二筛查数据中每个特征的缺失值进行填充，以得到完整数据；

标准化模块205：被配置为将所述完整数据按照预设的标准化处理规则进行标准化处理，以获取所述标准化处理后的完整数据。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的用于机器学习算法的数据预处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的用于机器学习算法的数据预处理方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的用于机器学习算法的数据预处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的用于机器学习算法的数据预处理方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的用于机器学习算法的数据预处理方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于机器学习算法的数据预处理方法，包括：

获取待处理的原始数据；

2.根据权利要求1所述的方法，其中，所述原始数据包括离散数据和连续数据，所述离散数据和连续数据均包括多个特征。

3.根据权利要求2所述的方法，其中，所述基于所述原始数据每个特征的缺失值进行筛查包括：

4.根据权利要求3所述的方法，其中，基于所述第一筛查数据中每个特征的相同值进行筛查，包括：

5.根据权利要求3所述的方法，其中，基于所述第一筛查数据中每个特征的相同值进行筛查，还包括：

6.根据权利要求4所述的方法，其中，所述将所述第二筛查数据中每个特征的缺失值进行填充，包括：

根据预先训练的所述分类模型对所述缺失值进行填充。

7.根据权利要求5所述的方法，其中，所述将所述第二筛查数据中每个特征的缺失值进行填充，还包括；

根据预先训练的所述回归模型对所述缺失值进行填充。

8.根据权利要求2所述的方法，其中，所述预设的标准化处理规则包括离散数据的标准化处理准则和连续数据的标准化处理准则，其中，

所述离散数据的标准化处理规则包括独热One-Hot编码；

9.一种用于机器学习算法的数据预处理装置，包括：

获取模块：被配置为获取待处理的原始数据；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。