CN110866043A

CN110866043A - 数据预处理方法及装置、存储介质、终端

Info

Publication number: CN110866043A
Application number: CN201910976795.2A
Authority: CN
Inventors: 李君浩; 胡宏辉
Original assignee: Shanghai Lake Information Technology Co Ltd
Current assignee: Shanghai Lake Information Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-06

Abstract

一种数据预处理方法及装置、存储介质、终端，数据预处理方法包括：获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。本发明技术方案能够通过对用于神经网络模型的训练数据进行处理，提升模型的训练效果。

Description

数据预处理方法及装置、存储介质、终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据预处理方法及装置、存储介质、终端。

背景技术

对于结构化的表格数据，利用深度神经网络模型训练之前，往往需要对输入网络的数值型特征(以下简称为特征)进行预处理，如将特征值缩放到相同的区间内。

但是，仅仅对特征进行缩放的话，深度神经网络模型将无法学习到最佳的参数，导致模型在线上使用过程中很容易出现性能衰减，表现不稳定。

发明内容

本发明解决的技术问题是如何对用于神经网络模型的训练数据进行处理，以提升模型的训练效果。

为解决上述技术问题，本发明实施例提供一种数据预处理方法，数据预处理方法包括：获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。

可选的，所述统计所述特征在所述多个样本数据中的原始分布之前还包括：识别各个特征在所述多个样本数据中的缺省值，并采用预设数值对所述缺省值进行填充。

可选的，所述分布参数包括偏度，所述根据各个特征的分布参数确定对特征进行调整包括：判断每个特征的偏度的值是否大于预设阈值；如果所述特征的偏度的值大于预设阈值，则对所述特征在所述多个样本数据中的特征值进行调整。

可选的，所述分布参数包括中位数，所述对所述特征在所述多个样本数据中的特征值进行调整包括：利用所述特征的中位数以及所述特征在所述多个样本数据中的特征值计算所述特征在所述多个样本数据中新的特征值。

可选的，采用以下公式对所述特征在所述多个样本数据中的特征值进行调整：

其中，x′_i为所述特征调整后的特征值，x_i为所述特征调整前的特征值，∈_i为所述特征的中位数。

可选的，所述分布参数包括偏度，所述根据各个特征的分布参数确定对特征进行调整包括：判断每个特征的偏度的值是否大于预设阈值；如果所述特征的偏度的值小于所述预设阈值，则对所述特征在所述多个样本数据中的特征值进行归一化操作。

可选的，采用以下公式所述特征在所述多个样本数据中的特征值进行归一化操作：

其中，x′_i为所述特征在归一化操作后的特征值，x_i为所述特征在归一化操作前的特征值，μ_i为所述特征的均值，σ_i为所述特征的标准差。

可选的，所述数据预处理方法还包括：统计各个调整后的特征在所述多个样本数据中的分布的均值；利用所述均值填充各个特征在所述多个样本数据中的缺省值。

可选的，所述数据预处理方法还包括：将调整后的多个样本数据输入至所述神经网络模型，以对所述神经网络模型进行训练。

为解决上述技术问题，本发明实施例还公开了一种数据预处理装置，数据预处理装置包括：样本数据获取模块，用以获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；分布统计模块，用以对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；调整模块，用以根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述数据预处理方法的步骤。

本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述数据预处理方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。本发明技术方案在对神经网络模型训练之前，通过统计特征在所述多个样本数据中的分布参数，并结合分布参数对特征进行调整，使得调整后的特征在所述多个样本数据中的分布为正态分布，而呈现为正态分布的特征在训练神经网络模型时，能够使得神经网络模型快速收敛，并获得鲁棒的神经网络模型，提升神经网络模型的训练效果。

进一步地，判断每个特征的偏度的值是否大于预设阈值；如果所述特征的偏度的值大于预设阈值，则对所述特征在所述多个样本数据中的特征值进行调整。本发明方案中可以利用特征的分布参数，也即偏度，来确定是否对特征进行调整；也就是说，偏度能够反映特征的分布状况，由此能够基于偏度与预设阈值的大小来确定对特征的调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布。

附图说明

图1是本发明实施例一种数据预处理方法的流程图；

图2是图1所示步骤S103的一种具体实施方式的流程图；

图3是本发明实施例一种数据预处理方法的部分流程图；

图4是本发明实施例一种数据预处理装置的结构示意图。

具体实施方式

如背景技术中所述，仅仅对特征进行缩放的话，深度神经网络模型将无法学习到最佳的参数，导致模型在线上使用过程中很容易出现性能衰减，表现不稳定。

本发明技术方案在对神经网络模型训练之前，通过统计特征在所述多个样本数据中的分布参数，并结合分布参数对特征进行调整，使得调整后的特征在所述多个样本数据中的分布为正态分布，而呈现为正态分布的特征在训练神经网络模型时，能够使得神经网络模型快速收敛，并获得鲁棒的神经网络模型，提升神经网络模型的训练效果。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种数据预处理方法的流程图。

所述数据预处理方法可以包括以下步骤：

步骤S101：获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；

步骤S102：对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；

步骤S103：根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

在步骤S101的具体实施中，可以获取多个样本数据，多个样本数据为结构化的数据，也即每一样本数据为包括多个特征的特征值的数据集合。

例如，获取m个样本数据，每个样本数据包含n个特征。样本数据1记为：X1＝[x₁₁,x₁₂,x₁₃,…,x_1n]，样本数据2记为X2＝[x₂₁,x₂₂,x₂₃,…,x_2n]，…，Xm＝[x_m1,x_m2,x_m3,…,x_mn]。

在一个具体实施例中，样本数据可以来源于结构化的表格数据。其中，表格中的行字段表示特征字段，表格中的列表示样本数据字段，表格中的数据值表示某个样本数据中某个特征的特征值。

在步骤S102的具体实施中，由于每个特征在多个样本数据中均具有对应的特征值，因此可以统计每一特征在多个样本数据中的原始分布以及分布参数。具体可以根据每一特征在多个样本数据中的特征值来统计其原始分布以及分布参数。

具体地，分布参数可以是特征的均值、中位数、标准差、偏度等，本发明实施例对此不作限制。

具体地，特征的原始分布可以是任意可实施的分布类型，例如正态分布、指数分布等，本发明实施例对此亦不做限制。

基于步骤S102中所确定的特征的原始分布以及分布参数，可以在步骤S103的具体实施中对特征进行调整，调整后的特征在所述多个样本数据中的分布为正态分布。

也就是说，如果步骤S102中所确定的特征的原始分布为正态分布，则不必对特征进行调整；如果步骤S102中所确定的特征的原始分布不是正态分布，则对特征进行调整。

需要说明的是，本发明实施例所称的使得调整后的特征在多个样本数据中的分布为正态分布是指，调整后的特征在多个样本数据中的分布为正态分布或近似于正态分布。所述近似于正态分布是指在一定误差范围内为正态分布。

本发明实施例中的神经网络模型可以是深度神经网络模型。调整后的特征将作为训练数据输入至神经网络模型。

本发明实施例在对神经网络模型训练之前，通过统计特征在所述多个样本数据中的分布参数，并结合分布参数对特征进行调整，使得调整后的特征在所述多个样本数据中的分布为正态分布，而呈现为正态分布的特征在训练神经网络模型时，能够使得神经网络模型快速收敛，并获得鲁棒的神经网络模型，提升神经网络模型的训练效果。

在本发明一个具体实施例中，图1所示步骤S101之前可以包括以下步骤：识别各个特征在所述多个样本数据中的缺省值，并采用预设数值对所述缺省值进行填充。

样本数据中对于每个特征不一定都具有其对应的特征值，例如，样本数据1中不具有特征x₄的值，也就是说，特征x₄在样本数据1中存在数据缺失。由此，为了保证后续步骤对特征在所述多个样本数据中的分布进行有效准确的统计，本实施例可以对缺省值进行填充。换言之，本发明实施例可以对各个特征在多个样本数据中所缺失的数值进行填充。

需要说明的是，填充操作所采用的预设数值可以根据实际的应用环境进行设置和调整，例如可以是-1，本发明实施例对此不作限制。

进一步而言，在步骤S102中统计特征的分布以及分布参数时，可以先将各个特征在所述多个样本数据中的缺省值进行过滤，再利用过滤后的样本数据统计特征的分布以及分布参数。

在本发明一个具体实施例中，请参照图2，图1所示步骤S103可以包括以下步骤：

步骤S201：判断每个特征的偏度的值是否大于预设阈值；

步骤S202：如果所述特征的偏度的值大于预设阈值，则对所述特征在所述多个样本数据中的特征值进行调整。

本实施例中，特征在所述多个样本数据中的原始分布的分布参数包括偏度。偏度是特征的分布偏斜方向和程度的度量，可以描述特征的分布非对称程度。通过特征的偏度的大小，可以判断出该特征的分布是否符合正态分布。

具体实施中，特征的偏度的值大于预设阈值时，表示该特征的原始分布不符合正态分布，需要对特征在所述多个样本数据中的特征值进行调整，以使得特征在所述多个样本数据中的调整后的特征值的分布符合正态分布。

具体地，预设阈值可以是经验值，例如可以是0.1。特征x_i的偏度ρ_i的值大于0.1时，

进一步而言，图2所示步骤S202可以包括以下步骤：利用所述特征的中位数以及所述特征在所述多个样本数据中的特征值计算所述特征在所述多个样本数据中新的特征值。

本实施例中，特征在所述多个样本数据中的原始分布的分布参数包括中位数。可以利用中位数对特征在各个样本数据中的特征值进行调整，计算新的特征值。

更具体地，可以采用以下公式对所述特征在所述多个样本数据中的特征值进行调整：

继续参照图2，图1所示步骤S103可以包括以下步骤：

步骤S203：如果所述特征的偏度的值小于所述预设阈值，则对所述特征在所述多个样本数据中的特征值进行归一化操作。

具体实施中，特征的偏度的值小于预设阈值时，表示该特征的原始分布符合正态分布，在这种情况下，不需要对特征在所述多个样本数据中的特征值进行调整。但需要对特征值进行归一化操作，以使得归一化操作后的特征值落入预设的数值范围内，例如，归一化操作后的特征值落入数值范围[0,1]。

具体地，可以采用以下公式所述特征在所述多个样本数据中的特征值进行归一化操作：

本发明一个优选实施例中，请参照图3，图1所示方法还可以包括以下步骤：

步骤S301：统计各个调整后的特征在所述多个样本数据中的分布的均值；

步骤S302：利用所述均值填充各个特征在所述多个样本数据中的缺省值。

本实施例中，在对特征进行调整后，还可以重新对样本数据中的缺省值进行填充，以进一步提升样本数据的质量。

具体可以计算调整后的特征在所述多个样本数据中的分布的均值，并将各个特征在所述多个样本数据中的缺省值填充为所述均值。

本发明一个非限制性的实施例中，图1所示方法还可以包括以下步骤：将调整后的多个样本数据输入至所述神经网络模型，以对所述神经网络模型进行训练。

关于神经网络模型的具体训练过程可以参照现有技术，本发明实施例对此不作限制。

请参照图4，本发明实施例还公开了一种数据预处理装置40，数据预处理装置40可以包括样本数据获取模块401、分布统计模块402和调整模块403。

其中，样本数据获取模块401用以获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；分布统计模块402用以对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；调整模块403用以根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。

关于所述数据预处理装置40的工作原理、工作方式的更多内容，可以参照图1至图3中的相关描述，这里不再赘述。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1至图3中所示方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1至图3中所示方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数据预处理方法，其特征在于，包括：

获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；

对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；

根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。

2.根据权利要求1所述的数据预处理方法，其特征在于，所述统计所述特征在所述多个样本数据中的原始分布之前还包括：

识别各个特征在所述多个样本数据中的缺省值，并采用预设数值对所述缺省值进行填充。

3.根据权利要求1所述的数据预处理方法，其特征在于，所述分布参数包括偏度，所述根据各个特征的分布参数确定对特征进行调整包括：

判断每个特征的偏度的值是否大于预设阈值；

如果所述特征的偏度的值大于预设阈值，则对所述特征在所述多个样本数据中的特征值进行调整。

4.根据权利要求3所述的数据预处理方法，其特征在于，所述分布参数包括中位数，所述对所述特征在所述多个样本数据中的特征值进行调整包括：利用所述特征的中位数以及所述特征在所述多个样本数据中的特征值计算所述特征在所述多个样本数据中新的特征值。

5.根据权利要求3所述的数据预处理方法，其特征在于，采用以下公式对所述特征在所述多个样本数据中的特征值进行调整：

6.根据权利要求1所述的数据预处理方法，其特征在于，所述分布参数包括偏度，所述根据各个特征的分布参数确定对特征进行调整包括：

判断每个特征的偏度的值是否小于预设阈值；

如果所述特征的偏度的值小于所述预设阈值，则对所述特征在所述多个样本数据中的特征值进行归一化操作。

7.根据权利要求6所述的数据预处理方法，其特征在于，采用以下公式所述特征在所述多个样本数据中的特征值进行归一化操作：

8.根据权利要求1所述的数据预处理方法，其特征在于，还包括：

统计各个调整后的特征在所述多个样本数据中的分布的均值；

利用所述均值填充各个特征在所述多个样本数据中的缺省值。

9.根据权利要求1所述的数据预处理方法，其特征在于，还包括：

将调整后的多个样本数据输入至所述神经网络模型，以对所述神经网络模型进行训练。

10.一种数据预处理装置，其特征在于，包括：

样本数据获取模块，用以获取多个样本数据，每一样本数据为包括多个特征的特征值的数据集合；

分布统计模块，用以对于每一特征，统计所述特征在所述多个样本数据中的原始分布以及分布参数；

调整模块，用以根据各个特征的分布参数确定对特征进行调整，以使得调整后的特征在所述多个样本数据中的分布为正态分布，所述调整后的特征用于输入至神经网络模型进行训练。

11.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至9中任一项所述数据预处理方法的步骤。

12.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至9中任一项所述数据预处理方法的步骤。