CN111797135A

CN111797135A - 一种基于实体嵌入的结构化数据处理方法

Info

Publication number: CN111797135A
Application number: CN202010585299.7A
Authority: CN
Inventors: 金陆骅; 符鸿飞; 程帆
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-20

Abstract

本发明涉及一种基于实体嵌入的结构化数据处理方法，包括以下步骤：1)获得包含结构化数据的数据集作为原始数据集；2)对原始数据集进行预处理；3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练；4)将测试数据输入训练好的神经网络模型中，输出预测结果。与现有技术相比，本发明具有无需特征工程、针对类别数据效果好等优点。

Description

一种基于实体嵌入的结构化数据处理方法

技术领域

本发明涉及数据处理系统技术领域，尤其是涉及一种基于实体嵌入的结构化数据处理方法。

背景技术

随着信息技术的日趋进步，结构化数据规模越来越大，特征越来越复杂，这给结构化数据的处理带来了很大的挑战，在处理结构化数据的过程中，往往需要进行特征工程，对特征与预测目标的关系以及特征与特征之间的关系进行分析，特征工程的质量，依赖于特征工程专家的经验，随着特征数量的增加，进行特征工程的人力成本也大大增加，神经网络虽然在非结构化数据的处理上取得了显著的效果，但对于包含类别特征数据的结构化数据，则无法很好地进行处理，现有神经网络模型方法需要将类别特征数据先转化为整数，将其视为数值特征数据输入到模型中进行训练，但这一方法存在问题，差别小的类别对预测目标的影响相似，差别大的类别对预测目标的影响不同，将类别特征转化为整数，无法量化不同类别对预测目标的影响，使得不同类别间的差别信息产生损失，神经网络会将其视为一般的数值特征，却无法学习到类别间的差别信息。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于实体嵌入的结构化数据处理方法。

本发明的目的可以通过以下技术方案来实现：

一种基于实体嵌入的结构化数据处理方法，包括以下步骤：

1)获得包含结构化数据的数据集作为原始数据集；

2)对原始数据集进行预处理；

3)将预处理后原始数据集中的数据用于基于实体嵌入的神经网络模型的训练；

4)将测试数据输入训练好的神经网络模型中，输出预测结果。

所述的步骤1)中，包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集，所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集，所述的大学公开的数据集具体为加州大学欧文分校公开的数据集，所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。

所述的步骤2)具体包括以下步骤：

21)从原始数据中划分特征数据和目标标签数据；

22)根据特征数据的类型对缺失值进行补全；

23)对类别特征数据进行数值编码，将类别特征数据转化为整数类型数据，使得同一类别对应相同整数；

24)重新排列特征数据顺序。

所述的步骤22)中，特征数据的类型包括数值特征数据与类别特征数据，对于数值特征数据取训练数据中未缺失的数据的平均值，代替原有的缺失值，完成补全，对于类别特征数据使用标记字符“Missing_Value”，代替原有的缺失值。

所述的步骤24)中，重新排列特征数据顺序具体为：

以数值特征数据在前，类别特征数据在后的顺序对特征数据进行重新排序。

所述的步骤3)具体包括以下步骤：

31)构建基于实体嵌入的神经网络模型，其具体网络结构包括实体嵌入层、两个全连接层和输出层；

31)向基于实体嵌入的神经网络模型输入预处理后的数据进行训练得到网络参数。

在实体嵌入层中，对于数值特征数据分别构建一个神经元个数为1的全连接层，对于类别特征数据分别构建一个映射到

维向量的嵌入层，N为类别总数，实体嵌入层的规模根据输入的类别特征数据的规模动态变化。

在两个全连接层中，对于二分类和多分类目标，第一全连接层的神经元个数为2000，第二全连接层的神经元个数为1000，对于回归目标，第一全连接层的神经元个数为1000，第二全连接层的神经元个数为500，两个全连接层的激活函数均为relu。

在输出层中，对于二分类目标，输出层输出维数为1，激活函数为sigmoid，对于多分类目标，输出层输出维数为分类标签数，激活函数为softmax，对于回归目标，输出层输出维数为1，无激活函数。

所述的步骤31)中，基于实体嵌入的神经网络模型训练的损失函数和优化器的具体选择为：

对于二分类目标，损失函数为binary crossentropy，优化器为Adam优化器；

对于多分类目标，损失函数为categorical crossentropy，优化器为Adam优化器；

对于回归目标，损失函数为最小平方误差，优化器为RMSprop。

与现有技术相比，本发明具有以下优点：

1)本发明采用了神经网络的方法，比传统的结构化数据处理方法相比，神经网络通过动态调整各隐藏层参数，能够自动学习到特征与预测目标、特征与特征间的关系，省去了特征工程的步骤，降低了人力成本。

2)本发明采用了基于实体嵌入的神经网络模型，相比现有的神经网络方法，通过嵌入层对类别数据进行实体嵌入，不是使用一个整数，而是使用一个向量来代表一个类别，能够量化不同类别对预测目标的影响，并学习到不同类别间的差别信息，在处理类别特征数据上能得到更好的效果。

3)本发明能够处理二分类、多分类和回归问题，可以通过调整损失函数与优化器的类别来处理不同的目标标签，可拓展性强。

4)本发明具有商业意义，不仅能处理公开数据集，也可以推广到企业内部业务数据的处理中。

附图说明

图1为本发明的方法流程图。

图2为本发明预处理和训练的流程图。

图3为基于实体嵌入的神经网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

为了更加清晰、详尽地解释本发明的目的、技术方案和要点，本发明将进一步进行详细的阐述。应当理解，此处描述的实施方法仅仅用于解释本发明的具体方法，而并非限定本发明。本领域的技术人员可以根据本发明阐述的原理进行实施和推广，根据需要处理的结构化数据集进行简单的修改，即可将本发明推广到类似的应用场景。

如图1所示，本发明提供一种基于实体嵌入的结构化数据处理方法，具体为：本发明首先对原始数据进行预处理，然后使用预处理后的数据对基于实体嵌入的神经网络进行训练，最后训练好的神经网络根据测试数据对目标标签进行预测，具体包括预处理阶段、训练模型阶段和使用模型三个阶段。

1)预处理阶段：获得包含结构化数据的数据集作为原始数据集并对原始数据进行预处理。

首先根据数据集的任务，从原始数据中划分出特征数据与目标标签数据。然后，根据特征数据类型对特征数据中的缺失值进行补全。具体地，对于数值特征数据，取训练数据中未缺失的数据的平均值，代替原有的缺失值；对于类别特征数据，使用特殊的标记字符，代替原有的缺失值。接着，对类别数据进行数值编码，具体地，使用Pythonsklearn.preprocessing库中的LabelEncoder来将类别数据转化为整数类型数据，同一类别对应相同整数。最后，重新排列特征数据顺序，以数值特征数据在前，类别特征数据在后的顺序对特征数据进行重新排序。

2)训练模型阶段

首先构建基于实体嵌入的神经网络模型，具体为实体嵌入层、两个全连接层和输出层构成网络结构，如图3所示。实体嵌入层的规模会根据输入数据的规模动态变化，对于数值特征数据，通过一个神经元个数为1的全连接层0，得到一个1维的向量；对于类别特征数据，通过一个嵌入层，将其映射为

(N为类别数量)维向量。

本例中，使用一个向量来代表一个类别，向量间的距离包含了不同类别间的差别信息。向量维数过大，会大幅提高训练的时间和存储空间成本，且易造成过拟合；向量维数过小，对于类别较多的特征，无法完全学习到类别间的差别信息，因此取

(N为类别数量)作为向量的维数，能保证向量维数随着类别数量动态增加，但又能防止向量维数过大带来的过拟合并降低训练成本。

然后，将实体嵌入层得到的向量依次连接，完成向量合并。接着，通过两个全连接层，具体地，对于二分类和多分类目标，全连接层1的神经元个数为2000，全连接层2的神经元个数为1000；对于回归目标，全连接层1的神经元个数为1000，全连接层2的神经元个数为500，两个全连接层的激活函数均为relu。最后输出层将全连接层2得到的向量映射到对应的预测标签，具体地，二分类目标，输出层输出维数为1，激活函数为sigmoid；多分类目标，输出层输出维数为分类标签数，激活函数为softmax；回归目标，输出层输出维数为1，无激活函数。

向基于实体嵌入的神经网络模型输入预处理后的数据进行训练得到网络参数。训练的损失函数和优化器根据预测目标的不同，也有所不同。具体地，二分类目标，损失函数为binary crossentropy，优化器为Adam优化器；多分类目标，损失函数为categoricalcrossentropy，优化器为Adam优化器；回归目标，损失函数为最小平方误差(MSE)，优化器为RMSprop。

3)使用模型阶段

将测试数据输入训练好的神经网络模型中，根据2)阶段中的基于实体嵌入的神经网络模型，输出预测的结果。

本发明使用了基于实体嵌入的神经网络模型，克服了传统结构化数据处理方法需要特征工程的问题，同时也优化了神经网络在类别特征数据上效果不好的问题，降低了人力成本，能够更好地为处理结构化数据提供帮助。

本领域的技术人员可以很容易地理解上述过程，以上的过程只是本发明的一个具体实例，在实际工业生产中，本领域的技术人员可以根据上述的介绍，根据实际数据集的情况，修改、改进部分细节，使得具体操作更适合实际应用场景。

Claims

1.一种基于实体嵌入的结构化数据处理方法，其特征在于，包括以下步骤：

1)获得包含结构化数据的数据集作为原始数据集；

2)对原始数据集进行预处理；

2.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤1)中，包含结构化数据的数据集包括公开竞赛的数据集、大学公开的数据集和企业公开的数据集，所述的公开竞赛的数据集具体为Kaggle和KDD竞赛网站上的数据集，所述的大学公开的数据集具体为加州大学欧文分校公开的数据集，所述的企业公开的数据集具体为微软和雅虎企业公开的数据集。

3.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤2)具体包括以下步骤：

21)从原始数据中划分特征数据和目标标签数据；

22)根据特征数据的类型对缺失值进行补全；

24)重新排列特征数据顺序。

4.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤22)中，特征数据的类型包括数值特征数据与类别特征数据，对于数值特征数据取训练数据中未缺失的数据的平均值，代替原有的缺失值，完成补全，对于类别特征数据使用标记字符，代替原有的缺失值。

5.根据权利要求3所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤24)中，重新排列特征数据顺序具体为：

6.根据权利要求1所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤3)具体包括以下步骤：

7.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，在实体嵌入层中，对于数值特征数据分别构建一个神经元个数为1的全连接层，对于类别特征数据分别构建一个映射到

维向量的嵌入层，为类别总数，实体嵌入层的规模根据输入的类别特征数据的规模动态变化。

8.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，在两个全连接层中，对于二分类和多分类目标，第一全连接层的神经元个数为2000，第二全连接层的神经元个数为1000，对于回归目标，第一全连接层的神经元个数为1000，第二全连接层的神经元个数为500，两个全连接层的激活函数均为relu。

9.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，在输出层中，对于二分类目标，输出层输出维数为1，激活函数为sigmoid，对于多分类目标，输出层输出维数为分类标签数，激活函数为softmax，对于回归目标，输出层输出维数为1，无激活函数。

10.根据权利要求6所述的一种基于实体嵌入的结构化数据处理方法，其特征在于，所述的步骤31)中，基于实体嵌入的神经网络模型训练的损失函数和优化器的具体选择为：

对于回归目标，损失函数为最小平方误差，优化器为RMSprop。