CN116663516B

CN116663516B - 表格机器学习模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN116663516B
Application number: CN202310936986.2A
Authority: CN
Inventors: 孙海亮; 暴宇健
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2024-02-20
Anticipated expiration: 2043-07-28
Also published as: CN116663516A

Abstract

本申请提供一种表格机器学习模型训练方法、装置、电子设备及存储介质。该方法包括：利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，得到标准嵌入矩阵；将标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练；将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；将垂直对比损失与水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛。本申请能够灵活的学习表格数据，模型训练过程简单，容易复用，可进行对比学习和迁移学习。

Description

表格机器学习模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种表格机器学习模型训练方法、装置、电子设备及存储介质。

背景技术

目前，在自然语言处理（NLP）和计算机视觉（CV）领域中，预训练模型广泛应用并取得了显著的效果。然而，在处理表格数据的场景下，主流的方法仍然是树型模型，如XGBoost、LightGBM和CatBoost。这些模型虽然在特定的表格数据上表现良好，但在面对复杂和变化的表格数据时存在一定的局限性。当表格特征发生变化时，需要重新训练模型，这个过程相对复杂，且训练好的模型无法在其他表格数据中复用，不易进行迁移学习。

一些研究人员已经尝试通过引入自监督学习来解决这个问题，比如采用maskedcell modeling（类似于auto-encoder的变种）或者contrastive learning，通过对一行的特征进行替换，删除等操作来构建正负样本。然而，这些尝试的设定并不能很好地适应实际场景，因为在实际中，我们往往拥有多个带有标签的表格，而且每个表格的列名（column）都可能不同。因此，如何利用这些表格，学习一个大模型以最大程度地利用手头上的数据，成为了一个亟待解决的问题。更具体地说，现有的所有方法都只能处理固定列名的表格。一旦表格的列名有微小的变化，那么之前训练好的模型就无法使用，只能重新进行数据处理、特征工程、模型训练，这大大增加了模型训练的复杂性，并阻碍了像在CV和NLP领域那样进行表格学习的大模型训练。

发明内容

有鉴于此，本申请实施例提供了一种表格机器学习模型训练方法、装置、电子设备及存储介质，以解决现有技术存在的表格类模型不灵活，比较复杂，不易复用，不容易进行迁移学习的问题。

本申请实施例的第一方面，提供了一种表格机器学习模型训练方法，包括：获取表格数据中的字段，确定字段对应的特征类型，其中特征类型包括分类特征、数值特征和布尔特征；利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，得到由字段对应的特征嵌入向量组成的标准嵌入矩阵；将标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到自注意力层输出的训练后的嵌入矩阵；对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；在垂直方向上进行对比学习时，将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；将垂直对比损失与水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛。

本申请实施例的第二方面，提供了一种表格机器学习模型训练装置，包括：确定模块，被配置为获取表格数据中的字段，确定字段对应的特征类型，其中特征类型包括分类特征、数值特征和布尔特征；嵌入模块，被配置为利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，得到由字段对应的特征嵌入向量组成的标准嵌入矩阵；训练模块，被配置为将标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到自注意力层输出的训练后的嵌入矩阵；划分模块，被配置为对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；对比学习模块，被配置为在垂直方向上进行对比学习时，将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；更新参数模块，被配置为将垂直对比损失与水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛。

本申请实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过获取表格数据中的字段，确定字段对应的特征类型，其中特征类型包括分类特征、数值特征和布尔特征；利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，得到由字段对应的特征嵌入向量组成的标准嵌入矩阵；将标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到自注意力层输出的训练后的嵌入矩阵；对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；在垂直方向上进行对比学习时，将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；将垂直对比损失与水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛。本申请能够灵活的学习表格数据，模型训练过程简单，容易复用，可进行对比学习和迁移学习。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的表格机器学习模型训练方法的流程示意图；

图2是本申请实施例提供的表格机器学习模型训练装置的结构示意图；

图3是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在NLP和CV领域中各种预训练模型比较流行。但是，在表格领域往往还是以树型模型（如Xgboot、LightGBM和CatBoost）占主导地位，这些树型模型仅能对特定的表格数据进行模型学习，不够灵活，表格特征变动就需要重新训练模型，比较复杂，而且训练好的模型无法在其它表格数据中复用，不能进行迁移学习。

目前，一些研究人员已经尝试过把自监督学习引入了表格领域，或是做一些masked cell modeling（类似于auto-encoder的变种），或是做一些contrastive learning把一行的feature做一些替换，删除之类的操作来构建正负样本。但是，这些设定都不太符合真实场景。在实际场景中，往往不是说有一个巨大的表格，然后只有其中一点点样本有标签。而是说通常有若干个有标签的表格，但是每个表格的列名(column)都不大一样。问题在于怎样把这些表格都利用起来，学习一个大模型，才能最大程度地利用已有的数据。但是，已知的所有方法都只能处理固定column的表格。一旦表格的column有一丝丝变化，比如"age"变为"ages"，或者"age"这一列被删除，那么之前训练好的模型就无法使用，只能重新进行数据处理、特征工程、模型训练，即需要重新走一遍整体流程，因此不利于实现像CV和NLP里那样做表格学习的大模型训练。

鉴于现有技术中存在的问题，本申请提供一种基于Transformer结构的表格机器学习模型。本申请表格机器学习模型的核心思想是将不同类型的表格数据特征转化为嵌入向量（embedding），并通过Transformer进行处理和预测，从而实现对表格数据的灵活学习。本申请表格机器学习模型的关键创新点包括：通过对不同类型的表格数据特征进行嵌入，并引入对比监督学习，对表格数据进行预训练，打破了目前树型模型训练表格数据不灵活，不易复用的局限。通过这种方式，模型可以在多个表格数据，同一领域但特征不同的表格数据，或者无标签的表格数据上做对比学习，从而使得表格模型学习更加的灵活，并可进行对比学习和迁移学习。

图1是本申请实施例提供的表格机器学习模型训练方法的流程示意图。图1的表格机器学习模型训练方法可以由服务器执行。如图1所示，该表格机器学习模型训练方法具体可以包括：

S101，获取表格数据中的字段，确定字段对应的特征类型，其中特征类型包括分类特征、数值特征和布尔特征；

S102，利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，得到由字段对应的特征嵌入向量组成的标准嵌入矩阵；

S103，将标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到自注意力层输出的训练后的嵌入矩阵；

S104，对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；

S105，在垂直方向上进行对比学习时，将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；

S106，将垂直对比损失与水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛。

首先，为了便于理解，下面将本申请实施例涉及的表格机器学习模型训练方法的主要流程内容以及基本实现框架进行介绍，从而对本申请技术方案的整体实现思路进行概括性描述，具体可以包括以下内容：

本申请介绍了一种基于Transformer结构的表格机器学习模型。这个模型的核心思想是将不同类型的表格数据特征转化为嵌入向量（embedding），并通过Transformer进行处理和预测，从而实现对表格数据的灵活学习。该表格机器学习模型的具体实现步骤如下：

步骤1、特征嵌入：根据字段的特征类型，采取不同的嵌入方法。例如：对于分类型特征（简称分类特征），直接将列名和字段值拼接在一起；对于数值型特征（简称数值特征），将列名进行分词和嵌入，然后将字段对应的数值和嵌入向量进行元素级别的乘法计算；对于布尔型特征（简称布尔特征），将列名进行分词和嵌入，然后根据字段对应的特征值是否为第一预设值（比如1）来决定是否保留这个嵌入向量；如果是1，就保留；如果是0，则不将该嵌入向量添加到后续的嵌入中。

步骤2、预训练：在多个标签或无标签的表格数据上进行对比学习，也可以在多个表格数据上进行预训练，然后在一个新的表格数据上进行微调后直接做预测。

步骤3、对比学习：本申请引入了垂直和水平的对比学习技巧。对于每一个样本，按照列划分成若干个部分，同一类别的部分互为正样本。在垂直方向上，同维度特征的嵌入向量在低维潜在空间中应该距离较近；在水平方向上，同一个样本的特征嵌入向量应该距离较近。利用垂直对比损失和水平对比损失计算总体对比损失，通过最小化总体对比损失，训练表格机器学习模型。

步骤4、微调和预测：表格机器学习模型在某个数据集上进行预训练后（收敛后的表格机器学习模型为预训练模型），可以在该数据集上继续进行预测任务，将预训练模型的输出特征的嵌入向量平均后再连接一个分类器进行分类训练。另外，也可以直接用这个预训练模型的权重在新的数据集上进行其他类型的有监督训练任务（如回归任务等）。

本申请的表格机器学习模型训练方法通过对不同类型的表格数据特征进行嵌入（即将不同类型的特征处理成嵌入向量），并引入对比监督学习，对表格数据进行预训练，打破了目前树型模型训练表格数据不灵活，不易复用的局限。通过这种方式，模型可以在多个表格数据，同一领域但特征不同的表格数据，或者无标签的表格数据上做对比学习，使得表格模型学习更加的灵活，可进行对比学习和迁移学习。

需要说明的是，本申请表格机器学习模型的主干网络除了可以采用Transformer之外，还可以使用基于Transfromer的改进模型，比如Swin Transformer、Pyramid VisionTransformer等。

Transformer是一种在自然语言处理（NLP）领域广泛使用的深度学习模型结构。Transformer的主要特点是其使用了所谓的“自注意力”（self-attention）或“注意力”（attention）机制，这使得模型在处理序列数据时能够考虑到序列中各个元素之间的相对位置和相关性。在传统的RNN（循环神经网络）或LSTM（长短期记忆网络）中，模型在处理序列数据时，通常会一步一步地处理，这限制了模型处理长序列的能力。而Transformer 通过自注意力机制，可以同时考虑到序列中所有元素的信息，从而更好地捕捉序列中的长距离依赖关系。

Transformer 结构由两部分组成：编码器（encoder）和解码器（decoder）。编码器将输入序列转换为一系列连续的向量表示，解码器则将这些向量表示转换为输出序列。在Transformer中，编码器和解码器都是由多层自注意力层和前馈神经网络层交错堆叠而成。由于Transformer 的成功，其变体和扩展，如BERT、GPT、Transformer-XL、T5等，现在已经成为了NLP领域的主流模型。

在一些实施例中，利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，包括：当字段对应的特征类型为分类特征时，将字段对应表格数据中的列名与字段的值拼接在一起，得到字段对应的特征嵌入向量。

具体地，本申请实施例考虑表格数据中不同字段的语义，将不同类型的特征转换成embedding（特征嵌入向量），作为后续Transformer的自注意力层输入进行处理和预测。首先获取表格数据中的字段，并确定每个字段对应的特征类型。特征类型可以包括分类特征（Categorical）、数值特征（Numerical）和布尔特征（Boolean）。对于每一种特征类型，本申请都设定了相应的特征嵌入方法。

进一步地，以分类特征为例，首先从表格数据中提取出对应的字段，然后将该字段的列名（tokenize）和其对应的值进行拼接。例如：假设有一个分类特征“gender”，其值为“male”，那么在进行特征嵌入操作时，将列名“gender”和值“male”拼接在一起，得到新的字符串“gender male”。接下来，将这个字符串转化为特征嵌入向量。这个特征嵌入向量能够保留原始字段的语义信息，并能被后续的Transformer模型接收为输入进行处理和预测。

在上述特征嵌入过程中，本申请实施例将表格数据中的字段视为语义实体，利用特征嵌入方法将这些语义实体转化为数学上的向量表示，即embedding。这样一来，原本的表格数据就被转化为了一组标准的嵌入矩阵，能够直接被输入到标准的Transformer模型中进行训练。

在一些实施例中，利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，包括：当字段对应的特征类型为数值特征时，将字段对应表格数据中的列名进行分词和嵌入，得到每个分词对应的嵌入向量，将字段对应的数值与嵌入向量进行逐元素相乘，得到字段对应的特征嵌入向量。

具体地，对于数值型特征，首先从表格数据中提取出字段，并确定每个字段对应的特征类型。在处理数值型特征时，本申请实施例采取了以下嵌入策略：

对于一个数值特征，先将其对应的列名（tokenize）进行分词（tokenize）。这是因为列名往往包含了丰富的语义信息，通过分词，可以将这些信息细化，更好地利用它们。例如，一个名为“total_income”的列名，可能被分词为“total”和“income”两个单词。接下来，本申请实施例将每个分词进行嵌入（embedding），得到每个分词对应的嵌入向量。

之后，本申请实施例将字段对应的数值与每个嵌入向量进行逐元素相乘。这样一来，数值信息就被融入到了嵌入向量中。例如，如果“total_income”的值为2000，那么本申请实施例就将2000与“total”和“income”对应的嵌入向量逐元素相乘，得到新的向量。这个新的向量就是“total_income”字段对应的特征嵌入向量。

上述这种特征嵌入处理方式的目的是保留数值信息，并将列名的语义信息融入到嵌入向量中，使得模型能够同时理解和处理数值信息和列名中的语义信息，从而使表格数据的每个特征都能被充分利用。这对于后续的模型训练和预测工作有着重要意义。

在一些实施例中，利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，包括：当字段对应的特征类型为布尔特征时，将字段对应表格数据中的列名进行分词和嵌入，得到每个分词对应的嵌入向量；根据字段对应的特征值判断是否对嵌入向量进行保留，当特征值为第一预设值时，保留嵌入向量；当特征值为第二预设值时，在后续嵌入中不添加嵌入向量。

具体地，对于表格数据中的布尔型特征，由于布尔型特征是一种特殊的类型，它只有两个可能的值，通常表示为1（真）和0（假）。因此，对于布尔型特征，本申请实施例采取了与分类型特征和数值型特征不同的特征嵌入策略。下面结合具体实施例对布尔型特征的嵌入策略进行介绍，具体可以包括以下内容：

当处理布尔特征时，本申请实施例首先将其对应的列名（tokenize）进行分词和嵌入，与前述实施例中处理数值型特征时的步骤类似。例如，如果布尔特征的列名为“is_married”，那么可以将“is_married”进行分词和嵌入，得到每个分词对应的嵌入向量。

进一步地，本申请实施例根据布尔特征的值（即字段对应的特征值）来判断是否保留这个嵌入向量。如果布尔特征的值为第一预设值（比如1），那么将保留这个嵌入向量；如果布尔特征的值为第二预设值（比如0），那么不保留这个嵌入向量，即不会将这个特征加入到后续的嵌入中。

进一步地，在经过前述实施例的特征处理过程之后，表格数据中的字段就变成了相应的特征嵌入向量，然后将字段的特征嵌入向量组成标准嵌入矩阵，将标准嵌入矩阵作为输入，使用Transformer的encoder模型（即自注意力层，比如BERT、ABERT等结构）中进行训练，即可获得encoder模型输出的训练后的嵌入矩阵。

根据本申请实施例提供的技术方案，通过上述三种不同特征类型的特征处理方法，使得本申请的表格机器学习模型不仅能够理解和处理分类特征，还能够处理其他特殊类型的特征，比如数值特征和布尔特征。因此，本申请能够将不同类型的表格数据特征灵活地转换为嵌入向量，这不仅使模型可以更好地理解和学习特征的语义信息，提高模型的学习和预测能力，而且，能够极大增强模型的灵活性和通用性，使模型能够应对各种不同类型的表格数据。

在一些实施例中，在垂直方向上进行对比学习时，将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，包括：在垂直方向上，从正样本中选取同一维度下的特征嵌入向量，并经过transformer映射得到特征嵌入向量在低维潜在空间中的向量表示，计算低维潜在空间中的向量表示之间的距离，分别得到正样本间距和正负样本间距，根据正样本间距和正负样本间距，利用三元组损失函数计算垂直对比损失。

具体地，本申请实施例的预训练流程是对一系列上游表格任务数据集进行处理，这些数据集可能有标签，也可能没有标签。如果数据上有标签，本申请希望能利用到这些标签信息。但是如果对所有表格共享一个主干（也就是共享一组网络参数），然后对每一个表格单独设置一个分类表头，做监督学习，这样的设置可能会导致学习困难。因为每个表格的标签类别可能不同，甚至可能是相反的定义，如果简单进行多任务学习，效果可能并不理想。

因此，为了解决这个问题，本申请实施例引入垂直方向和水平方向的（监督）对比学习方式，对每一个样本按列划分成若干个部分，对来自同一个类别的部分互为正样本。下面结合具体实施例对垂直方向上的对比学习过程进行详细介绍，具体可以包括以下内容：

垂直方向上的对比学习是指同一维度的特征的表征向量在低维潜在空间中应该距离较近。例如：在一个具体示例中，A1和B1都是正样本的第一维特征的表征向量，经过Transformer 映射后，它们在低维潜在空间中的距离应该较近。相反，C1是负样本的第一维特征的表征向量，它应该和A1距离较远。这种差异可以通过三元组损失（triplet loss）来度量，因此我们将这个损失称为垂直对比损失。

进一步地，继续上述示例对垂直方向的对比学习过程进行说明，假设数据来源一个数据集，每个表格数据有三个特征（即三列），也带有对应的标签。对于垂直方向上，由于同维度特征A1和B1都是正样本的第一维特征的表征向量，所以经过Transformer映射后的表征向量col1：A1和col2：B1在低维潜在向量空间中应该距离较近，相反地C1的表征向量col1：C1，由于其为负样本的第一维的特征表征向量，所以应该和col1：A1距离较远，用三元组损失（这个损失称为垂直对比损失）描述就是：

；

在一些实施例中，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失，包括：在水平方向上，将同一样本中的特征嵌入向量进行transformer映射，得到特征嵌入向量在低维潜在空间中的向量表示，计算低维潜在空间中的向量表示之间的距离，分别得到同一样本内特征嵌入向量的间距和不同样本间特征嵌入向量的间距，根据同一样本内特征嵌入向量的间距和不同样本间特征嵌入向量的间距，利用三元组损失函数计算水平对比损失。

具体地，水平方向上的对比学习则是指同一个样本的特征表征向量应该距离较近。例如，在一个具体示例中，C1和C2都是同一个样本的特征表征向量，它们在低维潜在空间中的距离应该较近。相反，C1和B2应该距离较远。这种差异同样可以通过三元组损失（triplet loss）来度量，因此我们将这个损失称为水平对比损失。

进一步地，继续上述示例对水平方向的对比学习过程进行说明，假设数据来源一个数据集，每个表格数据有三个特征（即三列），也带有对应的标签。对于水平方向上的对比学习，由于C1表征向量和C2表征向量属于同一个样本的特征表征向量，因此其距离应该较近，而C1表征向量和B2表征向量应该距离较远。用三元组损失（这个损失称为水平对比损失）描述就是：

；

进一步地，在计算得到垂直对比损失和水平对比损失之后，将垂直对比损失与水平对比损失进行加权求和，即可得到表格机器学习模型的总体对比损失。也就是说，在预训练阶段，表格机器学习模型的总损失是垂直对比损失和水平对比损失进行加权求和的结果。例如，在预训练阶段的总损失Loss为：

；

其中，α为权重调配因子，权重因子α可以用来调整两种损失的相对重要性，不同的任务可能采用不同的α值，在实际应用中，α值一般在1附近。

最后，利用计算得到的预训练阶段的总损失Loss对表格机器学习模型的参数进行反向传播更新，直至满足表格机器学习模型的预训练条件，比如，直至表格机器学习模型达到收敛，即可得到预训练后的表格机器学习模型。

在一些实施例中，在利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛之后，该方法还包括：将收敛后的表格机器学习模型作为预训练模型，对预训练模型在分类任务上进行微调，将分类任务的数据集作为预训练模型的输入，利用预训练模型对分类任务的数据集进行处理，得到预训练模型输出的特征向量；将特征向量作为输入连接到分类器上，利用分类器对特征向量进行分类训练，得到分类器输出的分类训练结果，利用分类训练结果对预训练模型的参数进行反向传播更新，直至预训练模型收敛，收敛后的预训练模型用于执行分类任务。

具体地，本申请实施例可以将收敛后的表格机器学习模型作为预训练模型，为下游任务（如分类任务）提供基础。为了在分类任务上实现微调，本申请实施例首先准备分类任务的数据集。这个数据集可以是相同领域的新数据，也可以是已标记的数据。将数据集作为预训练模型的输入，让预训练模型处理这些数据，得到输出的特征向量。这些特征向量不仅包含了原始数据的信息，而且还融入了预训练模型在训练过程中学习到的知识。这使得本申请实施例的分类任务能够从预训练模型的学习成果中受益。

进一步地，本申请实施例将这些特征向量作为输入连接到分类器上。这个分类器可以是任何适合的分类算法，如逻辑回归、支持向量机等。本申请实施例使用分类器对特征向量进行分类训练，得到分类器输出的分类训练结果。

之后，本申请实施例将分类训练结果反馈到预训练模型，利用这些分类训练结果对预训练模型的参数进行反向传播更新。通过这种方式，本申请实施例不断地调整和优化预训练模型，使得它在分类任务上的表现更好。

最后，当预训练模型收敛后，就可以使用收敛后的模型来执行分类任务。本申请实施例利用了预训练模型在大规模无标记数据上学习到的通用知识，使得模型在具体的分类任务上有更好的泛化能力。同时，这种方法也大大减少了在新数据集上从头开始训练模型的复杂性和成本。

需要说明的是，本申请在模型预训练完成后，预训练模型可以在同一数据集上进行下游任务，下游任务除了分类任务以外，还可以是点击率预测等任务。本申请实施例通过将预训练模型的输出特征的表征向量平均后，再接上一个分类器进行分类训练即可。此外，预训练模型也可以用于同领域的迁移学习，也就是说，可以直接使用这个预训练模型的权重，在新的数据集上进行有监督训练。训练过程和前面描述的过程相同，不再赘述。

根据本申请实施例提供的技术方案，本申请实施例具有以下显著优势和显著技术效果：

1）灵活性和通用性：本申请的方法可以对任何类型的表格数据进行编码，并且支持在多个表格数据上进行监督学习。无论是分类特征、数值特征，还是布尔特征，都可以通过特定的嵌入方法将其转换为嵌入向量，从而实现对各种类型特征的有效处理。这种灵活性使得本申请的方法可以适应各种不同类型的表格数据，具有极高的通用性。并且通过将不同类型的特征转换为嵌入向量，使得模型可以在多个表格数据上进行监督学习。

2）提升模型性能：通过引入对比学习和预训练任务，本申请的方法可以在多个有或无标签的表格数据上进行学习，从而实现了类似于自然语言处理（NLP）中的预训练-精调模型训练范式。即先在大量数据上进行预训练，然后在具体任务上进行微调。这种方法已经在 NLP 领域证明了其有效性，因为它可以充分利用大量的无标签数据，同时可以在具体任务上达到更好的模型精度和泛化能力。

3）提升模型训练效率：本申请的方法可以在多个表格数据上进行预训练，然后在一个新的表格数据上进行微调，直接进行预测。这意味着，本申请无需像使用LightGBM，Xgboost等模型那样，对新的表格数据完全从头开始训练，从而大大提高了模型训练的效率。

4）支持对多个领域有或无标签的表格上做对比学习和预训练任务：对比学习是一种强大的无监督学习方法，它通过比较不同的样本来学习样本的表示。预训练任务则是在大量无标签数据上训练模型，以便在具体任务上进行微调。本申请模型可以在多个领域的有标签或无标签的表格数据上进行对比学习和预训练，这极大地扩展了模型的应用范围。

5）突破传统限制：本申请的方法通过对表格数据的嵌入学习和对比监督学习，突破了现有树模型在训练表格数据时不灵活，不易复用的局限。通过这种方式，我们可以在多个表格数据，同一领域但特征不同的表格数据，或无标签的表格数据上进行对比学习，实现了表格模型学习的灵活性，可进行对比学习，迁移学习。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图2是本申请实施例提供的表格机器学习模型训练装置的结构示意图。如图2所示，该表格机器学习模型训练装置包括：

确定模块201，被配置为获取表格数据中的字段，确定字段对应的特征类型，其中特征类型包括分类特征、数值特征和布尔特征；

嵌入模块202，被配置为利用预定的特征类型对应的特征嵌入方法对字段执行特征嵌入操作，得到由字段对应的特征嵌入向量组成的标准嵌入矩阵；

训练模块203，被配置为将标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到自注意力层输出的训练后的嵌入矩阵；

划分模块204，被配置为对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；

对比学习模块205，被配置为在垂直方向上进行对比学习时，将正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；

更新参数模块206，被配置为将垂直对比损失与水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛。

在一些实施例中，图2的嵌入模块202当字段对应的特征类型为分类特征时，将字段对应表格数据中的列名与字段的值拼接在一起，得到字段对应的特征嵌入向量。

在一些实施例中，图2的嵌入模块202当字段对应的特征类型为数值特征时，将字段对应表格数据中的列名进行分词和嵌入，得到每个分词对应的嵌入向量，将字段对应的数值与嵌入向量进行逐元素相乘，得到字段对应的特征嵌入向量。

在一些实施例中，图2的嵌入模块202当字段对应的特征类型为布尔特征时，将字段对应表格数据中的列名进行分词和嵌入，得到每个分词对应的嵌入向量；根据字段对应的特征值判断是否对嵌入向量进行保留，当特征值为第一预设值时，保留嵌入向量；当特征值为第二预设值时，在后续嵌入中不添加嵌入向量。

在一些实施例中，图2的对比学习模块205在垂直方向上，从正样本中选取同一维度下的特征嵌入向量，并经过transformer映射得到特征嵌入向量在低维潜在空间中的向量表示，计算低维潜在空间中的向量表示之间的距离，分别得到正样本间距和正负样本间距，根据正样本间距和正负样本间距，利用三元组损失函数计算垂直对比损失。

在一些实施例中，图2的对比学习模块205在水平方向上，将同一样本中的特征嵌入向量进行transformer映射，得到特征嵌入向量在低维潜在空间中的向量表示，计算低维潜在空间中的向量表示之间的距离，分别得到同一样本内特征嵌入向量的间距和不同样本间特征嵌入向量的间距，根据同一样本内特征嵌入向量的间距和不同样本间特征嵌入向量的间距，利用三元组损失函数计算水平对比损失。

在一些实施例中，图2的模型微调模块207在利用总体对比损失反向传播更新表格机器学习模型的参数，直至表格机器学习模型收敛之后，将收敛后的表格机器学习模型作为预训练模型，对预训练模型在分类任务上进行微调，将分类任务的数据集作为预训练模型的输入，利用预训练模型对分类任务的数据集进行处理，得到预训练模型输出的特征向量；将特征向量作为输入连接到分类器上，利用分类器对特征向量进行分类训练，得到分类器输出的分类训练结果，利用分类训练结果对预训练模型的参数进行反向传播更新，直至预训练模型收敛，收敛后的预训练模型用于执行分类任务。

理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图3是本申请实施例提供的电子设备3的结构示意图。如图3所示，该实施例的电子设备3包括：处理器301、存储器302以及存储在该存储器302中并且可以在处理器301上运行的计算机程序303。处理器301执行计算机程序303时实现上述各个方法实施例中的步骤。或者，处理器301执行计算机程序303时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序303可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器302中，并由处理器301执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序303在电子设备3中的执行过程。

电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备3可以包括但不仅限于处理器301和存储器302。本领域技术人员可以理解，图3仅仅是电子设备3的示例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器301可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器302可以是电子设备3的内部存储单元，例如，电子设备3的硬盘或内存。存储器302也可以是电子设备3的外部存储设备，例如，电子设备3上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器302还可以既包括电子设备3的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及电子设备所需的其它程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种表格机器学习模型训练方法，其特征在于，包括：

获取表格数据中的字段，确定所述字段对应的特征类型，其中所述特征类型包括分类特征、数值特征和布尔特征；

利用预定的所述特征类型对应的特征嵌入方法对所述字段执行特征嵌入操作，得到由所述字段对应的特征嵌入向量组成的标准嵌入矩阵；

将所述标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到所述自注意力层输出的训练后的嵌入矩阵；

对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；

在垂直方向上进行对比学习时，将所述正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；

将所述垂直对比损失与所述水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用所述总体对比损失反向传播更新所述表格机器学习模型的参数，直至所述表格机器学习模型收敛。

2.根据权利要求1所述的方法，其特征在于，所述利用预定的所述特征类型对应的特征嵌入方法对所述字段执行特征嵌入操作，包括：

当所述字段对应的特征类型为所述分类特征时，将所述字段对应所述表格数据中的列名与所述字段的值拼接在一起，得到所述字段对应的特征嵌入向量。

3.根据权利要求1所述的方法，其特征在于，所述利用预定的所述特征类型对应的特征嵌入方法对所述字段执行特征嵌入操作，包括：

当所述字段对应的特征类型为所述数值特征时，将所述字段对应所述表格数据中的列名进行分词和嵌入，得到每个分词对应的嵌入向量，将所述字段对应的数值与所述嵌入向量进行逐元素相乘，得到所述字段对应的特征嵌入向量。

4.根据权利要求1所述的方法，其特征在于，所述利用预定的所述特征类型对应的特征嵌入方法对所述字段执行特征嵌入操作，包括：

当所述字段对应的特征类型为所述布尔特征时，将所述字段对应所述表格数据中的列名进行分词和嵌入，得到每个分词对应的嵌入向量；

根据所述字段对应的特征值判断是否对所述嵌入向量进行保留，当所述特征值为第一预设值时，保留所述嵌入向量；当所述特征值为第二预设值时，在后续嵌入中不添加所述嵌入向量。

5.根据权利要求1所述的方法，其特征在于，所述在垂直方向上进行对比学习时，将所述正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，包括：

在垂直方向上，从所述正样本中选取同一维度下的特征嵌入向量，并经过transformer映射得到所述特征嵌入向量在低维潜在空间中的向量表示，计算低维潜在空间中的向量表示之间的距离，分别得到正样本间距和正负样本间距，根据所述正样本间距和所述正负样本间距，利用三元组损失函数计算所述垂直对比损失。

6.根据权利要求1所述的方法，其特征在于，所述在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失，包括：

在水平方向上，将同一样本中的特征嵌入向量进行transformer映射，得到所述特征嵌入向量在低维潜在空间中的向量表示，计算低维潜在空间中的向量表示之间的距离，分别得到同一样本内特征嵌入向量的间距和不同样本间特征嵌入向量的间距，根据所述同一样本内特征嵌入向量的间距和所述不同样本间特征嵌入向量的间距，利用三元组损失函数计算所述水平对比损失。

7.根据权利要求1所述的方法，其特征在于，在所述利用所述总体对比损失反向传播更新所述表格机器学习模型的参数，直至所述表格机器学习模型收敛之后，所述方法还包括：

将收敛后的表格机器学习模型作为预训练模型，对所述预训练模型在分类任务上进行微调，将分类任务的数据集作为所述预训练模型的输入，利用所述预训练模型对所述分类任务的数据集进行处理，得到所述预训练模型输出的特征向量；

将所述特征向量作为输入连接到分类器上，利用所述分类器对所述特征向量进行分类训练，得到所述分类器输出的分类训练结果，利用所述分类训练结果对所述预训练模型的参数进行反向传播更新，直至所述预训练模型收敛，收敛后的预训练模型用于执行分类任务。

8.一种表格机器学习模型训练装置，其特征在于，包括：

确定模块，被配置为获取表格数据中的字段，确定所述字段对应的特征类型，其中所述特征类型包括分类特征、数值特征和布尔特征；

嵌入模块，被配置为利用预定的所述特征类型对应的特征嵌入方法对所述字段执行特征嵌入操作，得到由所述字段对应的特征嵌入向量组成的标准嵌入矩阵；

训练模块，被配置为将所述标准嵌入矩阵输入到表格机器学习模型的自注意力层中进行训练，得到所述自注意力层输出的训练后的嵌入矩阵；

划分模块，被配置为对表格任务数据集中的每一个样本按列划分成若干个部分，将属于同一类别的部分互为正样本；

对比学习模块，被配置为在垂直方向上进行对比学习时，将所述正样本的同一维度下的特征嵌入向量进行三元组损失计算，得到垂直对比损失，在水平方向上进行对比学习时，将同一样本内的特征嵌入向量进行三元组损失计算，得到水平对比损失；

更新参数模块，被配置为将所述垂直对比损失与所述水平对比损失进行加权求和，得到表格机器学习模型的总体对比损失，利用所述总体对比损失反向传播更新所述表格机器学习模型的参数，直至所述表格机器学习模型收敛。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。