CN116304891B

CN116304891B - 基于多源数据迁移学习的类别预测方法和装置

Info

Publication number: CN116304891B
Application number: CN202310590427.0A
Authority: CN
Inventors: 丁锴; 陈奎; 梁变; 那崇宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-01
Anticipated expiration: 2043-05-24
Also published as: CN116304891A

Abstract

本申请涉及一种基于多源数据迁移学习的类别预测方法和装置。所述方法包括：获取多个来自不同数据源的表格数据，基于表格数据确定不同的目标任务下的关键数据映射表；通过数据向量化获取表格数据中每个单元格的文本向量，根据文本向量对待训练的自监督表格模型进行预训练；基于关键数据映射表，通过自监督表格模型确定目标任务训练集；基于目标任务对自监督表格模型进行优化，得到待优化的目标表格模型，根据目标任务训练集训练待优化的目标表格模型，得到目标表格模型；通过目标表格模型确定待预测数据的类别。采用本方法能够解决业务相似的不同机构中存在的因表格结构差异导致的预处理工作繁重、业务模型无法迁移复用等难点问题。

Description

基于多源数据迁移学习的类别预测方法和装置

技术领域

本申请涉及数据处理领域，特别是涉及一种基于多源数据迁移学习的类别预测方法和装置。

背景技术

结构化数据具有结构规则且完整、高度组织化、易于通过机器学习破译的特点。因此，结构化表格数据成为了目标许多技术和模型中使用最广泛的数据，然而，由于日常业务中对应方案的供应单元，数据中列名、ID等数据的结构和格式并不相同，在面对不同来源的数据时，对于已训练完成的数据处理模型而言，其迁移学习的能力将下降，相当多的资源被用于数据的预处理等重复低技能工作。并且随着时间累积，业务系统需要不断进行调整，数据字段的变更也将导致原有模型失效，进而需要重新开启新一轮的数据预处理等工作以完成训练模型以处理对应的业务。尤其的，对于金融行业来说，表格型数据之间的弱关联性导致异常数据的长尾分布状况非常突出，因此，精度要求越高的模型，需要的数据越多。而在现有技术中所使用的模型其迁移学习能力低下，无法训练得到满足金融封控等业务需求的模型。

此外，对于微小型公司而言，单个公司的自有数据往往不足以支撑数据处理模型的准确训练，此时需要使用多个不同来源的数据以完成对不同业务需求模型的训练，但是在现有技术中，上述模型训练的过程中一般需要预先对不同来源的数据进行人工的数据预处理，以将不同来源的数据进行结构与格式进行统一，以进行分类预测模型的训练。对应的根据上述方法得到的分类预测模型其在面对新来源的数据时，无法通过迁移学习完成数据分类预测，导致了模型无法迁移复用的问题。

针对相关技术在面对不同来源的数据时，如何提高目标任务处理模型的迁移复用性，目前还没有提出有效的解决方案。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标任务处理模型的迁移复用性的基于多源数据迁移学习的类别预测方法和装置。

第一方面，本申请提供了一种基于多源数据迁移学习的类别预测方法。所述方法包括：

获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表；

通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型；

基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集；

基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型；

通过所述目标表格模型确定待预测数据的类别。

在其中一个实施例中，所述根据所述文本向量对待训练的自监督表格模型进行预训练，包括：

对所述表格数据中的任意单元格进行掩码，确定掩码单元格对应的掩码文本向量与掩码表格数据；

对所述掩码表格数据的表格序列长度进行对齐，并根据对齐后的掩码表格数据和所述掩码文本向量确定第一训练集；

根据所述第一训练集对待训练的自监督表格模型进行预训练。

在其中一个实施例中，所述基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集，包括：

基于所述关键数据映射表确定包含与所述目标任务关联的关键数据的多个目标表格数据，集合所述多个目标表格数据得到任务数据表格；

判断所述任务数据表格中每个数据行之间的关键数据是否一致，若是，则确定所述数据行属于第一训练集，若否，则确定所述数据行属于第二训练集，其中，所述第一训练集的标签值为相似，所述第二训练集的标签值为不相似；

基于所述第一训练集与所述第二训练集建立对比学习组，确定对比学习组为目标任务训练集。

在其中一个实施例中，所述根据所述目标任务训练集训练待优化的目标表格模型，包括：

基于所述目标任务训练集，通过所述待优化的目标表格模型生成预测值，基于所述预测值与所述标签值调整所述待优化的目标表格模型的模型参数，得到目标表格模型。

在其中一个实施例中，所述基于所述预测值与所述标签值调整所述待优化的目标表格模型的模型参数，包括：

根据所述预测值与所述标签值，获取对应的误差值；

基于所述误差值，确定所述待优化的目标表格模型的惩罚函数；

基于所述惩罚函数，更新所述待优化的目标表格模型。

在其中一个实施例中，所述获取多个来自不同数据源的表格数据之前，所述方法还包括：

获取不同数据源的原始数据，基于所述原始数据通过数据预处理得到对应的表格数据，其中所述数据预处理包括：数据脱敏、数据过滤、数据去重、以及数据标准化中的至少一种；

在其中一个实施例中，所述通过数据向量化获取所述表格数据中每个单元格的文本向量，包括：

获取所述表格数据中每个标准列数据的数据类型以及对应的标准列名，根据所述数据类型与所述标准列名，通过预设的数据向量化规则与预设的文本预训练模型得到每个所述标准列数据的文本向量。

第二方面，本申请还提供了一种基于多源数据迁移学习的类别预测装置。所述装置包括：

预处理模块，用于获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表；

预训练模块，用于通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型；

目标数据获取模块，用于基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集；

目标模型训练模块，用于基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型；

预测模块，用于通过所述目标表格模型确定待预测数据的类别。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

通过所述目标表格模型确定待预测数据的类别。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

通过所述目标表格模型确定待预测数据的类别。

上述基于多源数据迁移学习的类别预测方法、装置、计算机设备和存储介质，获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表。通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集。基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型。最后，通过所述目标表格模型确定待预测数据的类别。在待预测数据与训练中使用的表格数据不一致时，目标表格模型也能够确定待预测数据与表格数据之间的相似度确定对应的任务预测结果，实现跨机构来源的表格数据迁移学习，进而解决业务相似的不同机构中存在的因表格结构差异导致目标任务处理模型无法迁移复用的问题。

附图说明

图1为一个实施例中基于多源数据迁移学习的类别预测方法的应用环境图；

图2为一个实施例中基于多源数据迁移学习的类别预测方法的流程示意图；

图3为一个实施例中自监督表格模型的预训练流程示意图；

图4为一个优选实施例中多源数据迁移学习的类别预测方法的流程示意图；

图5为另一个实施例中根据多个车险公司数据的迁移学习的类别预测方法流程示意图；

图6为一个实施例中基于多源数据迁移学习的类别预测装置的结构框图；

图7为另一个优选实施例中的一种基于多源数据迁移学习的类别预测装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的基于多源数据迁移学习的类别预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。通过终端102上传多个来自不同数据源的表格数据，服务器104中基于所述表格数据确定不同的目标任务下的关键数据映射表，然后通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。再基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集，最后基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型。然后即可通过所述目标表格模型确定待预测数据的类别。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑（Pad）和物联网设备，物联网设备可为智能车载设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2为一个实施例中基于多源数据迁移学习的类别预测方法的流程示意图，如图2所示，包括以下步骤：

步骤S201，获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表。

其中，目标任务为根据实际业务的需求进行设置的特定分类任务，针对不用领域的业务系统对应可建立的不同的目标任务。示例性的，在金融领域中，在面对来自不同金融机构业务系统的数据时，可设置目标任务为对金融风险级别，业务金额级别和拓展级别的分级。

可以理解的是，在面对不同的目标任务时，所需要的任务数据是不同的，因此，在获取到来自不同数据源的表格数据之后，还需要确定与目标任务相关的表格数据。具体的，可先基于目标任务，确定任务所需的关键数据，在核验表格数据中存在关键数据后，确定该表格数据可用于后续目标任务的相关训练中，然后根据核验结果与表格数据建立目标任务与表格数据之间的关键数据映射表，以便于后续需要针对目标任务进行目标表格模型的训练时，可根据关键数据映射表快速获取到目标任务所需的表格数据。

可选的，在金融领域中，关键数据可以为与金融风险级别，业务金额以及客户拓展等相关的金融核心数据。示例性的，在目标任务对金融风险级别的分级时，对应的关键数据则为与金融风险级别相关的数据。

可以理解的是，在实际的应用过程中，金融业务关键数据通常经过人工审核，且有特定字段标识，因此，通过对表格数据中的每个数据的字段进行遍历时，在确认数据字段中包含有上述特定字段标识时，可以判定数据是否经过人工审核。

优选地，可通过以下步骤确定不同的目标任务下的关键数据映射表。

S2011，获取每个目标任务关联的关键数据的特定字段标识，基于所述特定字段标识，从所述表格数据中筛选与所述目标任务关联的目标表格数据。

S2012根据所述目标表格数据得到每个所述目标任务对应的关键数据映射表。

步骤S202，通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。

在本实施例中，在为了便于对获取的到表格数据进行快速分析，提高自监督表格模型的预训练效率，还需要对获取到的表格数据中的每个单元格数据进行数据向量化，利用现有的基于大规模文本数据集所得的文本训练模型对每个表格数据中的列名以及列数据进行向量化，得到表格数据中每个单元格的文本向量。

其中，文本训练模型为现有已公开的基于大规模文本数据集训练所得到的自注意模型。例如，中文wiki的Bert模型，Robert模型等，可以直接下载并调用，对数据进行向量化。可选的，在本实施例中，上述文本训练模型将中文列名转换为768维的向量。

进一步的，在对待训练的自监督表格模型进行预训练时，可将数据向量化后的表格数据中的任意一个单元格进行遮挡，将遮挡后的表格数据输入至待训练的自监督表格模型中，通过上述模型对表格数据中每个数据行的行向量进行预测得到预测向量，然后结合表格数据中每个数据行的实际行向量与预测向量进行对比，根据对比结果对自监督表格模型的模型参数进行调整，直至能够预测得到实际行向量。进而使得自监督表格模型能够挖掘表格数据中各个单元格之间的关系，将表格数据中的每一行转换为一个向量。

优选的，上述数据行的行向量可基于每行中单元格的文本向量进行线性组合所确定，用于表征表格数据或表格数据中数据行的空间位置，度量表格或数据行之间的相似性。

步骤S203，基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集。

需要说明的是，上述自监督表格模型只能够确定各行之间的相似性，而该相似性并不是特定目标任务相关的。特定目标任务潜在与各特征的相关性与自监督表格模型预测各元素的相关性有一定差异。因此，上述自监督表格模型还需要根据特定目标任务中各元素潜在的特定关系进行精调，使得精调后的模型更够准确根据表格数据中各个元素在不同目标任务中的潜在关联，准确完成目标任务。

因此，在本实施例中，需要根据步骤S201中得到的关键数据映射表进行数据查找，确定与目标任务关联的表格数据，然后通过上述步骤S202得到的自监督表格模型确定对应的目标任务训练集，再基于该训练集对自监督表格模型进行精调。

步骤S204，基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型。

在本实施例中，可在上述自监督表格模型的基础上，在模型中再添加一个分类层，用于根据目标任务进行训练，通过分类层根据自监督表格模型所得到的各个行向量之间的相似度进行样本分类，进而对所有数据行进行分类。

示例性的，在对自监督表格模型进行优化时，可在模型上增加一个全连接层作为分类任务层，得到待优化的目标表格模型。然后通过得到的目标任务训练集输入至待优化的目标表格模型，通过上述模型将上述输入的数据转化为向量，最后在分类任务层中合并向量，输出分类预测值，最后再根据分类预测值对目标表格模型的参数进行调整完成对目标表格模型的训练。可选的，表格数据在用过上述目标表格模型的处理转换为对应的向量后，其物理意义更加明确，且自监督表格模型进行优化后的度量精确度也更加准确。

步骤S205，通过所述目标表格模型确定待预测数据的类别。

在得到目标表格模型之后，即可用过目标表格模型对待预测数据的类型进行预测。即对新来源的表格数据进行类别预测，将新来源的表格数据进行向量化，然后利用K近邻方法对新来源数据进行类型预测，进而实现跨源模型迁移。其中新来源的表格数据可与训练过程中使用的表格数据并不同，因此可以利用分布适配或者小样本推理中的方法以更精准的确定新来源的表格数据的类别。

可选的，在本实施例中，在目标表格模型对新来源的表格数据进行预测的同时，还可以利用新来源的表格数据对目标表格模型进行实时更新。

需要说明的是，在传统的模型中，待预测数据的数据结构需要与训练过程中所使用的数据的数据结构保持一致，而本实施例中，待预测数据可以同于上述模型训练过程中所使用的数据。

上述基于多源数据迁移学习的类别预测方法中，通过获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表。然后，通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。接着，基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集，基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型；最后，通过所述目标表格模型确定待预测数据的类别，在面对跨数据源的表格数据存在列名差异时，减少了手工对齐等工作，借助大规模的多源表格数据，在训练得到自监督表格模型对表格数据中每个数据之间的关系获取其数据行之间的相似度以及各个表格数据之间的相似度。然后结合具体的目标任务，对自监督表格模型进行精调确定目标表格模型，以更加准确地表征在目标任务下各个数据之间的相关性。在面对新来源的待预测数据时，能够基于相似性推理实现对新来源数据的零样本模型迁移。解决了业务相似的不同机构中存在的因表格结构差异导致的预处理工作重复、繁琐，业务模型无法迁移复用等难点问题，提高了目标表格模型的普适性。

图3为一个实施例中自监督表格模型的预训练流程示意图，如图3所示，所述根据所述文本向量对待训练的自监督表格模型进行预训练，包括以下步骤：

S2021，对所述表格数据中的任意单元格进行掩码，确定掩码单元格对应的掩码文本向量与掩码表格数据。

在本实施例中，自监督表格模型可以是Transformer模型，也可以是经过适配图表的类Transformer模型。

在预训练时过程中，首选需要对构建的自监督表格模型进行随机初始化，然后以行为单位，利用随机遮挡预测方法，在数据向量化后表格数据中随机选择若干个单元格设置为遮挡，实现数据掩码，得到对应掩码单元格的掩码文本向量与掩码表格数据。

表1为一个示例性实施例中，在预测车险欺诈风险级别时的表格数据的列名字段。示例性的，在表格数据中的某一数据行中，可将事故类型列对应的单元格进行掩码，使用其他以数据预测该被掩码的事故责任列对应的数据。

表1

进一步的，在面向多个不同来源的表格数据时，为了避免模型受到列顺序的影响，各个不同源的表格数据中还可以将按行进行随机排列，同时对每行数据按元素进行随机排列。

S2022，对所述掩码表格数据的表格序列长度进行对齐，并根据对齐后的掩码表格数据和所述掩码文本向量确定第一训练集。

可以理解的是，对于不同来源的表格数据而言，每个表格数据中包括的列的数量并不一定相同。因此，还需要对表格数据的表格序列长度进行对齐。示例性的，假设当前表格数据的标准表格序列长度为m，其本身的表格序列长度n，且n小于m时，可将数据序列m-n维度置零，以实现对表格序列长度进行对齐。然后即可根据对齐后的掩码表格数据和所述掩码文本向量确定第一训练集。

S2023，根据所述第一训练集对待训练的自监督表格模型进行预训练。

在自监督表格模型的预训练过程中，结合不同来源的表格数据可以挖掘各个数据之间的关系。根据每个单元格的文本向量确定每一行数据对应的行向量，然后通过计算行向量之间的余弦距离即可评估各行之间的相似性，为后续的迁移学习进行准备。

在本实施例中，将掩码后的表格数据输入至待训练的自监督表格模型之后，可通过自监督表格模型根据表格数据中未掩码的数据被掩码的向量，生成预测值，然后在根据掩码向量和预测值对比学习更新模型参数，使得自监督表格模型具备准确挖掘表格数据中各个数据之间的关系的能力。进一步的，本实施例中的自监督表格模型属于Transformer模型，因此训练后的模型还能具备将表格数据中的每个数据行准确转换为行向量的能力。

在本实施例中，通过随机遮挡预测方法对自监督表格模型进行预训练，能够使得自监督表格模型具备挖掘各个数据之间关系的通用能力，以将表格数据中的数据行准确转换为向量，进而根据向量学习评估各个样本之间的相似性，以为后续的迁移学习奠定学习基础。

在一个实施例中，所述基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集，包括：

首先，基于所述关键数据映射表确定包含与所述目标任务关联的关键数据的多个目标表格数据，集合所述多个目标表格数据得到任务数据表格。然后，判断所述任务数据表格中每个数据行之间的关键数据是否一致，若是，则确定所述数据行属于第一训练集，若否，则确定所述数据行属于第二训练集，其中，所述第一训练集的标签值为相似，所述第二训练集的标签值为不相似。最后，基于所述第一训练集与所述第二训练集建立对比学习组，确定对比学习组为目标任务训练集。

示例性的，以金融领域中常见的分类任务为例，可根据关键数据映射表确定包含关键数据的多个目标表格数据：{样本1，欺诈}、{样本2，未欺诈}、{样本3，欺诈}。然后对多个目标表格数据进行随机若干列删除，以同类别数据相似度大于不同类别数据为依据构建目标训练集。即根据上述样本1、样本3以及样本3中关键数据是否一致性判断其是的相似，对应的第一训练集为{数据：样本1，样本2，标签：不相似}，第二训练集为{数据：样本1，样本3，标签：相似}，目标任务训练集为[{数据：样本1，样本2，标签：不相似}，{数据：样本1，样本3，标签：相似}]。

在本实施例中，先根据关键数据映射表确定目标任务关联的多个目标表格数据，以构建针对目标任务的训练集，为后续目标任务相关的模型训练提供了数据基础。

在一个实施例中，所述根据所述目标任务训练集训练待优化的目标表格模型，包括：基于所述目标任务训练集，通过所述待优化的目标表格模型生成预测值，基于所述预测值与所述标签值调整所述待优化的目标表格模型的模型参数，得到目标表格模型。

在本实施例中，可利用自监督表格模型将上述目标任务训练集中的数据转换为向量，然后计算两两向量之间的余弦相似度，以同类别数据相似度大于不同类别数据的原则确定预测值，然后基于上述预测值与上一实施例中目标训练集中的标签值进行对比，根据对比结果调整目标表格模型的模型参数，完成对目标表格模型的精调。

在本实施例中，基于目标任务训练集中的标签值与待优化的目标表格模型生成预测值的对比对目标表格模型中的具体模型参数进行精调，使得目标表格模型能够更加准确的获取目标任务下各个数据之间的关系，进而进行准确的分类预测。

在一个实施例中，所述基于所述预测值与所述标签值调整所述待优化的目标表格模型的模型参数，包括：根据所述预测值与所述标签值，获取对应的误差值。基于所述误差值，确定所述待优化的目标表格模型的惩罚函数，基于所述惩罚函数，更新所述待优化的目标表格模型。

在本实施例中，通过基于待优化的目标表格模型输出的预测值与标签值之间的误差值建立惩罚函数能够对目标表格模型中的模型参数进行准确快速地调节，进而提高了目标表格模型的训练效率。

在一个实施例中，所述获取多个来自不同数据源的表格数据之前，所述方法还包括：获取不同数据源的原始数据，基于所述原始数据通过数据预处理得到对应的表格数据，其中所述数据预处理包括：数据脱敏、数据过滤、数据去重、以及数据标准化中的至少一种；

其中，数据脱敏指对敏感数据进行变形处理，以保护隐私数据等信息的安全，避免敏感信息泄露。示例性的，可对原始数据中的个人身份信息、手机号码、银行卡信息等敏感数据进行变形处理。常见的数据脱敏的技术手段包括替换、过滤、加密、遮蔽或者删除等。数据过滤与数据去重是指基于数据类型和响应统计特征对重复数据、无用数据、空值列，ID类列，以及ID重复行进行删除。具体的，可按行进行去重复操作消除冗余数据，然后按列对不重复的数据进行数量和分布统计消除空列，元素分布异常列。其中，分布异常列是指该列中数据完全无重复，单数数据重复及单元素数据占比超过90%以上，上述分布异常列对于目标任务的预测并无意义需要进行删除。进一步的，还需要对数值型的列进行分箱，以防止数值型数据过于稀疏，对其进行聚类以转换为更紧密的数值。

示例性的，表2为一个实施例中车险欺诈系统中的业务表格数据。

表2

可收集多源金融表格数据，将收集到的表格数据存储至数据库中。然后对上述表格数据已进行脱敏处理，得到多家车险公司出险信息的表格，如表2所示，出险信息包括：案件ID，相关人员信息，车辆信息，事故信息，查勘信息，维修信息等。该在获取到上述表2后，可对表格中的数据进行统计分析，对重复数据、无用数据进行剔除。接着，对数值型列进行分箱，包括金额、年龄等，分割并映射至多个区段。例如，按年龄可分为青年，中年，老年区段等。

需要说明的是，上述预处理方式仅针对单个来源的表格数据，由于不同来源的表格数据为进行列名对齐，因此上述预处理工作无法一次性对多个不同来源的表格数据进行处理，需要采用循环方式对各个来源的数据分别进行预处理。

优选的，数据标准化是指使用多语种词典或映射表格将非中文、不规范的数据翻译为中文，如表2所示。表格列名常出现中英文混乱的情况，特别是跨机构数据，同列不同名但含义相近情况较多。但有些使用缩写和多语种混合的方式命名列名，这些列名不经标准化可能在后续文本预训练模型中找不到对应词汇，使向量化出现错误。

对应于表2，对其列名进行数据标准化后的结果如表1所示，可通过数据标准化将非中文列名转换为中文列名。对于表2中的英文数据也可以通过数据标准化将其转换为中文，示例性的可将英文数据“Unknown”通过数据标准化后转化为“未知”，“Other”通过数据标准化后转化为“其他”，“False”通过数据标准化后转化为“否”。

在本实施例中，通过对表格数据进行数据脱敏、数据去重、数据过滤以及数据标准化完成数据预处理，避免了对敏感信息的泄露审查，无用重复数据对模型训练造成负面影响，进一步的，借助数据标准化将表格数据中同类型的数据的表达形式进行统一，文本数据统一转换为中文表达，以便于后续进行数据向量化。

在一个实施例中，所述通过数据向量化获取所述表格数据中每个单元格的文本向量，包括：获取所述表格数据中每个标准列数据的数据类型以及对应的标准列名，根据所述数据类型与所述标准列名，通过预设的数据向量化规则与预设的文本预训练模型得到每个所述标准列数据的文本向量。

在本实施例中，预设的数据向量化规则包括以下三种情形：

（1）数据为文本类型，此时的数据向量化规则为向量= f(列名+类别)。

例如在表2中，针对列名为事故类型，数据为单车事故的数据，可合成得到“事故类型单车事故”，然后使用Bert模型将此短语数据转换向量。

（2）数据为数值类型，此时的数据向量化规则为向量=列名向量数值。

其中，“”表示按元素相乘。例如在表2中，针对列名为案件金额，数据为300，则将“案件金额”转为向量，然后使用300与向量元素相乘，即为新向量。

（3）数据为布尔型，此时的数据向量化规则为向量=f(列名+是/否)。

例如在表2中，针对列名为是否饮酒，数据为否，则合成“是否饮酒否”，然后经Bert模型转化为向量。其中f()表示使用Bert模型将文本数据转换为向量。

最后，将上述文本向量按先后顺序连接，单个数据的向量维度为768，每行有n个数据，则每一行被表示为n×768维的矩阵。因为数据来源不同，各表格的列数量不一定是相同的，此处n不是一个常数，而是可以在一定范围内波动。

在本实施例中，通过数据向量化将表格数据中各个单元格中的数据转换为文本向量，为后续自监督表格模型的训练提供了数据基础，以便于自监督表格模型快速学习各个数据之间的潜在联系。

图4为一个优选实施例中多源数据迁移学习的类别预测方法的流程示意图，如图4所示，包括：

步骤S301，获取多个金融机构的原始数据，进行脱敏汇集，得到多个不同数据源的表格数据。

步骤S302，对表格数据进行数据预处理，完成列名标准化。

步骤S303，对表格数据进行数据向量化，取所述表格数据中每个单元格的文本向量。

具体的，可通过已有的语言模型将表格数据中的文本信息转换为文本向量。

步骤S304，根据所述文本向量对待训练的自监督表格模型进行预训练。

步骤S305，面对目标任务，对步骤S304中得到的自监督表格模型进行精调，得到目标表格模型。

步骤S306，基于目标表格模型，对新数据进行任务预测。

本实施例中，在汇集多同数据源表格数据建立大规模表格数据基础上，利用语言模型将表格中的文本信息转换为向量，并与结构化数据混合。然后，基于自监督表格模型进行训练，并针对特定目标任务进行模型优化精调。所得目标表格模型不需要针对新来源数据重新训练，即可完成任务预测。本发明主要用于跨机构来源的表格数据迁移学习，用以解决业务相似的不同机构中存在的因表格结构差异导致的预处理工作重复、繁琐，业务模型无法迁移复用等难点问题。

在另一个优选实施例中，图5根据多个车险公司数据的迁移学习的类别预测方法流程示意图，如图5所示，包括：首先获取来自不同车险公司的原始数据，具体的，先获取来自车险公司1、车险公司2、以及车险公司3的原始表格数据，然后对上述原始表格数据进行数据标准化，将表格中的列名以及数据进行标准化，然后对数据标准化后的原始表格数据进行数据预处理，得到有效的表格数据，再通过文本预训练模型以及预设的数据向量化规则进行表格数据的多模态向量化，接着将向量化后的数据输入至自注意模型A，进行自注意模型A的自监督训练，其中，自注意模型A相当于上述实施例中得自监督表格模型。通过自注意模型A得到对应的向量化数据1、向量化数据2、以及向量化数据3。基于自注意模型A进行优化确定目标任务对应的欺诈模型B，然后，通过向量化数据1和向量化数据2进行对欺诈模型B进行分类训练，得到欺诈模型，其中，欺诈模型B即为目标表格模型。最后通过欺诈模型即可对向量化数据3进行分类预测，确定向量化数据是否为欺诈数据，若是则对其进行人工核查，若否则直接对其对应的事件进行理赔。需要说明的是，由于向量化数据3与向量化数据1和向量化数据2并不属于同一车险公司，因此，在通过欺诈模型对其进行分类预测时，相当于使用欺诈模型对新来源的数据进行分类预测，进而实现了模型的迁移学习。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于多源数据迁移学习的类别预测方法的基于多源数据迁移学习的类别预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于多源数据迁移学习的类别预测装置实施例中的具体限定可以参见上文中对于基于多源数据迁移学习的类别预测方法的限定，在此不再赘述。

图6为一个实施例中一种基于多源数据迁移学习的类别预测装置的结构框图，如图6所示，包括：预处理模块51、预训练模块52、目标数据获取模块53、目标模型训练模块54和预测模块55，其中：

预处理模块51，用于获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表。

预训练模块52，用于通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。

目标数据获取模块53，用于基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集。

目标模型训练模块54，用于基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型。

预测模块55，用于通过所述目标表格模型确定待预测数据的类别。

在本实施例的装置中，通过获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表。然后，通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。接着，基于所述关键数据映射表，通过所述自监督表格模型确定目标任务训练集，基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型；最后，通过所述目标表格模型确定待预测数据的类别，在面对跨数据源的表格数据存在列名差异时，减少了手工对齐等工作，借助大规模的多源表格数据，在训练得到自监督表格模型对表格数据中每个数据之间的关系获取其数据行之间的相似度以及各个表格数据之间的相似度。然后结合具体的目标任务，对自监督表格模型进行精调确定目标表格模型，以更加准确地表征在目标任务下各个数据之间的相关性。在面对新来源的待预测数据时，能够基于相似性推理实现对新来源数据的零样本模型迁移。解决例了业务相似的不同机构中存在的因表格结构差异导致的预处理工作重复、繁琐，业务模型无法迁移复用等难点问题，提高了目标表格模型的普适性。

进一步的，预训练模块52还用于对所述表格数据中的任意单元格进行掩码，确定掩码单元格对应的掩码文本向量与掩码表格数据；对所述掩码表格数据的表格序列长度进行对齐，并根据对齐后的掩码表格数据和所述掩码文本向量确定第一训练集；根据所述第一训练集对待训练的自监督表格模型进行预训练。

进一步的，目标数据获取模块53还用于基于所述关键数据映射表确定包含与所述目标任务关联的关键数据的多个目标表格数据，集合所述多个目标表格数据得到任务数据表格。判断所述任务数据表格中每个数据行之间的关键数据是否一致，若是，则确定所述数据行属于第一训练集，若否，则确定所述数据行属于第二训练集，其中，所述第一训练集的标签值为相似，所述第二训练集的标签值为不相似；基于所述第一训练集与所述第二训练集建立对比学习组，确定对比学习组为目标任务训练集。

进一步的，目标模型训练模块54还用于基于所述目标任务训练集，通过所述待优化的目标表格模型生成预测值，基于所述预测值与所述标签值调整所述优化的目标表格模型的模型参数，得到目标表格模型。

进一步的，目标模型训练模块54还用于根据所述预测值与所标签值，获取对应的误差值；基于所述误差值，确定所述待优化的目标表格模型的惩罚函数；基于所述惩罚函数，更新所述待优化的目标表格模型。

进一步的，预处理模块51还用于获取不同数据源的原始数据，基于所述原始数据通过数据预处理得到对应的表格数据，其中所述数据预处理包括：数据脱敏、数据过滤、数据去重、以及数据标准化中的至少一种。

进一步的，预训练模块52还用于获取所述表格数据中每个标准列数据的数据类型以及对应的标准列名，根据所述数据类型与所述标准列名，通过预设的数据向量化规则与预设的文本预训练模型得到每个所述标准列数据的文本向量。获取所述表格数据中每个标准列数据的数据类型，根据所述数据类型通过预设的数据向量化规则得到每个所述标准列数据的数据向量；获取所述表格数据中每个标准列名的列名文本，通过预设的文本预训练模型将每个列名文本转换为列名向量；基于所述数据向量与列名向量生成每个单元格的文本向量。

图7为另一个优选实施例中的一种基于多源数据迁移学习的类别预测装置的结构框图，如图7所示，包括数据归集模块、模型模块、关键数据核验模块以及模型迁移模块。其中，数据归集模块用于实现多源表格脱敏核验及预处理，示例性的，可通过数据归集模块对金融机构A、金融机构B以及金融机构C的数据进行归集，并对归集到的数据进行数据脱敏及校验，以及数据预处理。模型模块包括文本预训练模型和自监督表格向量化模型，用于完成模型管理，其中，文本预训练模型可用于进行文本向量化，自监督表格向量化模型可用于进行表格与列名的向量化。关键数据核验模块用于完成金融关键数据的核验，其核验结果可用于构建面向目标任务的训练集，示例性的，在面对目标任务为欺诈风险核验时，可获取对应的风险级别。在面对业务金额核验时，可获取对应法的金额级别。在面对潜在客户核验时，可获取拓展级别。模型迁移模块可用于完成面向目标任务的自监督表格模型任务精调和调用，调用自监督表格模型将单行表格转化为向量，用于度量任务空间上的数据相似性。示例性的，根据对应的目标任务，得到对应的风险级别预测模型，业务级别预测模型以及拓展级别预测模型。

上述基于多源数据迁移学习的类别预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种基于多源数据迁移学习的类别预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取多个来自不同数据源的表格数据，基于所述表格数据确定不同的目标任务下的关键数据映射表。

通过数据向量化获取所述表格数据中每个单元格的文本向量，根据所述文本向量对待训练的自监督表格模型进行预训练，得到自监督表格模型。

基于所述目标任务对所述自监督表格模型进行优化，得到待优化的目标表格模型，根据所述目标任务训练集训练待优化的目标表格模型，得到目标表格模型。

通过所述目标表格模型确定待预测数据的类别。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

通过所述目标表格模型确定待预测数据的类别。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于多源数据迁移学习的类别预测方法，其特征在于，所述方法包括：

获取多个来自不同数据源的表格数据，获取每个目标任务关联的关键数据的特定字段标识，基于所述特定字段标识，从所述表格数据中筛选与所述目标任务关联的目标表格数据，根据所述目标表格数据得到每个所述目标任务对应的关键数据映射表；

基于所述关键数据映射表确定包含与所述目标任务关联的关键数据的多个目标表格数据，集合所述多个目标表格数据得到任务数据表格；判断所述任务数据表格中每个数据行之间的关键数据是否一致，若是，则确定所述数据行属于第一训练集，若否，则确定所述数据行属于第二训练集，其中，所述第一训练集的标签值为相似，所述第二训练集的标签值为不相似；基于所述第一训练集与所述第二训练集建立对比学习组，确定对比学习组为目标任务训练集；

通过所述目标表格模型确定待预测数据的类别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本向量对待训练的自监督表格模型进行预训练，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标任务训练集训练待优化的目标表格模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述预测值与所述标签值调整所述待优化的目标表格模型的模型参数，包括：

根据所述预测值与所述标签值，获取对应的误差值；

基于所述惩罚函数，更新所述待优化的目标表格模型。

5.根据权利要求1所述的方法，其特征在于，所述获取多个来自不同数据源的表格数据之前，所述方法还包括：

获取不同数据源的原始数据，基于所述原始数据通过数据预处理得到对应的表格数据，其中所述数据预处理包括：数据脱敏、数据过滤、数据去重、以及数据标准化中的至少一种。

6.根据权利要求1所述的方法，其特征在于，所述通过数据向量化获取所述表格数据中每个单元格的文本向量，包括：

7.一种基于多源数据迁移学习的类别预测装置，其特征在于，所述装置包括：

预处理模块，用于获取多个来自不同数据源的表格数据，获取每个目标任务关联的关键数据的特定字段标识，基于所述特定字段标识，从所述表格数据中筛选与所述目标任务关联的目标表格数据，根据所述目标表格数据得到每个所述目标任务对应的关键数据映射表；

目标数据获取模块，用于基于所述关键数据映射表确定包含与所述目标任务关联的关键数据的多个目标表格数据，集合所述多个目标表格数据得到任务数据表格；判断所述任务数据表格中每个数据行之间的关键数据是否一致，若是，则确定所述数据行属于第一训练集，若否，则确定所述数据行属于第二训练集，其中，所述第一训练集的标签值为相似，所述第二训练集的标签值为不相似；基于所述第一训练集与所述第二训练集建立对比学习组，确定对比学习组为目标任务训练集；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至权利要求6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求6中任一项所述的方法的步骤。