CN116484005A

CN116484005A - 一种分类模型构建方法、装置及存储介质

Info

Publication number: CN116484005A
Application number: CN202310746224.6A
Authority: CN
Inventors: 贾敬伍; 张�杰; 于皓
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-07-25
Anticipated expiration: 2043-06-25
Also published as: CN116484005B

Abstract

本发明提供一种分类模型构建方法、装置及存储介质，涉及自然语言处理技术领域，所述方法包括：基于获取的多个预训练模型对训练数据集进行向量化，得到多个预训练模型分别对应的向量化数据；根据多个预训练模型中每个预训练模型对应的向量化数据，在多个预训练模型中确定目标预训练模型；基于目标预训练模型，构建分类模型。多个预训练模型对训练数据集进行向量化，以获取多个预训练模型分别对应的向量化数据，根据每个预训练模型对应的向量化数据，在多个预训练模型中确定目标预训练模型，基于目标预训练模型构建分类模型。通过每个预训练模型对应的向量化数据对多个预训练模型进行筛选，优化了模型训练的过程，从而提升了训练效率。

Description

一种分类模型构建方法、装置及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种分类模型构建方法、装置及存储介质。

背景技术

在自然语言处理（Natural Language Processing，NLP）技术中，通常需要用到分类模型，以对进行识别任务（例如意图识别、情感识别等）。目前，得到一个分类模型，通常是先对多个预训练模型进行训练，以得到多个分类模型，并在这多个分类模型中选择出满足需求的分类模型。由于预训练模型种类繁多，这种先对多个预训练模型进行训练，再去评判分类模型优劣的方式，存在分类模型构建效率较低的问题。

发明内容

本发明实施例提供一种分类模型构建方法、装置及存储介质，以解决现有的模型构建方法效率较低的问题。

本发明实施例提供了一种分类模型构建方法，所述方法包括：

基于获取的多个预训练模型对训练数据集进行向量化，得到所述多个预训练模型分别对应的向量化数据；

根据所述多个预训练模型中每个预训练模型对应的向量化数据，在所述多个预训练模型中确定目标预训练模型；

基于所述目标预训练模型，构建分类模型。

可选地，所述根据所述多个预训练模型中每个预训练模型对应的向量化数据，在所述多个预训练模型中确定目标预训练模型，包括：

根据所述训练数据集的特征信息与所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，在所述多个预训练模型中确定第一目标预训练模型；

和/或，

根据所述多个预训练模型的损失函数，在所述多个预训练模型中确定第二目标预训练模型，所述多个预训练模型的损失函数为基于所述多个预训练模型中每个预训练模型对应的向量化数据分别计算得到的损失函数；

其中，所述第一目标预训练模型与所述第二目标预训练模型相同或不相同。

可选地，所述根据所述训练数据集的特征信息与所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，在所述多个预训练模型中确定第一目标预训练模型，包括：

根据所述训练数据集的特征信息，确定所述训练数据集的特征空间分布；

根据所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，确定每个预训练模型对应的向量化数据的特征空间分布；

根据所述训练数据集的特征空间分布与每个预训练模型对应的向量化数据的特征空间分布，在所述多个预训练模型中确定第一目标预训练模型。

可选地，所述根据所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，确定每个预训练模型对应的向量化数据的特征空间分布，包括：

利用无监督算法对所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息进行降维，得到降维后的特征向量；

根据降维后的特征向量结合降维模型，得到每个预训练模型对应的向量化数据的特征空间分布。

可选地，所述多个预训练模型中每个预训练模型对应的损失函数根据如下公式计算得到：

;

其中，为对齐损失值，/>为一致性损失值，x和y分别为向量化数据对应的特征矩阵，λ为用于平衡所述对齐损失值和一致性损失值之间权重的超参数。

可选地，所述对齐损失值根据如下的公式计算得到：

;

和/或，

所述一致性损失值根据如下的公式计算得到：

;

其中，N为向量化数据的样本数，α和t为用于平衡样本间距离损失的超参数，N为正整数，i和j均为1至N的正整数，且i不等于j。

可选地，所述基于所述目标预训练模型，构建分类模型，包括：

在所述第一目标预训练模型与所述第二目标预训练模型不相同的情况下，基于所第一目标预训练模型构建第一分类模型，以及基于所述第二目标预训练模型构建第二分类模型，所述分类模型包括所述第一分类模型和所述第二分类模型。

可选地，在所述基于所述目标预训练模型，构建分类模型之后，所述方法还包括：

根据所述分类模型对测试数据集的预测结果，在至少一个分类模型中确定目标分类模型。

本发明实施例还提供了一种分类模型构建装置，所述装置包括：

向量化模块，用于基于获取的多个预训练模型对训练数据集进行向量化，得到所述多个预训练模型分别对应的向量化数据；

第一确定模块，用于根据所述多个预训练模型中每个预训练模型对应的向量化数据，在所述多个预训练模型中确定目标预训练模型；

构建模块，用于基于所述目标预训练模型，构建分类模型。

可选地，所述第一确定模块包括：

第一确定子模块，用于根据所述训练数据集的特征信息与所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，在所述多个预训练模型中确定第一目标预训练模型；

和/或，

第二确定子模块，用于根据所述多个预训练模型的损失函数，在所述多个预训练模型中确定第二目标预训练模型，所述多个预训练模型的损失函数为基于所述多个预训练模型中每个预训练模型对应的向量化数据分别计算得到的损失函数；

可选地，所述第一确定子模块包括：

第一确定单元，用于根据所述训练数据集的特征信息，确定所述训练数据集的特征空间分布；

第二确定单元，用于根据所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，确定每个预训练模型对应的向量化数据的特征空间分布；

第三确定单元，用于根据所述训练数据集的特征空间分布与每个预训练模型对应的向量化数据的特征空间分布，在所述多个预训练模型中确定第一目标预训练模型。

可选地，所述第二确定单元包括：

降维子单元，用于利用无监督算法对所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息进行降维，得到降维后的特征向量；

确定子单元，用于根据降维后的特征向量结合降维模型，得到每个预训练模型对应的向量化数据的特征空间分布。

;

可选地，所述对齐损失值根据如下的公式计算得到：

;

和/或，

所述一致性损失值根据如下的公式计算得到：

;

可选地，所述构建模块包括：

构建子模块，用于在所述第一目标预训练模型与所述第二目标预训练模型不相同的情况下，基于所第一目标预训练模型构建第一分类模型，以及基于所述第二目标预训练模型构建第二分类模型，所述分类模型包括所述第一分类模型和所述第二分类模型。

可选地，所述装置还包括：

第二确定模块，用于根据所述分类模型对测试数据集的预测结果，在至少一个分类模型中确定目标分类模型。

本发明实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述的方法。

本发明实施例中，多个预训练模型对训练数据集进行向量化，以获取多个预训练模型分别对应的向量化数据，根据每个预训练模型对应的向量化数据，在多个预训练模型中确定目标预训练模型，然后基于目标预训练模型构建分类模型。通过每个预训练模型对应的向量化数据对多个预训练模型进行筛选，优化了模型训练的过程，缩短了训练时间，从而提升了训练效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种分类模型构建方法的流程图之一；

图2是本发明实施例提供的一种分类模型构建方法的流程图之二；

图3是本发明实施例提供的一种分类模型构建装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种分类模型构建方法的流程图之一，如图1所示，所述方法包括以下步骤：

步骤101、基于获取的多个预训练模型对训练数据集进行向量化，得到所述多个预训练模型分别对应的向量化数据；

可以根据任务类型收集、部署多个预训练模型，本实施例中以意图识别任务为例，收集、部署多个在意图识别任务上使用的预训练模型，预训练模型可以来自于学术界和工业界。

将意图识别的数据集进行预处理，以标记相应的意图标签，并按照一定比例将数据集分为训练数据集和测试数据集，训练数据集和测试数据集中均可以包括多条数据。例如，训练数据集中训练数据和测试数据集中测试数据之间的数量比例可以是8:2。

每个预训练模型分别对训练数据集进行向量化，使得训练数据集的文本转化为向量，即词嵌入（embedding）数据，得到多个预训练模型中每个预训练模型对应的向量化数据。进一步通过步骤102确定目标预训练模型。

步骤102、根据所述多个预训练模型中每个预训练模型对应的向量化数据，在所述多个预训练模型中确定目标预训练模型；

每个预训练模型对训练数据集进行向量化处理后，得到对应的向量化数据，可以根据向量化数据的表征形式，以判断预训练模型是否满足当前意图识别任务的要求，从而在多个预训练模型中确定符合要求的目标预训练模型。进一步通过步骤103构建分类模型。对于不符合要求的预训练模型，可以在后续构建分类模型的过程中舍弃，优化了模型训练的过程，从而提升训练效率。

步骤103、基于所述目标预训练模型，构建分类模型。

基于从多个预训练模型中优选得到的目标预训练模型，结合分类器算法，构建分类模型。其中，分类器算法是一种机器学习算法，用于将数据点分配到不同的类别或标签；属于监督学习中的一种，它需要已标记的训练数据来学习如何将未标记的数据分配到不同的类别中，可以用于许多不同的任务，例如图像分类、文本分类、欺诈检测、情感分析等；常见的分类器算法包括朴素贝叶斯分类器、决策树分类器、支持向量机（Support VectorMachine，SVM）分类器、逻辑回归（Logistic Regression，LR）分类器、随机森林分类器等。

本实施例中，多个预训练模型对训练数据集进行向量化，以获取多个预训练模型分别对应的向量化数据，根据每个预训练模型对应的向量化数据，在多个预训练模型中确定目标预训练模型，然后基于目标预训练模型构建分类模型。通过每个预训练模型对应的向量化数据对多个预训练模型进行筛选，优化了模型训练的过程，缩短了训练时间，从而提升了训练效率。

和/或，

在一些实施例中，可以根据所述训练数据集的特征信息与所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，在所述多个预训练模型中确定第一目标预训练模型。

训练数据集的特征信息可以是数据集进行预处理时标记的标签信息，即训练数据集的特征信息是已知的。通过比较向量化数据的特征信息与训练数据集的特征信息之间的匹配度，将匹配度达到第一阈值的向量化数据对应的预训练模型确定为第一目标预训练模型，第一阈值可以根据实际情况进行调整。换言之，第一目标预训练模型对训练数据集进行向量化处理后得到的向量化数据的特征信息A与训练数据集的特征信息A’之间的匹配度大于或等于第一阈值。

其中，可以将向量空间可视化，以“同类聚集，异类相离”的规则进行比较，以确定第一目标预训练模型。

在一示例中，可以通过数据可视化的工具（TSNE），根据训练数据集的特征信息，确定训练数据集的特征空间分布，以及根据多个预训练模型中每个预训练模型对应的向量化数据的特征信息，确定每个预训练模型对应的向量化数据的特征空间分布，从而可以根据训练数据集的特征空间分布与每个预训练模型对应的向量化数据的特征空间分布，绘制“向量空间分布图”，以进行向量空间可视化，按照“同类聚集，异类相离”的规则进行比较。其中，向量化数据的特征信息与训练数据集的特征信息之间的匹配度大于或等于第一阈值，在语义空间分布图中的表现形式可以是同类标签的训练数据聚集紧密，异类标签的训练数据离散。其中，每个预训练模型对应有一个向量空间分布图，第一目标预训练模型对应的向量空间分布图可以是按照“同类聚集，异类相离”的规则进行比较后的优选结果。从而可以剔除无关或相关性较低的预训练模型，节省时间和成本，提高效率。

其中，所述根据所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，确定每个预训练模型对应的向量化数据的特征空间分布，包括：

利用无监督算法（例如，主成分分析（Principal Component Analysis，PCA）算法）对所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息进行降维，得到降维后的特征向量；以剔除无关或相关性较低的特征；

根据降维后的特征向量结合降维模型，得到每个预训练模型对应的向量化数据的特征空间分布。这样，向量化数据的特征空间分布将高维转为了低维，剔除了无关或相关性较低的特征，提升计算效率。

在一些实施例中，可以根据所述多个预训练模型的损失函数，在所述多个预训练模型中确定第二目标预训练模型，所述多个预训练模型的损失函数为基于所述多个预训练模型中每个预训练模型对应的向量化数据分别计算得到的损失函数。

根据预训练模型对应的损失函数可以进行向量空间量化，通过对比不同预训练模型的损失函数，以在多个预训练模型中确定第二目标预训练模型。即第二目标预训练模型对应的损失函数值小于第二阈值，第二阈值可以根据实际情况进行调整，损失函数其值越小，则在特征空间中的分布更加均匀，其泛化性能也会更好。

;

在一示例中，可以采用对齐损失（Alignment loss）和一致性损失（Uniformityloss）来实现对齐目标，为了平衡两个对齐损失值和一致性损失值/>，可以在计算损失函数L（x，y）时进行加权。这样，根据预训练模型对应的损失函数L（x，y）可以进行向量空间量化，解决了针对预训练模型的embedding效果无法直接进行评价的问题。通过对比不同预训练模型的损失函数L（x，y）的大小，以在多个预训练模型中确定L（x，y）小于第二阈值的第二目标预训练模型。

其中，所述对齐损失值根据如下的公式计算得到：

;

和/或，

所述一致性损失值根据如下的公式计算得到：

;

其中，N为向量化数据的样本数，α和t为用于平衡样本间距离损失的超参数，N为正整数，i和j均为1至N的正整数，且i不等于j。exp( )表示自然指数函数，表示L2范数。

通过对不同预训练模型embedding后的特征向量分别计算align loss和uniformloss，然后再利用二者构建对应的损失函数L（x，y）；通过对比不同预训练模型的L（x，y），将多个预训练模型中L（x，y）小于第二阈值的预训练模型确定为第二目标预训练模型。L（x，y）值越小，则在特征空间中的分布更加均匀，其泛化性能也会更好。

在一些实施例中，根据所述训练数据集的特征信息与所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，在所述多个预训练模型中确定第一目标预训练模型；

以及，

其中，第一目标预训练模型与所述第二目标预训练模型相同或不相同。

具体的，如图2所示，针对某意图识别项目，需要构建意图分类模型。获取多个在意图识别任务上使用的预训练模型，例如，GPT-1、GPT-2和Bert等预训练模型。将意图识别的数据集进行预处理，以标记相应的意图标签，并按照8:2的比例将数据集分为训练数据集和测试数据集。每个预训练模型分别对训练数据集进行向量化，即对训练数据集的文本embedding，得到多个预训练模型中每个预训练模型对应的向量化数据。

然后，根据预训练模型对应的损失函数对向量化数据进行向量空间量化，通过对比不同预训练模型的损失函数的大小，以在多个预训练模型中确定分布更均匀、泛化性能更好的第二目标预训练模型。这样，利用对齐学习思想对词嵌入效果进行定量评价，解决了针对预训练模型的embedding效果无法直接进行评价的问题。同时，通过数据可视化的工具绘制向量空间分布图，以进行向量空间可视化，利用可视化手段进行直观比较，以在多个预训练模型中优选出的第一目标预训练模型。第一目标预训练模型和第二目标预训练模型可以是多个预训练模型中相同或不同的模型。进一步的，可以对向量空间量化和向量空间可视化赋予不同的权重，以确定在多个预训练模型中确定一个embedding后语义空间更优的目标预训练模型，进一步提升效率。再根据优选得到的目标预训练模型，结合LR分类算法，构建分类模型。

本实施例中，利用对齐学习思想对词嵌入效果进行定量评价，同时利用可视化手段进行直观比较，确定优选的目标预训练模型后，再针对目标预训练模型构建分类模型，优化了模型训练的过程，缩短了训练时间，从而提升了训练效率。

基于向量空间量化过程和基于向量空间可视化过程分别确定第一目标预训练模型与第二目标预训练模型存在相同或不相同的情况。第一目标预训练模型与第二目标预训练模型相同，即该预训练模型为优选的目标预训练模型，其在特征空间中的分布均匀、泛化性能较好。

当然，也可能存在第一目标预训练模型与第二目标预训练模型不相同的情况。在第一目标预训练模型与第二目标预训练模型不相同的情况下，即第一目标预训练模型为向量空间可视化标准下优选的预训练模型，第二目标预训练模型为向量空间量化标准下优选的预训练模型，因此，在一示例中，可以基于一目标预训练模型构建第一分类模型，并基于第二目标预训练模型构建第二分类模型，分类模型包括第一分类模型和第二分类模型，以提升分类模型在不同分类要求下的分类效果。

本实施例中，结合基于向量空间分布图的向量空间可视化手段，以及基于损失函数的向量空间量化手段，在多个预训练模型中优选出目标预训练模型；然后，根据目标预训练模型结合分类算法构建分类模型。分类模型可以包括第一分类模型和/或第二分类模型。

然后，利用目标预训练模型对对测试数据集进行向量表示，得到测试数据集embedding数据。利用分类模型对测试数据集embedding数据进行逐条预测，得到预测结果，并依据预测标签与真实标签计算准确率，对分类模型的整体效果进行评价。根据评价的结果在至少一个分类模型中确定目标分类模型，使得确定目标分类模型能够满足上线要求，优化了模型训练的过程，缩短了训练时间，从而提升了训练效率。

参见图3，图3是本发明实施例提供的一种分类模型构建装置的结构图，如图3所示，分类模型构建装置300包括：

向量化模块301，用于基于获取的多个预训练模型对训练数据集进行向量化，得到所述多个预训练模型分别对应的向量化数据；

第一确定模块302，用于根据所述多个预训练模型中每个预训练模型对应的向量化数据，在所述多个预训练模型中确定目标预训练模型；

构建模块303，用于基于所述目标预训练模型，构建分类模型。

可选地，所述第一确定模块包括：

和/或，

可选地，所述第一确定子模块包括：

可选地，所述第二确定单元包括：

;

可选地，所述对齐损失值根据如下的公式计算得到：

;

和/或，

所述一致性损失值根据如下的公式计算得到：

;

可选地，所述构建模块包括：

可选地，所述装置还包括：

需要说明的是，分类模型构建装置300能实现上述分类模型构建方法的各实施例的各个过程，技术特征一一对应，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种电子设备，包括：处理器、存储器及存储在存储器上并可在处理器上运行的程序，程序被处理器执行时实现上述分类模型构建方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述分类模型构建方法的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本发明实施方式中的方法和装置的范围不限于按所讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种分类模型构建方法，其特征在于，所述方法包括：

基于所述目标预训练模型，构建分类模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个预训练模型中每个预训练模型对应的向量化数据，在所述多个预训练模型中确定目标预训练模型，包括：

和/或，

3.根据权利要求2所述的方法，其特征在于，所述根据所述训练数据集的特征信息与所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，在所述多个预训练模型中确定第一目标预训练模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个预训练模型中每个预训练模型对应的向量化数据的特征信息，确定每个预训练模型对应的向量化数据的特征空间分布，包括：

5.根据权利要求2所述的方法，其特征在于，所述多个预训练模型中每个预训练模型对应的损失函数根据如下公式计算得到：

;

6.根据权利要求5所述的方法，其特征在于，所述对齐损失值根据如下的公式计算得到：

;

和/或，

所述一致性损失值根据如下的公式计算得到：

;

7.根据权利要求2所述的方法，其特征在于，所述基于所述目标预训练模型，构建分类模型，包括：

8.根据权利要求1所述的方法，其特征在于，在所述基于所述目标预训练模型，构建分类模型之后，所述方法还包括：

9.一种分类模型构建装置，其特征在于，所述装置包括：

构建模块，用于基于所述目标预训练模型，构建分类模型。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如权利要求1至8中任一项所述的方法。