CN115293278A

CN115293278A - 模型训练超参优化处理方法、系统、设备及存储介质

Info

Publication number: CN115293278A
Application number: CN202210980959.0A
Authority: CN
Inventors: 简仁贤; 李龙威; 马永宁
Original assignee: Emotibot Technologies Ltd
Current assignee: Zhujian Intelligent Technology (Guangzhou) Co.,Ltd.
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-04

Abstract

本申请实施例涉及一种模型训练超参优化处理方法、系统、设备及介质，涉及机器学习技术领域，该模型训练超参优化处理方法包括：确定目标数据集对应的目标画像特征信息；依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集；基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果；本申请实施例能够提升超参优化的收敛速度，节省算力资源。

Description

模型训练超参优化处理方法、系统、设备及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种模型训练超参优化处理方法、系统、设备及存储介质。

背景技术

在机器学习技术领域中，算法模型的训练通常需要配置诸如训练轮数、学习率、批处理大小、优化器、损失函数等超参数。

对于不同特点的数据集，最优的超参数组合往往会有不同，因此业内通常使用超参调优策略对超参数组合进行一轮轮的迭代优化。贝叶斯优化是最为常见有效的一种超参调参策略。传统的贝叶斯优化是指在第一轮优化时，随机初始化一批超参数组合，得到评测指标后，在接下来每一轮迭代前，根据已收集的所有超参数组合和每个超参数组合对应的指标反馈，计算下一轮的超参数组合生成的联合概率分布。因为每一份数据集启动超参调优的第一轮，都是随机初始化超参数组合，相当于零经验的冷启动，所以往往需要迭代很多轮才能达到满意的优化效果，白白浪费掉宝贵的算力资源。

发明内容

有鉴于此，本申请提供了一种模型训练超参优化处理方法、系统、设备及存储介质，以实现热启动超参调优，解决现有技术中采用零经验的冷启动所导致的超参调优收敛速度慢问题。

第一方面，本申请提供了一种模型训练超参优化处理方法，包括：

获取目标数据集；

对所述目标数据集进行画像特征计算处理，得到目标画像特征信息；

依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集；

基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果。

可选的，所述对所述目标数据集进行画像特征计算处理，得到目标画像特征信息，包括：

依据所述目标数据集所属的数据集领域，确定目标领域特征；

依据所述目标数据集中的标签数据进行配对组合处理，得到每对标签数据的字符相似系数距离，并基于所述字符相似系数距离的平均值确定所述目标数据集的标签相似度特征；

依据所述目标数据集中的样本数据，结合预设的标准化参数进行计算处理，得到目标标准化特征，所述标准化参数包含所述历史数据集对应的标准差参数和均值参数；

依据所述目标领域特征、所述标签相似度特征以及所述目标标准化特征进行拼接处理，得到目标画像特征信息。

可选的，所述目标标准化特征包含样本条数特征、样本长度中位数特征和词频长尾分布特征值中的至少一种。

可选的，依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集，包括：

基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度；

基于所述数据库中每一份历史数据集对应的匹配度，确定匹配度阈值；

将匹配度阈值对应的历史数据集确定为目标历史数据集。

可选的，基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度，包括：

针对所述数据库中的每一份历史数据集，将所述历史数据集对应的画像特征信息与所述目标画像特征信息进行余弦距离计算，得到每一份历史数据集对应的特征余弦距离；

基于所述特征余弦距离，确定所述匹配度。

可选的，所述确定目标数据集对应的目标画像特征信息之前，还包括：

收集至少一份历史数据集，并确定每一份所述历史数据集的画像特征信息；

基于随机初始化的超参组合信息，对每一份所述历史数据集进行贝叶斯超参调优处理，得到每一份所述历史数据集对应的收敛超参联合分布信息；

将所述历史数据集、所述历史数据集对应的所述收敛超参联合分布信息以及所述画像特征信息关联存储到所述数据库。

可选的，所述基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果，包括：

获取所述目标历史数据集对应的收敛超参联合分布信息；

将所述收敛超参联合分布信息作为起始超参联合分布信息；

基于所述起始超参联合分布信息，对所述目标数据集进行贝叶斯超参调优处理，得到所述目标数据集对应的收敛超参联合分布信息；

将所述目标数据集对应的收敛超参联合分布信息，确定为所述调优参数结果。

第二方面，本申请提供了一种模型训练超参优化处理系统，包括：

数据集获取模块，用于获取目标数据集；

目标画像特征模块，用于对所述目标数据集进行画像特征计算处理，得到目标画像特征信息；

目标历史数据集模块，用于依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集；

超参调优处理模块，用于基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项所述的模型训练超参优化处理方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的模型训练超参优化处理方法的步骤。

本申请实施例通过获取目标数据集，并对获取到的目标数据集进行画像特征计算处理，得到目标画像特征信息，随后依据目标画像特征信息确定与目标数据集相匹配的目标历史数据集，以基于目标历史数据集对应的收敛超参联合分布信息，对目标数据集进行超参调优处理，得到目标数据集对应的调优参数结果，从而达到有经验的热启动超参调优效果，能够有效提升超参优化的收敛速度，节省算力资源。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练超参优化处理方法的步骤流程图；

图2为本申请可选实施例提供的一种模型训练超参优化处理方法的步骤流程图；

图3为本申请实施例提供的一种模型训练超参优化处理系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中通常采用随机初始化超参数组进行超参的第一轮优化，相当于零经验的冷启动，因此需要迭代优化很多轮才能达到满意的优化效果，白白浪费掉宝贵的算力资源，尤其是对于诸如Bert模型、RoBerta模型、Xlnet模型、GPT模型等预训练模型而言，每轮训练需要的计算资源都非常昂贵，存在超参调优收敛速度慢和算力资源浪费的问题。

本申请的核心构思之一在于，提出一种模型训练超参优化处理方法、系统、设备及存储介质，通过对获取到的目标数据集进行画像特征计算处理，得到目标画像特征信息，并依据目标画像特征信息确定与目标数据集相匹配的目标历史数据集，以基于目标历史数据集对应的收敛超参联合分布信息，对目标数据集进行超参调优处理，从而提高自动调参收敛速度，达到有经验的热启动超参调优效果，节省算力资源。

为便于对本申请实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本申请实施例的限定。

参照图1，示出了本申请实施例提供的一种模型训练超参优化处理方法的步骤流程图。具体的，本申请实施例提供的模型训练超参优化处理方法可以适用于基于数据集的自动调参场景，如具体可以适用于算法模型的超参调优场景，具体可以包括如下步骤：

步骤110，获取目标数据集。

其中，目标数据集可以是指当前获取到的可用于算法模型训练的数据集。例如，在算法模型训练之前，可以获取某一领域的数据集，并可将获取到的数据集作为目标数据集，以便后续利用该目标数据集进行算法模型的超参调优。

步骤120，对所述目标数据集进行画像特征计算处理，得到目标画像特征信息。

具体而言，本申请实施例在对获取的目标数据集进行超参优化前，可以对获取的到目标数据集进行画像特征计算处理，以将计算得到的画像特征信息作为目标画像特征信息。该目标画像特征信息可以是指目标特数据集的画像特征信息，具体可以包括根据目标数据集计算得到的一个或多个画像特征，如可以包含有目标领域特征、标签相似度特征、目标标准化特征等，本申请实施例对此不作具体限制。

需要说明的是，本申请实施例中的目标领域特征可以是指根据数据集领域确定的领域特征，如可以时根据数据集领域确定的特征向量；标签相似度特征可以是指根据不同标签的相似度确定的相似度特征，如可以是根据不同标签的相似度确定的标签相似度特征值；目标标准化特征可以是指根据目标数据集确定的标准化特征，如可以包含采用z-score标准化确定的样本条数特征、样本长度中位数特征、词频长尾分布特征等，本申请实施例对此不作具体限制。

步骤130，依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集。

具体的，本申请实施例可以将目标画像特征信息与历史数据集的画像特征信息进行比较，以查找出与该目标画像特征信息最接近的历史数据集，进而可以将查找到的最接近的历史数据集确定为与目标数据集相匹配的目标历史数据集，以便后续可以基于该目标历史数据集对应的收敛超参联合分布信息对目标数据集进行超参调优处理，即执行步骤140。

在一个可选实施方式中，本申请实施例在对获取到的目标数据集进行画像特征计算处理后，可以将计算得到的目标画像特征信息与预设数据库中的每一份历史数据集的画像特征信息进行比较，以根据比较结果确定出与目标画像特征信息最匹配的画像特征信息，从而可以将最匹配的画像特征信息对应的历史数据集确定为目标历史数据集。可选的，本申请实施例在依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集，具体可以包括：基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度；基于所述数据库中每一份历史数据集对应的匹配度，确定匹配度阈值；将匹配度阈值对应的历史数据集确定为目标历史数据集。例如，可以将目标画像特征信息与数据库中每一历史数据集的画像特征信息比较，确定目标画像特征信息与每一历史数据集的画像特征信息之间的匹配度，并可将该目标画像特征信息与每一历史数据集的画像特征信息之间的匹配度作为每一份历史数据集对应的匹配度，以根据该匹配度进行排序、比较，得到各历史数据集对应的匹配度比较结果，随后可以将的匹配度比较结果中的最大匹配度确定为匹配度阈值，从而可以将匹配度阈值对应的历史数据集确定为目标历史数据集，以便后续可以基于该目标历史数据集对应的收敛超参联合分布信息对目标数据集进行超参调优处理，实现有经验的热启动超参调优，进而能够有效地提高超参调优效率。

步骤140，基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果。

具体的，本申请实施例在确定出目标历史数据集后，可以获取该目标历史数据集对应的收敛超参联合分布信息，以将该收敛超参联合分布信息作为目标数据集的起始超参联合分布信息，从而可以基于该起始超参联合分布信息开启目标数据集的超参调优处理，得到目标数据集对应的调优参数结果，达到有经验的热启动超参调优效果。

可见，本申请实施例通过获取目标数据集，并对获取到的目标数据集进行画像特征计算处理，得到目标画像特征信息，随后依据目标画像特征信息确定与目标数据集相匹配的目标历史数据集，以基于目标历史数据集对应的收敛超参联合分布信息，对目标数据集进行超参调优处理，从而实现热启动超参调优，能够有效提升超参优化的收敛速度，即解决了现有相关技术采用零经验的冷启动所导致的超参调优收敛速度慢问题，节省算力资源。

在一个可选实施方式中，本申请实施例通过预先收集一批历史数据集，并可在收集到的一批历史数据集的基础上确定每一份历史数据集的画像特征信息，随后可对每一份述历史数据集进行完整的贝叶斯超参调优，以记录最终收敛的超参联合概率分布信息，作为历史数据集对应的收敛超参联合分布信息，从而基于历史数据集对应的收敛超参联合分布信息和画像特征信息进行关联存储，构建出数据库，使得该数据库可以存储有历史数据集和该历史数据对应的收敛超参联合分布信息和画像特征信息，以便后续可以利用数据库查找出与获取到的目标数据集的画像特征信息最接近的历史数据集，作为目标历史数据集。可选的，在上述实施例基础上，本申请实施例提供的模型训练超参优化处理方法在确定目标数据集对应的目标画像特征信息之前，还可以包括：收集至少一份历史数据集，并确定每一份所述历史数据集的画像特征信息；基于随机初始化的超参组合信息，对每一份所述历史数据集进行贝叶斯超参调优处理，得到每一份所述历史数据集对应的收敛超参联合分布信息；将所述历史数据集、所述历史数据集对应的所述收敛超参联合分布信息以及所述画像特征信息关联存储到所述数据库。其中，历史数据集可以指收集到的数据集，如可以包含收集到的一个或多个领域的业务数据集，本申请实施例对此不作具体限制。需要说明的是，每个领域的业务数据集可以包含算法模型训练所需要的样本数据、标签数据、语料数据等，本申请实施例对此不作具体限制。

为便于对本申请实施例的理解，下面将结合具体示例做进一步的解释说明，该示例并不构成对本申请实施例的限定。

作为本申请的一个示例，可以预先定义一组数据集画像特征，如定义诸如数据集领域、样本条数、样本长度中位数、不同标签之间的相似度、词频长尾分布等画像特征，以便后续可以基于预先定义的画像特征在一批历史数据集上的每份历史数据集进行画像特征计算，得到每份历史数据集的画像特征信息。

例如，在数据集领域分为汽车领域、保险领域、银行领域和证券领域这四个领域的情况下，可以将领域特征分为四个维度one-hot向量，如汽车领域的特征向量可以记录为0001，以表示汽车领域数据集对应的领域特征；保险领域的特征向量可以记录为0100，以表示保险领域数据集对应的领域特征；银行领域的特征向量可以记录为0010，以表示银行领域数据集对应的领域特征；证券领域的特征向量可以记录为0001，以表示证券领域数据集对应的领域特征。

当然，本申请实施例除了可以基于数据集领域确定出历史数据集的领域特征之外，还可以采用其他方式确定历史数据集的其他类型的画像特征，如可以基于不同标签的相似度确定历史数据集的标签相似度特征值，如在使用最简单的字符jaccard距离，计算每份历史数据集中的不同标签的相似度的情况下，可以将单份历史数据集中的所有标签进行两两配对的组合，以穷举出所有的两两组合方式，随后可计算每一对标签之前的字符jaccard距离，从而可以取字符jaccard距离的平均值作为数据集的标签相似度特征值；又如可采用z-score标准化，在收集到的一批历史数据集的基础上计算出每一份历史数据集的样本条数特征、样本长度中位数特征、词频长尾分布特征等，本申请实施例对此不作具体限制。

需要说明的是，本申请实施例中的样本条数特征可以是一个数值特征，具体可以根据数据集的样本条数采用z-score标准化来确定，如在计算出收集到的这批历史数据集中的每份数据集的样本条数后，可以通过统计计算这批历史数据集的样本条数的平均值mean、标准差std，随后可以基于样本条数的平均值mean、标准差std，计算出每份历史数据集的样本条数特征值，如可以按照公式：样本条数特征值＝(样本条数-平均值mean)/标准差std，来计算出历史数据集的样本条数特征值，以作为历史数据集的样本条数特征。

此外，本申请实施例中的样本长度中位数特征可以是指根据数据集的样本长度中位数确定的特征，如可以通过统计收集到的这批历史数据集中的每份历史数据集的每条数据的文本字符长度，并可将每条文本字符长度在每份历史数据集内部进行排序，计算出中位数的长度，以作为这份历史数据集的样本长度中位数，随后同样采用z-score标准化，按照预设标准化公式，将历史数据集的样本长度中位数转换为历史数据集的样本长度中位数特征。

词频长尾分布特征可以是指根据数据集的词频长尾分布情况确定的特征，如可以是使用齐普夫定律确定的词频长尾分布特征值，具体的，可以先将数据集所有语料数据进行分词，并可统计每个分词的出现频次，以将分词按照频次进行排名，随后可使用齐普夫定律，根据齐普夫公式

对分词的频次排名和频次数值进行公式拟合，得到拟合值alpha，随后可对拟合值alpha在数据集维度上进行z-score标准化，以将标准化后得到的特征值确定为词频长尾分布特征。

本申请实施例计算出历史数据集的所有画像特征后，可以对该历史数据集的所有画像特征进行拼接处理，如可以对历史数据集计算出的所有特征向量、特征值进行拼接，得到历史数据集的画像特征向量，以作为画像特征信息。需要说明的是，画像特征信息中所包含的画像特征向量均可以通过定量方法表征了数据集的每个维度的特点，便于后续基于画像特征信息计确定出数据集之间的相似性。

参照图2，示出了本申请可选实施例提供的一种模型训练超参优化处理方法的步骤流程图。具体而言，本申请实施例提供的模型训练超参优化处理方法具体可以包括如下步骤：

步骤210，收集至少一份历史数据集，并确定每一份所述历史数据集的画像特征信息；

步骤220，基于随机初始化的超参组合信息，对每一份所述历史数据集进行贝叶斯超参调优处理，得到每一份所述历史数据集对应的收敛超参联合分布信息；

步骤230，将所述历史数据集、所述历史数据集对应的所述收敛超参联合分布信息以及所述画像特征信息关联存储到所述数据库；

具体的，本申请实施例可以预先定义数据集画像特征，随后可以按照预先定义的数据集画像特征，在收集到的一批历史数据集的基础上计算每份历史数据集的画像特征信息，并可对每份历史数据集进行完整的贝叶斯超参调优，以记录最终收敛的超参联合概率分布信息作为历史数据集对应的收敛超参联合分布信息，从而基于收集到的历史数据集，通过关联存储历史数据集对应的收敛超参联合分布信息和画像特征信息，实现数据库的构建，使得数据库可以存储有历史数据集和该历史数据对应的收敛超参联合分布信息和画像特征信息，以便后续可以利用数据库查找出与获取到的目标数据集的画像特征信息最接近的目标历史数据集。

其中，历史数据集对应的收敛超参联合分布信息可以是包括采用历史数据集进行参数调优时算法模型收敛的超参联合概率分布数据，如可以包含有超参调优后记录的高斯分布参数

等，本申请实施例对此不作限制。

作为本申请的一个示例，在进行贝叶斯超参调优前，可以首先确定算法训练的超参数，如可以将第一个超参数1设置为学习率，将第一个超参数2设置为批处理大小，以及可以确定算法评测的指标，如确定测试集F1值等；随后可随机初始化一批参数组合，以基于随机初始化的这一批参数组合分别通过算法模型训练、批测、指标评估的流程，得到每个超参组合的测试集F1值，并可将学习率、批处理大小作为两个变量，将评测指标F1作为一个变量，以基于学习率、批处理大小和评测指标F1采用高斯概率分布函数进行贝叶斯超参优化，将贝叶斯超参优化结束后记录的高斯分布参数

作为历史数据集对应的收敛超参联合分布信息。

例如，在三个变量符合多元高斯分布

的情况下，可以基于三个变量的高斯概率分布函数，使用高斯核函数描述变量之间的协方差，高斯核函数参数可以记为θ_∑；通过已收集的变量数据和最大似然估计，可按照公式

计算变量均值和高斯核函数参数，随后可根据最大似然估计参数，对变量进行高斯采样，并通过采样的超参组合，再次进行算法模型训练、批测、指标评估的流程，得到每个超参组合的测试集F1值，以完成一轮贝叶斯超参优化，并可将测试集F1值作为是否继续执行贝叶斯超参优化的步骤的判断制指标，以通过判断判断测试集F1值是否满足预设条件，来确是否返回执行贝叶斯超参优化的步骤，直到贝叶斯超参优化的达轮数到达轮数上限或指标F1值满足预设条件时，记录结束后的高斯分布参数

作为历史数据集在超参调优收敛时的超参联合概率分布信息。

需要说明的是，

可以表示三个变量的取值；

可以表示1×3的矩阵，具体可以是三个变量分别的分布均值；Σ可以表示3×3的矩阵，具体可以是三个变量之间的协方差矩阵；其高斯概率分布函数可以表示为如下公式：

步骤240，获取目标数据集；

步骤250，对所述目标数据集进行画像特征计算处理，得到目标画像特征信息；

具体的，本申请实施例在对新数据集进行超参优化前，可以将该新数据集作为目标数据集，并可获取该目标数据集，以对目标数据集进行画像特征计算处理，得到目标画像特征信息。其中，新数据集是相对已经做过超参调优的历史数据集而言，具体可以是指准备开始做算法模型的超参调优训练的数据集，且该数据集可以是指固定条数固定内容的数据集合。

在一个可选实施方式中，本申请实施例对所述目标数据集进行画像特征计算处理，得到目标画像特征信息，具体可以包括：依据所述目标数据集所属的数据集领域，确定目标领域特征；依据所述目标数据集中的标签数据进行配对组合处理，得到每对标签数据的字符相似系数距离，并基于所述字符相似系数距离的平均值确定所述目标数据集的标签相似度特征；依据所述目标数据集中的样本数据，结合预设的标准化参数进行计算处理，得到目标标准化特征，所述标准化参数包含所述历史数据集对应的标准差参数和均值参数；依据所述目标领域特征、所述标签相似度特征以及所述目标标准化特征进行拼接处理，得到目标画像特征信息。其中，目标标准化特征可以包含样本条数特征、样本长度中位数特征和词频长尾分布特征中的至少一种，本申请实施例对此不作具体限制。

步骤260，基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度；

步骤270，基于所述数据库中每一份历史数据集对应的匹配度，确定匹配度阈值；

步骤280，将匹配度阈值对应的历史数据集确定为目标历史数据集；

具体的，本申请实施例在得到目标画像特征信息后，可以将该目标画像特征信息与数据库中的每一份历史数据集的画像特征信息进行比较，以确定每一份历史数据集的画像特征信息与目标画像信息之间的相似度，并可将该相似度作为历史数据数据集与目标数据集之间的匹配度，即历史数据集对应的匹配度，从而可以基于数据库中每一份历史数据集对应的匹配度进行排序，得到匹配度排序结果，以基于匹配度排序结果，将匹配度排序结果中的匹配度最高对应的历史数据集确定为目标历史数据集。

在一个可选实施方式中，可以使用向量表示数据集的画像特征信息，本申请实施例在得到多份历史数据集的每份的画像特征向量后，可以采用新数据集的画像特征向量与历史数据集的每份的画像特征向量进行计算，以分别计算新数据集特征向量与每份历史数据集特征向量的余弦距离，从而可以将余弦距离最小的那个历史数据集确定为与新数据集最接近的历史数据集，即将余弦距离最小的那个历史数据集确定为目标历史数据集，以便使用余弦距离最小的那个历史数据集在历史超参调优收敛时的收敛超参联合概率分布信息，作为新数据集超参调优的起始超参联合概率分布信息，从而达到有经验的热启动超参调优效果。可选的，本申请实施例基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度，具体可以包括：针对所述数据库中的每一份历史数据集，将所述历史数据集对应的画像特征信息与所述目标画像特征信息进行余弦距离计算，得到每一份历史数据集对应的特征余弦距离；基于所述特征余弦距离，确定所述匹配度。

步骤290，基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果。

可选的，本申请实施例所述基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果，具体可以包括：获取所述目标历史数据集对应的收敛超参联合分布信息；将所述收敛超参联合分布信息作为起始超参联合分布信息；基于所述起始超参联合分布信息，对所述目标数据集进行贝叶斯超参调优处理，得到所述目标数据集对应的收敛超参联合分布信息；将所述目标数据集对应的收敛超参联合分布信息，确定为所述调优参数结果。其中，收敛超参联合分布信息可以包含在历史数据集的基础上经过优化后的各个变量直接的关系信息，如可以包含经过超参调优处理后得到超参学习率、超参批处理大小、指标F1值，三个变量的高斯分布参数

等，本申请实施例对此不作具体限制。

具体而言，在相似的数据集上，变量之间的关系都是接近的，如在相似特点的数据集上，算法模型的最优超参组合会比较接近。本申请实施例在确定出与目标数据集最接近的目标历史数据集后，可以获取该目标历史数据集对应的收敛超参联合分布信息，作为起始超参联合分布信息，以将目标数据集的第一步初始化参数组合修改为根据该目标历史数据集的高斯分布参数

进行高斯采样得到的参数组合，从而可以在目标数据集的第一轮贝叶斯优化迭代时就能达到更理想的结果，而不是零经验的随机冷启动，解决了现有相关技术采用零经验的冷启动所导致的超参调优收敛速度慢问题，节省算力资源。

综上，本申请实施例通过获取目标数据集，并对获取到的目标数据集进行画像特征计算处理，得到目标画像特征信息，随后依据目标画像特征信息确定与目标数据集相匹配的目标历史数据集，即利用目标画像特征信息找出与目标数据集最接近的历史数据集，作为目标历史数据集，随后可使用最接近的历史数据集在历史超参调优收敛时的收敛超参联合概率分布信息，作为目标数据集超参调优的起始超参联合概率分布信息，以使用历史数据集在超参调优收敛时的超参联合概率分布作为新数据集超参调优的起始超参联合概率分布，并开始超参调优，即基于目标历史数据集对应的收敛超参联合分布信息对目标数据集进行超参调优处理，得到目标数据集对应的调优参数结果，从而能够有效提升超参优化的收敛速度，节省算力资源，达到有经验的热启动超参调优效果。

进一步而言，本申请实施例还提供了一种模型训练超参优化处理系统，如图3所示，本申请实施例提供的模型训练超参优化处理系统300可以包括以下模块：

数据集获取模块310，用于获取目标数据集；

目标画像特征模块320，用于对所述目标数据集进行画像特征计算处理，得到目标画像特征信息；

目标历史数据集模块330，用于依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集；

超参调优处理模块340，用于基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果。

可选的，目标画像特征模块320可以包括如下子模块：

领域特征子模块，用于依据所述目标数据集所属的数据集领域，确定目标领域特征；

标签相似度特征子模块，用于依据所述目标数据集中的标签数据进行配对组合处理，得到每对标签数据的字符相似系数距离，并基于所述字符相似系数距离的平均值确定所述目标数据集的标签相似度特征；

标准化特征子模块，用于依据所述目标数据集中的样本数据，结合预设的标准化参数进行计算处理，得到目标标准化特征，所述标准化参数包含所述历史数据集对应的标准差参数和均值参数；

拼接处理子模块，用于依据所述目标领域特征、所述标签相似度特征以及所述目标标准化特征进行拼接处理，得到目标画像特征信息。

可选的，目标标准化特征可以包含样本条数特征、样本长度中位数特征和词频长尾分布特征中的至少一种，本申请实施例对此不作限制。

可选的，目标历史数据集模块330可以包括如下子模块：

匹配度确定子模块，用于基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度；

匹配度阈值子模块，用于基于所述数据库中每一份历史数据集对应的匹配度，确定匹配度阈值；

目标历史数据集子模块，用于将匹配度阈值对应的历史数据集确定为目标历史数据集。

可选的，匹配度确定子模块具体可以用于针对所述数据库中的每一份历史数据集，将所述历史数据集对应的画像特征信息与所述目标画像特征信息进行余弦距离计算，得到每一份历史数据集对应的特征余弦距离，并基于所述特征余弦距离确定所述匹配度。

可选的，上述模型训练超参优化处理系统还包括如下模型：

历史数据集模块，用于收集至少一份历史数据集，并确定每一份所述历史数据集的画像特征信息；

贝叶斯超参调优处理模块，用于基于随机初始化的超参组合信息，对每一份所述历史数据集进行贝叶斯超参调优处理，得到每一份所述历史数据集对应的收敛超参联合分布信息；

关联存储模块，用于将所述历史数据集、所述历史数据集对应的所述收敛超参联合分布信息以及所述画像特征信息关联存储到所述数据库。

可选的，超参调优处理模块340可以包括如下子模块：

获取子模块，用于获取所述目标历史数据集对应的收敛超参联合分布信息；

起始超参联合分布信息子模块，用于将所述收敛超参联合分布信息作为起始超参联合分布信息；

叶斯超参调优处理子模块，用于基于所述起始超参联合分布信息，对所述目标数据集进行贝叶斯超参调优处理，得到所述目标数据集对应的收敛超参联合分布信息；

调优参数结果确定子模块，用于将所述目标数据集对应的收敛超参联合分布信息，确定为所述调优参数结果。

需要说明的是，上述提供的模型训练超参优化处理系统可执行本申请任意实施例所提供的模型训练超参优化处理方法，具备执行方法相应的功能和有益效果。

进一步的，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一个方法实施例所述的模型训练超参优化处理方法的步骤。

此外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的模型训练超参优化处理方法的步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练超参优化处理方法，其特征在于，包括：

获取目标数据集；

2.根据权利要求1所述的模型训练超参优化处理方法，其特征在于，所述对所述目标数据集进行画像特征计算处理，得到目标画像特征信息，包括：

依据所述目标领域特征、所述标签相似度特征以及所述目标标准化特征进行拼接处理，得到所述目标画像特征信息。

3.根据权利要求2所述的模型训练超参优化处理方法，其特征在于，所述目标标准化特征包含样本条数特征、样本长度中位数特征和词频长尾分布特征中的至少一种。

4.根据权利要求1所述的模型训练超参优化处理方法，其特征在于，依据所述目标画像特征信息，确定与所述目标数据集相匹配的目标历史数据集，包括：

将匹配度阈值对应的历史数据集确定为目标历史数据集。

5.根据权利要求4所述的模型训练超参优化处理方法，其特征在于，基于所述目标画像特征信息，确定数据库中每一份历史数据集对应的匹配度，包括：

基于所述特征余弦距离，确定所述匹配度。

6.根据权利要求4所述的模型训练超参优化处理方法，其特征在于，所述确定目标数据集对应的目标画像特征信息之前，还包括：

7.根据权利要求1至6任一所述的模型训练超参优化处理方法，其特征在于，所述基于所述目标历史数据集对应的收敛超参联合分布信息，对所述目标数据集进行超参调优处理，得到所述目标数据集对应的调优参数结果，包括：

获取所述目标历史数据集对应的收敛超参联合分布信息；

将所述收敛超参联合分布信息作为起始超参联合分布信息；

8.一种模型训练超参优化处理系统，其特征在于，包括：

数据集获取模块，用于获取目标数据集；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的模型训练超参优化处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的模型训练超参优化处理方法的步骤。