CN116523016A

CN116523016A - 训练的方法和装置

Info

Publication number: CN116523016A
Application number: CN202210062693.1A
Authority: CN
Inventors: 刘松
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-08-01

Abstract

本申请提供了一种训练的方法和装置。该方法用于训练NPU的功耗预测模型，NPU包括多个硬件模块，功耗预测模型的训练数据集包括与多个硬件模块一一对应的多组子训练数据集。该方法包括：分别对所述多组子训练数据集进行特征筛选，得到多组特征数据集；对所述多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集；根据所述目标特征数据集训练所述功耗预测模型。本申请提供的训练方法，通过对训练数据进行由粗到细的局部筛选和由细到粗的整体筛选，提高了选择的特征数据的准确度，并且提高了使用该特征数据训练出的功耗预测模型的精度。

Description

训练的方法和装置

技术领域

本申请涉及人工智能领域，具体涉及一种训练的方法和装置。

背景技术

相关技术中在训练NPU的功耗预测模型时，通常直接对所有训练数据进行特征筛选，再根据筛选出的特征数据集训练功耗模型。

该方法在筛选特征的过程中可能漏选重要的特征数据，导致最终训练出的功耗预测模型精度较低。

发明内容

本申请提供一种训练的方法和装置，以提高训练出的NPU功率预测模型的精度。

第一方面，提供一种预测的方法，该方法用于训练NPU的功耗预测模型，NPU包括多个硬件模块，功耗预测模型的训练数据集包括与多个硬件模块一一对应的多组子训练数据集，该方法包括：分别对多组子训练数据集进行特征筛选，得到多组特征数据集；对多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集；根据目标特征数据集训练功耗预测模型。

可选地，在一些实施例中，训练数据集包括NPU内部的电信号的翻转次数以及电信号的翻转次数对应的功耗。

可选地，在一些实施例中，多个硬件模块包括以下模块中的部分或全部模块：矩阵乘法处理器模块、部分累加处理器模块、向量数据处理器计算单元模块、向量数据处理器储存单元模块以及指令发布处理器模块。

可选地，在一些实施例中，特征筛选采用基模型选择法和/或方差选择法。

可选地，在一些实施例中，基模型选择法的基模型包括GBDT回归法。

第二方面，提供一种训练的装置，该装置用于训练NPU的功耗预测模型，NPU包括多个硬件模块，功耗预测模型的训练数据集包括与多个硬件模块一一对应的多组子训练数据集。该装置包括：获取单元，被配置为分别对所述多组子训练数据集进行特征筛选，得到多组特征数据集；筛选单元，被配置为对所述多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集；训练单元，被配置为根据所述目标特征数据集训练所述功耗预测模型。

第三方面，提供一种训练装置，包括存储器和处理器，存储器中存储有可执行代码，处理器被配置为执行所述可执行代码，以实现第一方面所述的方法。

第四方面，提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被执行时，能够实现如第一方面所述的方法。

第五方面，提供一种计算机程序产品，包括可执行代码，当所述可执行代码被执行时，能够实现如第一方面所述的方法。

本申请实施例提供了一种训练方法，通过对训练数据进行由粗到细的局部筛选和由细到粗的整体筛选，提高了选择的特征数据的准确度，并且提高了使用该特征数据训练出的功耗预测模型的精度。

附图说明

图1是本申请一实施例提供的NPU内部电信号翻转的示意图。

图2是本申请一实施例提供的训练方法的流程示意图。

图3是本申请又一实施例提供的训练方法的流程示意图。

图4是本申请一实施例提供的训练装置的结构示意图。

图5是本申请又一实施例提供的训练装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

近年来，以神经网络为代表的人工智能研究在很多领域都取得了非常大的成果，其也将在未来很长一段时间内在人们的生产生活中起到重要的作用。

神经网络处理器(neural-network processing units，NPU)是一种可以用于实现多种神经网络相关功能的网络处理器。例如，NPU可以生成神经网络模型。又如，NPU可以训练(或学习)神经网络模型。又如，NPU可以基于接收的待处理数据执行计算并基于计算的结果生成信息信号等。

神经网络模型可以由一个或多个神经网络(neural network，NN)算子组成。神经网络算子例如可以包括全连接算子、卷积算子、池化算子等。

在神经网络处理器上使用不同的神经网络算子，运算不同尺寸的矩阵，会产生不同的功耗。

在神经网络实际设计过程中，每设计一个网络结构，都需要知道该网络结构在神经网络处理器上的功耗如何，以便进行进一步的评估。

如何组合神经网络算子，以设计出精度高且功耗低的网络结构，对神经网络处理器设计来说是至关重要的一步。

目前，业界普遍使用的工业软件，根据NPU内部电信号翻转次数来计算神经网络算子的功耗。NPU内部可以包含多个门电路。NPU内部电信号翻转次数可以指NPU内部门电路的翻转次数。

然而，使用工业软件计算功耗时，需要收集较长时间的数据，才能得出结果。因此，功耗计算过程极其耗时，严重影响神经网络的设计效率。

为了提高计算神经网络算子功耗的效率，可以利用训练数据集训练出一个功耗预测模型。

例如，可以使用NPU内部电信号的翻转次数和电信号的翻转次数对应的功耗作为训练数据，训练出一个功耗预测模型。使用该训练完成的模型进行功率预测时，仅需收集较短的时间内，少量内部电信号的翻转次数作为输入，即可得到预测出的功耗。因此，可以有效地提升功耗预测的效率。

而提升功耗预测的效率，可以进一步提升神经网络的设计效率。即，每设计出一个神经网络模型，可以以更快的速度完成功耗预测。相应地，也可以以更快地速度完成整个神经网络的设计。

相关技术中提供了两种预测模型构建的方法。

第一种方法是直接通过输入数据和输出数据之间的关系进行建模，生成功耗预测模型。在NPU上设计神经网络的过程中，多种数据都可以与NPU的功耗建立联系。使用与NPU的功耗相关的数据即可生成NPU的功耗预测模型。

可以使用多种方法实现功耗预测模型的建模，例如，可以使用多层感知机(multilayer perception，MLP)对输入的数据进行建模，得到功耗预测模型。

可以理解，选择不同的数据，生成的功耗预测模型的精度不同。相对而言，由于NPU内部电信号与NPU的功耗之间的对应关系更强，因此，使用NPU内部电信号翻转次数与翻转次数对应的功耗作为训练数据，得到的功耗预测模型精度更高。

然而，NPU的内部电路信号量非常多，通常可以达到亿级。而对于某一个神经网络算子(例如卷积算子)而言，亿级的内部电信号中，仅有部分电信号进行了翻转。即，对于某个神经网络算子，大部分内部电信号的翻转次数为零。

图1是本申请实施例提供的NPU内部电信号翻转的示意图。图1中的方格表示NPU中的多个门电路。如果将图1中门电路的电信号翻转用1表示，门电路的电信号未翻转用0表示时，图1对应的NPU内部电信号翻转的示意图可以表示为一个矩阵。该矩阵的大部分数据为0，只有极少数数据为1。这种大部分数据为0的数据集，可以称为一个具有高稀疏性的数据集。

图1仅是一个实例性的具有高稀疏性的数据集的示意图。实际中NPU内部电信号翻转形成的数据可能具有更高的稀疏性。例如，假设一个NPU内部有1亿个电信号，一个训练数据中，可能仅有300个电信号产生了翻转。

根据输入数据和输出数据的对应关系直接对数据进行建模的方法，对数据的要求较高。由于NPU内部电信号翻转次数是一个具有高稀疏性的数据集，数据分部差异大，具有很多异常点和离群值。因此，直接使用该数据进行建模时，该功耗预测模型的生成难度大，难以收敛。

此外，由于该模型生成方法与提供的数据密切相关，提供不同的输入输出数据，拟合出的功耗预测模型精度差异性很大。因此，使用该方法训练出的模型精度没有保证。

为了解决上述问题，相关技术还提供了第二种方法。即，首先对训练数据进行特征筛选，选择出重要的特征。筛选出重要特征数据后，使用重要特征数据进行模型训练，得到NPU的功耗预测模型。

特征筛选可以对训练数据进行降维，可以降低学习任务的难度，同时提升模型的效率。

特征筛选的方法有多种。例如，可以计算出每个特征的方差或相关系数。根据数据的方差或相关系数选择出一定数量的数据作为特征数据。一个数据的方差或相关系数越大，代表该数据越具有区分性和代表性。

筛选得到目标特征数据集后，可以使用多种不同的方法训练功耗预测模型。例如，可以使用梯度提升决策树(gradient boosting decision tree，GBDT)方法进行监督训练，以得到NPU的功耗预测模型。

第二种方法直接对所有训练数据进行特征筛选，对于用于生成NPU功耗预测模型的训练数据而言，这个筛选过程过于粗糙，会漏选很多重要特征，导致最终拟合不精准。即，方法二生成的功耗预测模型精度不高。

此外，以NPU内部电信号翻转次数和翻转次数对应的NPU功耗作为训练数据时，数据量极大(例如，训练数据可能是一组1000*1亿的矩阵)。该数据难以直接放入内存中进行训练。而即使放入内存中，要一次性筛选出所有样本的所有特征，对计算装置(例如计算机、服务器等)的内存有极高的要求，难以实现。

有鉴于此，本申请提供一种训练的方法和装置，以提高训练出的NPU功率预测模型的精度。

图2是本申请实施例提供的训练方法的流程示意图。该方法可以用于训练NPU的功耗预测模型。NPU可以包括多个硬件模块。

NPU内部的硬件模块的具体划分方式和划分粒度，可以根据NPU的具体设计和NPU功耗模型的训练需求选择。本申请对NPU的硬件模块的具体划分方式和划分粒度不做限定。

例如，多个硬件模块可以包括以下模块中的部分或全部模块：矩阵乘法处理器模块(或称mmp_core)、部分累加处理器模块(或称psum_core)、向量数据处理器计算单元模块(或称vsp_core_logic)、向量数据处理器储存单元模块(或称vsp_core_mem)以及指令发布处理器模块(或称ssp_inst)等。

在一些实施例中，硬件模块也可以选择二级划分的模块。即，可以在上述划分的硬件模块的基础上，对每个硬件模块进行进一步划分，将每个硬件模块划分为多个子模块。也就是说，每个硬件模块(例如矩阵乘法处理器模块)还可以包括多个子模块。

对于NPU上的模块(例如矩阵乘法处理器模块)，每个子模块上的信号表现或实现的功能相同，因此，子模块也可以称为实例(或称instance)。

用于训练NPU的功耗预测模型的训练数据集可以包括与该多个硬件模块一一对应的多组子训练数据集。

多个硬件模块的具体模块划分可以根据需要选择。例如，可以选择前文所述的一级硬件模块(例如矩阵乘法处理器模块)，也可以选择前文所述的二级硬件模块(例如矩阵乘法处理器模块上的子模块)。

可以使用多种数据作为训练数据，只要该数据可以与NPU的功耗建立关系即可。

例如，可以利用神经网络的特性和与该特性对应的NPU的功耗作为训练数据。神经网络的特性可以包括卷积核的大小、隐层的层数等。

又如，可以利用NPU的物理属性和与该物理属性对应的NPU的功耗作为训练数据。NPU的物理属性可以包括NPU内部电信号的翻转次数。

本申请对训练数据集的具体数据形式和获取方式不做限定。例如，使用NPU内部电信号翻转次数和翻转次数对应的NPU的功耗作为训练数据集时，可以使用前文提及的工业软件获取该数据。

图2所示的方法包括步骤S210至步骤S230，下面分别对每个步骤进行介绍。

在步骤S210，分别对多组子训练数据集进行特征筛选，得到多组特征数据集。

多组子训练数据集可以通过多种方式获得。例如，可以根据NPU的硬件模块对训练数据集进行分块，得到与每个硬件模块一一对应的多组子训练数据集。又如，可以直接获取每个模块对应的子训练数据集。

可以通过多种方式对多组子训练数据集进行特征筛选。例如，可以通过基模型选择法，和/或方差选择法进行特征筛选。基模型选择法的基模型可以包括GBDT回归法等。

选定特征筛选方法后，可以根据实际需要选择特征的筛选策略。

例如，可以选择重要性最高的前K个特征作为筛选得到的特征数据集。不同的筛选方法判断特征重要性的参数不同。例如，选择方差选择法时，由于方差越大的特征区别性越高，因此，特征的方差越大，其重要性越高。

又如，可以设定重要性阈值。阈值可以根据实际需要选择。在进行特征筛选时，可以将大于阈值的特征选取出来，作为筛选得到的特征数据集。

按照NPU的硬件模块的粒度对训练数据进行特征筛选，降低了特征选择过程中对计算机内存的要求。在特征数量相同的情况下，通过对子模块进行特征筛选的方式，使得可以同时处理的样本数量大大增加。相应地，使得漏选重要特征的几率大大下降。可以理解，对NPU的硬件模块的划分粒度越细，选择的特征准确度越高。实际选择时，可以根据精度需要调整对子模块的划分或选择。

在步骤S220，对多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集。

可以通过多种方式获得总特征数据集。例如，可以先将步骤S210得到的多组特征数据进行合并，得到总特征数据集。

得到总特征数据集后，可以对总特征数据集进行特征筛选，得到目标特征数据集。例如，可以对总特征数据集进行重要性分析，选出合适数量的特征，作为目标特征数据集。特征筛选的方法可以参见前文，此处不再详述。

通过由细到粗的二次特征筛选，提升了特征选择的细腻度和准确度。使得最终选择的目标特征数据集具有更好的代表性。

在步骤S230，根据目标特征数据集训练功耗预测模型。

可以通过多种方式训练NPU的功耗预测模型。例如，可以使用GBDT回归树对目标特征数据集进行监督训练，得到功耗预测模型。

本申请提供的训练方法，通过对训练数据进行由粗到细的局部筛选和由细到粗的整体筛选，提高了选择的特征数据的准确度，并提升了使用该特征数据训练出的功耗预测模型的精度。

下面结合图3以一个具体的实施例介绍本申请提供的预测方法。图3是本申请实施例提供的训练方法的流程示意图。图3包括步骤S301至S305。

如图3所示，在步骤S301，采集NPU电信号翻转数据。NPU内部通常包括很多门电路。NPU内部电信号翻转数据可以指NPU内部门电路的翻转数据。

由于使用NPU内部电信号翻转次数和翻转次数对应的NPU功耗作为训练数据，训练出的NPU功耗预测模型精度更高。因此，本实施例选择NPU内部电信号翻转次数和翻转次数对应的NPU功耗作为训练预测模型的训练数据集。

在步骤S302，分模块切分数据。NPU包括的硬件模块根据不同的设计可能有不同的划分。

表1是本申请实施例提供的NPU内部模块划分表。

表1

如表1所示，NPU内部可以包括5个硬件模块：矩阵乘法处理器模块、部分累加处理器模块、向量数据处理器计算单元模块、向量数据处理器储存单元模块以及指令发布处理器模块。

每个硬件模块(例如矩阵乘法处理器模块)还可以包括多个子模块。在一些实施例中，一个硬件模块的多个子模块的信号表现相同。因此，也可以将子模块称为实例(instance)。

不同的硬件模块可以包括不同数量的子模块。如表1所示，在本实施例中，矩阵乘法处理器模块可以包括64个子模块、部分累加处理器模块可以包括8个子模块、向量数据处理器计算单元模块可以包括8个子模块、向量数据处理器储存单元模块可以包括8个子模块、指令发布处理器模块可以包括1个子模块。

在本实施例中，可以将训练数据按照NPU每个模块的子模块的粒度进行划分。即，首先将训练数据按照五个模块分为五组子训练数据集。再按照每个模块的子模块对每组子训练数据集进行划分，再分别得到多组子训练数据集。或者直接以子模块的粒度对训练数据集进行划分，得到每个子模块上的子训练数据集。

如表1所示，本实施例提供的NPU硬件划分方式，可以将训练数据集划分为89组子训练数据集。

在步骤S303，分模块特征筛选。对每个模块的子训练数据集进行特征筛选时，可以将每个子训练数据集分别送入带惩罚项的基模型中。基模型例如可以选择GBDT回归方法。

可以根据GBDT基模型计算出每个特征的重要性。在本实施例中，特征可以指从NPU内部的亿级的门电路中选择有代表性的门电路，获取这些有代表性的门电路的电信号翻转数据作为特征数据。

应理解，数据的区分性、代表性越高，使用该数据训练的模型精度越高。在由粗到细、由整体到模块的特征筛选的过程中，以子模块为粒度进行训练数据的划分，每个模块上包含的数据量减少。在进行特征选择的过程中，对内存的要求降低，一次可以处理的样本数量增加。同时，通过分模块进行特征筛选，降低了漏选重要特征的概率。

在步骤S304，合并模块特征，特征再筛选。可以将每个子模块得到的特征数据集合并，得到总特征数据集。对总特征数据集进行特征再筛选，得到目标特征数据集。该特征筛选仍然可以使用GBDT回归方法。

可以根据对预测模型精度的需求选择合适数量的特征作为目标特征数据集。

通过第二次由细到粗、由模块到整体的特征筛选，使得筛选得到的目标特征数据集更细腻，更有区分性和代表性。

在步骤S305，GBDT监督训练。可以使用GBDT回归树对选取出的特征进行监督训练，得到功耗预测模型。

可以通过调整步骤S303和步骤S304中特征筛选的参数调整生成的功耗模型的精度。

例如，可以通过选择不同级别的子模块进行训练数据的划分，得到不同精度的特征数据。

又如，可以通过改变特征筛选的规则调整筛选出的特征的精度。具体地，可以改变(增加或减少)选择的特征数据的数量调整筛选的特征的精度。

上文结合图1至图3，详细描述了本公开的方法实施例，下面结合图4至图5，详细描述本公开的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图4是本申请实施例提供的训练装置的结构示意图。图4的训练装置400可以用于训练NPU的功耗预测模型。NPU可以包括多个硬件模块。功耗预测模型的训练数据集可以包括与多个硬件模块一一对应的多组子训练数据集。

如图4所示，训练装置400可以包括获取单元410、筛选单元420和训练单元430。下面分别对每个模块进行介绍。

获取单元410可以被配置为分别对多组子训练数据集进行特征筛选，得到多组特征数据集。

筛选单元420可以被配置为对多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集。

训练单元430可以被配置为根据目标特征数据集训练功耗预测模型。

使用本申请实施例提供的训练装置训练出的NPU功耗预测模型，通过由粗到细和由细到粗两次特征筛选，降低了漏选重要特征的概率，提高选择出的特征的代表性。因此，使用目标特征数据训练出的功耗预测模型精度高、稳定度高。

可选地，在一些实施例中，训练数据集可以包括NPU内部的电信号的翻转次数以及电信号的翻转次数对应的功耗。

由于NPU内部电信哈的翻转次数与功耗的联系最紧密，因此，使用NPU内部电信哈的翻转次数和电信号的翻转次数对应的功耗作为训练数据训练功耗预测模型，可以进一步提高该功耗预测模型的精度。

以NPU的硬件模块对数据进行划分，数据之间的边际更清晰，训练样本更准确。

基模型选择法和方差选择法易于实现，可以减少调试步骤，提高模型生成效率。

图5是本申请实施例提供的训练装置的结构示意图。该训练装置500可以是计算机、服务器等。装置500可以包括存储器510和处理器520。存储器510可用于存储可执行代码。处理器520可用于执行所述存储器510中存储的可执行代码，以实现前文描述的各个方法中的步骤。在一些实施例中，该装置500还可以包括网络接口530，处理器520与外部设备的数据交换可以通过该网络接口530实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(Digital Video Disc，DVD))、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以意识到，结合本申请实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练方法，其特征在于，所述方法用于训练NPU的功耗预测模型，所述NPU包括多个硬件模块，所述功耗预测模型的训练数据集包括与所述多个硬件模块一一对应的多组子训练数据集，

所述方法包括：

分别对所述多组子训练数据集进行特征筛选，得到多组特征数据集；

对所述多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集；

根据所述目标特征数据集训练所述功耗预测模型。

2.根据权利要求1所述的方法，其特征在于，所述训练数据集包括所述NPU内部的电信号的翻转次数以及所述电信号的翻转次数对应的功耗。

3.根据权利要求1所述的方法，其特征在于，所述多个硬件模块包括以下模块中的部分或全部模块：矩阵乘法处理器模块、部分累加处理器模块、向量数据处理器计算单元模块、向量数据处理器储存单元模块以及指令发布处理器模块。

4.根据权利要求1所述的方法，其特征在于，所述特征筛选采用基模型选择法和/或方差选择法。

5.根据权利要求4所述的方法，其特征在于，所述基模型选择法的基模型包括GBDT回归法。

6.一种训练装置，其特征在于，所述装置用于训练NPU的功耗预测模型，所述NPU包括多个硬件模块，所述功耗预测模型的训练数据集包括与所述多个硬件模块一一对应的多组子训练数据集，

所述装置包括：

获取单元，被配置为分别对所述多组子训练数据集进行特征筛选，得到多组特征数据集；

筛选单元，被配置为对所述多组特征数据集形成的总特征数据集进行特征筛选，得到目标特征数据集；

训练单元，被配置为根据所述目标特征数据集训练所述功耗预测模型。

7.根据权利要求6所述的装置，其特征在于，所述训练数据集包括所述NPU内部的电信号的翻转次数以及所述电信号的翻转次数对应的功耗。

8.根据权利要求6所述的装置，其特征在于，所述多个硬件模块包括以下模块中的部分或全部模块：矩阵乘法处理器模块、部分累加处理器模块、向量数据处理器计算单元模块、向量数据处理器储存单元模块以及指令发布处理器模块。

9.根据权利要求6所述的装置，其特征在于，所述特征筛选采用基模型选择法和/或方差选择法。

10.根据权利要求9所述的装置，其特征在于，所述基模型选择法的基模型包括GBDT回归法。

11.一种训练装置，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器被配置为执行所述可执行代码，以实现权利要求1-5中任一项所述的方法。