CN116360574A

CN116360574A - 确定资源配置参数的方法与电子设备

Info

Publication number: CN116360574A
Application number: CN202111590360.8A
Authority: CN
Inventors: 李宇; 霍晓凯; 邓锋贤
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-06-30

Abstract

一种确定资源配置参数的方法与电子设备，涉及参数配置技术领域；该方法包括：检测电子设备中应用程序的运行状态，得到第一场景特征；根据第一场景特征得到第一场景标识，第一场景标识与第一场景特征对应；根据第一场景标识与资源配置参数映射表，得到第一资源配置参数，第一资源配置参数与第一场景标识相对应，资源配置参数映射表中包括不同的场景标识与场景标识对应的最优资源配置参数，最优资源配置参数是通过强化学习模型得到的，最优配置参数是指使得电子设备的性能参数大于第一预设阈值且功耗参数小于第二预设阈值的配置参数。基于本申请的技术方案，对于电子设备的不同运行场景，能够提高确定资源配置参数的效率。

Description

确定资源配置参数的方法与电子设备

技术领域

本申请涉及参数配置技术领域，具体地，涉及一种确定资源配置参数的方法与电子设备。

背景技术

随着电子设备的发展，电子设备的功耗问题也日益突出。降低电子设备的功耗，延长电子设备中电池的使用时间，能够有效的提高用户体验。通常情况下，可以通过动态电压频率调整(dynamic voltage and frequency scaling，DVFS)技术降低电子设备的功耗；为了实现DVFS需要确定电子设备的配置参数，资源配置参数可以是指电子设备中与计算资源相关的参数；目前，对于不同应用程序的运行状态即电子设备的不同运行场景，资源配置参数通常是通过人工调试得到的，导致确定电子设备中不同运行场景的配置参数的效率较低。

因此，对于电子设备的不同运行场景，如何提高确定资源配置参数的效率为一个亟需解决的问题。

发明内容

本申请提供了一种确定资源配置参数的方法与电子设备，能够提高确定资源配置参数的效率。

第一方面，提供了一种确定资源配置参数的方法，应用于电子设备，包括：

检测所述电子设备中应用程序的运行状态，得到第一场景特征，所述第一场景特征包括指示第一应用程序所需的计算资源的信息与指示第二应用程序所需的计算资源的信息，所述第一应用程序是指所述电子设备中后台运行的应用程序，所述第二应用程序是指所述电子设备中当前正在运行的应用程序；

根据所述第一场景特征得到第一场景标识；

根据所述第一场景标识与资源配置参数映射表，得到第一资源配置参数，其中，所述第一资源配置参数与所述第一场景标识相对应，所述资源配置参数映射表中包括不同的场景标识与所述场景标识对应的最优资源配置参数，所述最优资源配置参数是通过强化学习模型得到的，所述最优配置参数是指使得所述电子设备的性能参数大于第一预设阈值且功耗参数小于第二预设阈值的资源配置参数。

应理解，第一应用程序与第二应用程序是指具有人工智能算法需求的应用程序，例如，第一应用程序与第二应用程序中可以运行神经网络的相关算法。

还应理解，第一场景特征可以是一组向量数据；该向量数据中包括用于指示正在运行的应用程序所需的计算资源的信息与后台应用程序的计算资源的信息。

可选地，资源配置参数可以包括但不限于：

电压参数、处理器的频率、处理器的开关、切核参数或者百分比等参数；

其中，电压参数可以用于指示电子设备中应用程序在某一运行场景对应的电压值；处理器的频率可以用于指示电子设备中应用程序在某一运行场景对应的处理器的运算频率；比如，处理器(例如，中央处理器或者图形处理器)中的某一核的运算频率；处理器的开关可以用于指示是否使用处理器中的核；切核参数用于指示处理器中运行核的参数；百分比用于指示处理器的频率的使用率大小。

应理解，强化学习模型又可以称为评价学习模型；在强化学习模型中通过学习策略可以达成回报最大化或者实现特定目标。通过强化学习模型可以高效地搜索出电子设备中，每个场景特征对应的最优资源配置参数，实现高效地确定电子设备的不同运行场景对应的资源配置参数。

在本申请的实施例中，可以基于强化学习模型得到不同运行场景对应的最优资源配置参数；由场景特征对应的场景标识与场景特征对应的最优资源配置参数可以得到资源配置参数映射表；通过检测电子设备中当前的应用程序的运行状态，可以得到第一场景特征；根据第一场景特征可以得到第一场景标识；根据第一场景标识与资源配置参数映射表，得到第一资源配置参数，即得到第一场景特征对应的最优资源配置参数；在本申请的实施例中，由于通过强化学习模型去搜索不同场景特征的最优资源配置参数，即便是在数据量较大的搜索空间中，强化学习模型也可以高效地搜索出最优资源配置参数；因此，通过是本申请实施例的确定资源配置参数的方法，对于电子设备的不同运行场景，能够提高确定资源配置参数的效率。

结合第一方面，在第一方面的某些实现方式中，所述强化学习模型包括动作选择网络、性能网络与功耗网络；所述强化学习模型是使用以下训练方法得到的：

获取样本数据，所述样本数据中包括样本资源配置参数、样本功耗参数与样本性能参数，所述样本功耗参数是指所述样本资源配置参数对应的功耗参数，所述样本性能参数是指所述样本资源配置参数对应的性能参数；

根据所述样本资源配置参数与所述样本功耗参数得到所述功耗网络，所述功耗网络用于根据输入的第一资源配置参数预测所述电子设备的功耗；

根据所述样本资源配置参数与所述样本性能参数得到所述性能网络，所述性能网络用于根据输入的第二资源配置参数预测所述电子设备的性能；

根据所述样本数据、所述性能网络与所述功耗网络训练初始动作选择网络，得到所述动作选择网络，所述动作选择网络用于输出参数动作，所述参数动作用于对输入所述动作选择网络的资源配置参数进行调整得到更新的资源配置参。

在本申请的实施例，强化学习模型的学习目标是动态的调整动作选择网络输出的参数动作，直至动作选择网络输出的参数动作对应的奖励值累积最大化；根据动作选择网络输出的参数动作可以对资源配置参数进行不断的迭代更新；通过强化学习模型搜索电子设备的每一个运行场景的最优资源参数的过程，可以看作是不断调整动作选择网络参数的过程；在动作选择网络完成训练后，即强化学习模型完成训练；强化学习完成训练可以是指动作选择网络输出的参数动作对应的奖励值累积最大化，基于该参数动作可以得到该运行场景的最优资源配置参数。

结合第一方面，在第一方面的某些实现方式中，所述根据所述样本数据、所述性能网络与所述功耗网络训练所述初始动作选择网络，得到所述动作选择网络，包括：

将所述样本资源配置参数、所述样本功耗参数与所述样本性能参数输入至所述初始动作选择网络，得到第一参数动作；

根据所述第一参数动作对所述样本资源配置参数进行调整得到更新后的资源配置参数；

将所述更新后的资源配置参数输入至所述性能网络，得到预测性能参数；

将所述更新后的资源配置参数输入至所述功耗网络，得到预测功耗参数；

根据所述更新后的资源配置参数、所述预测性能参数与所述功耗参数对所述初始动作选择网络的参数进行迭代更新，得到所述动作选择网络。

可选地，在本申请的实施例中，可以通过Q-learning算法对动作选择网络的参数进行更新迭代，使得动作选择网络收敛。

应理解，Q-learning算法定义了一个Q值，用来衡量当下状态和执行某动作后的未来奖励期望，进而通过神经网络来模拟Q值，得到类似于r/A的梯度信息。同时，在强化学习模型中可以加入随机单元，使得智能体以某个概率随机选择动作，防止Q值陷入局部最优。

可选地，可以通过奖惩函数对动作选择网络的参数进行更新迭代，使得动作选择网络收敛；其中，奖惩函数可以是指与性能参数、功耗参数相关的函数。

结合第一方面，在第一方面的某些实现方式中，还包括：

将所述更新后的资源配置参数发送至所述电子设备；

在所述电子设备根据所述更新后的资源配置参数运行后，获取所述电子设备的目标功耗参数与目标性能参数；

根据所述目标性能参数对所述性能网络的参数进行调整；

根据所述目标功耗参数对所述功耗网络的参数进行调整；

根据所述更新后的资源配置参数、所述目标性能参数与所述目标功耗参数对所述动作选择网络的参数进行调整。

应理解，上述目标性能参数与目标功耗参数可以是指电子设备根据更新后的资源配置参数运行后的实际性能参数与实现功耗参数。

在本申请的实施例中，可以根据用户的数据对强化学习模型进行进一步地在线训练；由于不同用户的在使用电子设备时，会具有不同的用户行为习惯；根据用户数据对强化学习进行在线训练，可以得到满足符合用户特性的强化学习模型；从而能够在高效地确定电子设备的资源配置参数的同时，针对不同的用户得到符合用户使用电子设备的行为习惯的强化学习模型。

结合第一方面，在第一方面的某些实现方式中，所述最优资源配置参数是根据所述动作选择网络输出的参数动作得到的。

结合第一方面，在第一方面的某些实现方式中，所述根据所述第一场景特征得到第一场景标识，包括：

将所述第一场景特征输入至分类模型，得到所述第一场景标识，所述分类模型用于预测不同场景特征对应的场景标识信息。

获取预设的场景特征列表；

将所述第一场景特征与所述预设的场景特征列表中的场景特征进行匹配，得到目标场景特征，所述目标场景特征是指所述预设的场景特征列表中与所述第一场景特征相似度最高的场景特征；

根据所述目标场景特征的标识信息得到所述第一场景标识。

结合第一方面，在第一方面的某些实现方式中，所述指示第一应用程序所需的计算资源的信息包括所述第一应用程序的类型信息和/或所述第一应用程序的状态信息，所述类型信息包括图像、视频或者语音，所述状态信息包括激活状态或者休眠状态。

结合第一方面，在第一方面的某些实现方式中，所述指示第二应用程序所需的计算资源的信息包括所述第二应用程序运行的神经网络模型的参数信息。

结合第一方面，在第一方面的某些实现方式中，所述参数信息包括以下至少一项：

所述神经网络模型的数量、所述神经网络的层数、所述神经网络的计算力或者所述神经网络的类型。

结合第一方面，在第一方面的某些实现方式中，在所述第二应用程序为用于图像处理的应用程序时，所述指示第二应用程序所需的计算资源的信息还包括获取图像的分辨率的信息。

可选地，电子设备后台运行的应用程序为录音应用程序；正在运行的应用程序为相机应用程序的拍照模式；则电子设备的第一场景特征可以包括录音应用程序的类型、或者状态信息与相机应用程序的拍照模式对应的用于图像处理的神经网络的参数与获取图像的分辨率大小；神经网络的参数包括：神经网络的层数、计算力(flops)、神经网络的类型等。

第二方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行：

根据所述第一场景特征得到第一场景标识；

结合第二方面，在第二方面的某些实现方式中，所述强化学习模型包括动作选择网络、性能网络与功耗网络；所述强化学习模型是使用以下训练方法得到的：

结合第二方面，在第二方面的某些实现方式中，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行：

将所述更新后的资源配置参数发送至所述电子设备；

根据所述目标性能参数对所述性能网络的参数进行调整；

根据所述目标功耗参数对所述功耗网络的参数进行调整；

结合第二方面，在第二方面的某些实现方式中，所述最优资源配置参数是根据所述动作选择网络输出的参数动作得到的。

结合第二方面，在第二方面的某些实现方式中，所述根据所述第一场景特征得到第一场景标识，包括：

获取预设的场景特征列表；

根据所述目标场景特征的标识信息得到所述第一场景标识。

结合第二方面，在第二方面的某些实现方式中，所述指示第一应用程序所需的计算资源的信息包括所述第一应用程序的类型信息和/或所述第一应用程序的状态信息，所述类型信息包括图像、视频或者语音，所述状态信息包括激活状态或者休眠状态。

结合第二方面，在第二方面的某些实现方式中，所述指示第二应用程序所需的计算资源的信息包括所述第二应用程序运行的神经网络模型的参数信息。

结合第二方面，在第二方面的某些实现方式中，所述参数信息包括以下至少一项：

结合第二方面，在第二方面的某些实现方式中，在所述第二应用程序为用于图像处理的应用程序时，所述指示第二应用程序所需的计算资源的信息还包括获取图像的分辨率的信息。

第三方面，提供一种电子设备，包括用于执行第一方面或第一方面中的任一种方法的模块/单元。

第四方面，提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器与显示屏；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行第一方面或者第一方面中的任一种方法。

第五方面，提供了一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行第一方面或者第一方面中的任一种方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面或者第一方面中的任一种方法。

第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面或者第一方面中的任一种方法。

在本申请的实施例中可以基于强化学习模型得到不同运行场景对应的最优资源配置参数；由场景特征对应的场景标识与场景特征对应的最优资源配置参数可以得到资源配置参数映射表；通过检测电子设备中当前的应用程序的运行状态，可以得到第一场景特征；根据第一场景特征可以得到第一场景标识；根据第一场景标识与资源配置参数映射表，得到第一资源配置参数，即得到第一场景特征对应的最优资源配置参数；在本申请的实施例中，由于通过强化学习模型去搜索不同场景特征的最优资源配置参数，即便是在数据量较大的搜索空间中，强化学习模型也可以高效地搜索出最优资源配置参数；因此，通过是本申请实施例的确定资源配置参数的方法，对于电子设备的不同运行场景，能够提高确定资源配置参数的效率。

附图说明

图1是本申请实施例提供的一种强化学习模型的示意图；

图2是一种适用于本申请的电子设备的硬件系统的示意图；

图3是一种适用于本申请实施例的系统架构的示意图；

图4是本申请实施例提供的应用场景的示意图；

图5是本申请实施例提供的应用场景的示意性流程图；

图6是本申请实施例提供的确定资源配置参数的方法的示意图；

图7是本申请实施例提供的确定资源配置参数的方法的示意图；

图8是本申请实施例提供的强化学习模型的训练方法的示意图；

图9是本申请实施例提供的强化学习模型的示意图；

图10是本申请实施例提供的在线训练强化学习模型的示意图；

图11是一种适用于本申请实施例的电子设备的结构示意图；

图12是一种适用于本申请实施例的电子设备的结构示意图。

具体实施方式

在本申请的实施例中，以下术语“第一”、“第二”、“第三”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

为了便于对本申请实施例的理解，首先对本申请实施例中涉及的相关概念进行简要说明。

1、动态电压频率调整(dynamic voltage and frequency scaling，DVFS)

动态电压频率调整是指根据芯片所运行的应用程序对计算能力的不同需要，动态调节芯片的运行频率和电压(例如，对于同一芯片，频率越高，需要的电压也越高)，从而达到节能的目的。

2、强化学习模型

强化学习(reinforcement learning,RL)模型又可以称为评价学习模型，是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

例如，图1所示的为强化学习模型的结构示意图；强化学习模型把学习看作试探评价过程，智能体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(例如，奖或者惩)反馈给智能体，智能体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大；选择的动作不仅影响当前强化值，而且影响环境下一时刻的状态及最终的强化值。

应理解，强化学习模型学习的目标是动态地调整参数，以达到强化信号最大。例如，可以使用Q-learning算法动态调整强化学习模型的参数；Q-learning算法定义了一个Q值，用来衡量当下状态和执行某动作后的未来奖励期望，进而通过神经网络来模拟Q值，得到类似于r/A的梯度信息。同时，在强化学习模型中可以加入随机单元，使得智能体以某个概率随机选择动作，防止Q值陷入局部最优。

3、回归分析(regression analysis)

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

4、分类模型

分类是寻找一个函数，当输入一个对象，输出为该对象所属的类别。

5、神经网络

神经网络是指将多个单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入；每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

6、全连接神经网络

全连接神经网络又可以称为深度神经网络(deep neural network，DNN)或者多层神经网络，可以理解为是具有多层隐含层的神经网络。按照不同层的位置对全连接神经网络进行划分，全连接神经网络内部的神经网络可以分为三类：输入层，隐含层，输出层；通常，第一层是输入层，最后一层是输出层，中间的层数都是隐含层；层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

全连接神经网络的工作原理可以通过如下线性关系表达式表示：y＝a(w·x+b)；其中，x表示输入向量，y表示输出向量，b表示偏移向量，w表示权重矩阵(也称为系数)，a()表示激活函数。每一层是对输入向量x经过线性表达式的操作得到输出向量y。

7、反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

下面将结合附图，对本申请实施例中确定资源配置参数的方法与电子设备进行详细描述。

图2示出了一种适用于本申请的电子设备的硬件系统。

电子设备100可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、投影仪等等，本申请实施例对电子设备100的具体类型不作任何限制。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

需要说明的是，图2所示的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图2所示的部件更多或更少的部件，或者，电子设备100可以包括图2所示的部件中某些部件的组合，或者，电子设备100可以包括图2所示的部件中某些部件的子部件。图2示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。例如，处理器110可以包括以下处理单元中的至少一个：应用处理器(application processor，AP)、调制解调处理器、图形处理器(graphics processing unit，GPU)、图像信号处理器(image signal processor，ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor，DSP)、基带处理器、神经网络处理器(neural-network processing unit，NPU)。其中，不同的处理单元可以是独立的器件，也可以是集成的器件。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

示例性地，处理器110可以用于执行本申请实施例的确定资源配置参数的方法；例如，检测电子设备中应用程序的运行状态，得到第一场景特征，第一场景特征包括第一特征与第二特征，第一特征用于指示第一应用程序所需的计算资源，第二特征用于指示第二应用程序所述的计算资源，第一应用程序是指电子设备中后台运行的应用程序，第二应用程序是指电子设备中当前正在运行的应用程序；根据第一场景特征得到第一场景标识；根据第一场景标识与资源配置参数映射表，得到第一资源配置参数，其中，第一资源配置参数与第一场景标识相对应，资源配置参数映射表中包括不同的场景标识与场景标识对应的最优资源配置参数，最优资源配置参数是通过强化学习模型得到的，最优配置参数是指使得电子设备的性能参数大于第一预设阈值且功耗参数小于第二预设阈值的配置参数。

图2所示的各模块间的连接关系只是示意性说明，并不构成对电子设备100的各模块间的连接关系的限定。可选地，电子设备100的各模块也可以采用上述实施例中多种连接方式的组合。

电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等器件实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

电子设备100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194可以用于显示图像或视频。

电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝(red green blue，RGB)，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3和MPEG4。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x轴、y轴和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。例如，当快门被按下时，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航和体感游戏等场景。

加速度传感器180E可检测电子设备100在各个方向上(一般为x轴、y轴和z轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。加速度传感器180E还可以用于识别电子设备100的姿态，作为横竖屏切换和计步器等应用程序的输入参数。

距离传感器180F用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，例如在拍摄场景中，电子设备100可以利用距离传感器180F测距以实现快速对焦。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现解锁、访问应用锁、拍照和接听来电等功能。

触摸传感器180K，也称为触控器件。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，并且与显示屏194设置于不同的位置。

通过动态电压频率调整(dynamic voltage and frequency scaling，DVFS)技术可以降低电子设备的功耗；为了实现DVFS需要确定电子设备的配置参数，配置参数可以是指电子设备中与电压或者频率相关的参数；目前，对于不同应用程序的运行状态即电子设备的不同运行场景，配置参数通常是通过人工调试得到的，导致确定电子设备中不同运行场景的配置参数的效率较低。

有鉴于此，本申请提供了一种确定资源配置参数的方法与电子设备，在本申请的实施例中可以基于强化学习模型得到不同运行场景对应的最优资源配置参数；由场景特征对应的场景标识与场景特征对应的最优资源配置参数可以得到资源配置参数映射表；通过检测电子设备中当前的应用程序的运行状态，可以得到第一场景特征；根据第一场景特征可以得到第一场景标识；根据第一场景标识与资源配置参数映射表，得到第一资源配置参数，即得到第一场景特征对应的最优资源配置参数；在本申请的实施例中，由于通过强化学习模型去搜索不同场景特征的最优资源配置参数，即便是在数据量较大的搜索空间中，强化学习模型也可以高效地搜索出最优资源配置参数；因此，通过是本申请实施例的确定资源配置参数的方法，对于电子设备的不同运行场景，能够提高确定资源配置参数的效率。

图3所示是本申请实施例提供了一种系统架构200。该系统架构包括执行设210、电子设备220与电子设备230，其中，电子设备220和电子设备230可以通过通信网络与执行设备210连接。

示例性地，执行设备210可以由一个或多个服务器实现。

可选的，执行设备210可以与其它计算设备配合使用，例如：数据存储器、路由器、负载均衡器等设备。执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以获取样本数据执行对强化学习模型的。

需要说明的是，上述执行设备210也可以称为云端设备，此时执行设备210可以部署在云端。

可选地，用户可以操作各自的用户设备(例如，电子设备220和电子设备230)与执行设备210进行交互。每个电子设备可以表示任何计算设备，例如，个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

可选地，每个用户的电子设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

示例性地，电子设备220、电子设备230可以从执行设备210获取到场景标识与资源配置参数的映射表的相关参数，将映射表部署在电子设备220、电子设备230上，利用该映射表确定电子设备在不同运行场景的最优资源配置参数等。

例如，如图4所示，电子设备中可以包括场景标识与资源配置参数的映射表；根据电子设备中应用程序的不同运行场景，可以确定电子设备中应用程序的运行场景对应的场景标识；根据场景标识与映射表，可以确定该场景标识对应的资源配置参数，即该场景标识对应的最优资源配置参数；比如，根据场景标识1可以从场景标识与资源配置参数的映射表中确定资源配置参数A；根据场景标识2可以从场景标识与资源配置参数的映射表中确定资源配置参数B；根据场景标识3可以从场景标识与资源配置参数的映射表中确定资源配置参数C。

示例性地，电子设备中应用程序的不同运行场景包括指电子设备中后台运行的应用程序的信息与正在运行的应用程序的信息。

可选地，场景标识可以是通过场景特征得到的；场景特征可以包括设备中后台运行应用程序所需的计算资源的信息与正在运行应用程序所需的计算资源的信息。

例如，后台运行程序所需的计算资源信息可以是根据以下信息得到的：

后台应用程序的类型(例如，音频、视频或者图像等)、或者状态(例如，休眠或者激活等)等得到。

例如，正在运行应用程序所需的计算资源的信息可以是根据以下信息得到的：

正在运行应用程序对应的用于图像处理的神经网络的参数与获取图像的分辨率大小；神经网络的参数包括：神经网络的层数、计算力(flops)、神经网络的类型等。

应理解，在本申请的实施例中，后台应用程序与正在运行的应用程序可以是指具有人工智能算法需要的应用程序；例如，具有人工智能需要的应用程序可以是指该应用程序中的运行的算法包括神经网络算法。

在一个示例中，电子设备后台运行的应用程序为录音应用程序；正在运行的应用程序为相机应用程序的拍照模式；则电子设备的场景特征可以包括录音应用程序的类型、或者状态信息与相机应用程序的拍照模式对应的用于图像处理的神经网络的参数与获取图像的分辨率大小；神经网络的参数包括：神经网络的层数、计算力(flops)、神经网络的类型等。

示例性地，资源配置参数可以包括但不限于：电压参数、处理器的频率、处理器的开关、切核参数或者百分比等参数。

其中，电压参数可以用于指示电子设备中应用程序在某一运行场景对应的电压值；处理器的频率可以用于指示电子设备中应用程序在某一运行场景对应的处理器的运算频率；比如，处理器(例如，中央处理器或者图形处理器)中的某个核的运算频率；处理器的开关可以用于指示是否使用处理器中的核；切核参数用于指示处理器中运行核的参数；百分比用于指示处理器的频率的使用率大小。

下面结合图5对本申请实施例提供确定资源配置参数的应用场景进行举例说明。

示例性地，本申请实施例中确定资源配置参数的方法可以应用于确定电子设备中具有人工智能需求的应用程序的资源配置参数；比如，如图5中的(a)所示相机应用程序；在电子设备开启相机应用程序的拍照模式时，如图5中的(b)所示，可以根据相机应用程序的拍照模式所需的计算资源与电子设备当前后台应用程序所需的计算资源确定电子设备的场景特征；根据电子设备的场景特征可以得到场景标识；根据场景标识可以从场景标识与资源配置参数映射表中确定该场景标识对应的最优配置参数。

应理解，上述为对应用场景的举例说明，并不对本申请的应用场景作任何限定。

下面结合图6与图10对本申请实施例提供的确定资源配置参数的方法进行详细描述。

图6是本申请实施例提供的确定资源配置参数的方法的示意图。该方法300包括步骤S310至步骤S330，下面分别对步骤S310至步骤S330进行详细的描述。

应理解，图6所示的方法可以在如图2或者图3所示的电子设备中执行。

步骤S310、检测电子设备中应用程序的运行状态，得到第一场景特征。

其中，第一场景特征可以包括指示第一应用程序所需的计算资源的信息与指示第二应用程序所述的计算资源的信息；第一应用程序是指电子设备中后台的应用程序，第二应用程序是指电子设备中当前正在运行的应用程序。

应理解，第一应用程序与第二应用程序可以是指具有人工智能算法需求的应用程序；第一场景特征可以是一组向量数据；该向量数据中包括用于指示正在运行的应用程序所需的计算资源的信息与后台应用程序的计算资源的信息。

可选地，指示第一应用程序所需的计算资源的信息可以包括可以第一应用程序的类型信息和/或第一应用程序的状态信息；其中，类型信息可以包括图像、视频或者语音；状态信息可以包括激活状态或者休眠状态。

可选地，指示第二应用程序的计算资源的信息可以包括第二应用程序运行的神经网络模型的参数信息。

可选地，神经网络模型的参数信息包括以下至少一项：

神经网络模型的数量、神经网络的层数、神经网络的计算力、神经网络的类型。

可选地，在第二应用程序为用于图像处理的应用程序时，指示第二应用程序的计算资源的信息还可以包括获取图像的分辨率的信息。

在一个示例中，电子设备中后台的应用程序可以为录音应用程序，正在运行的应用程序可以为相机应用程序的录像模式，则电子设备的场景特征可以包括录音应用程序的类型(例如，音频)与状态信息(例如，休眠)，以及相机应用程序的录像模式对应的用于图像处理的神经网络的参数与获取图像的分辨率大小；神经网络的参数包括：神经网络的层数、计算力(flops)、神经网络的类型等。

应理解，对于第二应用程序的不同模式，由于运行时所选的模式不同，所需的计算资源的大小可以不同；因此，对于第二应用程序的不同模式，可以对应电子设备的不同场景特征。

步骤S320、根据第一场景特征得到第一场景标识。

可选地，可以将第一场景特征输入至分类模型，得到第一场景标识，分类模型用于预测不同场景特征对应的场景标识信息。

可选地，可以获取预设的场景特征列表；将第一场景特征与预设的场景特征列表中的场景特征进行匹配，得到目标场景特征，目标场景特征是指预设的场景特征列表中与第一场景特征相似度最高的场景特征；根据目标场景特征的标识信息得到所述第一场景标识。

例如，预设的场景特征列表中包括标识信息与场景向量；比如，场景1对应场景向量1；场景2对应场景向量2；…场景N对应场景向量N；将步骤S310得到的场景特征与场景特征列表中的场景向量进行匹配；比如，通过匹配确定与场景向量2的相似度最高，则该场景特征为场景2。

应理解，场景标识可以是任何标识信息；本申请对场景标识的具体表现形式不作任何限定。

步骤S330、根据所述第一场景标识与资源配置参数映射表，得到第一资源配置参数。

其中，第一资源配置参数与第一场景标识相对应，资源配置参数映射表中包括不同的场景标识与场景标识对应的最优资源配置参数，最优资源配置参数是通过强化学习模型得到的，最优配置参数是指使得电子设备的性能参数大于第一预设阈值且功耗参数小于第二预设阈值的配置参数。

示例性地，资源配置参数映射表可以是指如图4所示的场景标识与资源配置参数的映射表；该资源配置参数映射表是通过强化学习模型得到的；通过一个强化学习模型可以得到一个场景特征的最优配置参数，最优资源配置参数可以是指使得电子设备在该场景特征对应的场景下运行时，电子设备的性能参数大于第一预设值并且功耗参数小于第二预设阈值。

例如，性能参数可以包括帧率，或者时延等。

可选地，对于电子设备中图像处理的应用程序，性能参数可以是指应用程序的帧率。

可选地，对于电子设备中音频处理的应用程序，性能参数可以是指应用程序的时延。

例如，功耗参数可以包括消耗电压或者消耗功率等。

可选地，如图9所示，强化学习模型可以包括动作选择网络、性能网络与功耗网络；强化学习模型是使用以下训练方法得到的：

获取样本数据，样本数据中包括样本资源配置参数、样本功耗参数与样本性能参数；根据样本资源配置参数与样本功耗参数可以得到功耗网络，功耗网络可以用于根据输入的第一资源配置参数预测电子设备的功耗；根据样本资源配置参数与样本性能参数得到性能网络，性能网络可以用于根据输入的第二资源配置参数预测电子设备的性能；根据样本数据、性能网络与功耗网络训练初始动作选择网络，得到动作选择网络，动作选择网络可以用于输出参数动作，参数动作用于对输入动作选择网络的资源配置参数进行调整得到更新的资源配置参。

示例性地，资源配置参数可以包括但不限于：

可选地，可以将样本资源配置参数、样本功耗参数与样本性能参数输入至动作选择网络，得到第一参数动作；根据第一参数动作对样本资源配置参数进行调整得到更新后的资源配置参数；将更新后的资源配置参数输入至性能网络，得到预测性能参数；将更新后的资源配置参数输入至功耗网络，得到预测功耗参数；根据更新后的资源配置参数、预测性能参数与功耗参数对初始动作选择网络的参数进行迭代更新，得到动作选择网络。

应理解，上述样本资源配置参数可以是指于某一场景特征对应的样本资源配置参数、样本功耗参数与样本性能参数；对于不同的场景特征，资源配置参数可以不同；资源配置参数对应的功耗参数与性能参数也可以不同。

进一步地，可以根据用户数据对强化学习模型进行在线训练，从而得到满足符合用户特性的强化学习模型；具体步骤参见后续图10所示。

可选地，可以将更新后的资源配置参数发送至电子设备；在电子设备根据更新后的资源配置参数运行后，获取电子设备的目标功耗参数与目标性能参数；根据目标性能参数调整性能网络的参数；根据目标功耗参数调整功耗网络的参数；根据更新后的资源配置参数、目标性能参数与目标功耗参数对初始动作选择网络的参数进行迭代更新，得到动作选择网络。

应理解，上述目标性能参数与目标功耗参数可以是指电子设备根据更新后的资源配置参数运行后的实际性能参数与实现功耗参数；通过电子设备的实际性能参数与实现功耗参数可以对通过样本数据训练的强化学习模型的参数进行调整，使得训练后的强化学习模型更加符合用户对电子设备的行为习惯。

在本申请的实施例中，可以基于强化学习模型得到不同运行场景对应的最优资源配置参数；由场景特征对应的场景标识，与场景特征对应的最优资源配置参数可以得到资源配置参数映射表；通过检测电子设备中当前的应用程序的运行状态，可以得到第一场景特征；根据第一场景特征可以得到第一场景标识；根据第一场景标识与资源配置参数映射表，得到第一资源配置参数，即得到第一场景特征对应的最优资源配置参数；在本申请的实施例中，由于通过强化学习模型去搜索不同场景特征的最优资源配置参数，即便是在数据量较大的搜索空间中，强化学习模型也可以高效地搜索出最优资源配置参数；因此，通过是本申请实施例的确定资源配置参数的方法，对于电子设备的不同运行场景，能够提高确定资源配置参数的效率。

图7是本申请实施例提供的确定资源配置参数的方法的示意图。该方法400包括步骤S410至步骤S440，下面分别对步骤S410至步骤S440进行详细的描述。

步骤S410、对电子设备进行场景分析，生成场景特征。

示例性地，根据电子设备中的应用程序，可以得到电子设备中正在运行的应用程序所需的计算资源的信息与后台应用程序的计算资源的信息；根据正在运行的应用程序所需的计算资源的信息与后台应用程序的计算资源的信息可以生成电子设备当前的场景特征。

应理解，场景特征可以是一组向量数据；该向量数据中包括用于指示正在运行的应用程序所需的计算资源的信息与后台应用程序的计算资源的信息。

示例性地，对于电子设备中的后台应用程序，可以根据应用程序的类型和/或应用程序的状态指示后台应用程序所需的计算资源的信息；其中，类型可以包括但不限于：音频、视频或者图像；状态可以包括激活状态与休眠状态。

示例性地，对于电子设备中正在运行的应用程序，可以根据该应用程序中需要运行的AI算法确定正在运行的应用程序所需的计算资源；例如，根据应用程序运行所需的神经网络算法确定正在运行的应用程序所需的计算资源。

例如，可以根据正在运行的应用程序中所需的神经网络的参数确定正在运行的应用程序所需的计算资源；该神经网络的参数可以包括神经网络的层数、计算力(flops)、神经网络的类型等。

需要说明的是，对于正在运行应用程序中的不同模式，可以对应不同的所需计算资源。例如，对于相机应用程序中的拍照模式与录像模式，所需的计算资源可以不同；从而对应的电子设备的场景特征也可以不同。

在一个示例中，正在运行的应用程序可以是指相机应用程序，相机应用程序处于拍照模式，可以根据拍照模式中图像处理算法对应的神经网络模型数量，模型的层数，计算力，神经网络类型，获取图像的分辨率等构成场景特征中正在运行的应用程序的信息。

例如，电子设备中后台运行的应用程序为录音应用程序；正在运行的应用程序为相机应用程序的录像模式；则电子设备的场景特征可以包括录音应用程序的类型(例如，音频)、或者状态信息与相机应用程序的拍照模式对应的用于图像处理的神经网络的参数与获取图像的分辨率大小；神经网络的参数包括：神经网络的层数、计算力(flops)、神经网络的类型等。

步骤S420、根据场景特征确定场景标识。

可选地，可以将场景特征输入至预先训练的分类模型，分类模型可以根据输入的场景特征输出场景标识；例如，场景标识可以是指场景的ID。

可选地，可以将场景特征与场景特征列表进行匹配，得到场景特征与场景特征列表中相似度最高的场景特征的标识即为场景标识。

例如，场景特征列表中包括标识信息与场景向量；比如，场景1对应场景向量1；场景2对应场景向量2；…场景N对应场景向量N；将步骤S410得到的场景特征与场景特征列表中的场景向量进行匹配；比如，通过匹配确定与场景向量2的相似度最高，则该场景特征为场景2。

步骤S430、根据场景标识与映射表确定当前场景的最优资源配置参数。

示例性地，映射表可以是指如图4所示的场景标识与资源配置参数的映射表；该映射表是通过强化学习模型得到的；通过强化学习模型可以得到每个场景特征的最优配置参数，最优资源配置参数可以是指使得电子设备在该场景特征对应的场景下运行时，电子设备的性能参数大于第一预设值并且功耗参数小于第二预设阈值。

例如，性能参数可以包括帧率，或者时延等。

例如，功耗参数可以包括消耗电压或者消耗功率等。

应理解，强化学习模型又可以称为评价学习模型；在强化学习模型中，通过学习策略可以达成回报最大化或者实现特定目标；在本申请的实施例中，通过强化学习模型可以高效地搜索出每个场景特征对应的最优资源配置参数，实现高效地确定电子设备的不同运行场景对应的资源配置参数。

需要说明的是，强化学习模型与监督学习模型最大的区别在于，强化学习模型是没有监督学习已经准备好的训练数据的输出值，即强化学习模型在训练的过程中不具有目标真值。在强化学习的过程中，通过奖励值使得强化学习模型不断向用户给定的方向进行学习；比如，强化学习通过第一次学习得到的奖励值为1，通过第二次学习得到的奖励值为2，奖励值2大于奖励值1，则强化学习模型会朝着第二次学习的方向进行进一步学习，使得最终的输出满足预设条件从而完成学习。

需要说明的是，强化学习模型的构建过程与训练方法可以参见后续图8至图10所示。

步骤S440、将电子设备当前的资源配置参数调整至最优资源配置参数。

图8是本申请实施例提供的强化学习模型的训练方法。该训练方法500包括步骤S510至步骤S560，下面分别对步骤S510至步骤S560进行详细的描述。

步骤S510、获取第一样本资源配置参数、第二样本资源配置参数、样本性能数据与样本功耗数据。

其中，样本性能参数是指第一样本资源配置参数对应的性能参数；样本功耗参数是指第二样本资源配置参数对应的功耗参数；第一样本资源配置参数与第二样本资源配置参数可以全部相同或者部分相同。

示例性地，对于电子设备的某一运行场景，电子设备根据多组不同的第一样本资源配置参数，可以得到不同样本资源配置参数对应的性能参数，即得到样本性能数据。

例如，性能参数可以包括帧率，或者时延等。

示例性地，对于电子设备的某一运行场景，电子设备根据多组不同的第二样本资源配置参数可以得到不同资源配置参数对应的功耗参数，即得到功耗样本数据。

例如，功耗参数可以包括消耗电压或者消耗功率等。

步骤S520、根据第一样本资源配置参数与样本性能数据可以得到性能网络。

示例性地，可以根据不同的资源配置参数与不同的资源配置参数对应的性能参数，通过神经网络拟合方法得到性能网络；性能网络用于根据输入的资源配置参数输出该资源配置参数对应的性能参数。

步骤S530、根据第二样本资源配置参数与样本功耗数据可以得到功耗网络。

示例性地，可以根据不同的资源配置参数与不同的资源配置参数对应的功耗参数，通过神经网络拟合方法得到功耗网络；性能网络用于根据输入的资源配置参数输出该资源配置参数对应的功耗参数。

步骤S540、构建强化学习模型。

示例性地，强化学习的架构如图1所示；通过智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。本申请的实施例中，强化学习模型可以包括动作选择网络、功耗网络与性能网络，如图9所示；动作选择网络用于根据输入的资源配置参数、性能参数与功耗参数输出参数动作；根据参数动作对当前的资源配置参数进行参数调整可以得到更新的资源配置参数。性能网络与功耗网络可以是指如图1所示的环境，更新的资源配置参数可以是指如图1所示的状态；资源配置参数对应的性能参数与功耗参数可以是指如图1所示的奖惩。

例如，输入动作选择网络的数据为当前资源配置参数、与当前资源配置参数对应的性能参数、与当前资源配置参数对应的功耗参数；假设，当前资源配置参数中包括的GPU的频率为75Hz，参数选择网络输出的参数动作可以是指将GPU的频率升高/降低5Hz。

在本申请的实施例中，通过将一组资源配置参数、性能参数与功耗参数输入动作选择网络可以输出参数动作；基于参数动作可以生成一组新的资源配置参数，根据一组新的资源配置参数与功耗网络、性能网络可以得到一组新的资源配置参数对应的功耗与性能；通过生成的功耗与性能对一组新的资源配置参数进行评估，从而使得强化学习模组在电子设备的某一运行场景中搜索到最优的资源配置参数。

步骤S550、对强化学习模型进行离线训练。

应理解，强化学习的离线训练可以是指电子设备在离线的状态下，对强化学习模型进行训练。

在本申请的实施实施例中，强化学习模型中可以包括动作选择网络、性能网络与功耗网络；通过步骤S520与步骤S530可以得到预先训练的性能网络与预先训练的功耗网络；在步骤S550中可以对动作选择网络进行训练，使得动作选择网络的参数收敛，从而得到离线训练后的强化学习模型。

需要说明的是，在本申请的实施例，强化学习模型的学习目标是动态的调整动作选择网络输出的参数动作，直至动作选择网络输出的参数动作对应的奖励值累积最大化；根据动作选择网络输出的参数动作，可以对资源配置参数进行不断的迭代更新；通过强化学习模型搜索电子设备的每一个运行场景的最优资源参数的过程，可以看作是不断调整动作选择网络参数的过程；在动作选择网络完成训练后，即强化学习模型完成训练；强化学习模型完成训练可以看作是动作选择网络输出的参数动作对应的奖励值累积最大化，基于该参数动作可以得到该运行场景的最优资源配置参数。

可选地，对强化学习模型进行离线训练的过程可以是指在服务器中执行的；例如，可以是指如图3所示的执行设备210中执行的。

示例性地，在本申请的实施例中，可以通过Q-learning算法对动作选择网络的参数进行更新迭代，使得动作选择网络收敛。

示例性地，在本申请的实施例中，可以通过奖惩函数对动作选择网络的参数进行更新迭代，使得动作选择网络收敛；其中，奖惩函数可以是指与性能参数、功耗参数相关的函数。

例如，如图9所示，可以将第一资源配置参数、第一性能参数与第一功耗参数输入至动作选择网络；动作选择网络可以输出第一参数动作，根据第一资源配置参数与第一参数动作可以得到第二资源配置参数；将第二资源配置参数输入至功耗网络得到第二功耗参数；将第二资源配置参数输入至性能网络得到第二性参数；根据第二资源配置参数、第二性能参数与第二功耗参数对动作选择网络的参数进行调整；比如，可以根据Q-learning算法，或者，奖惩函数对动作选择网络的参数进行调整，使得动作选择网络收敛；当动作选择网络收敛时，根据动作选择网络输出的动作参数与当前的资源配置参数可以得到最优资源配置参数。

可选地，第一资源配置参数可是基于人工调试经验得到的资源配置参数。

在本申请的实施例中，对于电子设备的每个运行场景，在强化学习模型中可以通过功耗网络与性能网络的反馈，调整动作选择网络的参数，从而不断迭代地更新资源配置参数，直至得到最优资源配置参数；最优资源配置参数可以使得电子设备的性能大于第一预设阈值并且功耗小于第二预设阈值的资源配置参数，通过最优资源配置参数可以在满足电子设备中运行应用程序所需的计算资源的前提下，降低电子设备的功耗。

步骤S560、对强化学习模型进行在线训练。

示例性地，对强化学习模型的在线训练过程可以参见后续图10所示。

应理解，强化学习模型的在线训练可以是指电子设备在线的状态下，对强化学习模型进行训练。由于不同用户的在使用电子设备时，会具有不同的用户行为习惯(例如，用户数据)；根据用户数据对强化学习进行在线训练，可以得到满足符合用户特性的强化学习模型。

需要说明的是，对于电子设备中的一个运行场景，通过上述步骤S510至步骤S560可以得到该运行场景对应的最优资源配置参数；对于电子设备中的多个不同的运行场景，分别执行上述步骤S510至步骤S560，得到不同运行场景对应的电子设备的最优资源配置参数，从而得到场景标识与资源配置参数的映射表。

在本申请的实施例中，由于通过强化学习模型去搜索不同场景特征的最优资源配置参数，即便是在数据量较大的搜索空间中，强化学习模型也可以高效地搜索出最优资源配置参数；因此，通过是本申请实施例的确定资源配置参数的方法，对于电子设备的不同运行场景，能够提高确定资源配置参数的效率。

图10是本申请实施例提供的强化模型进行在线训练的方法示意图。该方法600包括步骤S610至步骤S650，下面分别对步骤S610至步骤S650进行详细的描述。

应理解，电子设备可以是指如图2所示的电子设备220或者电子设备230。

步骤S610、执行设备向电子设备发送资源配置参数。

例如，执行设备可以是指服务器，电子设备可以是指手机；针对手机中的某一运行场景，服务器将该场景的资源配置参数发送至手机，该资源配置参数可以是指场景对应的资源配置参数的搜索空间中任意一组资源配置参数。

步骤S620、电子设备向执行设备发送性能参数与功耗参数。

例如，手机在该运行场景中根据步骤S610中的资源配置参数进行运行，可以得到该资源配置参数对应的性能参数与功耗参数。

步骤S630、执行设备根据电子设备反馈的性能参数与功耗参数调整强化学习模型。

示例性地，服务器中资源配置参数A对应的性能参数为B1，功耗参数为C1；将资源配置参数A发送至手机中，得到手机反馈的性能参数为B2，功耗参数为C2；若性能参数B1与性能参数B2不相等，则可以根据性能参数B2与资源配置参数A对强化学习模型中性能网络的参数进行调整；类似地，若功耗参数C1与功耗参数C2不相等，则可以根据功耗参数C2与资源配置参数A对强化学习模型中功耗网络的参数进行调整。

可选地，可以根据资源配置参数A、性能参数为B2与功耗参数为C2对动作选择网络进行调整，得到优化后的强化学习模型。

步骤S640、执行设备向电子设备发送优化后的资源配置参数。

应理解，由于通过步骤S630对强化学习模型进行了调整，因此可以通过调整后的强化学习模型，得到优化后的资源配置参数；该优化后的资源配置参数对应更新后的性能参数与更新后的功耗参数。

步骤S650、电子设备向执行设备发送更新的性能参数与更新的功耗参数。

其中，更新的性能参数与更新的功耗参数是指电子设备运行更新的资源配置参数得到的。

示例性地，执行设备在接收到更新的性能参数与更新的功耗参数后，可以根据更新的性能参数与更新的功耗参数与强化学习模型输出的性能参数与功耗参数进行比较，从而确定调整后的强化学习模型是否满足用户的行为习惯；比如，若电子设备返回更新的性能参数与调整后的性能网络输出的性能参数相同；更新的功耗参数与调整后的功耗网络输出的功耗参数相同，则表示调整后的强化学习模型满足用户的行为习惯，即强化学习模型完成在线训练。

在本申请的实施例中，可以根据用户数据对强化学习模型进行进一步地在线训练；由于不同用户使用电子设备时，会具有不同的用户行为习惯；根据用户数据对强化学习进行在线训练，可以得到满足符合用户特性的强化学习模型；从而能够在高效地确定电子设备的资源配置参数的同时，针对不同的用户得到符合用户使用电子设备的行为习惯的强化学习模型。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

上文结合图1至图10详细描述了本申请实施例提供的确定资源配置参数的方法；下面将结合图11与图12详细描述本申请的装置实施例。应理解，本申请实施例中的装置可以执行前述本申请实施例的各种方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图11是本申请实施例提供的一种电子设备的结构示意图。该电子设备800包括检测模块810与处理模块820。

其中，检测模块810用于检测所述电子设备中应用程序的运行状态，得到第一场景特征，所述第一场景特征包括指示第一应用程序所需的计算资源的信息与指示第二应用程序所需的计算资源的信息，所述第一应用程序是指所述电子设备中后台运行的应用程序，所述第二应用程序是指所述电子设备中当前正在运行的应用程序；所述处理820模块用于根据所述第一场景特征得到第一场景标识；根据所述第一场景标识与资源配置参数映射表，得到第一资源配置参数，其中，所述第一资源配置参数与所述第一场景标识相对应，所述资源配置参数映射表中包括不同的场景标识与所述场景标识对应的最优资源配置参数，所述最优资源配置参数是通过强化学习模型得到的，所述最优配置参数是指使得所述电子设备的性能参数大于第一预设阈值且功耗参数小于第二预设阈值的资源配置参数。

可选地，作为一个实施例，所述强化学习模型包括动作选择网络、性能网络与功耗网络；所述强化学习模型是使用以下训练方法得到的：

可选地，作为一个实施例，所述处理模块820具体用于：

可选地，作为一个实施例，所述处理模块820还用于：

将所述更新后的资源配置参数发送至所述电子设备；

根据所述目标性能参数对所述性能网络的参数进行调整；

根据所述目标功耗参数对所述功耗网络的参数进行调整；

可选地，作为一个实施例，所述最优资源配置参数是根据所述动作选择网络输出的参数动作得到的。

可选地，作为一个实施例，所述处理模块820具体用于：

获取预设的场景特征列表；

根据所述目标场景特征的标识信息得到所述第一场景标识。

可选地，作为一个实施例，所述指示第一应用程序所需的计算资源的信息包括所述第一应用程序的类型信息和/或所述第一应用程序的状态信息，所述类型信息包括图像、视频或者语音，所述状态信息包括激活状态或者休眠状态。

可选地，作为一个实施例，所述指示第二应用程序所需的计算资源的信息包括所述第二应用程序运行的神经网络模型的参数信息。

可选地，作为一个实施例，所述参数信息包括以下至少一项：

可选地，作为一个实施例，在所述第二应用程序为用于图像处理的应用程序时，所述指示第二应用程序所需的计算资源的信息还包括获取图像的分辨率的信息。

需要说明的是，上述电子设备800以功能模块的形式体现。这里的术语“模块”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“模块”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图12示出了本申请提供的一种电子设备的结构示意图。图12中的虚线表示该单元或该模块为可选的；电子设备900可以用于实现上述方法实施例中描述的方法。

电子设备900包括一个或多个处理器901，该一个或多个处理器901可支持电子设备900实现方法实施例中的确定资源配置参数的方法。处理器901可以是通用处理器或者专用处理器。例如，处理器901可以是中央处理器(central processing unit，CPU)、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specificintegrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，如分立门、晶体管逻辑器件或分立硬件组件。

处理器901可以用于对电子设备900进行控制，执行软件程序，处理软件程序的数据。电子设备900还可以包括通信单元905，用以实现信号的输入(接收)和输出(发送)。

例如，电子设备900可以是芯片，通信单元905可以是该芯片的输入和/或输出电路，或者，通信单元905可以是该芯片的通信接口，该芯片可以作为终端设备或其它电子设备的组成部分。

又例如，电子设备900可以是终端设备，通信单元905可以是该终端设备的收发器，或者，通信单元905可以是该终端设备的收发电路。

电子设备900中可以包括一个或多个存储器902，其上存有程序904，程序904可被处理器901运行，生成指令903，使得处理器901根据指令903执行上述方法实施例中描述的确定资源配置参数的方法。

可选地，存储器902中还可以存储有数据。

可选地，处理器901还可以读取存储器902中存储的数据，该数据可以与程序904存储在相同的存储地址，该数据也可以与程序904存储在不同的存储地址。

可选地，处理器901和存储器902可以单独设置，也可以集成在一起；例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

例性地，存储器902可以用于存储本申请实施例中提供的确定资源配置参数的方法的相关程序904，处理器901可以用于在执行确定资源配置参数时调用存储器902中存储的确定资源配置参数的方法的相关程序904，执行本申请实施例的确定资源配置参数的方法；例如，检测所述电子设备中应用程序的运行状态，得到第一场景特征，所述第一场景特征包括指示第一应用程序所需的计算资源的信息与指示第二应用程序所需的计算资源的信息，所述第一应用程序是指所述电子设备中后台运行的应用程序，所述第二应用程序是指所述电子设备中当前正在运行的应用程序；根据所述第一场景特征得到第一场景标识；根据所述第一场景标识与资源配置参数映射表，得到第一资源配置参数，其中，所述第一资源配置参数与所述第一场景标识相对应，所述资源配置参数映射表中包括不同的场景标识与所述场景标识对应的最优资源配置参数，所述最优资源配置参数是通过强化学习模型得到的，所述最优配置参数是指使得所述电子设备的性能参数大于第一预设阈值且功耗参数小于第二预设阈值的资源配置参数。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器901执行时实现本申请中任一方法实施例的方法。

该计算机程序产品可以存储在存储器902中，例如是程序904，程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的确定资源配置参数的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器，或者，存储器902可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmableROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamicRAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的电子设备的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种确定资源配置参数的方法，其特征在于，所述方法应用于电子设备，包括：

根据所述第一场景特征得到第一场景标识；

2.如权利要求1所述的方法，其特征在于，所述强化学习模型包括动作选择网络、性能网络与功耗网络；所述强化学习模型是使用以下训练方法得到的：

根据所述样本数据、所述性能网络与所述功耗网络训练初始动作选择网络，得到所述动作选择网络，所述动作选择网络用于输出参数动作，所述参数动作用于对输入所述动作选择网络的第三资源配置参数进行调整得到第四资源配置参。

3.如权利要求2所述的方法，其特征在于，所述根据所述样本数据、所述性能网络与所述功耗网络训练所述初始动作选择网络，得到所述动作选择网络，包括：

4.如权利要求3所述的方法，其特征在于，还包括：

将所述更新后的资源配置参数发送至所述电子设备；

根据所述目标性能参数对所述性能网络的参数进行调整；

根据所述目标功耗参数对所述功耗网络的参数进行调整；

5.如权利要求2至4中任一项所述的方法，其特征在于，所述最优资源配置参数是根据所述动作选择网络输出的参数动作得到的。

6.如权利要求1至5中任一项所述的方法，其特征在于，所述根据所述第一场景特征得到第一场景标识，包括：

7.如权利要求1至5中任一项所述的方法，其特征在于，所述根据所述第一场景特征得到第一场景标识，包括：

获取预设的场景特征列表；

根据所述目标场景特征的标识信息得到所述第一场景标识。

8.如权利要求1至7中的任一项所述的方法，其特征在于，所述指示第一应用程序所需的计算资源的信息包括所述第一应用程序的类型信息和/或所述第一应用程序的状态信息，其中，所述类型信息包括图像、视频或者语音，所述状态信息包括激活状态或者休眠状态。

9.如权利要求1至8中任一项所述的方法，其特征在于，所述指示第二应用程序所需的计算资源的信息包括所述第二应用程序运行的神经网络模型的参数信息。

10.如权利要求9所述的方法，其特征在于，所述神经网络模型的参数信息包括以下至少一项：

11.如权利要求9或10所述的方法，其特征在于，在所述第二应用程序为用于图像处理的应用程序时，所述指示第二应用程序所需的计算资源的信息还包括获取图像的分辨率的信息。

12.一种电子设备，其特征在于，包括：

一个或多个处理器和存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至11中任一项所述的方法。

13.一种芯片系统，其特征在于，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储了计算机程序，当所述计算机程序被处理器执行时，使得处理器执行权利要求1至11中任一项所述方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码被处理器执行时，使得处理器执行权利要求1至11中任一项所述的方法。