CN115169251A

CN115169251A - 一种风扇转速控制方法、装置及设备

Info

Publication number: CN115169251A
Application number: CN202211084955.0A
Authority: CN
Inventors: 王明辉
Original assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Current assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-10-11
Anticipated expiration: 2042-09-06
Also published as: CN115169251B

Abstract

本申请提供一种风扇转速控制方法、装置及设备，该方法包括：将检测状态数据输入给目标动作模型，得到每个风扇对应的目标占空比；基于风扇对应的目标占空比确定风扇的转速；目标动作模型的训练过程包括：将样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将样本状态数据和样本占空比特征向量输入给初始评价模型，得到样本状态数据对应的状态动作值；基于样本状态数据确定奖惩参数值；基于奖惩参数值和状态动作值对初始动作模型和初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型。通过本申请技术方案，有效控制每个风扇的转速，降低风扇的功耗和噪音。

Description

一种风扇转速控制方法、装置及设备

技术领域

本申请涉及通信技术领域，尤其涉及一种风扇转速控制方法、装置及设备。

背景技术

网络设备（如路由器、交换机等）可以包括多个单板（如主控板、接口板、业务板等），在这些单板的工作过程中，不同单板的功耗差异较大，如单板的功耗可能只有100W，单板的功耗也可能超过600W，当多个单板均以较大功耗工作时，会导致网络设备的温度很高，从而导致网络设备容易出现故障。

为了对网络设备进行降温，通常会在网络设备部署多个风扇，若风扇转速越大，则网络设备的降温效果越好，若风扇转速越小，则网络设备的降温效果越差。在风扇转速越大时，风扇噪声越大，且风扇功耗越大，造成能源的浪费。在风扇转速越小时，风扇噪声越小，且风扇功耗越小，减少能源浪费。

综上可以看出，风扇转速越大时，网络设备的降温效果越好，但风扇噪声越大且风扇功耗越大，风扇转速越小时，网络设备的降温效果越差，但风扇噪声越小且风扇功耗越小，因此，需要控制风扇转速，在避免网络设备的温度过高的基础上，保证风扇噪声较小，且风扇功耗较小，达到节能降噪的目的。

但是，应该如何控制风扇转速，才能够避免网络设备的温度过高，且保证风扇噪声较小、风扇功耗较小，在相关技术中并没有有效的实现方式。

发明内容

本申请提供一种风扇转速控制方法，所述方法包括：

获取网络设备对应的检测状态数据；其中，所述网络设备包括多个风扇；

将所述检测状态数据输入给已训练的目标动作模型，得到每个风扇对应的目标占空比；其中，不同风扇对应的目标占空比相同或者不同；

针对每个风扇，基于所述风扇对应的目标占空比确定所述风扇的转速；

其中，所述目标动作模型的训练过程包括：

获取网络设备对应的样本状态数据；将所述样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将所述样本状态数据和所述样本占空比特征向量输入给初始评价模型，得到所述样本状态数据对应的状态动作值；

基于所述样本状态数据确定所述状态动作值对应的奖惩参数值；

基于所述奖惩参数值和所述状态动作值对所述初始动作模型和所述初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型。

本申请提供一种风扇转速控制装置，所述装置包括：

获取模块，用于获取网络设备对应的检测状态数据；其中，所述网络设备包括多个风扇；将所述检测状态数据输入给已训练的目标动作模型，得到每个风扇对应的目标占空比；其中，不同风扇对应的目标占空比相同或者不同；

确定模块，用于基于每个风扇对应的目标占空比确定该风扇的转速；

训练模块，用于训练得到所述目标动作模型；其中，所述训练模块训练得到所述目标动作模型时具体用于：获取网络设备对应的样本状态数据；将所述样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将所述样本状态数据和所述样本占空比特征向量输入给初始评价模型，得到所述样本状态数据对应的状态动作值；基于所述样本状态数据确定所述状态动作值对应的奖惩参数值；基于所述奖惩参数值和所述状态动作值对所述初始动作模型和所述初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型。

本申请提供一种网络设备，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现上述示例的风扇转速控制方法。

由以上技术方案可见，本申请实施例中，通过训练目标动作模型和目标评价模型，可以获取网络设备对应的检测状态数据，将检测状态数据输入给目标动作模型，得到每个风扇对应的目标占空比，针对每个风扇，基于该风扇对应的目标占空比确定该风扇的转速，从而有效控制每个风扇的转速，降低风扇的功耗和噪音，在避免网络设备的温度过高的基础上，保证风扇噪声较小，且风扇功耗较小，达到节能降噪的目的，满足网络设备的节能降噪需求，减少噪音污染，减少粉尘等空气中有害物质吸入，有利于降低网络设备受到的腐蚀危害。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其他的附图。

图1是本申请一种实施方式中的风扇转速控制方法的流程示意图；

图2是本申请一种实施方式中的风扇转速控制方法的流程示意图；

图3是本申请一种实施方式中的目标动作模型的训练过程的示意图；

图4是本申请一种实施方式中的DDPG算法模型示意图；

图5是本申请一种实施方式中的风扇转速控制方法的流程示意图；

图6是本申请一种实施方式中的风扇转速控制装置的结构示意图；

图7是本申请一种实施方式中的网络设备的硬件结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种风扇转速控制方法，可以应用于网络设备（如路由器、交换机等），参见图1所示，为该方法的流程示意图，该方法可以包括：

步骤101、获取网络设备对应的检测状态数据；该网络设备包括多个风扇。

示例性的，网络设备对应的检测状态数据可以包括但不限于：网络设备内每个单板对应的传感器数据、网络设备对应的系统数据、每个风扇对应的初始占空比（即风扇当前运行过程中的占空比）。其中，每个单板对应的传感器数据可以包括但不限于以下至少一种：该单板内芯片对应的结温数据、该单板内各测温点对应的最大温度、该单板对应的功率；该系统数据可以包括但不限于以下至少一种：环境温度、电源功率、每个风扇对应的功率。

步骤102、将该检测状态数据输入给已训练的目标动作模型，得到每个风扇对应的目标占空比；其中，不同风扇对应的目标占空比相同或者不同。

步骤103、针对每个风扇，基于该风扇对应的目标占空比确定该风扇的转速。

在一种可能的实施方式中，在步骤102之前，还可以训练得到目标动作模型，参见图2所示，该目标动作模型的训练过程，可以包括：

步骤201、获取网络设备对应的样本状态数据。

步骤202、将该样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量（如将所有样本占空比组成样本占空比特征向量）；将该样本状态数据和样本占空比特征向量输入给初始评价模型，得到该样本状态数据对应的状态动作值。

步骤203、基于该样本状态数据确定该状态动作值对应的奖惩参数值。

示例性的，可以基于该样本状态数据确定系统总功率和占空比最大值。其中，该样本状态数据可以包括每个风扇对应的初始占空比，该占空比最大值可以是所有初始占空比中最大值。若该样本状态数据包括电源功率，则可以基于该电源功率确定系统总功率，若该样本状态数据包括每个单板对应的功率和每个风扇对应的功率，则可以基于所有单板对应的功率和所有风扇对应的功率确定系统总功率。然后，可以基于该占空比最大值确定目标噪声值；然后，可以基于系统总功率和系统总功率对应的第一权重系数、目标噪声值和目标噪声值对应的第二权重系数，确定该状态动作值对应的奖惩参数值。

示例性的，第一权重系数与第二权重系数之和可以为固定数值（如1）；若节能重要性优于降噪重要性，则第一权重系数可以大于第二权重系数；若降噪重要性优于节能重要性，则第一权重系数可以小于第二权重系数。

步骤204、基于该奖惩参数值和该状态动作值对初始动作模型和初始评价模型进行训练，得到已训练的目标动作模型和已训练的目标评价模型。

示例性的，可以基于该状态动作值确定初始动作模型对应的第一误差值，基于第一误差值对初始动作模型的网络参数进行调整，得到调整后动作模型；基于该奖惩参数值和该状态动作值确定初始评价模型对应的第二误差值，基于第二误差值对初始评价模型的网络参数进行调整，得到调整后评价模型。若调整后动作模型和调整后评价模型已收敛，则将调整后动作模型确定为目标动作模型，将调整后评价模型确定为目标评价模型。若调整后动作模型和/或调整后评价模型未收敛，则将调整后动作模型确定为初始动作模型，将调整后评价模型确定为初始评价模型，返回执行步骤202，也就是说，将样本状态数据输入给调整后动作模型，得到每个风扇对应的样本占空比，并将样本状态数据和每个风扇对应的样本占空比输入给调整后评价模型，得到状态动作值。

示例性的，基于该状态动作值确定初始动作模型对应的第一误差值，可以包括但不限于：基于如下公式确定所述第一误差值：L(Θ _v) =

。基于该奖惩参数值和该状态动作值确定初始评价模型对应的第二误差值，可以包括但不限于：基于如下公式确定所述第二误差值：L(Θ _u) = 1/2

。在上述公式中，L(Θ _v)表示第一误差值，L(Θ _u)表示第二误差值，s表示样本状态数据，a表示样本占空比，

表示状态动作值，

表示奖惩参数值。

在一种可能的实施方式中，在获取网络设备对应的检测状态数据之后，还可以将检测状态数据存储到指定存储介质。基于此，在满足目标动作模型的更新条件时，还可以重新训练目标动作模型和目标评价模型。比如说，将指定存储介质中的检测状态数据更新为样本状态数据，将目标动作模型更新为初始动作模型，将目标评价模型更新为初始评价模型；以及，将样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将样本状态数据和样本占空比特征向量输入给初始评价模型，得到样本状态数据对应的状态动作值；基于样本状态数据确定奖惩参数值；基于奖惩参数值和状态动作值对初始动作模型和初始评价模型进行训练，得到重新训练的目标动作模型和重新训练的目标评价模型。

以下结合具体应用场景，对本申请实施例的技术方案进行说明。

网络设备（如路由器、交换机等，交换机可以为框式交换机）可以包括多个单板（如主控板、接口板、业务板等）和多个风扇，在这些单板的工作过程中，会导致网络设备的温度升高，而风扇用于对网络设备进行降温，以避免网络设备的温度过高，从而避免网络设备出现故障。显然，若风扇转速越大，则网络设备的降温效果越好，若风扇转速越小，则网络设备的降温效果越差。但是，在风扇转速越大时，风扇噪声越大，且风扇功耗越大，造成能源的浪费。在风扇转速越小时，风扇噪声越小，且风扇功耗越小，减少能源浪费。

比如说，可以尽量降低风扇转速，从而降低风扇噪声和风扇功耗，但风扇转速过低时会导致网络设备的温度升高，对于网络设备内部的大功率芯片来说，随着网络设备的温度升高，会导致大功率芯片的功率随温度升高而增大，即网络设备的整体功耗会更大，即风扇转速降低反而导致整体功耗更大。

又例如，可以设置经验温度，在网络设备的温度高于该经验温度时，增加风扇转速，在网络设备的温度低于该经验温度时，降低风扇转速。但是，经验温度很难准确设置，当经验温度不合适时，会导致风扇转速反复调整，网络设备的温度来回震荡。比如说，风扇转速增加时，会导致网络设备的温度低于该经验温度，并降低风扇转速，而降低风扇转速后，又会导致网络设备的温度高于该经验温度，并增加风扇转速，从而导致风扇转速产生调整震荡问题。

针对上述发现，为了满足网络设备的节能降噪需求，本申请实施例中提出一种风扇转速控制方法，可以基于深度学习技术实现风扇转速的控制，能够有效控制每个风扇的转速，降低风扇的功耗和噪音，避免网络设备的温度过高。

本申请实施例中，可以涉及目标动作模型的训练过程和基于目标动作模型的风扇转速控制过程。在目标动作模型的训练过程中，可以训练得到目标动作模型和目标评价模型。在基于目标动作模型的风扇转速控制过程中，可以基于目标动作模型确定每个风扇对应的目标占空比，基于目标占空比控制风扇转速。

示例性的，目标动作模型的训练过程和基于目标动作模型的风扇转速控制过程可以应用于同一设备，比如说，可以由网络设备执行目标动作模型的训练过程，可以由网络设备执行基于目标动作模型的风扇转速控制过程。

或者，目标动作模型的训练过程和基于目标动作模型的风扇转速控制过程也可以应用于不同设备，比如说，可以由服务器执行目标动作模型的训练过程，得到目标动作模型和目标评价模型，并将目标动作模型和目标评价模型发送给网络设备，可以由网络设备执行基于目标动作模型的风扇转速控制过程。

第一，针对目标动作模型的训练过程。在目标动作模型的训练过程中，可以训练得到目标动作模型和目标评价模型，参见图3所示，为目标动作模型的训练过程的示意图，目标动作模型的训练过程可以包括以下步骤：

步骤301、获取网络设备对应的样本状态数据。

示例性的，网络设备对应的样本状态数据可以包括但不限于以下至少一种：网络设备内每个单板对应的传感器数据、网络设备对应的系统数据、每个风扇对应的初始占空比（即风扇当前运行过程中的占空比）。其中，每个单板对应的传感器数据可以包括但不限于以下至少一种：该单板内芯片对应的结温数据、该单板内各测温点对应的最大温度、该单板对应的功率；该系统数据可以包括但不限于以下至少一种：环境温度、电源功率、每个风扇对应的功率。

比如说，在网络设备的运行过程（如在实验室网络环境下运行）中，采集网络设备的测试数据，为了区分方便，将该测试数据称为样本状态数据。比如说，在第一个采集周期，获取网络设备对应的样本状态数据a1，在第二个采集周期，获取网络设备对应的样本状态数据a2，以此类推。其中，相邻两个采集周期之间的间隔可以任意配置，如间隔可以为3秒、5秒等，对此不做限制。

在网络设备的运行过程中，不断改变运行过程中的参数，从而采集不同参数下的样本状态数据。比如说，可以改变运行过程中的环境温度，采集不同环境温度下的样本状态数据。可以改变运行过程中的电源功率，采集不同电源功率下的样本状态数据。可以改变运行过程中的风扇功率（如调整一个或多个风扇对应的功率），采集不同风扇功率下的样本状态数据。可以改变运行过程中的初始占空比（如调整一个或多个风扇对应的初始占空比），采集不同初始占空比下的样本状态数据。通过改变运行过程中单板对应的数据量（如调整一个或多个单板对应的数据量），以改变单板对应的传感器数据（如结温数据、各测温点对应的最大温度、功率等），采集不同传感器数据下的样本状态数据。

当然，上述只是几个示例，对此不做限制，只要能够采集不同情况下的样本状态数据，从而保证样本状态数据的多样性即可。显然，通过保证样本状态数据的多样性，可以训练出准确可靠的目标动作模型和目标评价模型。

在上述实施例中，针对每个单板来说，若该单板内包括如下芯片的至少一种：MAC芯片、CPU（Central Processing Unit，中央处理器）芯片、FPGA（Field Programmable GateArray，现场可编程逻辑门阵列）芯片、AI（Artificial Intelligent，人工智能）芯片、光模块芯片，则可以采集这些芯片的结温数据（即实际工作温度），将这些芯片的结温数据作为网络设备对应的样本状态数据。

针对每个单板来说，若该单板内包括至少一个测温点，则可以采集该单板内每个测温点对应的温度值，并选取这些温度值中的最大值作为该单板内各测温点对应的最大温度，将该最大温度作为网络设备对应的样本状态数据。

针对每个单板来说，可以采集该单板对应的功率，即该单板的当前使用功率，将该单板对应的功率作为网络设备对应的样本状态数据。

针对网络设备来说，可以采集网络设备的环境温度和电源功率，并将网络设备的环境温度和电源功率作为网络设备对应的样本状态数据。

针对每个风扇来说，可以采集该风扇对应的功率，即该风扇的当前使用功率，将该风扇对应的功率作为网络设备对应的样本状态数据。

针对每个风扇来说，可以采集该风扇对应的初始占空比，即该风扇当前运行过程中的占空比，表示该风扇正在按照该初始占空比对应的转速进行转动。

示例性的，初始占空比用于表示风扇转速，初始占空比可以是最小占空比与最大占空比之间的整数数值，比如说，以最小占空比是20，最大占空比是100为例，则初始占空比可以是20到100的整数数值，如20、25、50、100等。

假设风扇的最大转速为k（即风扇支持的最大转速能力），初始占空比为m，则该风扇的转速可以为m%*k，也就是说，该风扇的转速为最大转速k的m%，如初始占空比为20时，则表示风扇的转速为最大转速k的20%。

步骤302、获取已配置的初始动作模型和已配置的初始评价模型。

本实施例中，可以预先配置初始动作模型，初始动作模型的输入数据是网络设备对应的样本状态数据，初始动作模型的输出数据是所有风扇对应的占空比（为了区分方便，将占空比称为样本占空比），也就是说，将网络设备的所有风扇对应的样本占空比作为一个整体，作为初始动作模型的输出数据。

比如说，初始动作模型可以是深度学习模型，也可以是神经网络模型，对此初始动作模型的结构不做限制，可以任意配置，只要初始动作模型能够将网络设备对应的样本状态数据转换为所有风扇对应的样本占空比即可。

本实施例中，可以预先配置初始评价模型，初始评价模型的输入数据是网络设备对应的样本状态数据和所有风扇对应的样本占空比（即初始动作模型的输出数据），初始评价模型的输出数据是状态动作值。其中，该状态动作值用于反映状态（state）和动作（action）的价值（value），这里的状态可以是样本状态数据，这里的动作可以是所有风扇对应的样本占空比，也就是说，该状态动作值用于反映样本状态数据和所有风扇对应的样本占空比的价值。

比如说，初始评价模型可以是深度学习模型，也可以是神经网络模型，对此初始评价模型的结构不做限制，可以任意配置，只要初始评价模型能够将样本状态数据和所有风扇对应的样本占空比转换为状态动作值即可。

在一种可能的实施方式中，该初始动作模型和该初始评价模型可以是基于DDPG（Deep Deterministic Policy Gradient，深度确定性策略梯度）算法的网络模型，也可以是基于其它算法的网络模型，对此不做限制，为了方便描述，本实施例中，以基于DDPG算法的初始动作模型和初始评价模型为例。

比如说，参见图4所示，为基于DDPG算法的初始动作模型和初始评价模型的示例。Actor网络为初始动作模型，Critict网络为初始评价模型。S为初始动作模型的输入数据，S为初始评价模型的输入数据，本实施例中，S表示网络设备对应的样本状态数据。A为初始动作模型的输出数据，A为初始评价模型的输入数据，本实施例中，A表示所有风扇对应的样本占空比（即Actor网络的Action）。Q为初始评价模型的输出数据，本实施例中，Q表示状态动作值。

DDPG算法是一种深度确定性的策略梯度算法，是为了解决连续动作控制问题而提出的，DDPG算法针对的动作空间不是离散的，从而解决动作离散问题。其中，DDPG算法的确定性策略是和随机策略相对而言的，对于某些动作集合来说，它可能是连续值或者高维离散值，这样动作的空间维度大，DDPG算法使用确定性策略来简化这个问题。DDPG算法中的确定性是指，连续动作输出的是一个具体值。当动作是离散时，依据最大化长期收益这一目标，输出每个动作发生的概率大小；当动作连续时，在追求最大化长期收益目标下，输出的只能是一个具体数值，代表一个具体动作，由此变成了一个确定性策略。

基于DDPG算法的上述原理，本实施例中，可以基于DDPG算法实现初始动作模型和初始评价模型，DDPG算法基于Actor-Critict架构，以Actor-Critict架构为基础，针对连续动作空间进行处理，因此，可以将Actor网络作为初始动作模型，将Critict网络为初始评价模型。本实施例中的连续动作空间是指所有风扇对应的样本占空比，针对每个风扇对应的样本占空比，该样本占空比可以是最小占空比与最大占空比之间的连续整数数值，而不是最小占空比与最大占空比之间的离散整数数值，如该样本占空比可以是20、21、22、…100的连续整数数值，而不是20、25、30、35、…100的离散整数数值。

步骤303、将样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比（即初始动作模型的Action），基于每个风扇对应的样本占空比生成样本占空比特征向量。将样本状态数据和样本占空比特征向量输入给初始评价模型，得到该样本状态数据对应的状态动作值。

示例性的，针对初始动作模型和初始评价模型的训练过程，参见图4所示，Actor网络可以为初始动作模型，Critict网络可以为初始评价模型。

可以将网络设备对应的样本状态数据S作为初始动作模型的输入数据，由初始动作模型对样本状态数据S进行处理，对此处理过程不作限制，得到每个风扇对应的样本占空比A，所有风扇对应的样本占空比A为Actor网络的Action。

在得到每个风扇对应的样本占空比A之后，可以将所有风扇对应的样本占空比A组成样本占空比特征向量，即该样本占空比特征向量可以包括所有风扇对应的样本占空比A。比如说，若一共存在10个风扇对应的样本占空比A，则样本占空比特征向量可以为10*1维的特征值，或5*2维的特征值，或2*5维的特征值，或1*10维的特征值，每个特征值就是一个风扇对应的样本占空比A。

可以将网络设备对应的样本状态数据S和样本占空比特征向量（即所有风扇对应的样本占空比A）作为初始评价模型的输入数据，由初始评价模型基于样本状态数据S和样本占空比特征向量进行处理，对此处理过程不作限制，得到样本状态数据S对应的状态动作值Q，状态动作值Q也可以称为Q函数值。

综上可以看出，在得到样本状态数据之后，就可以将样本状态数据输入给初始动作模型和初始评价模型，最终得到该样本状态数据对应的状态动作值。

步骤304、基于该样本状态数据确定该状态动作值对应的奖惩参数值。

示例性的，可以基于该样本状态数据确定系统总功率和占空比最大值。其中，该样本状态数据可以包括每个风扇对应的初始占空比，该占空比最大值可以是所有初始占空比中最大值。若该样本状态数据包括电源功率，则可以基于该电源功率确定系统总功率，若该样本状态数据包括每个单板对应的功率和每个风扇对应的功率，则可以基于所有单板对应的功率和所有风扇对应的功率确定系统总功率。然后，可以基于该占空比最大值确定目标噪声值。然后，可以基于系统总功率和系统总功率对应的第一权重系数、目标噪声值和目标噪声值对应的第二权重系数，确定该状态动作值对应的奖惩参数值。

在一种可能的实施方式中，基于该样本状态数据，可以采用如下公式确定奖惩参数值，当然，如下公式只是一个示例，对此确定方式不作限制。

N(S)

在上述公式中，r表示奖惩参数值，

表示系统总功率E对应的第一权重系数，E 表示系统总功率，可以基于电源功率确定系统总功率E，即系统总功率E为电源功率，也可以基于所有单板对应的功率和所有风扇对应的功率确定系统总功率E，即系统总功率E为所有单板对应的功率与所有风扇对应的功率之和。

在上述公式中，

表示目标噪声值N(S)对应的第二权重系数，S表示占空比最大值，即所有风扇对应的初始占空比中的最大值，也就是最大初始占空比。N(S)表示目标噪声值，N表示已配置函数，对此已配置函数N不作限制，可以根据经验进行配置，已配置函数N表示占空比最大值与目标噪声值之间的函数关系，即已配置函数N的输入是占空比最大值，已配置函数N的输出是目标噪声值，因此，可以将占空比最大值代入该已配置函数N，得到目标噪声值。

从上述公式可以看出，可以基于系统总功率和系统总功率对应的第一权重系数、目标噪声值和目标噪声值对应的第二权重系数，确定奖惩参数值。

在一种可能的实施方式中，可以从客户对节能和降噪的需求出发，调整系统总功率对应的第一权重系数

和目标噪声值对应的第二权重系数

，第一权重系数

表示节能性能的权重大小，第二权重系数

表示降噪性能的权重大小。

示例性的，第一权重系数

与第二权重系数

之和可以为固定数值（如1），即

。从客户对节能和降噪的需求出发，调整第一权重系数

和第二权重系数

，比如说，若节能重要性优于降噪重要性，则第一权重系数

可以大于第二权重系数

，若降噪重要性优于节能重要性，则第一权重系数

可以小于大于第二权重系数

。关于第一权重系数

和第二权重系数

的取值，本实施例中不做限制，可以根据经验配置第一权重系数

和第二权重系数

。

步骤305、基于该状态动作值确定初始动作模型对应的第一误差值，基于该第一误差值对初始动作模型的网络参数进行调整，得到调整后动作模型。基于该奖惩参数值和该状态动作值确定初始评价模型对应的第二误差值，基于该第二误差值对初始评价模型的网络参数进行调整，得到调整后评价模型。

示例性的，可以配置初始动作模型对应的误差函数（即损失函数），该误差函数可以根据经验进行配置，对此误差函数不作限制，比如说，该误差函数的一个示例可以为：L (Θ _v) =

，当然，上述公式只是误差函数的一个示例，对此误差函数不作限制，只要误差函数与状态动作值有关即可。

在此基础上，可以基于如下公式确定第一误差值：L(Θ _v) =

。在上述公式中，L(Θ _v)表示第一误差值，s表示样本状态数据，a表示样本占空比，

表示状态动作值。综上所述，在将样本状态数据s输入给初始动作模型后，可以得到每个风扇对应的样本占空比a，基于这些风扇对应的样本占空比a得到样本占空比特征向量，然后，将样本状态数据s和样本占空比特征向量（即每个风扇对应的样本占空比a）输入给初始评价模型，得到状态动作值

。在得到状态动作值

之后，就可以将状态动作值

代入上述公式，得到第一误差值L(Θ _v)。显然，状态动作值

越大时，则第一误差值L(Θ _v)越小，状态动作值

越小时，则第一误差值L(Θ _v)越大。

在得到第一误差值L(Θ _v)之后，就可以基于第一误差值L(Θ _v)对初始动作模型的网络参数进行调整，对此调整过程不作限制，调整目标是使第一误差值L(Θ _v)越来越小，即找到第一误差值L(Θ _v)的极小值，得到调整后动作模型。

示例性的，可以配置初始评价模型对应的误差函数（即损失函数），该误差函数可以根据经验进行配置，对此误差函数不作限制，比如说，该误差函数的一个示例可以为：L (Θ _u) = 1/2

，当然，上述公式只是误差函数的一个示例，只要误差函数与奖惩参数值和状态动作值有关即可。

在此基础上，基于如下公式确定第二误差值：L(Θ _u) = 1/2

。在上述公式中，L(Θ _u)表示第二误差值，s表示样本状态数据，a表示样本占空比，

表示状态动作值，

表示奖惩参数值。综上所述，在将样本状态数据s输入给初始动作模型之后，可以得到每个风扇对应的样本占空比a，基于这些风扇对应的样本占空比a得到样本占空比特征向量，然后，将样本状态数据s和样本占空比特征向量（即每个风扇对应的样本占空比a）输入给初始评价模型，得到状态动作值

。在得到状态动作值

之后，就可以将状态动作值

和奖惩参数值

代入上述公式，得到第二误差值L(Θ _u)。

显然，状态动作值

越大时，则第二误差值L(Θ _u)越小，状态动作值

越小时，则第二误差值L(Θ _u)越大。奖惩参数值

越大时，则第二误差值L (Θ _u)越大，奖惩参数值

越小时，则第二误差值L(Θ _u)越小。

在得到第二误差值L(Θ _u)之后，就可以基于第二误差值L(Θ _u)对初始评价模型的网络参数进行调整，对此调整过程不作限制，调整目标是使第二误差值L(Θ _u)越来越小，即找到第二误差值L(Θ _u)的极小值，得到调整后评价模型。

示例性的，参见上述实施例，在第一个采集周期，获取样本状态数据a1，在第二个采集周期，获取样本状态数据a2，在第三个采集周期，获取样本状态数据a3，以此类推。在此基础上，样本状态数据a1（即当前状态）作为样本状态数据s时，则样本状态数据a2（即下一个状态）作为样本状态数据s

，样本状态数据a2作为样本状态数据s时，则样本状态数据a3 作为样本状态数据s

，以此类推。基于上述公式

N(S)，可以得到样本状态数据s对应的奖惩参数值

，并得到样本状态数据s

对应的奖惩参数值

，综上所述，在确定第二误差值时，奖惩参数值

是当前状态的下一个状态对应的奖惩参数值。

步骤306、判断调整后动作模型和调整后评价模型是否已收敛。

若调整后动作模型和调整后评价模型已收敛，则执行步骤307。

若调整后动作模型和/或调整后评价模型未收敛，则执行步骤308。

比如说，若第一误差值满足第一收敛条件，则可以确定调整后动作模型已收敛，若第一误差值不满足第一收敛条件，则可以确定调整后动作模型未收敛。第一收敛条件根据经验配置，对此不作限制，如第一误差值处于某预设数值区间时，第一误差值满足第一收敛条件，否则，第一误差值不满足第一收敛条件。

若第二误差值满足第二收敛条件，则可以确定调整后评价模型已收敛，若第二误差值不满足第二收敛条件，则可以确定调整后评价模型未收敛。第二收敛条件可以根据经验配置，对此不作限制，如第二误差值处于某预设数值区间时，第二误差值满足第二收敛条件，否则，第二误差值不满足第二收敛条件。

又例如，若初始动作模型的迭代次数达到第一次数阈值（可以根据经验进行配置，对此不作限制），则可以确定调整后动作模型已收敛，若初始动作模型的迭代次数未达到第一次数阈值，则可以确定调整后动作模型未收敛。

若初始评价模型的迭代次数达到第二次数阈值（可以根据经验进行配置，对此不作限制），则可以确定调整后评价模型已收敛，若初始评价模型的迭代次数未达到第二次数阈值，则可以确定调整后评价模型未收敛。

又例如，若初始动作模型的迭代时长达到第一时长阈值（可以根据经验进行配置，对此不作限制），则可以确定调整后动作模型已收敛，若初始动作模型的迭代时长未达到第一时长阈值，则可以确定调整后动作模型未收敛。

若初始评价模型的迭代时长达到第二时长阈值（可以根据经验进行配置，对此不作限制），则可以确定调整后评价模型已收敛，若初始评价模型的迭代时长未达到第二时长阈值，则可以确定调整后评价模型未收敛。

当然，上述只是判断调整后动作模型和调整后评价模型是否已收敛的几个示例，对此判断方式不做限制，可以根据实际需求任意设置判断方式。

步骤307、将调整后动作模型确定为目标动作模型，并将调整后评价模型确定为目标评价模型。至此，完成初始动作模型和初始评价模型的训练过程，得到已训练的目标动作模型和已训练的目标评价模型。

步骤308、将调整后动作模型确定为初始动作模型，将调整后评价模型确定为初始评价模型，返回执行步骤303、步骤305和步骤306。

综上所述，可以得到已训练的目标动作模型和已训练的目标评价模型，并将目标动作模型和目标评价模型部署到网络设备，在网络设备上，可以基于目标动作模型实现对风扇的智能调控，即对风扇进行转速控制。

第二，针对基于目标动作模型的风扇转速控制过程。在基于目标动作模型的风扇转速控制过程中，可以基于目标动作模型实现风扇转速控制，参见图5所示，为风扇转速控制方法的流程示意图，该方法可以包括以下步骤：

步骤501、获取网络设备对应的检测状态数据。

示例性的，网络设备对应的检测状态数据可以包括但不限于以下至少一种：网络设备内每个单板对应的传感器数据、网络设备对应的系统数据、每个风扇对应的初始占空比（即风扇当前运行过程中的占空比）。其中，每个单板对应的传感器数据可以包括但不限于以下至少一种：该单板内芯片对应的结温数据、该单板内各测温点对应的最大温度、该单板对应的功率；该系统数据可以包括但不限于以下至少一种：环境温度、电源功率、每个风扇对应的功率。

比如说，在网络设备的运行过程（即实际运行过程）中，采集网络设备的状态数据，为了区分方便，将该状态数据称为检测状态数据。比如说，在第一个采集周期，获取网络设备对应的检测状态数据b1，在第二个采集周期，获取网络设备对应的检测状态数据b2，以此类推。其中，相邻两个采集周期之间的间隔可以任意配置，如间隔可以为3秒、5秒等，对此不做限制。

在上述实施例中，针对每个单板来说，若该单板内包括如下芯片的至少一种：MAC芯片、CPU芯片、FPGA芯片、AI芯片、光模块芯片，则可以采集这些芯片的结温数据（即实际工作温度），将这些芯片的结温数据作为网络设备对应的检测状态数据。针对每个单板来说，若该单板内包括至少一个测温点，则可以采集该单板内每个测温点对应的温度值，并选取这些温度值中的最大值作为该单板内各测温点对应的最大温度，将该最大温度作为网络设备对应的检测状态数据。针对每个单板来说，可以采集该单板对应的功率，即该单板的当前使用功率，将该单板对应的功率作为网络设备对应的检测状态数据。

针对网络设备来说，可以采集网络设备的环境温度和电源功率，并将网络设备的环境温度和电源功率作为网络设备对应的检测状态数据。

针对每个风扇来说，可以采集该风扇对应的功率，即该风扇的当前使用功率，将该风扇对应的功率作为网络设备对应的检测状态数据。

针对每个风扇来说，可以采集该风扇对应的初始占空比，即该风扇当前运行过程中的占空比，表示该风扇正在按照该初始占空比对应的转速进行转动，可以将该风扇对应的初始占空比作为网络设备对应的检测状态数据。

示例性的，初始占空比用于表示风扇转速，初始占空比可以是最小占空比与最大占空比之间的整数数值，假设风扇的最大转速为k，初始占空比为m，则该风扇的转速可以为m%*k，也就是说，该风扇的转速为最大转速k的m%。

步骤502、在获取网络设备对应的检测状态数据之后，还可以将该检测状态数据存储到指定存储介质中，指定存储介质可以如内存Buffer等。

步骤503、将该检测状态数据输入给已训练的目标动作模型，得到每个风扇对应的目标占空比；其中，不同风扇对应的目标占空比相同或者不同。

参见上述步骤302和步骤303，初始动作模型的输入数据是样本状态数据，初始动作模型的输出数据是所有风扇对应的样本占空比，也就是说，将网络设备的所有风扇对应的样本占空比作为一个整体，作为初始动作模型的输出数据。基于此，在训练得到目标动作模型之后，目标动作模型的输入数据是检测状态数据，目标动作模型的输出数据是所有风扇对应的目标占空比（为了区分方便，将目标动作模型输出的占空比称为目标占空比），也就是说，将网络设备的所有风扇对应的目标占空比作为一个整体，作为目标动作模型的输出数据。

在步骤503中，可以将网络设备对应的检测状态数据输入给目标动作模型，由目标动作模型对检测状态数据进行处理，对此处理过程不作限制，得到每个风扇对应的目标占空比，不同风扇对应的目标占空比相同或者不同。

比如说，在将该检测状态数据输入给目标动作模型之后，可以得到风扇1对应的目标占空比、风扇2对应的目标占空比、…、以此类推。

步骤504、针对每个风扇，基于该风扇对应的目标占空比确定该风扇的转速。

比如说，可以基于风扇1对应的目标占空比确定风扇1的转速，假设最大转速为k，风扇1对应的目标占空比为m，则风扇1的转速可以为m%*k，可以基于风扇2对应的目标占空比确定风扇2的转速，以此类推。

至此，完成风扇转速的控制过程，显然，每次获取到检测状态数据时，就可以基于该检测状态数据确定每个风扇对应的目标占空比，继而基于每个风扇对应的目标占空比确定每个风扇的转速，实现各风扇转速的控制。

步骤505、在满足目标动作模型的更新条件时，还可以重新训练目标动作模型和目标评价模型。在重新训练目标动作模型和目标评价模型时，可以将指定存储介质中的检测状态数据更新为样本状态数据，将目标动作模型更新为初始动作模型，将目标评价模型更新为初始评价模型，在此基础上，采用步骤303-步骤308重新训练目标动作模型和目标评价模型。比如说，将样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将样本状态数据和样本占空比特征向量输入给初始评价模型，得到样本状态数据对应的状态动作值；基于样本状态数据确定奖惩参数值；基于奖惩参数值和状态动作值对初始动作模型和初始评价模型进行训练，得到重新训练的目标动作模型和重新训练的目标评价模型，上述训练过程可以参见步骤303-步骤308，在此不再重复赘述。

示例性的，满足目标动作模型的更新条件，可以包括但不限于：每次间隔预设时长（可以根据经验配置，如一天、一周等）后，确定满足目标动作模型的更新条件，也就是说，每次间隔一段时间后重新训练目标动作模型和目标评价模型，通过刷新目标动作模型和目标评价模型实现对环境的适应性学习。或者，在网络设备处于空闲状态（如CPU利用率小于阈值、内存利用率小于阈值等）时，确定满足目标动作模型的更新条件，也就是说，可以在空闲状态时重新训练目标动作模型和目标评价模型，避免对网络设备的正常业务造成影响。

由以上技术方案可见，本申请实施例中，获取网络设备对应的检测状态数据，并将检测状态数据输入给目标动作模型，得到每个风扇对应的目标占空比，针对每个风扇，基于该风扇对应的目标占空比确定该风扇的转速，有效控制每个风扇的转速，降低风扇的功耗和噪音，在避免网络设备的温度过高的基础上，保证风扇噪声较小，且风扇功耗较小，达到节能降噪的目的，满足网络设备的节能降噪需求，减少噪音污染，减少粉尘等空气中有害物质吸入，有利于降低网络设备受到的腐蚀危害。将网络设备的所有风扇作为一个整体，采用DDPG算法确定每个风扇对应的目标占空比，继而基于每个风扇对应的目标占空比对所有风扇进行整体调速。从客户对节能和降噪的需求出发，自主调整权重系数，设定合适的奖惩函数，得到奖惩参数值。可以从与网络设备的交互中自动学习，大大增强了对环境的自适应能力，实现智能风扇调速节能降噪的迫切需求。

基于与上述方法同样的申请构思，本申请实施例中提出一种风扇转速控制装置，参见图6所示，为所述装置的结构示意图，所述装置可以包括：

获取模块61，用于获取网络设备对应的检测状态数据；其中，所述网络设备包括多个风扇；将所述检测状态数据输入给已训练的目标动作模型，得到每个风扇对应的目标占空比；其中，不同风扇对应的目标占空比相同或者不同；

确定模块62，用于基于每个风扇对应的目标占空比确定该风扇的转速；

训练模块63，用于训练得到所述目标动作模型；其中，所述训练模块63训练得到所述目标动作模型时具体用于：获取网络设备对应的样本状态数据；将所述样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将所述样本状态数据和所述样本占空比特征向量输入给初始评价模型，得到所述样本状态数据对应的状态动作值；基于所述样本状态数据确定所述状态动作值对应的奖惩参数值；基于所述奖惩参数值和所述状态动作值对所述初始动作模型和所述初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型。

示例性的，所述网络设备对应的检测状态数据包括：所述网络设备内每个单板对应的传感器数据、所述网络设备对应的系统数据、每个风扇对应的初始占空比；每个单板对应的传感器数据包括以下至少一种：该单板内芯片对应的结温数据、该单板内各测温点对应的最大温度、该单板对应的功率；所述系统数据包括以下至少一种：环境温度、电源功率、每个风扇对应的功率。

示例性的，所述训练模块63基于所述样本状态数据确定所述状态动作值对应的奖惩参数值时具体用于：基于所述样本状态数据确定系统总功率和占空比最大值；其中，所述样本状态数据包括每个风扇对应的初始占空比，所述占空比最大值是所有初始占空比中最大值；若所述样本状态数据包括电源功率，则基于所述电源功率确定所述系统总功率，若所述样本状态数据包括每个单板对应的功率和每个风扇对应的功率，则基于所有单板对应的功率和所有风扇对应的功率确定所述系统总功率；基于所述占空比最大值确定目标噪声值；基于所述系统总功率和所述系统总功率对应的第一权重系数、所述目标噪声值和所述目标噪声值对应的第二权重系数，确定所述状态动作值对应的奖惩参数值。

示例性的，所述第一权重系数与所述第二权重系数之和为固定数值；若节能重要性优于降噪重要性，则所述第一权重系数大于所述第二权重系数；若降噪重要性优于节能重要性，则所述第一权重系数小于所述第二权重系数。

示例性的，所述训练模块63基于所述奖惩参数值和所述状态动作值对所述初始动作模型和所述初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型时具体用于：基于所述状态动作值确定初始动作模型对应的第一误差值，基于所述第一误差值对所述初始动作模型的网络参数进行调整，得到调整后动作模型；基于所述奖惩参数值和所述状态动作值确定初始评价模型对应的第二误差值，基于所述第二误差值对所述初始评价模型的网络参数进行调整，得到调整后评价模型；若调整后动作模型和调整后评价模型已收敛，则将调整后动作模型确定为所述目标动作模型，并将调整后评价模型确定为所述目标评价模型；若调整后动作模型和/或调整后评价模型未收敛，则将调整后动作模型确定为所述初始动作模型，并将调整后评价模型确定为所述初始评价模型，返回执行将所述样本状态数据输入给初始动作模型的操作。

示例性的，所述训练模块63基于所述状态动作值确定初始动作模型对应的第一误差值时具体用于：基于如下公式确定第一误差值：L(Θ _v) =

；所述训练模块63基于奖惩参数值和状态动作值确定初始评价模型对应的第二误差值时具体用于：基于如下公式确定第二误差值：L(Θ _u) = 1/2

；L(Θ _v)表示第一误差值，L(Θ _u)表示第二误差值，s表示样本状态数据，a表示所述样本占空比，

表示所述状态动作值，

表示所述奖惩参数值。

在一种可能的实施方式中，所述获取模块61在获取网络设备对应的检测状态数据之后，将所述检测状态数据存储到指定存储介质；所述训练模块63还用于：在满足目标动作模型的更新条件时，将所述指定存储介质中的检测状态数据更新为样本状态数据，将所述目标动作模型更新为初始动作模型，将所述目标评价模型更新为初始评价模型；以及，将样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将样本状态数据和样本占空比特征向量输入给初始评价模型，得到样本状态数据对应的状态动作值；基于样本状态数据确定奖惩参数值；基于奖惩参数值和状态动作值对初始动作模型和初始评价模型进行训练，得到重新训练的目标动作模型和重新训练的目标评价模型。

基于与上述方法同样的申请构思，本申请实施例中提出一种网络设备，参见图7所示，所述网络设备包括：处理器71和机器可读存储介质72，机器可读存储介质72存储有能够被处理器71执行的机器可执行指令；处理器71用于执行机器可执行指令，以实现本申请上述示例公开的风扇转速控制方法。

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本申请上述示例公开的风扇转速控制方法。

其中，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（Radom Access Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种风扇转速控制方法，其特征在于，所述方法包括：

其中，所述目标动作模型的训练过程包括：

2.根据权利要求1所述的方法，其特征在于，

所述网络设备对应的检测状态数据包括：所述网络设备内每个单板对应的传感器数据、所述网络设备对应的系统数据、每个风扇对应的初始占空比；

其中，每个单板对应的传感器数据包括以下至少一种：该单板内芯片对应的结温数据、该单板内各测温点对应的最大温度、该单板对应的功率；所述系统数据包括以下至少一种：环境温度、电源功率、每个风扇对应的功率。

3.根据权利要求1所述的方法，其特征在于，

所述基于所述样本状态数据确定所述状态动作值对应的奖惩参数值，包括：

基于所述样本状态数据确定系统总功率和占空比最大值；其中，所述样本状态数据包括每个风扇对应的初始占空比，所述占空比最大值是所有初始占空比中最大值；若所述样本状态数据包括电源功率，则基于所述电源功率确定系统总功率，若所述样本状态数据包括每个单板对应的功率和每个风扇对应的功率，则基于所有单板对应的功率和所有风扇对应的功率确定系统总功率；

基于所述占空比最大值确定目标噪声值；

基于所述系统总功率和所述系统总功率对应的第一权重系数、所述目标噪声值和所述目标噪声值对应的第二权重系数，确定所述奖惩参数值。

4.根据权利要求3所述的方法，其特征在于，

所述第一权重系数与所述第二权重系数之和为固定数值；

若节能重要性优于降噪重要性，所述第一权重系数大于所述第二权重系数；

若降噪重要性优于节能重要性，所述第一权重系数小于所述第二权重系数。

5.根据权利要求1所述的方法，其特征在于，

所述基于所述奖惩参数值和所述状态动作值对所述初始动作模型和所述初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型，包括：

基于所述状态动作值确定初始动作模型对应的第一误差值，基于所述第一误差值对初始动作模型的网络参数进行调整，得到调整后动作模型；基于所述奖惩参数值和所述状态动作值确定初始评价模型对应的第二误差值，基于所述第二误差值对初始评价模型的网络参数进行调整，得到调整后评价模型；

若调整后动作模型和调整后评价模型已收敛，则将调整后动作模型确定为所述目标动作模型，将调整后评价模型确定为所述目标评价模型；

若调整后动作模型和/或调整后评价模型未收敛，则将调整后动作模型确定为所述初始动作模型，将调整后评价模型确定为所述初始评价模型，返回执行将所述样本状态数据输入给初始动作模型的操作。

6.根据权利要求5所述的方法，其特征在于，

所述基于所述状态动作值确定初始动作模型对应的第一误差值，包括：基于如下公式确定所述第一误差值：

；

所述基于所述奖惩参数值和所述状态动作值确定初始评价模型对应的第二误差值，包括：基于如下公式确定所述第二误差值：

；

表示第一误差值，

表示第二误差值，s表示样本状态数据，a表示所述样本占空比，

表示所述状态动作值，

表示所述奖惩参数值。

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：在获取网络设备对应的检测状态数据之后，将所述检测状态数据存储到指定存储介质；

在满足目标动作模型的更新条件时，将所述指定存储介质中的检测状态数据更新为样本状态数据，将所述目标动作模型更新为初始动作模型，将所述目标评价模型更新为初始评价模型；以及，将样本状态数据输入给初始动作模型，得到每个风扇对应的样本占空比，基于每个风扇对应的样本占空比生成样本占空比特征向量；将样本状态数据和样本占空比特征向量输入给初始评价模型，得到样本状态数据对应的状态动作值；基于样本状态数据确定奖惩参数值；基于奖惩参数值和状态动作值对初始动作模型和初始评价模型进行训练，得到重新训练的目标动作模型和重新训练的目标评价模型。

8.一种风扇转速控制装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

其中，所述网络设备对应的检测状态数据包括：所述网络设备内每个单板对应的传感器数据、所述网络设备对应的系统数据、每个风扇对应的初始占空比；每个单板对应的传感器数据包括以下至少一种：该单板内芯片对应的结温数据、该单板内各测温点对应的最大温度、该单板对应的功率；所述系统数据包括以下至少一种：环境温度、电源功率、每个风扇对应的功率；

其中，所述训练模块基于所述样本状态数据确定所述状态动作值对应的奖惩参数值时具体用于：基于所述样本状态数据确定系统总功率和占空比最大值；其中，所述样本状态数据包括每个风扇对应的初始占空比，所述占空比最大值是所有初始占空比中最大值；若所述样本状态数据包括电源功率，则基于所述电源功率确定所述系统总功率，若所述样本状态数据包括每个单板对应的功率和每个风扇对应的功率，则基于所有单板对应的功率和所有风扇对应的功率确定所述系统总功率；基于所述占空比最大值确定目标噪声值；基于所述系统总功率和所述系统总功率对应的第一权重系数、所述目标噪声值和所述目标噪声值对应的第二权重系数，确定所述状态动作值对应的奖惩参数值；

其中，所述第一权重系数与所述第二权重系数之和为固定数值；若节能重要性优于降噪重要性，则所述第一权重系数大于所述第二权重系数；若降噪重要性优于节能重要性，则所述第一权重系数小于所述第二权重系数；

其中，所述训练模块基于所述奖惩参数值和所述状态动作值对所述初始动作模型和所述初始评价模型进行训练，得到已训练的目标动作模型和目标评价模型时具体用于：基于所述状态动作值确定初始动作模型对应的第一误差值，基于所述第一误差值对所述初始动作模型的网络参数进行调整，得到调整后动作模型；基于所述奖惩参数值和所述状态动作值确定初始评价模型对应的第二误差值，基于所述第二误差值对所述初始评价模型的网络参数进行调整，得到调整后评价模型；若调整后动作模型和调整后评价模型已收敛，则将调整后动作模型确定为所述目标动作模型，并将调整后评价模型确定为所述目标评价模型；若调整后动作模型和/或调整后评价模型未收敛，则将调整后动作模型确定为所述初始动作模型，并将调整后评价模型确定为所述初始评价模型，返回执行将所述样本状态数据输入给初始动作模型的操作；

其中，所述训练模块基于所述状态动作值确定初始动作模型对应的第一误差值时具体用于：基于如下公式确定第一误差值：

；所述训练模块基于所述奖惩参数值和状态动作值确定初始评价模型对应的第二误差值时具体用于：基于如下公式确定第二误差值：

；

表示第一误差值，

表示所述状态动作值，

表示所述奖惩参数值。

10.一种网络设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述处理器用于执行机器可执行指令，以实现权利要求1-7任一所述的方法步骤。