CN111260079B

CN111260079B - 电子设备和智能体自训练装置

Info

Publication number: CN111260079B
Application number: CN202010052509.6A
Authority: CN
Inventors: 高浩渊; 陈志熙
Original assignee: Nanjing Starfire Technology Co ltd
Current assignee: Nanjing Starfire Technology Co ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-05-19
Anticipated expiration: 2040-01-17
Also published as: CN111260079A

Abstract

本申请公开了一种电子设备和智能体自训练装置。该电子设备包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现步骤：对目标对象进行测试，生成测试结果；若测试结果不满足预设的任务指标，则由智能体对目标对象的待调整参数进行N次迭代调整，直至测试结果满足任务指标；若迭代次数N大于等于第一预设阈值，则根据目标对象N次调整的待调整参数、目标对象N次的测试结果、以及迭代次数N，对智能体的网络权重参数进行更新；基于参数更新后的智能体，继续对待调整参数进行M次迭代调整，直至迭代次数M小于第一预设阈值，智能体的训练结束。

Description

电子设备和智能体自训练装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种电子设备和智能体自训练装置。

背景技术

随着人工智能技术的发展，利用人工智能解决具体问题的模型和系统越来越多，在电路设计领域也得到了广泛的应用。对于电路设计，不同的设计指标催生了大量不同的电路类型，同时，每种电路类型具备不同的性能特点，导致传统的机器学习在进行训练时，需要大量的不同电路的数据，数据不易收集处理，极大的增加了人工进行数据的收集、标注的成本，而且得到的智能体也难以满足不同电路设计。

发明内容

基于上述问题，本申请提供了一种电子设备和智能体自训练装置。

本申请实施例公开了如下技术方案：

本申请提供一种电子设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：对目标对象进行测试，生成测试结果；若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标；若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新；基于参数更新后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束；其中，N、M均为自然数。

可选地，在本申请的任一实施例中，所述智能体为深度学习智能体，所述处理器执行所述若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新的步骤，包括：根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失；根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度；根据所述神经网络权重参数的梯度，对所述神经网络权重参数进行更新。

可选地，在本申请的任一实施例中，所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失的步骤，包括：根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过损失函数计算所述深度学习智能体的策略损失。

可选地，在本申请的任一实施例中，所述处理器执行所述根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度的步骤，包括：根据所述策略损失和所述神经网络权重参数，通过反向传播算法计算所述神经网络权重参数的梯度。

可选地，在本申请的任一实施例中，所述智能体为强化学习智能体，所述处理器执行所述若所述迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新的步骤，包括：根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值；基于所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，计算所述策略网络权重参数的梯度；根据所述策略网络权重参数的梯度，对所述策略网络权重参数进行更新。

可选地，在本申请的任一实施例中，所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值的步骤，包括：根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过贝尔曼方程计算所述测试结果的累计奖励值。

可选地，在本申请的任一实施例中，所述处理器执行在所述对目标对象进行测试，生成测试结果的步骤之后，且在所述处理器执行所述若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标的步骤之前，还包括：采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络输入格式对齐，所述智能体的网络输入格式为二维矩阵或图结构。

可选地，在本申请的任一实施例中，所述处理器执行所述采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络输入格式对齐的步骤，包括：采集所述测试结果，对所述测试结果依次执行局部采样、剪切、矩阵变换、结构重定义操作，使所述测试结果的数据格式与所述智能体的网络输入格式对齐。

可选地，在本申请的任一实施例中，所述处理器执行所述若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标的步骤，包括：若所述测试结果不满足所述任务指标，且所述迭代次数N等于第二预设阈值，则对所述智能体的所述网络权重参数进行更新，基于参数更新后的所述智能体，继续对所述待调整参数进行迭代调整，直至所述测试结果满足所述任务指标，其中，所述第二预设阈值大于所述第一预设阈值。

可选地，在本申请的任一实施例中，在所述处理器执行所述基于参数调整后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束的步骤之后，还包括：对所述任务指标和所述待调整参数进行变更，使所述智能体根据变更后的所述任务指标和变更后的所述待调整参数进行训练。

本申请实施例还提供一种智能体自训练装置，包括：测试单元，配置为对目标对象进行测试，生成测试结果；目标对象参数单元，配置为若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标；智能体参数单元，配置为若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新；智能体循环单元，配置为基于参数更新后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束；其中，N、M均为自然数。

可选地，在本申请的任一实施例中，所述智能体为深度学习智能体，所述智能体参数单元包括：深度学习策略子单元，配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失；深度学习梯度子单元，配置为根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度；深度学习更新子单元，配置为根据所述神经网络权重参数的梯度，对所述神经网络权重参数进行更新。

可选地，在本申请的任一实施例中，所述深度学习策略子单元，进一步配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过损失函数计算所述深度学习智能体的策略损失。

可选地，在本申请的任一实施例中，所述深度学习梯度子单元，进一步配置为根据所述策略损失和所述神经网络权重参数，通过反向传播算法计算所述神经网络权重参数的梯度。

可选地，在本申请的任一实施例中，所述智能体为强化学习智能体，所述智能体参数单元包括：强化学习奖励子单元，配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值；强化学习梯度子单元，配置为根据所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，计算所述策略网络权重参数的梯度；强化学习更新子单元，配置为根据所述策略网络权重参数的梯度，对所述策略网络权重参数进行更新。

可选地，在本申请的任一实施例中，所述强化学习奖励子单元，进一步配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过贝尔曼方程计算所述测试结果的累计奖励值。

可选地，在本申请的任一实施例中，还包括：数据采集处理单元，配置为采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络输入格式对齐，所述智能体的网络输入格式为二维矩阵或图结构。

可选地，在本申请的任一实施例中，所述数据采集处理单元，进一步配置为采集所述测试结果，对所述测试结果依次执行局部采样、剪切、矩阵变换、结构重定义操作，使所述测试结果的数据格式与所述智能体的网络输入格式对齐。

可选地，在本申请的任一实施例中，所述目标对象参数单元，进一步配置为若所述测试结果不满足所述任务指标，且所述迭代次数N等于第二预设阈值，则对所述智能体的所述网络权重参数进行更新，基于参数更新后的所述智能体，继续对所述待调整参数进行迭代调整，直至所述测试结果满足所述任务指标，其中，所述第二预设阈值大于所述第一预设阈值。

可选地，在本申请的任一实施例中，还包括：目标更改单元，配置为对所述任务指标和所述待调整参数进行变更，使所述智能体根据变更后的所述任务指标和变更后的所述待调整参数进行训练。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为根据本申请第一实施例所示的电子设备的处理器执行计算机程序所实现的智能体自训练方法的流程示意图；

图1B为根据本申请第一实施例所示的电子设备的处理器执行计算机程序所实现的智能体自训练方法中步骤S103的方法流程示意图；

图1C为根据本申请第一实施例所示的电子设备的处理器执行计算机程序所实现的智能体自训练方法中步骤S103的另一方法流程示意图；

图2A为根据本申请第二实施例所示的智能体自训练装置的结构示意图；

图2B为根据本申请第二实施例所示的智能体自训练装置中智能体参数单元的一种结构示意图；

图2C为根据本申请第二实施例所示的智能体自训练装置中智能体参数单元的另一种结构示意图；

图3为根据本申请第三实施例所示的电子设备的结构示意图；

图4为根据本申请第四实施例所示的电子设备的硬件结构示意图。

具体实施方式

实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

图1A为根据本申请第一实施例所示的电子设备的处理器执行计算机程序所实现的智能体自训练方法的流程示意图；如图1A所示，该智能体自训练方法包括：

步骤S101、对目标对象进行测试，生成测试结果；

在本申请实施例中，目标对象可以是实际产品（比如电子元器件），也可以是产品模型（比如电子元器件模型）。需指出的是，目标对象可以是任意领域的产品或产品模型，比如航空、航天、电子、机械、流体、热、力等领域。当目标对象是实际产品的时候，通过实际的测试设备，对产品进行测试，得到测试结果；当目标对象是产品模型的时候，可以通过仿真软件，对产品模型进行仿真，得到仿真结果，将仿真结果作为测试结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一具体的例子中，目标对象为微波产品或微波产品模型。其中，微波产品包括：微波滤波器（比如，无源滤波器、带通滤波器、低通滤波器、MMIC（MonolithicMicrowaveIntegrated Circuit，即单片微波集成电路）高通滤波器等）、功分器（比如，MMIC功分器等）、衰减器（比如，MMIC固定衰减器、MMIC数控衰减器等）、均衡器、定向耦合器（比如，MMIC定向耦合器）、90°电桥、限幅器、数控移相器等。对应的微波产品模型包括微波滤波器（比如，无源滤波器、带通滤波器、低通滤波器、MMIC（MonolithicMicrowave IntegratedCircuit，即单片微波集成电路）高通滤波器等）模型、功分器（比如，MMIC功分器等）模型、衰减器（比如，MMIC固定衰减器、MMIC数控衰减器等）模型、均衡器模型、定向耦合器（比如，MMIC定向耦合器）模型、90°电桥模型、限幅器模型、数控移相器模型等。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

步骤S102、若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标，其中，N为自然数；

在本申请实施例中，任务指标是与目标对象（产品或产品模型）的测试结果相对应的，可以是根据具体测试的目标对象进行设置。比如：在进行滤波器的测试时，需要频率在（7GHz-8GHz）之间的分贝为（20db-40db），那么，此时（20db-40db）即为任务目标。对滤波器进行测试，获取（7GHz-8GHz）之间分贝即为测试结果；或者对滤波器模型进行仿真，获取（7GHz-8GHz）之间分贝的仿真结果，即为测试结果。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本申请实施例中，待调整参数是根据目标对象的类型或设计预先确定的，当目标对象为产品时，目标对象的待调整参数是产品参数；当目标对象为产品模型时，目标对象的待调整参数是产品模型参数。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标时，通过将所述测试结果与任务指标进行比对，看所述测试结果是否满足所述任务指标。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一具体的例子中，通过比较函数，将得出的测试结果与任务指标进行比较；也可以通过比较电路，比如比较器，对测试结果与任务指标进行比较，进而确定测试结果是否满足任务指标。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本申请实施例中，若所述测试结果不满足所述任务指标，则由所述智能体对所述待调整参数进行调整；然后，对参数调整后的目标对象再次进行测试，生成新的测试结果，将新的测试结果与任务指标进行比较，看新的测试结果是否满足任务指标。若新的测试结果依然不满足任务指标，则由智能体对待调整参数再次进行调整，而后对参数再次调整后的目标对象进行测试，对测试结果与任务指标进行比较，如此，循序迭代N次，直至测试结果满足任务指标，停止对目标对象待调整参数的调整。在此，N为自然数。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

本一些可选实施例中，在步骤S102之前，且在步骤S101之后，还可以：采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络数据格式对齐，所述智能体的网络输入格式为二维矩阵或图结构。

在本申请实施例中，为了使采集的数据能够更好的进行测试，保证测试结果与智能体之间的通讯，因而，将测试结果的数据格式与智能体的网络数据格式进行对齐。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一具体的例子中，在采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络输入格式对齐时，通过对所述测试结果依次执行局部采样、剪切、矩阵变换、结构重定义操作，使所述测试结果的数据格式与所述智能体的网络输入格式对齐。

在另一具体的例子中，对测试结果的采样数据，以矩阵的形式进行传输通信，可以通过矩阵运算改变矩阵的维度，也可以将矩阵的部分元素置零，达到剪切的目的。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

步骤S103、若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新；

在本实施例中，通过比较函数或比较器对迭代次数和预先设定的第一预设阈值进行比较。第一预设阈值的设定可以是根据计算时的资源消耗、目标对象的属性（比如目标对象的类型、设计、参数、测试项目等）进行设定。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本实施例中，目标对象通过N次循环迭代，使得测试结果满足任务指标。在这个过程中，迭代次数为N；总共由生成N个待调整参数；对调整N次目标对象进行测试，同样生成N个测试结果。通过对目标对象的N次循环迭代进行采样，可以得到N个待调整参数以及N个测试结果，利用这些采样数据对智能体在对目标对象进行N次迭代调整时的网络权重参数进行更新。通过迭代次数N的变化，就可以得到多组不同的采样数据，对智能体进行训练，进而完备智能体。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本实施例中，智能体对待调整参数进行迭代调整，对调整后的目标对象进行测试生成测试结果，测试结果满足任务指标，认为智能体找到待调整参数的最优解。此时，对待调整参数的迭代次数进行判断，如果待调整参数的迭代次数大于第一预设阈值，则对智能体的网络权重参数进行更新。

在一可选实施例中，所述智能体为深度学习智能体。在若所述迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新时，若所述迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述深度学习智能体的神经网络权重参数进行更新。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

图1B为根据本申请第一实施例所示的电子设备的处理器执行计算机程序所实现的智能体自训练方法中步骤S103的方法流程示意图；如图1B所示，步骤S103包括：

步骤S113A、根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失；

在一些可选实施例中，在根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失时，通过损失函数，根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失。在此，具体可以通过平方误差方法或者2范数或者1范数计算深度学习智能体的策略损失。可以理解的时，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一具体的例子中，根据目标对象N次调整的待调整参数、目标对象N次的测试结果、以及迭代次数N，通过平方误差方法计算所述深度学习智能体的策略损失。具体为：通过N次调整的待调整参数、目标对象N次的测试结果求出N次调整的待调整参数中的最优待调整参数、接着计算智能体在目标对象N次的测试结果下的最优输出，求出目标对象N次的测试结果下的最优输出与智能体在目标对象N次的测试结果下的当前输出的平方距离，将N个平方距离相加后除以迭代次数N，即可得到深度学习智能体的策略损失。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

步骤S123A、根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度；

在一些可选实施例中，在根据所述策略损失和所述深度学习智能体在对所述目标对象进行N次迭代调整时的神经网络权重参数，计算所述神经网络权重参数的梯度时，根据所述策略损失和所述神经网络权重参数，通过反向传播算法计算所述神经网络权重参数的梯度。可以理解的是，以上描述仅为示例性的，本申请实施例中对此不做任何限定。

在本实施例中，由于智能体的参数较多，因而，可以通过反向传播算法来简化对其网络权重参数的更新。通过将待调整参数N次迭代调整的交互数据输入智能体中以获得输入激励响应；而后，将输入激励响应与对应的目标输出求差，从而获得输出响应误差，将输入激励响应与输出响应误差相乘，得到网络权重参数的梯度，进而即可完成智能体的网络权重参数的更新。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

步骤S133A、根据所述神经网络权重参数的梯度，对所述神经网络权重参数进行更新。

在一具体的例子中，根据神经网络权重参数的梯度，通过梯度下降法对神经网络权重参数进行更新。主要通过下述公式进行计算：

；

其中，

表示更新后的神经网络权重参数；/>

表示更新前的神经网络权重参数；

表示神经网络权重参数进行更新时的步长，通常由设计人员预先设定，一般为0.1；/>

表示神经网络权重参数的梯度。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，所述智能体为强化学习智能体，在若所述迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新时，若所述迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述强化学习智能体中策略网络模型的策略网络权重参数进行更新。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

图1C为根据本申请第一实施例所示的电子设备的处理器执行计算机程序所实现的智能体自训练方法中步骤S103的另一方法流程示意图；如图1C所示，步骤S103包括：

步骤S113B、根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值；

在本申请实施例中，强化学习智能体的价值网络模型为神经网络模型，其作用为评估当前状态的累计回报，相比较传统的贪婪算法，例如A*（A-Star）算法，可以有效的辅助智能体的策略网络模型找到全局最优解，而不是在局部最优解附近来回波动。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，在根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值时，根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过贝尔曼方程计算所述测试结果的累计奖励值。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一具体的实施例中，根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过蒙特卡罗算法，得到测试结果的累计奖励值。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在另一些可选实施例中，在根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值时，根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，还可以通过时序差分算法、Q-Learning算法等计算所述测试结果的累计奖励值。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

步骤S123B、基于所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，计算所述策略网络权重参数的梯度；

在本申请实施例中，强化学习智能体的策略网络模型为神经网络模型，其主要定义了采集N次迭代调整的待调整参数、测试结果以及迭代次数的过程中上述采样参数的范围，以由策略网络模型对策略网络权重参数进行更新，保证通过强化学习智能体能够得到满足任务指标的目标对象。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，在基于所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，计算所述策略网络权重参数的梯度时，基于所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，通过反向传播算法计算所述策略网络权重参数的梯度。可以理解的是，以上描述仅为示例性的，在本申请实施例中对此不做任何限定。

步骤S133B、根据所述策略网络权重参数的梯度，对所述策略网络权重参数进行更新。

在一具体的例子中，根据策略网络权重参数的梯度，通过梯度下降法对策略网络权重参数进行更新。具体可参考上述步骤S133A中对神经网络权重参数更新的方法，在此不再一一赘述。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

步骤S104、基于参数调整后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束，其中，M为自然数。

在本申请实施例中，若迭代次数N大于等于第一预设阈值，对所述智能体在对所述目标对象进行N次迭代调整时的参数进行更新，当所述智能体的参数调整完成后，继续对目标对象的待调整参数进行M次迭代调整，直至对目标对象进行测试，生成的测试结果再次满足所述任务指标，即参数调整后的智能体再次给出了待调整参数的最优解。此时，对待调整参数的再次迭代次数M进行判断，如果待调整参数的迭代次数M小于第一预设阈值，则认为智能体在该任务目标下，对该待调整参数的调整结束。若待调整参数的迭代次数M大于等于第一预设阈值，则继续返回执行步骤S103，对智能体的网络权重参数进行更新，直至对待调整参数的迭代次数小于第一预设阈值。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一可选实施例中，在若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标时：若所述测试结果不满足所述任务指标，且所述迭代次数N等于第二预设阈值，则对所述智能体的所述网络权重参数进行更新，基于参数更新后的所述智能体，继续对所述待调整参数进行迭代调整，直至所述测试结果满足所述任务指标，其中，所述第二预设阈值大于所述第一预设阈值。

在本申请实施例中，智能体在对待调整参数进行迭代调整时，存在可能找不到待调整参数的最优解的情形，此时对目标对象进行测试，得到的测试结果将不满足任务指标。为了避免智能体对待调整参数的迭代调整进入无限循环，设定智能体对待调整参数的最大迭代调整次数，当智能体对待调整参数的迭代次数达到最大，且测试结果不满足任务指标时，对智能体的网络权重参数进行更新，使智能体对待调整参数的迭代调整跳出无限循环后，再通过网络权重参数更新后的智能体对待调整参数进行迭代调整，直至测试结果满足任务指标。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在本申请实施例中，第二预设阈值即为智能体对待调整参数的最大迭代调整次数，其可以是预先根据计算耗费的资源以及目标对象的相关属性（如类型、设计、参数、测试项目等）进行设定。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

在一些可选实施例中，在所述基于参数调整后的所述智能体，继续对所述待调整参数进行M次调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束之后，还包括：对所述任务指标和所述待调整参数进行变更，使所述智能体根据变更后的所述任务指标和变更后的所述待调整参数进行训练。籍次，通过更改任务指标和目标对象的不同的待调整参数，对目标对象的不同数据进行采样，实现采样数据的多样性，保证智能体的稳定性和鲁棒性，防止智能体过拟合的产生，使最终输出的智能体能够广泛的适用于该目标对象。可以理解的是，以上描述仅为示例性的，本申请实施例对此不做任何限定。

本申请实施例中，在智能体对待调整参数进行调整过程中，通过与目标对象的测试进行交互，使得待调整参数在经过智能体的迭代调整后，测试结果与任务指标一致，籍此，通过对迭代调整的次数、以及迭代调整后的测试结果、迭代调整得到的待调整参数，完成智能体网络权重参数的更新，使智能体得到训练。

在此过程中，一方面，不需要对大量的目标对象的数据进行采样标注，智能体只需要通过与一个目标对象的多次交互进行采样标注，即可完成自身训练。通过该方法，在智能体与目标对象测试的交互过程中采集处理数据，对数据进行标注，训练数据易于得到，省去了人工收集处理、标注数据的流程，节约了人力成本。另一方面，可以通过对不同任务指标、目标对象不同待调整参数进行交互采样，使得到的数据具有多样性，保证了智能体能够福广泛的适用于该目标对象的设计。

第二实施例

图2A为根据本申请第二实施例所示的智能体自训练装置的结构示意图；如图2A所示，该智能体自训练装置包括：测试单元201，配置为对目标对象进行测试，生成测试结果；目标对象参数单元202，配置为若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标；智能体参数单元203，配置为若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新；智能体循环单元204，配置为基于参数更新后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束；其中N、M均为自然数。

在一些可选实施例中，所述智能体为深度学习智能体。图2B为根据本申请第二实施例所示的智能体自训练装置中智能体参数单元203的一种结构示意图；如图2B所示，所述智能体参数单元203包括：深度学习策略子单元213A，配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失；深度学习梯度子单元223A，配置为根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度；深度学习更新子单元233A，配置为根据所述神经网络权重参数的梯度，对所述神经网络权重参数进行更新。

在一具体的例子中，所述深度学习策略子单元213A进一步配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过损失函数计算所述深度学习智能体的策略损失。

在一具体的例子中，所述深度学习梯度子单元223A，进一步配置为根据所述策略损失和所述神经网络权重参数，通过反向传播算法计算所述神经网络权重参数的梯度。

在一些可选实施例中，所述智能体为强化学习智能体。图2C为根据本申请第二实施例所示的智能体自训练装置中智能体参数单元203的另一种结构示意图；如图2C所示，所述智能体参数单元203包括：强化学习奖励子单元213B，配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过所述强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值；强化学习梯度子单元223B，配置为根据所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，计算所述策略网络权重参数的梯度；强化学习更新子单元233B，配置为根据所述策略网络权重参数的梯度，对所述策略网络权重参数进行更新。

在一具体的例子中，所述强化学习奖励子单元213B，进一步配置为根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过贝尔曼方程计算所述测试结果的累计奖励值。

在一些可选实施例中，该智能体自训练装置还可以包括：数据采集处理单元，配置为采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络输入格式对齐，所述智能体的网络输入格式为二维矩阵或图结构。

在一具体的例子中，所述数据采集处理单元，进一步配置为采集所述测试结果，对所述测试结果依次执行局部采样、剪切、矩阵变换、结构重定义操作，使所述测试结果的数据格式与所述智能体的网络输入格式对齐。

在一些可选实施例中，所述目标对象参数单元202，进一步配置为若所述测试结果不满足所述任务指标，且所述迭代次数N等于第二预设阈值，则对所述智能体的所述网络权重参数进行更新，基于参数更新后的所述智能体，继续对所述待调整参数进行迭代调整，直至所述测试结果满足所述任务指标，其中，所述第二预设阈值大于所述第一预设阈值。

在一些可选实施例中，该智能体自训练装置还可以包括：目标更改单元，配置为对所述任务指标和所述待调整参数进行变更，使所述智能体根据变更后的所述任务指标和变更后的所述待调整参数进行训练。

需要说明的是，本申请实施例的智能体自训练装置执行上述第一实施例中的智能体自训练方法的流程，在此不再一一赘述。

第三实施例

图3为根据本申请第三实施例所示的电子设备的结构示意图；如图3所示，该电子设备可以包括：

一个或多个处理器301；

计算机可读介质302，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器301执行时，使得所述一个或多个处理器301实现如上述任一实施例中所述的智能体自训练方法。

第四实施例

图4为根据本申请第四实施例所示的电子设备的硬件结构示意图；如图4所示，该电子设备的硬件结构可以包括：处理器401，通信接口402，计算机可读介质403和通信总线404；

其中，处理器401、通信接口402、计算机可读介质403通过通信总线404完成相互间的通信；

可选的，通信接口402可以为通信模块的接口，如GSM模块的接口；

其中，处理器401具体可以配置为：对目标对象进行测试，生成测试结果；若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标；若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新；基于参数更新后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束，其中，N、M均为自然数。

处理器401可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器810、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种电子设备，其特征在于，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

对目标对象进行测试，生成测试结果；

若所述测试结果不满足预设的任务指标，则由智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标；

若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新；

基于参数更新后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束；

其中，N、M均为自然数；

所述智能体为深度学习智能体，

所述处理器执行所述若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新的步骤，包括：

根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失；

根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度；

根据所述神经网络权重参数的梯度，对所述神经网络权重参数进行更新。

2.根据权利要求1所述的电子设备，其特征在于，所述处理器执行所述根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失的步骤，包括：根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过损失函数计算所述深度学习智能体的策略损失。

3.根据权利要求2所述的电子设备，其特征在于，所述处理器执行所述根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度的步骤，包括：根据所述策略损失和所述神经网络权重参数，通过反向传播算法计算所述神经网络权重参数的梯度。

4.根据权利要求1所述的电子设备，其特征在于，所述智能体为强化学习智能体，

所述处理器执行所述若所述迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新的步骤，包括：

根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，通过强化学习智能体中的价值网络模型，计算所述测试结果的累计奖励值；

基于所述累计奖励值和所述强化学习智能体中策略网络模型的策略网络权重参数，计算所述策略网络权重参数的梯度；

根据所述策略网络权重参数的梯度，对所述策略网络权重参数进行更新。

5.根据权利要求1所述的电子设备，其特征在于，所述处理器执行在所述对目标对象进行测试，生成测试结果的步骤之后，且在所述处理器执行所述若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标的步骤之前，还包括：

采集所述测试结果，对所述测试结果进行处理，使所述测试结果的数据格式与所述智能体的网络输入格式对齐，所述智能体的网络输入格式为二维矩阵或图结构。

6.根据权利要求1所述的电子设备，其特征在于，所述处理器执行所述若所述测试结果不满足预设的任务指标，则由所述智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标的步骤，包括：

若所述测试结果不满足所述任务指标，且所述迭代次数N等于第二预设阈值，则对所述智能体的所述网络权重参数进行更新，基于参数更新后的所述智能体，继续对所述待调整参数进行迭代调整，直至所述测试结果满足所述任务指标，其中，所述第二预设阈值大于所述第一预设阈值。

7.根据权利要求1-6任一所述的电子设备，其特征在于，在所述处理器执行所述基于参数调整后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束的步骤之后，还包括：

对所述任务指标和所述待调整参数进行变更，使所述智能体根据变更后的所述任务指标和变更后的所述待调整参数进行训练。

8.一种智能体自训练装置，其特征在于，包括：

测试单元，配置为对目标对象进行测试，生成测试结果；

目标对象参数单元，配置为若所述测试结果不满足预设的任务指标，则由智能体对所述目标对象的待调整参数进行N次迭代调整，直至所述测试结果满足所述任务指标，其中，所述智能体为深度学习智能体；

智能体参数单元，配置为若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新，其中，所述配置为若迭代次数N大于等于第一预设阈值，则根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，对所述智能体的网络权重参数进行更新，包括：根据所述目标对象N次调整的所述待调整参数、所述目标对象N次的所述测试结果、以及所述迭代次数N，计算所述深度学习智能体的策略损失；根据所述策略损失和所述深度学习智能体的神经网络权重参数，计算所述神经网络权重参数的梯度；根据所述神经网络权重参数的梯度，对所述神经网络权重参数进行更新；

智能体循环单元，配置为基于参数更新后的所述智能体，继续对所述待调整参数进行M次迭代调整，直至所述迭代次数M小于所述第一预设阈值，所述智能体的训练结束；

其中，N、M均为自然数。