CN114662676A

CN114662676A - 模型优化方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN114662676A
Application number: CN202210374879.0A
Authority: CN
Inventors: 任希佳; 盛佳琦
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-06-24

Abstract

本申请实施例公开了一种模型优化方法、装置、电子设备和计算机可读存储介质；在本申请实施例中，获取待标注文本，并将所述待标注文本输入至已训练神经网络模型中进行标注，得到所述待标注文本的目标标注结果；确定所述目标标注结果的对错状态；基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数；基于所述更新奖励惩罚参数，对所述已训练神经网络模型进行优化。本申请实施例可以提高标注的准确度。

Description

模型优化方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种模型优化方法、装置、电子设备和计算机可读存储介质。

背景技术

随着科学技术的发展，神经网络模型的应用越来越广泛。比如，将神经网络模型用于自然语言理解(NLP，Natural Language Processing)中。

在自然语言理解中，需要对文本进行标注。然而，如果训练样本不均衡，则会导致在使用训练得到的神经网络模型对文本进行标注时，标注的准确率较低。

发明内容

本申请实施例提供一种模型优化方法、装置、电子设备和计算机可读存储介质，可以解决训练样本不均衡，标注的准确率较低的技术问题。

一种模型优化方法，包括：

获取待标注文本，并将所述待标注文本输入至已训练神经网络模型中进行标注，得到所述待标注文本的目标标注结果；

确定所述目标标注结果的对错状态；

基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数；

基于所述更新奖励惩罚参数，对所述已训练神经网络模型进行优化。

可选地，所述基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，包括：

若所述对错状态为正确状态，则对所述已训练神经网络模型中奖励惩罚参数增加预设参数，得到更新奖励惩罚参数；

若所述对错状态为错误状态，则对所述已训练神经网络模型中奖励惩罚参数减去所述预设参数，得到更新奖励惩罚参数。

可选地，所述奖励惩罚参数包括奖励子参数和惩罚子参数；

所述基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，包括：

若所述对错状态为正确状态，则对所述已训练神经网络模型中所述奖励子参数增加预设参数，得到更新奖励子参数；

若所述对错状态为错误状态，则对所述已训练神经网络模型中所述惩罚子参数增加所述预设参数，得到更新惩罚子参数。

可选地，在所述若所述对错状态为正确状态，则对所述已训练神经网络模型中所述奖励子参数增加预设参数，得到更新奖励子参数之前，还包括：

获取所述已训练神经网络模型的优化次数、原始参数、初始后的奖励子参数；

根据所述优化次数、所述原始参数以及所述初始后的奖励子参数确定预设参数。

可选地，所述确定所述目标标注结果的对错状态，包括：

将所述目标标注结果输出，以供用户查看；

接收所述用户输入的所述目标标注结果的对错状态。

可选地，在所述将所述待标注文本输入至已训练神经网络模型中进行标注，得到所述待标注文本的目标标注结果之前，还包括：

获取训练标注文本集；

将所述训练标注文本集中样本输入至待训练神经网络模型中进行标注，得到目标损失值；

若所述目标损失值满足预设条件，则将所述待训练神经模型作为所述已训练神经网络模型；

若所述目标损失值不满足预设条件，则基于所述目标损失值更新所述待训练神经网络模型的参数，并返回执行将所述训练标注文本集输入至待训练神经网络模型中进行标注的操作。

可选地，所述训练标注文本集包括训练集以及测试集；

将所述训练标注文本集样本输入至待训练神经网络模型中进行标注，得到目标损失值，包括：

将所述训练集中样本输入至待训练神经网络模型中进行标注，得到目标损失值；

所述若所述目标损失值满足预设条件，则将所述待训练神经模型作为所述已训练神经网络模型，包括：

若所述目标损失值满足预设条件，则得到候选神经网络模型；

将所述测试集中样本输入至所述候选神经网络模型中进行标注，得到验证标注结果；

基于所述验证标注结果确定初始准确率；

若所述初始准确率大于预设阈值，则将所述候选神经网络模型作为所述已训练神经网络模型。

可选地，在所述基于所述验证标注结果确定初始准确率之后，还包括：

若所述初始准确率小于或等于所述预设阈值，则基于所述验证标注结果更新训练集，将所述候选神经网络模型作为所述待训练神经网络模型，并返回执行将所述训练集中样本输入至待训练神经网络模型中进行标注的操作。

可选地，所述若所述初始准确率小于或等于所述预设阈值，则基于所述验证标注结果更新训练集，包括：

若所述初始准确率小于或等于所述预设阈值，则将所述验证标注结果输出；

接收用户基于所述验证标注结果输入的所述训练集的更新结果，得到更新训练集，并将所述更新训练集作为训练集。

基于所述对错状态确定所述目标标注结果的目标准确率；

若所述目标准确率小于第一阈值，则基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数；

所述基于所述更新奖励惩罚参数，对所述已训练神经网络模型进行优化，包括：

将所述更新奖励惩罚参数作为所述已训练神经网络模型中当前的奖励惩罚参数，并返回执行将所述待标注文本输入至已训练神经网络模型中进行标注的操作。

可选地，在所述基于所述对错状态确定所述目标标注结果的目标准确率之后，还包括：

若所述目标准确率等于或大于第一阈值，则将所述已训练神经网络模型作为优化后的神经网络模型。

可选地，所述将所述更新奖励惩罚参数作为所述已训练神经网络模型中当前的奖励惩罚参数，并返回执行将所述待标注文本输入至已训练神经网络模型中进行标注的操作，包括：

将所述更新奖励惩罚参数作为所述已训练神经网络模型中当前的奖励惩罚参数，并确定错误状态的目标标注结果，对应的待标注文本的目标类型；

若所述目标类型为标记类型，则返回执行将所述待标注文本输入至已训练神经网络模型中进行标注的操作。

可选地，在所述确定错误状态的目标标注结果，对应的待标注文本的目标类型之后，还包括：

若所述目标类型为未标记类型，则将所述已训练神经网络模型作为待训练神经网络模型；

在所述训练标注文本集添加所述未标记类型对应的样本，得到添加标注文本集，并将所述添加标注文本集作为所述训练标注文本集，返回执行将所述训练标注文本集中样本输入至待训练神经网络模型中进行标注，得到目标损失值的操作。

相应地，本申请实施例提供一种模型优化装置，包括：

获取模块，用于获取待标注文本，并将所述待标注文本输入至已训练神经网络模型中进行标注，得到所述待标注文本的目标标注结果；

确定模块，用于确定所述目标标注结果的对错状态；

更新模块，用于基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数；

优化模块，用于基于所述更新奖励惩罚参数，对所述已训练神经网络模型进行优化。

此外，本申请实施例还提供一种电子设备，包括处理器和存储器，上述存储器存储有计算机程序，上述处理器用于运行上述存储器内的计算机程序实现本申请实施例提供的模型优化方法。

此外，本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序适于处理器进行加载，以执行本申请实施例所提供的任一种模型优化方法。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例所提供的任一种模型优化方法。

在本申请实施例中，先获取待标注文本，并将待标注文本输入至已训练神经网络模型中进行标注，得到待标注文本的目标标注结果。然后确定目标标注结果的对错状态。接着基于对错状态更新已训练神经网络模型中奖励惩罚参数，以得到更新奖励惩罚参数。最后基于更新奖励惩罚参数，对已训练神经网络模型进行优化。

即在本申请实施例中，在已训练神经网络模型中设置奖励惩罚参数，然后基于目标标注结果的对错状态对奖励惩罚参数进行更新，得到更新奖励惩罚参数，最后基于更新奖励惩罚参数对已训练神网络模型进行优化，即动态优化已训练神网络模型，提高标注的准确率，进而使得即使在训练时训练样本不均衡，无需对训练样本进行均衡操作，也可以保证已训练神经网络模型的文本标注结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的模型优化方法的流程示意图；

图2是本申请实施例提供的对奖励惩罚参数进行更新的示意图；

图3是本申请实施例提供的另一种对奖励惩罚参数进行更新的示意图；

图4是本申请实施例提供的对待训练神经网络模型进行训练的示意图；

图5是本申请实施例提供的模型优化装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种模型优化方法、装置、电子设备和计算机可读存储介质。其中，该模型优化装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

另外，本申请实施例中的“多个”指两个或两个以上。本申请实施例中的“第一”和“第二”等用于区分描述，而不能理解为暗示相对重要性。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

在本实施例中，将从模型优化装置的角度进行描述，该模型优化装置具体可以集成在服务器或终端等设备中，为了方便对本申请的模型优化方法进行说明，以下将以模型优化装置集成在终端中进行详细说明，即以终端作为执行主体进行详细说明。

请参阅图1，图1是本申请一实施例提供的模型优化方法的流程示意图。该图像处理方法可以包括：

S101、获取待标注文本，并将待标注文本输入至已训练神经网络模型中进行标注，得到待标注文本的目标标注结果。

待标注文本可以为一句话，一个词语或者一个字。将待标注文本输入至已训练神经网络模型中进行标注，可以指通过已训练神经网络模型对待标注文本进行词性标注，比如，待标注文本为“狗”，则“狗”的词性标注结果为名词。或者，将待标注文本输入至已训练神经网络模型中进行标注，也可以指通过已训练神经网络模型对待标注文本打上标签，比如，待标注文本为体育类消息，则待标注文本的标签为体育。

当需要对待标注文本进行标注时，终端可以响应于用户手动输入的待标注文本，获取到待标注文本。或者，终端也可以是在接收到标注指令时，从本地存储中获取待标注文本。又或者，终端可以发送获取请求至其他终端，其他终端再基于获取请求将待标注文本返回至本终端，本终端从而获取到待标注文本。

对于终端获取待标注文本的方式，用户可以根据实际情况进行选择，本实施例在此不做限定。

终端在将待标注文本输入至已训练神经网络模型中进行标注，即可得到待标注文本的目标标注结果，从而使得无需人工对待标注文本进行标注，提高标注效率。并且，人工对待标注文本进行标注，还可能导致出现错误。因此，通过已训练神经网络对待标注文本进行标注，可以提高标注的准确率，即提高标注质量。

S102、确定目标标注结果的对错状态。

终端在获取到待标注文本的目标标注结果之后，可以将该目标标注结果输出，以供用户查看。如果该目标标注结果是正确的，则用户可以触发目标标注结果的对错状态中正确状态，如果该目标标注结果是错误的，则用户可以触发目标标注结果的对错状态中错误状态，从而使得终端接收到目标标注结果的对错状态。

用户可以通过选择或手动输入的方式触发目标标注结果的对错状态，对于用户触发目标标注结果的对错状态的方式，用户可以根据实际情况进行选择，本申请实施例在此不做限定。

S103、基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数。

奖励惩罚参数是本实施例设置的已训练神经网络模型的一个新的超参数，然后将该奖励惩罚参数与待标注文本进行关联，即将该奖励惩罚参数与训练样本进行关联。

超参数指在机器学习上下文中，在开始学习过程之前设置值的参数，通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

最后，在对待标注文本进行标注时，如果对错状态为正确状态，说明该目标标注结果是正确的，则可以变大该奖励惩罚参数。如果对错状态为错误状态，说明该目标标注结果是错误的，则可以减少该奖励惩罚参数。

即在本申请实例中，在对待标注文本进行标注的过程中，会动态更新已训练神经网络模型中奖励惩罚参数，即动态更新已训练神经网络模型，从而提高对待标注文本进行标注的准确性。

S104、基于更新奖励惩罚参数，对已训练神经网络模型进行优化。

基于更新奖励惩罚参数，对已训练神经网络模型进行优化可以指，将更新奖励惩罚参数作为已训练神经网络模型当前的奖励惩罚参数。

由于可以基于目标标注结果的对错状态实时对奖励惩罚参数进行更新，然后根据更新奖励惩罚参数对已训练神经网络模型进行优化，从而提高标注的准确性。因此，当训练样本不均衡，导致目标准确率较低时，可以对惩罚奖励参数进行更新，从而提高目标准确率。因此，在本实施例中，即使训练样本不均衡，在利用已训练神经网络模型对待标注文本进行标注时，也可以保证准确率，无需对训练样本进行均衡。

需要说明的是，已训练神经网络模型可以在每得到一个目标标注结果之后，更新一次奖励惩罚参数，即每得到一个目标标注结果优化一次已训练神经网络模型。

或者，已训练神经网络模型可以在得到至少两个目标标注结果之后再更新一次奖励惩罚参数，即此时，已训练神经网络模型在得到至少两个目标标注结果之后再优化一次，比如，一次输入十个待标注文本，在得到十个待标注文本对应的目标标注结果之后，再更新一次奖励惩罚参数。本实施例在此不做限定。

在一些实施例，参照图2，基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，包括：

基于对错状态确定目标标注结果的目标准确率；

若目标准确率小于第一阈值，则基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数；

基于更新奖励惩罚参数，对已训练神经网络模型进行优化，包括：

将更新奖励惩罚参数作为已训练神经网络模型中当前的奖励惩罚参数，并返回执行将待标注文本输入至已训练神经网络模型中进行标注的操作。

在本实施例中，当目标准确率小于第一阈值时，说明目标准确率较低，说明该目标准确率较低可能是因为在训练时，训练样本不均衡(训练样本不均衡，指不同类别的训练样本的数量之间的差值较大，比如，训练样本包括类别A的训练样本和类别B的训练样本，类别A的训练样本的数量为一万个，但类别B的训练样本一百个，则训练样本不均衡)导致的，则再基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，从而减少奖励惩罚参数的更新次数。

此时，该待标注文本可以为目标标注结果对应的待标注文本，即在将待标注文本输入至已训练神经网络模型进行标注之后，可以得到目标标注结果以及已标注文本，然后当目标准确率小于第一阈值时，采用已待标注文本对已训练神经网络模型进行优化。

在该优化过程中，可以只更新奖励惩罚参数，不更新已训练神经网络模型中其他超参数，直至目标准确率等于或大于第一阈值，停止优化，得到优化后的神经网络模型。

或者，在该优化过程中，也可以同时更新奖励惩罚参数和已训练神经网络模型中其他超参数，本实施例在此不做限定。

需要说明的是，当目标准确率小于第一阈值时，也可以将训练标注文本集中样本作为待标注文本，然后再返回执行将待标注文本输入至已训练神经网络模型中进行标注的操作。

此时，因为训练标注文本集中样本为人工标注过的文本，所以，在将训练标注文本集中样本输入至已训练神经网络模型中进行标注，得到初始标注结果之后，终端可以基于人工标注的结果和初始标注结果确定初始标注结果的对错状态。

若目标准确率等于或大于第一阈值，则直接将已训练神经网络模型作为优化后的神经网络模型，然后将新的待标注文本输入至已训练神经网络模型中进行标注。

确定目标准确率的方式可以为：确定正确状态的目标标注结果的第一个数以及总的目标标注结果的第二个数，然后将第一个数除以第二个数，得到已训练神经网络模型的目标准确率。

在另一些实施例中，将更新奖励惩罚参数作为已训练神经网络模型中当前的奖励惩罚参数，并返回执行将待标注文本输入至已训练神经网络模型中进行标注的操作，包括：

将更新奖励惩罚参数作为已训练神经网络模型中当前的奖励惩罚参数，并确定错误状态的目标标注结果，对应的待标注文本的目标类型；

若目标类型为标记类型，则返回执行将待标注文本输入至已训练神经网络模型中进行标注的操作。

当目标类型为标记类型时，说明已采用该类型的训练样本训练过已训练神经网络，此时，可以采用待标注文本并通过更新奖励惩罚参数的方式优化已训练神经网络模型，进而保证可以提高优化后的神经网络模型的准确率。

比如，待标注文本为A，待标注文本A对应的类型为“我要看电视剧1”，训练标注文本集中包括“我要看电视剧1”的训练样本，则待标注文本A对应的目标类型为标记类型。

在另一些实施例中，在确定错误状态的目标标注结果，对应的待标注文本的目标类型之后，还包括：

若目标类型为未标记类型，则将已训练神经网络模型作为待训练神经网络模型；

在训练标注文本集添加未标记类型对应的样本，得到添加标注文本集，并将添加标注文本集作为训练标注文本集，返回执行将训练标注文本集中样本输入至待训练神经网络模型中进行标注，得到目标损失值的操作。

在本实施例中，当目标类型为未标记类型时，说明没有采用该类型的训练样本训练过已训练神经网络模型，此时，如果采用待标注文本并通过更新奖励惩罚参数的方式优化已训练神经网络模型，并不能保证提高目标准确率。

因此，在本实施例中，如果目标类型为未标记类型，则将已训练神经网络模型作为待训练神经网络模型，同时，在训练标注文本集添加未标记类型对应的样本，得到添加标注文本集，并将添加标注文本集作为训练标注文本集，最后返回执行将训练标注文本集中样本输入至待训练神经网络模型中进行标注，得到目标损失值的操作。

即此时，通过采用添加标注文本集重新对已训练神经神经网络模型进行训练的方式优化已训练神经神经网络模型，最终得到优化后的已训练神经网络模型，从而保证可以提高目标标注结果的目标准确率。

比如，待标注文本为B，待标注文本B对应的类型为“打开视频类APP2”，而在已训练神经网络模型的训练过程中，训练标注文本集中包括的是“我要看电视剧1”的训练样本以及“有哪些综艺节目”的训练样本，则待标注文本B对应的目标类型为未标记类型。

需要说明的是，在采用添加标注文本集重新对已训练神经神经网络模型进行训练的过程中，可以不更新奖励惩罚参数，只更新已训练神经网络模型中其他超参数。然后在采用优化后的已训练神经网络模型对待标注文本进行标注时，再对奖励惩罚参数进行更新。

在另一些实施例中，基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，包括：

若对错状态为正确状态，则对已训练神经网络模型中奖励惩罚参数增加预设参数，得到更新奖励惩罚参数；

若对错状态为错误状态，则对已训练神经网络模型中奖励惩罚参数减去预设参数，得到更新奖励惩罚参数。

在本实施例中，已训练神经网络模型中包括一个奖励惩罚参数，终端在得到已训练神经网络模型之后，可以先对奖励惩罚参数进行初始化，得到初始后的奖励惩罚参数。然后在初始化后的奖励惩罚参数增加预设参数或减去预设参数。

或者，参照图3，奖励惩罚参数包括奖励子参数和惩罚子参数，则基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，也可以包括：

若对错状态为正确状态，则对已训练神经网络模型中奖励子参数增加预设参数，得到更新奖励子参数；

若对错状态为错误状态，则对已训练神经网络模型中惩罚子参数增加预设参数，得到更新惩罚子参数。

在本实施例中，已训练神经网络模型中包括奖励子参数和惩罚子参数，终端在得到已训练神经网络模型之后，可以分别先对奖励子参数和惩罚子参数进行初始化，得到初始后的奖励子参数和惩罚子参数。然后在初始化后的奖励子参数增加预设参数或在初始后的惩罚子参数增加预设参数。

预设参数可以根据实际情况进行设置，比如，可以将预设参数设置为1，即当对错状态为正确状态时，对奖励惩罚参数加1，或者对奖励子参数加1，当对错状态为错误状态时，对奖励惩罚参数减去1，或者对惩罚子参数加1。本实施例在此不做限定。

在另一些实施例中，为了防止奖励惩罚参数无限大，出现过拟合现象，预设参数可以根据初始后的奖励惩罚参数和优化次数进行设置，或者根据初始后的奖励子参数、初始后的惩罚子参数和优化次数进行设置。

此时，在若对错状态为正确状态，则对已训练神经网络模型中奖励子参数增加预设参数，得到更新奖励子参数之前，还包括：

获取已训练神经网络模型的优化次数、原始参数、初始后的奖励子参数；

根据优化次数、原始参数以及初始后的奖励子参数确定预设参数。

或者，在若对错状态为正确状态，则对已训练神经网络模型中奖励子参数增加预设参数，得到更新奖励子参数之前，还包括：

获取已训练神经网络模型的优化次数、原始参数、初始后的惩罚子参数；

根据优化次数、原始参数以及初始后的惩罚子参数确定预设参数。

或者，在若对错状态为正确状态，则对已训练神经网络模型中奖励惩罚参数增加预设参数，得到更新奖励惩罚参数之前还包括：

获取已训练神经网络模型的优化次数、原始参数、初始后的奖励惩罚参数；

根据优化次数、原始参数以及初始后的奖励惩罚参数确定预设参数。

比如，预设参数可以如下所示：

其中，Ci表示预设参数；i表示优化次数；m表示原始参数，m大于1且为整数，比如，m可以设置为2；Co表示初始后的奖励惩罚参数，或表示初始后的奖励子参数，或表示初始后的惩罚子参数。

此时，更新后奖励子参数或更新后惩罚子参数可以如下所示：

C表示更新后奖励子参数或更新后惩罚子参数。

需要说明的是，如果终端是在得到至少两个目标标注结果之后，再对奖励惩罚参数进行更新，则此时可以是当多个目标标注结果对应的对错状态中包括正确状态时，则对奖励惩罚参数增加预设参数，当多个目标标注结果对应的对错状态中包括错误状态时，则对奖励惩罚参数减去预设参数。

在另一些实施例中，在将待标注文本输入至已训练神经网络模型中进行标注，得到待标注文本的目标标注结果之前，还包括：

获取训练标注文本集；

将训练标注文本集中样本输入至待训练神经网络模型中进行标注，得到目标损失值；

若目标损失值满足预设条件，则将待训练神经模型作为已训练神经网络模型；

若目标损失值不满足预设条件，则基于目标损失值更新待训练神经网络模型的参数，并返回执行将所述训练标注文本集输入至待训练神经网络模型中进行标注的操作。

在本实施例中，利用训练标注文本集后中样本，即训练样本，对待训练神经网络模型进行训练，以便得到已训练神经网络模型。训练标注文本集中样本可以为人工进行标注过的样本。

在另一些实施例中，参照图4，训练标注文本集包括训练集以及测试集，将训练标注文本集样本输入至待训练神经网络模型中进行标注，得到目标损失值，包括：

将训练集中样本输入至待训练神经网络模型中进行标注，得到目标损失值；

若所述目标损失值满足预设条件，则将待训练神经模型作为已训练神经网络模型，包括：

若目标损失值满足预设条件，则得到候选神经网络模型；

将测试集中样本输入至候选神经网络模型中进行标注，得到验证标注结果；

基于验证标注结果确定初始准确率；

若初始准确率大于预设阈值，则将候选神经网络模型作为已训练神经网络模型。

为了保证已训练神经网络模型的正确率，在本实施例中，训练标注文本集包括训练集以及测试集，在采用训练集对待训练模型进行训练，得到候选神经网络模型之后，利用测试集对候选神经网络模型进行验证，从而保证已训练神经网络模型的准确率。

在另一些实施例中，在基于验证标注结果确定初始准确率之后，还包括：

若初始准确率小于或等于预设阈值，则基于验证标注结果更新训练集，将候选神经网络模型作为待训练神经网络模型，并返回执行将训练集中样本输入至待训练神经网络模型中进行标注的操作。

由于当初始准确率小于或等于预设阈值时，可能是人工对测试集中样本的标注出现错误，因此，可以对基于验证标注结果对训练集进行更新。或者，也可以基于验证标注结果同时对训练集和测试集进行更新。

其中，若初始准确率小于或等于预设阈值，则基于验证标注结果更新训练集，包括：

若初始准确率小于或等于预设阈值，则将验证标注结果输出；

接收用户基于验证标注结果输入的训练集的更新结果，得到更新训练集，并将更新训练集作为训练集。

如果初始准确率小于或等于预设阈值，终端则可以先从训练标注文本集中查找验证标注结果与人工标注结果不相同对应的目标样本，然后将目标样本、验证标注结果以及人工标注结果输出至用户，用户再进行查看。如果是人工标注结果出现错误，用户可以对目标样本的人工标注结果进行修改，终端从而得到修改后的人工标注结果，并将人工标注结果作为训练集的更新结果，得到更新训练集，进而保证训练集中样本的准确性。

由以上可知，在本申请实施例中，先获取待标注文本，并将待标注文本输入至已训练神经网络模型中进行标注，得到待标注文本的目标标注结果。然后确定目标标注结果的对错状态。接着基于对错状态更新已训练神经网络模型中奖励惩罚参数，以得到更新奖励惩罚参数。最后基于更新奖励惩罚参数，对已训练神经网络模型进行优化。

即在本申请实施例中，在已训练神经网络模型中设置奖励惩罚参数，然后基于目标标注结果的对错状态对奖励惩罚参数进行更新，得到更新奖励惩罚参数，最后基于更新奖励惩罚参数对已训练神网络模型进行优化，即动态优化已训练神网络模型，提高准确率，进而使得即使在训练时训练样本不均衡，无需对训练样本进行均衡操作，也可以保证已训练神经网络模型的文本标注结果的准确性。

为便于更好的实施本申请实施例提供的模型优化方法，本申请实施例还提供一种基于上述模型优化方法的装置。其中名词的含义与上述模型优化方法中相同，具体实现细节可以参考方法实施例中的说明。

例如，如图5所示，该模型优化装置可以包括：

获取模块501，用于获取待标注文本，并将待标注文本输入至已训练神经网络模型中进行标注，得到待标注文本的目标标注结果。

确定模块502，用于确定目标标注结果的对错状态。

更新模块503，用于基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数。

优化模块504，用于基于更新奖励惩罚参数，对已训练神经网络模型进行优化。

可选地，更新模块503具体用于执行：

可选地，奖励惩罚参数包括奖励子参数和惩罚子参数。

相应地，更新模块503具体用于执行：

可选地，该模型优化装置可以包括：

参数确定模块，用于执行：

可选地，确定模块502具体用于执行：

将目标标注结果输出，以供用户查看；

接收用户输入的目标标注结果的对错状态。

可选地，该模型优化装置还包括：

训练模块，用于：

获取训练标注文本集；

若目标损失值不满足预设条件，则基于目标损失值更新待训练神经网络模型的参数，并返回执行将训练标注文本集输入至待训练神经网络模型中进行标注的操作。

可选地，训练标注文本集包括训练集以及测试集。

相应地，训练模块具体用于执行：

若目标损失值满足预设条件，则得到候选神经网络模型；

基于验证标注结果确定初始准确率；

可选地，训练模块具体用于执行：

若初始准确率小于或等于所述预设阈值，则将验证标注结果输出；

可选地，更新模块503具体用于执行：

基于对错状态确定目标标注结果的目标准确率；

若目标准确率小于第一阈值，则基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数

相应地，优化模块504具体用于执行：

可选地，优化模块504具体用于执行：

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施方式以及对应的有益效果可参见前面的方法实施例，在此不再赘述。

本申请实施例还提供一种电子设备，该电子设备可以是服务器或终端等，如图6所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的计算机程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储计算机程序以及模块，处理器601通过运行存储在存储器602的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

电子设备还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器601会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的计算机程序，从而实现各种功能，比如：

获取待标注文本，并将待标注文本输入至已训练神经网络模型中进行标注，得到待标注文本的目标标注结果；

确定目标标注结果的对错状态；

基于对错状态更新已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数；

基于更新奖励惩罚参数，对已训练神经网络模型进行优化。

以上各个操作的具体实施方式以及对应的有益效果可参见上文对模型优化方法的详细描述，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

确定目标标注结果的对错状态；

基于更新奖励惩罚参数，对已训练神经网络模型进行优化。

以上各个操作的具体实施方式以及对应的有益效果可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种模型优化方法中的步骤，因此，可以实现本申请实施例所提供的任一种模型优化方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述模型优化方法。

以上对本申请实施例所提供的一种模型优化方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型优化方法，其特征在于，包括：

确定所述目标标注结果的对错状态；

2.根据权利要求1所述的模型优化方法，其特征在于，所述基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，包括：

3.根据权利要求1所述的模型优化方法，其特征在于，所述奖励惩罚参数包括奖励子参数和惩罚子参数；

4.根据权利要求3所述的模型优化方法，其特征在于，在所述若所述对错状态为正确状态，则对所述已训练神经网络模型中所述奖励子参数增加预设参数，得到更新奖励子参数之前，还包括：

5.根据权利要求1所述的模型优化方法，其特征在于，所述确定所述目标标注结果的对错状态，包括：

将所述目标标注结果输出，以供用户查看；

接收所述用户输入的所述目标标注结果的对错状态。

6.根据权利要求1所述的模型优化方法，其特征在于，在所述将所述待标注文本输入至已训练神经网络模型中进行标注，得到所述待标注文本的目标标注结果之前，还包括：

获取训练标注文本集；

7.根据权利要求6所述的模型优化方法，其特征在于，所述训练标注文本集包括训练集以及测试集；

基于所述验证标注结果确定初始准确率；

8.根据权利要求7所述的模型优化方法，其特征在于，在所述基于所述验证标注结果确定初始准确率之后，还包括：

9.根据权利要求8所述的模型优化方法，其特征在于，所述若所述初始准确率小于或等于所述预设阈值，则基于所述验证标注结果更新训练集，包括：

10.根据权利要求1-9任一项所述的模型优化方法，其特征在于，所述基于所述对错状态更新所述已训练神经网络模型中奖励惩罚参数，得到更新奖励惩罚参数，包括：

基于所述对错状态确定所述目标标注结果的目标准确率；

11.根据权利要求10所述的模型优化方法，其特征在于，在所述基于所述对错状态确定所述目标标注结果的目标准确率之后，还包括：

12.根据权利要求10所述的模型优化方法，其特征在于，所述将所述更新奖励惩罚参数作为所述已训练神经网络模型中当前的奖励惩罚参数，并返回执行将所述待标注文本输入至已训练神经网络模型中进行标注的操作，包括：

13.根据权利要求12所述的模型优化方法，其特征在于，在所述确定错误状态的目标标注结果，对应的待标注文本的目标类型之后，还包括：

14.一种模型优化装置，其特征在于，包括：

确定模块，用于确定所述目标标注结果的对错状态；

15.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至13任一项所述的模型优化方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行权利要求1至13任一项所述的模型优化方法。