CN117788377A

CN117788377A - 一种基于强化学习的增广数据质量评价方法和系统

Info

Publication number: CN117788377A
Application number: CN202311547994.4A
Authority: CN
Inventors: 向语哲; 王志; 崔灿; 王祥根; 桑金嵩
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-29

Abstract

本发明属于舰船图像处理技术领域，提供一种基于强化学习的增广数据质量评价方法和系统。该方法包括：将待增广数据集分为训练集和测试集，使用相关增广方法对训练集进行增广处理；将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入所建立的数据评价模型，得到每条舰船图像数据的评价值；根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型、评价概率分布图，计算待增广数据集中每条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度，以确定每条舰船图像数据的质量情况。本发明能有效保留评分结果的同时，提升输出结果的稳定性，保证了数据评价结果对于增广工作的可用性和有效性。

Description

一种基于强化学习的增广数据质量评价方法和系统

技术领域

本发明涉及舰船图像处理技术领域，尤其涉及一种基于强化学习的增广数据质量评价方法和系统。

背景技术

近年来，随着人工智能技术（Artificial Intelligence, AI）的发展，各领域也在实现智能化应用，数据已然成为人工智能技术中尤为重要的一部分，数据质量直接影响到AI模型的最终推理成功率。然而，在特定专用领域中，由于收集数据难度大、成本高等，数据仍然稀缺。数据集增广是针对专用领域数据集缺乏问题最有效的解决方法之一，当下已有众多数据增广方法可满足正常的模型训练。但是，这些数据增广方法应用的效果，即增广数据的质量通常是通过人工验证或实验验证。采用人工验证的方法大多依赖领域专家对新增数据逐个筛选，无法量化反映增广方法的真实效果，且花费大量时间成本。现有许多利用数据增广解决缺乏样本问题的研究中，大都通过设计实验证明其选用的数据增强或增广方法对训练产生的效果，这些实验更多的是从结果的角度体现数据增广的作用，评价比较滞后，判断周期长。例如，通过AutoAug、RandAug等方法获得的增广数据的质量大多依靠模型最终推理结果来判断。这意味着评价数据质量的过程在训练以及推理结束之后，例如基于NAS的数据增强策略，执行过程往往耗费巨大的算力，使得判断过程周期长，缺乏实时性。而复杂的增广方法是否能比仅通过位置变换、裁剪获取的增广数据有着更高质量，目前并没有相应的量化验证方法，解决这一问题可以提升数据增广方法的选取效率。

强化学习是一种交互学习方法，通过设计交互方式提供奖励回馈，最终迭代达到最大化收益。使用强化学习评估数据 (Data Valuation Using Reinforcement Learning,DVRL) 是谷歌提出的一种强化学习数据集评估分析模型，通过策略变动与价值回馈的动态调整达到数据评分最优解，用于确定每个训练样本适用于预测模型训练的量化价值，借助该模型构建数据集质量评估工具，可对数据集中噪音数据进行有效筛查。

对现有技术的研究与分析中发现，已有技术存在以下问题：

在现有的增强或增广数据质量评价方法中，研究人员往往需要多次实验评价增广数据集应用效果，在此期间需要经历多轮模型训练，消耗大量算力，试错成本高，周期长，缺乏实时性；评价过程与训练过程没有耦合；现有基于深度特征提取的图像质量评价方法以及针对数据质量通用性指标评价（均衡度、规范度、偏差度、区分度等），都没有涉及评价过程与训练过程相结合，如直接运用在增广后的数据上，并不能体现增广数据在训练任务上的价值。

因此，有必要提供一种新的基于强化学习的增广数据质量评价方法，以解决上述问题。

发明内容

本发明意在提供一种基于强化学习的增广数据质量评价方法和系统，以解决现有的图像质量评价方法以及针对数据质量通用性指标评价（均衡度、规范度、偏差度、区分度等），都没有同时涉及评价过程和训练过程，也即评价过程与训练过程没有耦合，缺少评价过程和训练过程配合的部分进而导致评价方法的完整性差，试错成本高，周期长，缺乏实时性，如何提高增广数据质量等的技术问题，本发明要解决的技术问题通过以下技术方案来实现。

本发明第一方面提出一种基于强化学习的增广数据质量评价方法，包括：将待增广数据集分为训练集和测试集，使用相关增广方法对所述训练集进行增广处理，得到增广处理后的增广数据集，从增广数据集中划分出一部分数据作为验证集，所述待增广数据集包括标注有舰船类别标签的舰船图像数据；建立数据评价强化学习模型，所述数据评价强化学习模型包括数据预测模型和数据评价模型，通过执行以下步骤，优化所述数据预测模型和数据评价模型：步骤S201:初始化数据预测模型；使用预设的一批次舰船图像数据输入数据预测模型，记录每条舰船图像数据产生的损失值，使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率，根据优化目标优化所述数据预测模型；步骤S202:将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入数据评价模型，得到每条舰船图像数据的评价值；步骤S203:再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型，并得到评价概率分布图；根据所得到的评价概率分布图，计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的KL散度，以确定所述增广数据集中每条舰船图像数据的质量情况。

根据优选实施方式，所述数据预测模型为Resnet模型，使用表示优化后的数据预测模型，所述数据预测5 模型的优化目标是使经过加权的损失函数/>最小化，以得到优化后的数据预测模型；所述数据评价模型为BP神经网络模型，使用/>表示第 i个训练样本（x_i,y_i）的评价值；

使用以下表达式表征所述数据预测模型的优化目标：

;

其中，是指优化后的数据预测模型，即优化目标为使损失函数值/>与样本评价值/>的乘积最小，x_i表示数据预测模型的输入，包括第i条舰船图像数据、第i条舰船图像数据对应的损失值和准确率，y_i表示第i条舰船图像数据所对应的舰船类别标签值；α表示数据预测模型的学习率；β表示数据评价模型的学习率；θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。

根据优选实施方式，使用以下表达式，表示在每一次迭代中权重和参数θ, φ的更新过程：

,

其中，α表示数据预测模型的学习率；β表示数据评价模型的学习率；B_p是指训练过程中一批次数据包含的数据数量，p为下标标记，p表示该批数据用于预测模型；表示训练集中一批次；/>表示/>中的一条数据，其中B_s表示验证过程中的一批次数据，s表示正确或错误的验证结果；/>是指当前求和循环中的第m条数据的验证结果，m为正整数，m为1、2、...、n；L表示模型中参数数量；/>表示训练集的图像数据；/>表示训练集的数据标注，k表示求和运算进行到第k轮；v表示该数据用于验证模型；h、即样本评价值/>， x_i表示数据预测模型的输入，包括第i条舰船图像数据、第i条舰船图像数据对应的损失值和准确率，y_i表示第 i条舰船图像数据所对应的舰船类别标签值；

m表示求和运算进行到第m轮；L表示预测模型一次输入数据的维度数；

θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。

根据优选实施方式，使用以下表达式，计算增广数据集中每条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度：

;

其中，表示第i条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度，其中i为正整数，具体为1、2、...、N；P(x)为增广数据集的质量概率分布，Q(x)为待增广数据集，即原数据集的质量概率分布。

根据优选实施方式，使用增广数据集训练数据预测模型的模型精度大于指定值，则确定增广数据集对原舰船图像数据的质量还原有效，所述指定值由训练数据集训练数据预测模型所得到的数据预测模型的模型精度来确定。

根据优选实施方式，根据舰船图像分类应用场景，选取指定超参数和指定迭代次数，其中，所述指定超参数在50次～400次的范围内，所述指定迭代次数为50次～200次的范围内。

根据优选实施方式，所述再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型，包括：当再次初始化数据预测模型时，随机生成所述数据预测模型中的各层网络权重参数，根据指定迭代次数重复执行迭代过程，直到执行完所述指定迭代次数后，即完成所述数据预测模型的强化学习过程。

根据优选实施方式，将单条舰船图像数据（x_i,y_i）、该单条舰船图像数据（x_i,y_i）所对应的损失值和准确率μ一起输入数据评价模型，得到所述单条舰船图像数据的评价值h（x_i,y_i），所述单条舰船图像数据的评价值 h（x_i,y_i）是0-1之间的双精度浮点数。

本发明第二方面提出一种舰船图像增广数据质量评价系统，采用本发明第一方面所述的增广数据质量评价方法，包括：数据处理模块，将待增广数据集分为训练集和测试集，使用相关增广方法对所述训练集进行增广处理，得到增广处理后的增广数据集，从增广数据集中划分出一部分数据作为验证集，所述待增广数据集包括标注有舰船类别标签的舰船图像数据；模型建立模块，建立数据评价强化学习模型，所述数据评价强化学习模型包括数据预测模型和数据评价模型，优化所述数据预测模型和数据评价模型具体包括：初始化数据预测模型；使用预设的一批次舰船图像数据输入数据预测模型，记录每条舰船图像数据产生的损失值，使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率，根据优化目标优化所述数据预测模型；将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入数据评价模型，得到每条舰船图像数据的评价值；再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型，并得到评价概率分布图；计算模块，根据所得到的评价概率分布图，计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的KL散度，以确定所述增广数据集中每条舰船图像数据的质量情况。

本发明第三方面提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的方法。

本发明第四方面提供一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

本发明具有以下优点：

与现有技术相比，本发明能够在模型训练迭代的过程中根据预测评分动态调整学习率，能够有效保留预测评分结果的同时，提升输出结果的稳定性，进而能够保证数据评价结果对于增广工作的可用性和有效性，进一步提升了领域内数据相关工作者的效率，能够有效将评价过程与训练过程耦合进而避免因缺少评价过程和训练过程配合的部分而导致的数据质量完整性差的问题，通过达到优化目标，在优化数据预测模型的同时，优化数据评价模型。

此外，设计基于奖励机制的数据价值评价模型，通过探索不同数据在数据预测模型训练产生的损失函数值以及对预测模型预测结果的影响，能够精确计算获得的数据价值量。

此外，通过计算获取的数据集中各条数据价值量排序，以及增广数据在整体排序中的分布情况判断增广数据集的价值。

附图说明

图1是本发明的基于强化学习的增广数据质量评价方法的一示例的步骤流程图；

图2是应用本发明的基于强化学习的增广数据质量评价方法的应用示例中的舰船图像的一示例的示意图；

图3是示出了图1的增广数据质量评价方法中优化所述数据预测模型和数据评价模型的一示例的流程示意图；

图4是根据本发明的基于强化学习的增广数据质量评价的一示例的结构示意图；

图5是根据本发明的电子设备实施例的结构示意图；

图6是根据本发明的计算机可读介质实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

鉴于上述问题，本发明提出一种基于强化学习的增广数据质量评价方法，该方法针对舰船图像数据集以及其增广扩充的部分，利用强化学习奖励机制获取其对应的任务和预训练模型，通过在训练过程中反馈的参数变化预测数据集中每条数据的得分排序，利用增广后数据在排序中的分布情况评价增广后的数据集质量，能够有效提高增广数据质量的有效性。

需要说明的是，强化学习是一种交互学习方法，通过设计交互方式提供奖励回馈，最终迭代达到最大化收益。使用强化学习评估数据 (Data Valuation UsingReinforcement Learning, DVRL) 是一种强化学习数据集评估分析模型，通过策略变动与价值回馈的动态调整达到数据评分最优解，用于确定每个训练样本适用于预测模型（即数据预测模型）训练的量化价值，例如还可以借助该数据预测模型构建的数据集质量评估工具，也可对数据集中噪音数据进行有效筛查。

实施例1：

下面参照图1、图2和图3，将对本发明的内容进行详细说明。

图1是本发明的基于强化学习的增广数据质量评价方法的一示例的步骤流程图。图2是本发明的基于强化学习的增广数据质量评价方法的一应用示例中舰船图像的示意图。

如图1所示，在步骤S101中，将待增广数据集分为训练集和测试集，使用相关增广方法对所述训练集进行增广处理，得到增广处理后的增广数据集，从增广数据集中划分出一部分数据作为验证集，所述待增广数据集包括标注有舰船类别标签的舰船图像数据。

具体地，收集例如图2所示的舰船相关图像等的待增广数据分为训练集和测试集，再使用相关增广方法（如图像领域的生成对抗网络）训练集进行增广处理，得到与待增广数据相似的增广后数据（例如生成有船舰类别标签的船舰图像数据），以用于建立训练数据集，将增广后的训练集再划分出一部分作为验证集。

需要说明的是，在其他实施方式中，还可以使用双向约束生成对抗网络或其他算法进行增广处理。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，步骤S102中，建立数据评价强化学习模型，所述数据评价强化学习模型包括数据预测模型和数据评价模型。

例如，数据预测模型在舰船识别任务场景时为Resnet模型，使用表示优化后的数据预测模型。所述数据评价模型为BP 神经网络模型。

具体地，所述数据预测模型例如为多分类模型或者舰船图像分类模型。

在一具体实施方式中，所述数据预测模型为船舰图像分类模型，例如为用于区别运输类船只、客运类船只、渔业船只、警用船只、中小型船只（例如民用等等）、大型船只、航母类等舰船类别信息。其中，训练数据包括舰船图像以及舰船分类标签（例如标注有上述船只类别标签的舰船图像，可以是标注有舰船的位置的图像等）。

优选地，针对舰船图像分类应用场景，设置超参数Batchsize（一批次的数据量），例如为使用m表示，Epoch（迭代次数），例如使用k表示。超参数m、k的选取根据用户实际应用场景的实验效果的需求来适应性变化。可选地，根据舰船图像分类应用场景，选取指定超参数m和指定迭代次数k，其中，超参数m在50次-400次之间，超参数k在50次-200次之间。

为了避免评价过程与训练过程没有耦合的问题，以及因缺少评价过程和训练过程配合的部分而导致的数据质量完整性差的问题，本发明通过达到优化目标，在优化数据预测模型的同时，优化数据评价模型。

具体地，所述优化目标（即数据预测模型的优化目标）是使经过加权的损失函数最小化。根据优化目标优化数据预测模型，以得到优化后的数据预测模型。

使用以下表达式，表示所述数据预测模型的优化目标：

,

其中，是指优化后的数据预测模型，即优化目标为使损失函数值/>与样本评价值/>的乘积最小，x_i表示数据预测模型的输入，包括第i条舰船图像数据、第i条舰船图像数据对应的损失值和准确率， y_i表示第 i条舰船图像数据所对应的舰船类别标签值；α表示数据预测模型的学习率；β表示数据评价模型的学习率；θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。

图3是示出了图1的增广数据质量评价方法中优化所述数据预测模型和数据评价模型的一示例的流程示意图。

如图3所示，具体通过执行以下步骤，优化所述数据预测模型和数据评价模型：

步骤S201：初始化数据预测模型。

具体地，随机生成数据预测模型（例如Resnet模型）中的各层网络权重参数，以辅助后续步骤检验数据对于模型权重更新的增益效果。根据数据集顺序将预设的一批次数据量（例如训练数据集中指定数量）的舰船图像数据输入数据预测模型，经过[n/m]次反向传播，记录每条舰船图像数据产生的损失函数值，并使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率μ。

步骤S202：将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入数据评价模型，得到每条舰船图像数据的评价值。

具体将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率（即上述步骤S201所得到的每条舰船图像数据对应的损失函数值和准确率μ，损失函数值/>的数值为0-1；μ的数值介于0-1）作为输入特征一起输入数据评价模型，得到每条舰船图像数据的评价值。

需要说明的是，所述数据评价模型为经过数次更新迭代后输出各条舰船图像数据的评价分值。数据评价模型由一个多层感知机构成，输入为一条舰船图像数据、数据预测模型最后一层的输出特征和所述预测模型准确率μ，输出为该条舰船图像数据的得分，即评价分值。

例如，将单条舰船图像数据（x_i,y_i）、该单条舰船图像数据（x_i,y_i）所对应的损失值和准确率μ一起输入数据评价模型，得到所述单条舰船图像数据的评价值h（x_i,y_i），所述单条舰船图像数据的评价值 h（x_i,y_i）是一个由所述数据评价模型迭代生成的n维数组，还是0-1之间的双精度浮点数。

换言之，在数据预测模型的训练过程未结束时数据预测模型当前对验证集的判断准确率和所输入的舰船图像数据参与模型训练产生的损失值，也作为数据评价模型的输入。较高的成功率和较低的损失函数值意味着更高的数据质量，利用简单的强化学习分类器将扩增数据的质量进行分类，输出的形式例如为0到1的浮点数，代表该括扩增数据的质量得分，越接近1质量越高，越接近0质量越低。

步骤S203：再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型。

当再次初始化数据预测模型时，随机生成所述数据预测模型中的各层网络权重参数，根据指定迭代次数重复执行步骤S201和步骤S202（即重复执行迭代过程），直到执行完所述指定迭代次数后，即完成所述数据预测模型的强化学习过程。

具体使用以下表达式表征在每一次迭代中权重和参数θ, φ的更新过程：

,

其中，α表示数据预测模型的学习率；β表示数据评价模型的学习率； B_p是指训练过程中一批次（Batch）数据包含的数据数量，p为下标标记，p表示该批数据用于预测模型；表示训练集中一批次；/>表示/>中的一条数据，其中， B_s表示验证过程中的一批次（Batch）数据，s表示正确或错误的验证结果（例如0为正确，1为错误）；/>是指当前求和循环中的第m条数据的验证结果，m为正整数，m为1、2、...、n；L表示模型中参数数量；/>表示训练集的图像数据；/>表示训练集的数据标注，k表示求和运算进行到第k轮；v表示该数据用于验证模型；h、即样本评价值/>， x_i表示数据预测模型的输入，包括第 i条舰船图像数据、第 i条舰船图像数据对应的损失值和准确率， y_i表示第 i条舰船图像数据所对应的舰船类别标签值；

需要说明的是，数据评价模型利用简单的强化学习分类器实现，在评价模型中，输入部分不仅有图像本身和图像的标签，还包括了训练过程未结束时模型当前对验证集的判断准确率和图像参与训练产生的损失值。较高的成功率和较低的损失函数值意味着更高的数据质量。

接下来，步骤S103中，计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的KL散度，以确定所述增广数据集中每条舰船图像数据的质量情况。

对于数据预测模型和数据评价模型，在完成上述强化学习模型迭代过程后，再基于评价分值h（x_i,y_i），获取评估值概率分布，例如利用类似Distribution Fitter的工具获取评价分值 h（x_i,y_i）的评价概率分布图，计算增广数据与原数据的KL散度，具体使用以下表达式，计算增广数据集中每条舰船图像数据（即增广数据）与待增广数据集中所对应的原舰船图像数据（即原数据）的KL散度，以确定增广数据与原数据在训练价值上的贴合程度：

;

其中，表示第i条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度，其中i为正整数，具体为1、2、...、N；P(x)为增广数据集的评价概率分布，Q(x)为待增广数据集，即原数据集的评价概率分布。

需要说明的是，使用舰船图像数据的KL散度表征贴合度，所计算的KL散度越小，则表示增广数据对应的舰船图像数据与原数据对应的舰船图像数据越贴合，并说明扩增数据在质量上越能还原原数据，即增广数据的数据质量越高。而所计算的KL散度越大，则表示增广数据对应的舰船图像数据与原数据对应的舰船图像数据越不贴合，即增广数据的数据质量越低。

可选地，利用简单的强化学习分类器将得到的舰船图像数据的质量进行分类，输出的形式为0到1的浮点数，代表舰船图像数据的质量得分，越接近1质量越高。所述舰船图像数据例如为分辨率640*512RGB三通道彩色图像。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

实施例2：

下述为本发明系统实施例，可以用于执行本发明系统实施例。对于本发明系统实施例中未披露的细节，请参照本发明系统实施例。

图4是根据本发明的舰船图像增广数据质量评价系统的一示例的结构示意图。

如图4所示，本公开第二方面提供一种舰船图像增广数据质量评价系统400，所述舰船图像增广数据质量评价系统400包括数据处理模块410、模型建立模块420和计算模块430。

具体地，数据处理模块410将待增广数据集分为训练集和测试集，使用相关增广方法对所述训练集进行增广处理，得到增广处理后的增广数据集，从增广数据集中划分出一部分数据作为验证集，所述待增广数据集包括标注有舰船类别标签的舰船图像数据。

模型建立模块420用于建立数据评价强化学习模型，所述数据评价强化学习模型包括数据预测模型和数据评价模型，优化所述数据预测模型和数据评价模型。

具体使用预设的一批次舰船图像数据输入数据预测模型，记录每条舰船图像数据产生的损失值，使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率，根据优化目标优化所述数据预测模型。

所述模型建立模块420还包括初始化模块、处理模块和再初始化模块。

在一具体实施方式中，初始化模块用于初始化数据预测模型。处理模块用于将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入数据评价模型，得到每条舰船图像数据的评价值。再初始化模块用于再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型。

接着，所述计算模块430用于计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的KL散度，以确定所述增广数据集中每条舰船图像数据的质量情况。

在一可选实施方式中，根据舰船图像分类应用场景，选取指定超参数和指定迭代次数，其中，所述指定超参数在50次～400次的范围内，所述指定迭代次数为50次～200次的范围内。

所述数据预测模型为Resnet模型，使用表示，所述数据预测模型的优化目标是使经过加权的损失函数/>最小化，以得到优化后的数据预测模型。

所述数据评价模型为BP神经网络模型，使用表示第i个训练样本（x_i,y_i）的评价值。

所述数据预测模型为Resnet模型，使用表示优化后的数据预测模型，所述数据预测模型的优化目标是使经过加权的损失函数/>最小化，以得到优化后的数据预测模型；

所述数据评价模型为BP神经网络模型，使用表示第i个训练样本 (x_i,y_i)的评价值；

使用以下表达式表征所述数据预测模型的优化目标：

;

其中，是指优化后的数据预测模型，即优化目标为使损失函数值/>与样本评价值/>的乘积最小，x_i表示数据预测模型的输入，包括第 i条舰船图像数据、第 i条舰船图像数据对应的损失值和准确率，y_i表示第 i条舰船图像数据所对应的舰船类别标签值；α表示数据预测模型的学习率；β表示数据评价模型的学习率；θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。

使用以下表达式，表示在每一次迭代中权重和参数θ, φ的更新过程：

,

通过使用以下表达式，计算增广数据集中每条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度：

;

使用增广数据集训练数据预测模型的模型精度大于指定值，则确定增广数据集对原舰船图像数据的质量还原有效，所述指定值由训练数据集训练数据预测模型所得到的数据预测模型的模型精度来确定。

所述再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型。

当再次初始化数据预测模型时，随机生成所述数据预测模型中的各层网络权重参数，根据指定迭代次数重复执行初始化数据预测模型、计算每条舰船图像数据的评价值的步骤，直到执行完所述指定迭代次数后，即完成所述数据预测模型的强化学习过程。

将单条舰船图像数据(x_i,y_i)、该单条舰船图像数据 (x_i,y_i)所对应的损失值和准确率μ一起输入数据评价模型，得到所述单条舰船图像数据的评价值h(x_i,y_i)，所述单条舰船图像数据的评价值 h(x_i,y_i)是一个由所述数据评价模型迭代生成的n维数组，还是0-1之间的双精度浮点数。

实施例3：

图5是根据本发明的电子设备实施例的结构示意图。

如图5所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元（RAM）和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元（ROM）。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图5所示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图6所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序（例如为计算机可执行程序），当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现本公开的方法。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种舰船图像增广数据质量评价方法，其特征在于，包括以下步骤：

将待增广数据集分为训练集和测试集，使用相关增广方法对所述训练集进行增广处理，得到增广处理后的增广数据集，从增广数据集中划分出一部分数据作为验证集，所述待增广数据集包括标注有舰船类别标签的舰船图像数据；

建立数据评价强化学习模型，所述数据评价强化学习模型包括数据预测模型和数据评价模型，通过执行以下步骤，优化所述数据预测模型和数据评价模型：

初始化数据预测模型；使用预设的一批次舰船图像数据训练集输入数据预测模型，记录每条舰船图像数据产生的损失值，使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率，根据优化目标优化所述数据预测模型；

将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入数据评价模型，得到每条舰船图像数据的评价值；

再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型；

计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的KL散度，以确定增广数据集中每条舰船图像数据的质量情况。

2.根据权利要求1所述的基于强化学习的增广数据质量评价方法，其特征在于，

所述数据预测模型为Resnet模型，使用表示优化后的数据预测模型，所述数据预测模型的优化目标是使经过加权的损失函数/> 最小化，以得到优化后的数据预测模型；

所述数据评价模型为BP神经网络模型，使用表示第i个训练样本（x_i,y_i）的评价值；

使用以下表达式表征所述数据预测模型的优化目标：

;

3.根据权利要求2所述的基于强化学习的增广数据质量评价方法，其特征在于，

,

，

其中，α表示数据预测模型的学习率；β表示数据评价模型的学习率；B_p是指训练过程中一批次数据包含的数据数量，p为下标标记，p表示该批数据用于预测模型；表示训练集中一批次；/>表示/>中的一条数据，其中B_s表示验证过程中的一批次数据，s表示正确或错误的验证结果；/>是指当前求和循环中的第m条数据的验证结果，m为正整数，m为1、2、...、n；L表示模型中参数数量；/>表示训练集的图像数据；/>表示训练集的数据标注，k表示求和运算进行到第k轮；v表示该数据用于验证模型；h、即样本评价值/>，x_i表示数据预测模型的输入，包括第i条舰船图像数据、第i条舰船图像数据对应的损失值和准确率，y_i表示第i条舰船图像数据所对应的舰船类别标签值；

4.根据权利要求1所述的基于强化学习的增广数据质量评价方法，其特征在于，

使用以下表达式，计算增广数据集中每条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度：

;

5.根据权利要求1所述的基于强化学习的增广数据质量评价方法，其特征在于，

6.根据权利要求1所述的基于强化学习的增广数据质量评价方法，其特征在于，

根据舰船图像分类应用场景，选取指定超参数和指定迭代次数，所述指定超参数在50次～400次的范围内，所述指定迭代次数为50次～200次的范围内。

7.根据权利要求1或6所述的基于强化学习的增广数据质量评价方法，其特征在于，所述再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型，包括：

当再次初始化数据预测模型时，随机生成所述数据预测模型中的各层网络权重参数，根据指定迭代次数重复执行迭代过程，直到执行完所述指定迭代次数后，即完成所述数据预测模型的强化学习过程。

8.根据权利要求7所述的基于强化学习的增广数据质量评价方法，其特征在于，

将单条舰船图像数据（x_i,y_i）、该单条舰船图像数据（x_i,y_i）所对应的损失值和准确率μ一起输入数据评价模型，得到所述单条舰船图像数据的评价值h（x_i,y_i），所述单条舰船图像数据的评价值h（x_i,y_i）是0-1之间的双精度浮点数。

9.一种舰船图像增广数据质量评价系统，其特征在于，包括：

数据处理模块，将待增广数据集分为训练集和测试集，使用相关增广方法对所述训练集进行增广处理，得到增广处理后的增广数据集，从增广数据集中划分出一部分数据作为验证集，所述待增广数据集包括标注有舰船类别标签的舰船图像数据；

模型建立模块，建立数据评价强化学习模型，所述数据评价强化学习模型包括数据预测模型和数据评价模型，优化所述数据预测模型和数据评价模型具体包括：

初始化数据预测模型；使用预设的一批次舰船图像数据输入数据预测模型，记录每条舰船图像数据产生的损失值，使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率，根据优化目标优化所述数据预测模型；

再次初始化数据预测模型，根据指定迭代次数完成数据评价模型的强化学习过程，得到优化后的数据评价模型，并得到评价概率分布图；

计算模块，根据所得到的评价概率分布图，计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的KL散度，以确定所述增广数据集中每条舰船图像数据的质量情况。

10.根据权利要求9所述的船图像增广数据质量评价系统，其特征在于，

所述数据预测模型为Resnet模型，使用表示，所述数据预测模型的优化目标是使经过加权的损失函数/>最小化，以得到优化后的数据预测模型；

使用以下表达式，表示所述数据预测模型的优化目标：

,

其中，是指优化后的数据预测模型，即优化目标为使损失函数值/>与样本评价值/>的乘积最小，其中，数据预测模型的学习率为α，数据评价模型的学习率为β；θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。