CN112364980B

CN112364980B - 一种弱监督场景下基于强化学习的深度神经网络训练方法

Info

Publication number: CN112364980B
Application number: CN202011238536.9A
Authority: CN
Inventors: 李昱江; 王浩枫
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2024-04-30
Anticipated expiration: 2040-11-09
Also published as: CN112364980A

Abstract

本发明公开了一种弱监督场景下基于强化学习的深度神经网络训练方法，包括：通过弱监督学习生成弱监督标注样本；合并弱监督标注样本与人工标注样本得到混合训练数据集；采用混合训练数据集对联合目标任务和数据源鉴别任务的深度神经网络进行预训练；采用强化学习进行样本加权，初始化代理器的参数并加载预训练环境的参数，代理器为所述强化学习模型，环境为所述联合目标任务和数据源鉴别任务的深度神经网络；代理器与环境进行若干轮交互训练，交互训练为马尔可夫决策过程，代理器与环境在交互训练中进行零和博弈。该方法通过在深度神经网络的训练过程中应用自适应样本加权策略，提升了深度神经网络对弱监督标注样本中的噪声和冗余信息的鲁棒性。

Description

一种弱监督场景下基于强化学习的深度神经网络训练方法

技术领域

本发明属机器学习技术领域，特别涉及一种弱监督场景下基于强化学习的深度神经网络训练方法。

背景技术

近年来，基于深度神经网络的深度学习技术迅猛发展，在各领域的相关任务中得到了广泛的研究和应用。目前，在面向特定任务的应用场景中，监督学习仍为深度学习最为有效的范式，在监督学习范式下，深度神经网络的训练依赖于大规模且高质量的标注样本。为了降低人工标注的成本，目前很多工作采用了弱监督学习技术来自动地为未标注的真实样本生成标签，或者直接生成有标签的合成样本。然而，上述弱监督标注样本通常包含不同程度的噪声和冗余信息，采用此类样本训练深度神经网络，会使深度神经网络面临过度拟合弱监督标注样本的风险，从而降低深度神经网络在真实应用场景下的泛化能力。

目前，关于弱监督场景下深度神经网络的鲁棒性训练的研究取得了一系列重要的成果，其中基于样本加权的方法由于不受任务类型和网络结构等条件的约束而备受关注。所述基于样本加权的方法维护了一个样本加权策略，在深度神经网络训练过程中，样本加权策略为不同的训练样本赋予不同的权重，深度神经网络通过优化加权的训练目标来更新参数；所述样本加权策略，是执行样本加权时所参照的专家规则或统计模型。然而，现有方法仍存在以下不足：

第一，现有的基于样本加权的方法难以同时满足以下两个需求：一是在线自适应地学习样本加权策略；二是缓解测评指标和训练目标不一致带来的负面影响。所述在线自适应地学习样本加权策略，是指样本加权策略在深度神经网络的训练过程中自适应地进行动态调整，以适应深度神经网络对训练样本的偏好随着训练过程的变化而变化的需要。所述测评指标和训练目标不一致，是指测试阶段用于评估模型的测评指标经常存在不可微的情况，而训练阶段用于指导深度神经网络学习的训练目标绝大多数情况下需要可微，当不能保证测评指标和训练目标一致时，测评指标和训练目标的偏差会降低深度神经网络在测评指标上的性能。因此通过样本加权的方式，使样本加权的决策依据和测评指标保持一致，有助于提升深度神经网络在测评指标上的性能。

第二，现有的基于样本加权的方法仅面向弱监督标注样本，而在实际工作中，技术人员通常可以同时利用已有的少量但高质量的人工标注样本以及大规模低质量的弱监督标注样本来训练深度神经网络，然而目前尚未有相关方法对该场景做出进一步的优化。

发明内容

本发明的目的在于提供一种弱监督场景下基于强化学习的深度神经网络训练方法。该方法应能够有效处理如下问题：第一，提升目标任务的深度神经网络对弱监督标注样本的噪声和冗余信息的鲁棒性，进而提升其在测试阶段的泛化能力；第二，在深度神经网络的训练过程中自适应地调整样本加权策略，并且样本加权的决策依据和测评指标应保持一致，进而提高深度神经网络在测评指标上的性能；第三，对于训练数据集同时包含少量高质量的人工标注样本以及大规模低质量的弱监督标注样本的情形作出特别的优化。

本发明的目的是通过以下技术方案实现的：本发明提供一种弱监督场景下基于强化学习的深度神经网络训练方法，包括：

步骤1：选定弱监督学习方法，生成弱监督标注样本；

步骤2：合并弱监督标注样本与有限数量的人工标注样本，得到混合训练数据集；

步骤3：选定目标任务的深度神经网络，将数据源鉴别任务作为联合任务，采用混合训练数据集对联合目标任务和数据源鉴别任务的深度神经网络进行预训练；

步骤4：选定用于处理样本加权任务的强化学习模型，初始化代理器的参数，并加载预训练的环境的参数。所述代理器为所述强化学习模型，所述环境为所述联合目标任务和数据源鉴别任务的深度神经网络；

步骤5：采用混合训练数据集对代理器与环境进行若干轮交互训练，代理器在与环境的交互训练过程中自适应地进行学习，代理器在环境每次更新参数前做出样本加权决策。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述数据源鉴别任务，其训练目标为判断样本属于人工标注样本还是弱监督标注样本，其模型称为数据源鉴别器。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述联合目标任务和数据源鉴别任务的深度神经网络，其编码器由目标任务和数据源鉴别任务共享，其解码器由目标任务和数据源鉴别任务分别维护，其训练目标为最小化联合损失函数，且基于小批量梯度下降法更新参数。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述强化学习模型面向连续动作控制且基于深度学习方法。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述交互训练，被建模为马尔可夫决策过程。每一轮马尔可夫决策过程前，从混合训练数据集中随机抽取若干批次的小批量数据，各批次小批量数据中人工标注样本和弱监督标注样本比例保持一致。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述马尔可夫决策过程，每一轮包括若干时间步，时间步数量和所述小批量数据的批次数量一致，每一时间步包括：

步骤51：代理器获取对环境的观测状态；

步骤52：代理器根据环境的观测状态做出样本加权决策；

步骤53：环境参照代理器的样本加权决策，采用当前批次的训练样本进行一次参数更新；

步骤54：环境向代理器反馈奖励函数的值；

步骤55：代理器更新参数，完成一步马尔可夫决策过程，并完成一次零和博弈过程。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述观测状态为当前批次数据中所有样本对应特征向量的有序集合，所述样本加权决策为当前批次中所有样本对应权重的有序集合，每个权重为取值范围在[0,1]的浮点类型数值；

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述奖励函数为多个函数的线性组合，且至少包含以下两个函数：

第一，采用验证数据集对目标任务的深度神经网络进行测评后，测评指标的值；所述验证数据集用于模型的选择，由人工标注且假设关于测试数据无偏。

第二，数据源鉴别器将当前批次中所有弱监督标注样本预测为人工标注样本的似然度的平均值。

根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例，其中，所述零和博弈过程，包括：

第一，步骤53中，环境更新参数时最大化了人工标注样本和弱监督标注样本的数据分布差异；

第二，步骤55中，代理器更新参数时最小化了人工标注样本和弱监督标注样本的数据分布差异。

本发明的有益效果包括：

第一，本发明提出一种弱监督场景下基于强化学习的样本加权方法，能够提升目标任务的深度神经网络对弱监督标注样本的噪声和冗余信息的鲁棒性，进而提升其在测试阶段的泛化能力。

第二，本发明在所述弱监督场景下基于强化学习的样本加权方法中，提出采用强化学习进行样本加权，能够在目标任务的深度神经网络的训练过程中自适应地调整样本加权策略；提出将目标任务的深度神经网络关于验证数据集的测评指标作为强化学习中的奖励函数，保证了样本加权的决策依据和测评指标的一致，进而提升其在测评指标上的性能。

第三，本发明在所述弱监督场景下基于强化学习的样本加权方法中，提出引入零和博弈机制。通过引入数据源鉴别器并在交互训练过程中令强化学习代理器和数据源鉴别器进行零和博弈，能够在训练数据集同时包含少量高质量的人工标注样本以及大规模低质量的弱监督标注样本的情况下，进一步提升目标任务的深度神经网络对弱监督标注样本中潜在的噪声和冗余信息的鲁棒性，并改善样本加权策略。

附图说明

图1为本发明实例提供的弱监督场景下基于强化学习的深度神经网络训练方法的总体流程图；

图2为本发明实例提供的弱监督场景下基于强化学习的马尔可夫决策过程的流程图。

图3为本发明实例提供的弱监督场景下基于深度确定性策略梯度算法的马尔可夫决策过程的流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明实施例选择深度确定性策略梯度模型作为强化学习模型。如图1所示，本发明实施例提供一种弱监督场景下基于强化学习的深度神经网络训练方法，包括以下步骤：

步骤1：选定用于目标任务OT的弱监督学习方法，生成弱监督标注样本X^weak；

步骤2：获取有限数量的人工标注样本X^real，将其与弱监督标注样本X^weak进行合并，得到混合训练数据集X；

步骤3：构建用于目标任务的深度神经网络E，将数据源鉴别任务作为联合任务并构建数据源鉴别器D，采用混合训练数据集X对联合目标任务和数据源鉴别任务的深度神经网络Env进行预训练；

步骤4：初始化代理器G的参数，并加载预训练的环境Env的参数。所述代理器为所述强化学习模型，所述环境为所述联合目标任务和数据源鉴别任务的深度神经网络；

步骤5：采用混合训练数据集X对代理器G与环境Env进行M轮交互训练，代理器在与环境的交互训练过程中自适应地进行学习，代理器在环境每次更新参数前做出样本加权决策。每一轮交互训练为一轮完整的马尔可夫决策过程，包括T时间步。

上述方法的步骤3中，所述目标任务OT的深度神经网络E，其网络结构包括将输入编码为分布式表征的编码器enc以及将编码器的输出映射到目标任务标签空间的解码器dec_ot，其训练目标为最小化训练损失L_E。

上述方法的步骤3中，所述数据源鉴别器D，其网络结构包括两部分：一是将输入编码为分布式表征的编码器enc；二是将编码器的输出映射到数据源标签的数据源分类器dec_d。其训练目标为判断训练样本x_i是属于人工标注样本还是弱监督标注样本，最小化损失函数：

L_D(x_i)＝-y_i log D(x_i)-(1-y_i)log(1-D(x_i))

其中，y_i＝1表示x_i∈X^real，y_i＝0表示x_i∈X^weak。

上述方法的步骤3中，所述联合目标任务和数据源鉴别任务的深度神经网络Env，其网络结构包括三部分：一是由目标任务的深度神经网络和数据源鉴别器共享参数的编码器enc；二是目标任务的深度神经网络解码器dec_ot；三是数据源分类器dec_d。其训练目标为最小化联合损失函数：

L_Env＝L_E+α^envL_D

其中α^env为数据源鉴别器损失的权重。Env基于小批量梯度下降法进行参数更新。

上述方法的步骤4中，所述代理器G，采用面向连续动作控制的强化学习算法：“深度确定性策略梯度算法(DDPG)”进行学习。DDPG采用Actor-Critic架构，包括以下由神经网络构建的函数：

第一，确定性策略μ(s)，是从状态空间S映射到动作空间A的函数；第二，随机性策略β(a|s)，是从状态空间S映射到动作空间概率分布P(A)的函数。具体构建方式为，将从高斯噪声过程N(0,σ²)中采样的噪声加到确定性策略μ(s)的输出：

β(a|s)＝μ(s)+ε

其输出结果服从截断正态分布：

β～TN(μ,σ²,0,1)

第三，近似值函数Q(s,a)，用于近似确定性策略μ(s)的值函数Q^μ(s,a)；第四，目标确定性策略μ′(s)，是确定性策略μ(s)的拷贝，用于提升训练的稳定性。其初始化参数为μ(s)的初始参数，参数θ^μ′随着μ(s)的参数θ^μ变化而缓慢更新：

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中参数更新调节因子τ远小于1。

第五，目标近似值函数Q′(s,a)，是近似值函数Q(s,a)的拷贝，用于提升训练的稳定性。其初始化参数为Q(s,a)的初始参数，参数θ^Q′随着Q(s,a)的参数θ^Q变化而缓慢更新：

θ^Q′←τθ^Q+(1-τ)θ^Q′

其中参数更新调节因子τ远小于1。

DDPG的训练目标为最大化从初始分布开始的期望奖励：

其中ρ^β(s)表示β(a|s)的折扣状态分布，折扣因子γ∈[0，1]。

上述方法的步骤5中，依据如图3所示的一种弱监督场景下基于深度确定性策略梯度算法的马尔可夫决策过程的实施方法，在每一轮马尔可夫决策过程前，从混合训练数据集X中随机抽取T批次的小批量数据各批次小批量数据中人工标注样本和弱监督标注样本比例一致。马尔可夫决策过程中的每一时间步包括以下步骤：

步骤51：代理器获取对环境的观测状态

步骤52：代理器根据观测状态做出样本加权决策

步骤53：环境根据代理器的样本加权决策采用当前批次的训练样本更新参数；

步骤54：环境向代理器反馈奖励函数的值r(s_t,a_t)；

步骤55：获取对环境的下一时间步的观测状态将状态转移元组存储至缓存池B；

步骤56：从缓存池中随机抽取N个状态转移元组用以更新代理器；

步骤57：代理器更新参数，完成一步马尔可夫决策过程，并完成一次零和博弈过程。

上述方法的步骤51中，所述观测状态s_t，为当前批次中所有样本对应特征向量的有序集合特征向量/>包含以下特征的一种或多种：

第一，样本的静态属性：包括但不限于样本的标签信息、样本的统计信息(例如文本类型样本的BOW/Word2Vec/BERT等特征、音频类型样本的MFCC/FBank/PLP等特征、图像类型样本的Haar/HOG等特征)、样本的文法信息(例如文本类型样本的词性/句法等特征)；

第二，样本的动态属性：包括但不限于样本在当前深度神经网络参数下的损失函数值、样本被判为某一类别的置信度；

第三，深度神经网络训练相关的属性：包括但不限于历史训练的轮数、历史损失函数的平均值。

上述方法的步骤52中，所述样本加权决策a_t，为当前批次中所有样本对应权重的有序集合由随机性策略网络β(a|s)的输出确定：/>

上述方法的步骤54中，所述奖励函数r(s_t,a_t)，为多个函数的线性组合：其中/>为函数r_i(s_t,a_t)所对应的权重。奖励函数至少包含以下两个函数：

第一，目标任务的深度神经网络E在验证数据集上的测评指标的值

第二，数据源鉴别器D将当前批次中的弱监督标注样本预测为人工标注样本的似然度p_D(x_i)的平均值：

上述方法的步骤55中，所述下一时间步的观测状态为当前时间步的训练样本在环境参数更新后的观测状态。

上述方法的步骤55中，所述缓存池，根据先进先出的原则存储固定数量BN的状态转移元组其中状态转移元组的数量以样本作为计量单位。

上述方法的步骤57中，所述更新代理器的参数，包括以下步骤：步骤571：最小化如下损失函数以更新值函数Q(s,a|θ^Q)的参数：

步骤572：采用如下策略梯度以更新确定性策略μ(s|θ^μ)的参数：

步骤573：采用如下方式以更新目标值函数Q′(s,a|θ^Q′)和目标策略函数μ′(s|θ^μ′)的参数：

θ^Q′←τθ^Q+(1-τ)θ^Q′，θ^μ′←τθ^μ+(1-τ)θ^μ′

上述方法的步骤57中，所述零和博弈，包括以下两步操作：

第一，所述步骤53中，环境更新参数时最大化了人工标注样本和弱监督标注样本的数据分布差异，进而提高环境对有别于人工标注样本的弱监督标注样本的鉴别能力，从而提升环境对弱监督标注样本中潜在的噪声和冗余信息的鲁棒性；

第二，所述步骤57中，代理器更新参数时最小化了人工标注样本和弱监督标注样本的数据分布差异，进而帮助代理器学习更容易降低环境对弱监督标注样本鉴别能力的样本加权策略。

零和博弈可形式化为：

本发明提出的方法优势体现在以下几点：

第一，总体上，能够提升目标任务的深度神经网络对弱监督标注样本的噪声和冗余信息的鲁棒性，进而提升其在测试阶段的泛化能力。

第二，通过采用强化学习进行样本加权，能够在目标任务的深度神经网络的训练过程中自适应地调整样本加权策略；通过将目标任务的深度神经网络关于验证数据集的测评指标作为强化学习中的奖励函数，保证了样本加权的决策依据和测评指标的一致，进而提升深度神经网络在测评指标上的性能。

第三，通过引入数据源鉴别器并在交互训练过程中令强化学习代理器和数据源鉴别器进行零和博弈，能够在训练数据集同时包含少量高质量的人工标注样本以及大规模低质量的弱监督标注样本的情况下，进一步提升目标任务的深度神经网络对弱监督标注样本中潜在的噪声和冗余信息的鲁棒性，并改善样本加权策略。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，包括：

步骤1：选定弱监督学习方法，生成弱监督标注样本；

步骤2：合并弱监督标注样本与人工标注样本，得到混合训练数据集；

步骤4：选定用于处理样本加权任务的强化学习模型，初始化代理器的参数，并加载预训练的环境的参数；所述代理器为所述强化学习模型，所述环境为所述联合目标任务和数据源鉴别任务的深度神经网络；

步骤5：采用混合训练数据集对代理器与环境进行若干轮交互训练，代理器在与环境的交互训练过程中自适应地进行学习，代理器在环境每次更新参数前做出样本加权决策；

其中，样本为文本类型样本、音频类型样本或图像类型样本。

2.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述数据源鉴别任务，其训练目标为判断样本属于人工标注样本还是弱监督标注样本，其模型称为数据源鉴别器。

3.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述联合目标任务和数据源鉴别任务的深度神经网络，其编码器由目标任务和数据源鉴别任务共享，其解码器由目标任务和数据源鉴别任务分别维护，其训练目标为最小化联合损失函数，且基于小批量梯度下降法更新参数。

4.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述强化学习模型面向连续动作控制且基于深度学习方法。

5.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述交互训练，被建模为马尔可夫决策过程；每一轮马尔可夫决策过程前，从混合训练数据集中随机抽取若干批次的小批量数据，各批次小批量数据中人工标注样本和弱监督标注样本比例保持一致。

6.如权利要求5所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述马尔可夫决策过程，每一轮包括若干时间步，时间步数量和所述小批量数据的批次数量一致，每一时间步包括：

步骤51：代理器获取对环境的观测状态；

步骤52：代理器根据环境的观测状态做出样本加权决策；

步骤54：环境向代理器反馈奖励函数的值；

7.如权利要求6所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述观测状态为当前批次中所有样本对应特征向量的有序集合，所述样本加权决策为当前批次中所有样本对应权重的有序集合，每个权重为取值范围在[0,1]的浮点类型数值。

8.如权利要求6所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述奖励函数为多个函数的线性组合，且至少包含以下两个函数：

第一，采用验证数据集对目标任务的深度神经网络进行测评后，测评指标的值；所述验证数据集用于模型的选择，由人工标注且假设关于测试数据无偏；

9.如权利要求6所述的弱监督场景下基于强化学习的深度神经网络训练方法，其特征在于，所述零和博弈过程包括：