CN112364980B - 一种弱监督场景下基于强化学习的深度神经网络训练方法 - Google Patents
一种弱监督场景下基于强化学习的深度神经网络训练方法 Download PDFInfo
- Publication number
- CN112364980B CN112364980B CN202011238536.9A CN202011238536A CN112364980B CN 112364980 B CN112364980 B CN 112364980B CN 202011238536 A CN202011238536 A CN 202011238536A CN 112364980 B CN112364980 B CN 112364980B
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- sample
- deep neural
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 80
- 230000002787 reinforcement Effects 0.000 title claims abstract description 44
- 238000002372 labelling Methods 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 claims abstract description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 17
- 230000007704 transition Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种弱监督场景下基于强化学习的深度神经网络训练方法,包括:通过弱监督学习生成弱监督标注样本;合并弱监督标注样本与人工标注样本得到混合训练数据集;采用混合训练数据集对联合目标任务和数据源鉴别任务的深度神经网络进行预训练;采用强化学习进行样本加权,初始化代理器的参数并加载预训练环境的参数,代理器为所述强化学习模型,环境为所述联合目标任务和数据源鉴别任务的深度神经网络;代理器与环境进行若干轮交互训练,交互训练为马尔可夫决策过程,代理器与环境在交互训练中进行零和博弈。该方法通过在深度神经网络的训练过程中应用自适应样本加权策略,提升了深度神经网络对弱监督标注样本中的噪声和冗余信息的鲁棒性。
Description
技术领域
本发明属机器学习技术领域,特别涉及一种弱监督场景下基于强化学习的深度神经网络训练方法。
背景技术
近年来,基于深度神经网络的深度学习技术迅猛发展,在各领域的相关任务中得到了广泛的研究和应用。目前,在面向特定任务的应用场景中,监督学习仍为深度学习最为有效的范式,在监督学习范式下,深度神经网络的训练依赖于大规模且高质量的标注样本。为了降低人工标注的成本,目前很多工作采用了弱监督学习技术来自动地为未标注的真实样本生成标签,或者直接生成有标签的合成样本。然而,上述弱监督标注样本通常包含不同程度的噪声和冗余信息,采用此类样本训练深度神经网络,会使深度神经网络面临过度拟合弱监督标注样本的风险,从而降低深度神经网络在真实应用场景下的泛化能力。
目前,关于弱监督场景下深度神经网络的鲁棒性训练的研究取得了一系列重要的成果,其中基于样本加权的方法由于不受任务类型和网络结构等条件的约束而备受关注。所述基于样本加权的方法维护了一个样本加权策略,在深度神经网络训练过程中,样本加权策略为不同的训练样本赋予不同的权重,深度神经网络通过优化加权的训练目标来更新参数;所述样本加权策略,是执行样本加权时所参照的专家规则或统计模型。然而,现有方法仍存在以下不足:
第一,现有的基于样本加权的方法难以同时满足以下两个需求:一是在线自适应地学习样本加权策略;二是缓解测评指标和训练目标不一致带来的负面影响。所述在线自适应地学习样本加权策略,是指样本加权策略在深度神经网络的训练过程中自适应地进行动态调整,以适应深度神经网络对训练样本的偏好随着训练过程的变化而变化的需要。所述测评指标和训练目标不一致,是指测试阶段用于评估模型的测评指标经常存在不可微的情况,而训练阶段用于指导深度神经网络学习的训练目标绝大多数情况下需要可微,当不能保证测评指标和训练目标一致时,测评指标和训练目标的偏差会降低深度神经网络在测评指标上的性能。因此通过样本加权的方式,使样本加权的决策依据和测评指标保持一致,有助于提升深度神经网络在测评指标上的性能。
第二,现有的基于样本加权的方法仅面向弱监督标注样本,而在实际工作中,技术人员通常可以同时利用已有的少量但高质量的人工标注样本以及大规模低质量的弱监督标注样本来训练深度神经网络,然而目前尚未有相关方法对该场景做出进一步的优化。
发明内容
本发明的目的在于提供一种弱监督场景下基于强化学习的深度神经网络训练方法。该方法应能够有效处理如下问题:第一,提升目标任务的深度神经网络对弱监督标注样本的噪声和冗余信息的鲁棒性,进而提升其在测试阶段的泛化能力;第二,在深度神经网络的训练过程中自适应地调整样本加权策略,并且样本加权的决策依据和测评指标应保持一致,进而提高深度神经网络在测评指标上的性能;第三,对于训练数据集同时包含少量高质量的人工标注样本以及大规模低质量的弱监督标注样本的情形作出特别的优化。
本发明的目的是通过以下技术方案实现的:本发明提供一种弱监督场景下基于强化学习的深度神经网络训练方法,包括:
步骤1:选定弱监督学习方法,生成弱监督标注样本;
步骤2:合并弱监督标注样本与有限数量的人工标注样本,得到混合训练数据集;
步骤3:选定目标任务的深度神经网络,将数据源鉴别任务作为联合任务,采用混合训练数据集对联合目标任务和数据源鉴别任务的深度神经网络进行预训练;
步骤4:选定用于处理样本加权任务的强化学习模型,初始化代理器的参数,并加载预训练的环境的参数。所述代理器为所述强化学习模型,所述环境为所述联合目标任务和数据源鉴别任务的深度神经网络;
步骤5:采用混合训练数据集对代理器与环境进行若干轮交互训练,代理器在与环境的交互训练过程中自适应地进行学习,代理器在环境每次更新参数前做出样本加权决策。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述数据源鉴别任务,其训练目标为判断样本属于人工标注样本还是弱监督标注样本,其模型称为数据源鉴别器。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述联合目标任务和数据源鉴别任务的深度神经网络,其编码器由目标任务和数据源鉴别任务共享,其解码器由目标任务和数据源鉴别任务分别维护,其训练目标为最小化联合损失函数,且基于小批量梯度下降法更新参数。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述强化学习模型面向连续动作控制且基于深度学习方法。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述交互训练,被建模为马尔可夫决策过程。每一轮马尔可夫决策过程前,从混合训练数据集中随机抽取若干批次的小批量数据,各批次小批量数据中人工标注样本和弱监督标注样本比例保持一致。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述马尔可夫决策过程,每一轮包括若干时间步,时间步数量和所述小批量数据的批次数量一致,每一时间步包括:
步骤51:代理器获取对环境的观测状态;
步骤52:代理器根据环境的观测状态做出样本加权决策;
步骤53:环境参照代理器的样本加权决策,采用当前批次的训练样本进行一次参数更新;
步骤54:环境向代理器反馈奖励函数的值;
步骤55:代理器更新参数,完成一步马尔可夫决策过程,并完成一次零和博弈过程。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述观测状态为当前批次数据中所有样本对应特征向量的有序集合,所述样本加权决策为当前批次中所有样本对应权重的有序集合,每个权重为取值范围在[0,1]的浮点类型数值;
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述奖励函数为多个函数的线性组合,且至少包含以下两个函数:
第一,采用验证数据集对目标任务的深度神经网络进行测评后,测评指标的值;所述验证数据集用于模型的选择,由人工标注且假设关于测试数据无偏。
第二,数据源鉴别器将当前批次中所有弱监督标注样本预测为人工标注样本的似然度的平均值。
根据本发明的弱监督场景下基于强化学习的深度神经网络训练方法的一实施例,其中,所述零和博弈过程,包括:
第一,步骤53中,环境更新参数时最大化了人工标注样本和弱监督标注样本的数据分布差异;
第二,步骤55中,代理器更新参数时最小化了人工标注样本和弱监督标注样本的数据分布差异。
本发明的有益效果包括:
第一,本发明提出一种弱监督场景下基于强化学习的样本加权方法,能够提升目标任务的深度神经网络对弱监督标注样本的噪声和冗余信息的鲁棒性,进而提升其在测试阶段的泛化能力。
第二,本发明在所述弱监督场景下基于强化学习的样本加权方法中,提出采用强化学习进行样本加权,能够在目标任务的深度神经网络的训练过程中自适应地调整样本加权策略;提出将目标任务的深度神经网络关于验证数据集的测评指标作为强化学习中的奖励函数,保证了样本加权的决策依据和测评指标的一致,进而提升其在测评指标上的性能。
第三,本发明在所述弱监督场景下基于强化学习的样本加权方法中,提出引入零和博弈机制。通过引入数据源鉴别器并在交互训练过程中令强化学习代理器和数据源鉴别器进行零和博弈,能够在训练数据集同时包含少量高质量的人工标注样本以及大规模低质量的弱监督标注样本的情况下,进一步提升目标任务的深度神经网络对弱监督标注样本中潜在的噪声和冗余信息的鲁棒性,并改善样本加权策略。
附图说明
图1为本发明实例提供的弱监督场景下基于强化学习的深度神经网络训练方法的总体流程图;
图2为本发明实例提供的弱监督场景下基于强化学习的马尔可夫决策过程的流程图。
图3为本发明实例提供的弱监督场景下基于深度确定性策略梯度算法的马尔可夫决策过程的流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明实施例选择深度确定性策略梯度模型作为强化学习模型。如图1所示,本发明实施例提供一种弱监督场景下基于强化学习的深度神经网络训练方法,包括以下步骤:
步骤1:选定用于目标任务OT的弱监督学习方法,生成弱监督标注样本Xweak;
步骤2:获取有限数量的人工标注样本Xreal,将其与弱监督标注样本Xweak进行合并,得到混合训练数据集X;
步骤3:构建用于目标任务的深度神经网络E,将数据源鉴别任务作为联合任务并构建数据源鉴别器D,采用混合训练数据集X对联合目标任务和数据源鉴别任务的深度神经网络Env进行预训练;
步骤4:初始化代理器G的参数,并加载预训练的环境Env的参数。所述代理器为所述强化学习模型,所述环境为所述联合目标任务和数据源鉴别任务的深度神经网络;
步骤5:采用混合训练数据集X对代理器G与环境Env进行M轮交互训练,代理器在与环境的交互训练过程中自适应地进行学习,代理器在环境每次更新参数前做出样本加权决策。每一轮交互训练为一轮完整的马尔可夫决策过程,包括T时间步。
上述方法的步骤3中,所述目标任务OT的深度神经网络E,其网络结构包括将输入编码为分布式表征的编码器enc以及将编码器的输出映射到目标任务标签空间的解码器decot,其训练目标为最小化训练损失LE。
上述方法的步骤3中,所述数据源鉴别器D,其网络结构包括两部分:一是将输入编码为分布式表征的编码器enc;二是将编码器的输出映射到数据源标签的数据源分类器decd。其训练目标为判断训练样本xi是属于人工标注样本还是弱监督标注样本,最小化损失函数:
LD(xi)=-yi log D(xi)-(1-yi)log(1-D(xi))
其中,yi=1表示xi∈Xreal,yi=0表示xi∈Xweak。
上述方法的步骤3中,所述联合目标任务和数据源鉴别任务的深度神经网络Env,其网络结构包括三部分:一是由目标任务的深度神经网络和数据源鉴别器共享参数的编码器enc;二是目标任务的深度神经网络解码器decot;三是数据源分类器decd。其训练目标为最小化联合损失函数:
LEnv=LE+αenvLD
其中αenv为数据源鉴别器损失的权重。Env基于小批量梯度下降法进行参数更新。
上述方法的步骤4中,所述代理器G,采用面向连续动作控制的强化学习算法:“深度确定性策略梯度算法(DDPG)”进行学习。DDPG采用Actor-Critic架构,包括以下由神经网络构建的函数:
第一,确定性策略μ(s),是从状态空间S映射到动作空间A的函数;第二,随机性策略β(a|s),是从状态空间S映射到动作空间概率分布P(A)的函数。具体构建方式为,将从高斯噪声过程N(0,σ2)中采样的噪声加到确定性策略μ(s)的输出:
β(a|s)=μ(s)+ε
其输出结果服从截断正态分布:
β~TN(μ,σ2,0,1)
第三,近似值函数Q(s,a),用于近似确定性策略μ(s)的值函数Qμ(s,a);第四,目标确定性策略μ′(s),是确定性策略μ(s)的拷贝,用于提升训练的稳定性。其初始化参数为μ(s)的初始参数,参数θμ′随着μ(s)的参数θμ变化而缓慢更新:
θμ′←τθμ+(1-τ)θμ′
其中参数更新调节因子τ远小于1。
第五,目标近似值函数Q′(s,a),是近似值函数Q(s,a)的拷贝,用于提升训练的稳定性。其初始化参数为Q(s,a)的初始参数,参数θQ′随着Q(s,a)的参数θQ变化而缓慢更新:
θQ′←τθQ+(1-τ)θQ′
其中参数更新调节因子τ远小于1。
DDPG的训练目标为最大化从初始分布开始的期望奖励:
其中ρβ(s)表示β(a|s)的折扣状态分布,折扣因子γ∈[0,1]。
上述方法的步骤5中,依据如图3所示的一种弱监督场景下基于深度确定性策略梯度算法的马尔可夫决策过程的实施方法,在每一轮马尔可夫决策过程前,从混合训练数据集X中随机抽取T批次的小批量数据各批次小批量数据中人工标注样本和弱监督标注样本比例一致。马尔可夫决策过程中的每一时间步包括以下步骤:
步骤51:代理器获取对环境的观测状态
步骤52:代理器根据观测状态做出样本加权决策
步骤53:环境根据代理器的样本加权决策采用当前批次的训练样本更新参数;
步骤54:环境向代理器反馈奖励函数的值r(st,at);
步骤55:获取对环境的下一时间步的观测状态将状态转移元组存储至缓存池B;
步骤56:从缓存池中随机抽取N个状态转移元组用以更新代理器;
步骤57:代理器更新参数,完成一步马尔可夫决策过程,并完成一次零和博弈过程。
上述方法的步骤51中,所述观测状态st,为当前批次中所有样本对应特征向量的有序集合特征向量/>包含以下特征的一种或多种:
第一,样本的静态属性:包括但不限于样本的标签信息、样本的统计信息(例如文本类型样本的BOW/Word2Vec/BERT等特征、音频类型样本的MFCC/FBank/PLP等特征、图像类型样本的Haar/HOG等特征)、样本的文法信息(例如文本类型样本的词性/句法等特征);
第二,样本的动态属性:包括但不限于样本在当前深度神经网络参数下的损失函数值、样本被判为某一类别的置信度;
第三,深度神经网络训练相关的属性:包括但不限于历史训练的轮数、历史损失函数的平均值。
上述方法的步骤52中,所述样本加权决策at,为当前批次中所有样本对应权重的有序集合 由随机性策略网络β(a|s)的输出确定:/>
上述方法的步骤54中,所述奖励函数r(st,at),为多个函数的线性组合:其中/>为函数ri(st,at)所对应的权重。奖励函数至少包含以下两个函数:
第一,目标任务的深度神经网络E在验证数据集上的测评指标的值
第二,数据源鉴别器D将当前批次中的弱监督标注样本预测为人工标注样本的似然度pD(xi)的平均值:
上述方法的步骤55中,所述下一时间步的观测状态为当前时间步的训练样本在环境参数更新后的观测状态。
上述方法的步骤55中,所述缓存池,根据先进先出的原则存储固定数量BN的状态转移元组其中状态转移元组的数量以样本作为计量单位。
上述方法的步骤57中,所述更新代理器的参数,包括以下步骤:步骤571:最小化如下损失函数以更新值函数Q(s,a|θQ)的参数:
步骤572:采用如下策略梯度以更新确定性策略μ(s|θμ)的参数:
步骤573:采用如下方式以更新目标值函数Q′(s,a|θQ′)和目标策略函数μ′(s|θμ′)的参数:
θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
上述方法的步骤57中,所述零和博弈,包括以下两步操作:
第一,所述步骤53中,环境更新参数时最大化了人工标注样本和弱监督标注样本的数据分布差异,进而提高环境对有别于人工标注样本的弱监督标注样本的鉴别能力,从而提升环境对弱监督标注样本中潜在的噪声和冗余信息的鲁棒性;
第二,所述步骤57中,代理器更新参数时最小化了人工标注样本和弱监督标注样本的数据分布差异,进而帮助代理器学习更容易降低环境对弱监督标注样本鉴别能力的样本加权策略。
零和博弈可形式化为:
本发明提出的方法优势体现在以下几点:
第一,总体上,能够提升目标任务的深度神经网络对弱监督标注样本的噪声和冗余信息的鲁棒性,进而提升其在测试阶段的泛化能力。
第二,通过采用强化学习进行样本加权,能够在目标任务的深度神经网络的训练过程中自适应地调整样本加权策略;通过将目标任务的深度神经网络关于验证数据集的测评指标作为强化学习中的奖励函数,保证了样本加权的决策依据和测评指标的一致,进而提升深度神经网络在测评指标上的性能。
第三,通过引入数据源鉴别器并在交互训练过程中令强化学习代理器和数据源鉴别器进行零和博弈,能够在训练数据集同时包含少量高质量的人工标注样本以及大规模低质量的弱监督标注样本的情况下,进一步提升目标任务的深度神经网络对弱监督标注样本中潜在的噪声和冗余信息的鲁棒性,并改善样本加权策略。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,包括:
步骤1:选定弱监督学习方法,生成弱监督标注样本;
步骤2:合并弱监督标注样本与人工标注样本,得到混合训练数据集;
步骤3:选定目标任务的深度神经网络,将数据源鉴别任务作为联合任务,采用混合训练数据集对联合目标任务和数据源鉴别任务的深度神经网络进行预训练;
步骤4:选定用于处理样本加权任务的强化学习模型,初始化代理器的参数,并加载预训练的环境的参数;所述代理器为所述强化学习模型,所述环境为所述联合目标任务和数据源鉴别任务的深度神经网络;
步骤5:采用混合训练数据集对代理器与环境进行若干轮交互训练,代理器在与环境的交互训练过程中自适应地进行学习,代理器在环境每次更新参数前做出样本加权决策;
其中,样本为文本类型样本、音频类型样本或图像类型样本。
2.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述数据源鉴别任务,其训练目标为判断样本属于人工标注样本还是弱监督标注样本,其模型称为数据源鉴别器。
3.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述联合目标任务和数据源鉴别任务的深度神经网络,其编码器由目标任务和数据源鉴别任务共享,其解码器由目标任务和数据源鉴别任务分别维护,其训练目标为最小化联合损失函数,且基于小批量梯度下降法更新参数。
4.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述强化学习模型面向连续动作控制且基于深度学习方法。
5.如权利要求1所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述交互训练,被建模为马尔可夫决策过程;每一轮马尔可夫决策过程前,从混合训练数据集中随机抽取若干批次的小批量数据,各批次小批量数据中人工标注样本和弱监督标注样本比例保持一致。
6.如权利要求5所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述马尔可夫决策过程,每一轮包括若干时间步,时间步数量和所述小批量数据的批次数量一致,每一时间步包括:
步骤51:代理器获取对环境的观测状态;
步骤52:代理器根据环境的观测状态做出样本加权决策;
步骤53:环境参照代理器的样本加权决策,采用当前批次的训练样本进行一次参数更新;
步骤54:环境向代理器反馈奖励函数的值;
步骤55:代理器更新参数,完成一步马尔可夫决策过程,并完成一次零和博弈过程。
7.如权利要求6所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述观测状态为当前批次中所有样本对应特征向量的有序集合,所述样本加权决策为当前批次中所有样本对应权重的有序集合,每个权重为取值范围在[0,1]的浮点类型数值。
8.如权利要求6所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述奖励函数为多个函数的线性组合,且至少包含以下两个函数:
第一,采用验证数据集对目标任务的深度神经网络进行测评后,测评指标的值;所述验证数据集用于模型的选择,由人工标注且假设关于测试数据无偏;
第二,数据源鉴别器将当前批次中所有弱监督标注样本预测为人工标注样本的似然度的平均值。
9.如权利要求6所述的弱监督场景下基于强化学习的深度神经网络训练方法,其特征在于,所述零和博弈过程包括:
第一,步骤53中,环境更新参数时最大化了人工标注样本和弱监督标注样本的数据分布差异;
第二,步骤55中,代理器更新参数时最小化了人工标注样本和弱监督标注样本的数据分布差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238536.9A CN112364980B (zh) | 2020-11-09 | 2020-11-09 | 一种弱监督场景下基于强化学习的深度神经网络训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238536.9A CN112364980B (zh) | 2020-11-09 | 2020-11-09 | 一种弱监督场景下基于强化学习的深度神经网络训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364980A CN112364980A (zh) | 2021-02-12 |
CN112364980B true CN112364980B (zh) | 2024-04-30 |
Family
ID=74509061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011238536.9A Active CN112364980B (zh) | 2020-11-09 | 2020-11-09 | 一种弱监督场景下基于强化学习的深度神经网络训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364980B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113055384A (zh) * | 2021-03-12 | 2021-06-29 | 周口师范学院 | 一种ssddqn的网络异常流量检测方法 |
CN117407615A (zh) * | 2023-10-27 | 2024-01-16 | 北京数立得科技有限公司 | 一种基于强化学习的Web信息抽取方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3246875A2 (en) * | 2016-05-18 | 2017-11-22 | Siemens Healthcare GmbH | Method and system for image registration using an intelligent artificial agent |
CN109726682A (zh) * | 2018-12-29 | 2019-05-07 | 南京信息工程大学 | 一种面向弱标签传感器数据的人体动作识别方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110070183A (zh) * | 2019-03-11 | 2019-07-30 | 中国科学院信息工程研究所 | 一种弱标注数据的神经网络模型训练方法及装置 |
CN110084245A (zh) * | 2019-04-04 | 2019-08-02 | 中国科学院自动化研究所 | 基于视觉注意机制强化学习弱监督图像检测方法、系统 |
CN110796183A (zh) * | 2019-10-17 | 2020-02-14 | 大连理工大学 | 基于相关性引导的判别学习的弱监督细粒度图像分类算法 |
CN111191732A (zh) * | 2020-01-03 | 2020-05-22 | 天津大学 | 一种基于全自动学习的目标检测方法 |
CN111242102A (zh) * | 2019-12-17 | 2020-06-05 | 大连理工大学 | 基于判别性特征导向的高斯混合模型的细粒度图像识别算法 |
CN111340096A (zh) * | 2020-02-24 | 2020-06-26 | 北京工业大学 | 一种基于对抗互补学习的弱监督蝴蝶目标检测方法 |
CN111401551A (zh) * | 2020-03-11 | 2020-07-10 | 同济大学 | 基于强化学习的弱监督自学习方法 |
CN111651998A (zh) * | 2020-05-07 | 2020-09-11 | 中国科学技术大学 | 虚拟现实与增强现实场景下弱监督深度学习语义解析方法 |
-
2020
- 2020-11-09 CN CN202011238536.9A patent/CN112364980B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3246875A2 (en) * | 2016-05-18 | 2017-11-22 | Siemens Healthcare GmbH | Method and system for image registration using an intelligent artificial agent |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN109726682A (zh) * | 2018-12-29 | 2019-05-07 | 南京信息工程大学 | 一种面向弱标签传感器数据的人体动作识别方法 |
CN110070183A (zh) * | 2019-03-11 | 2019-07-30 | 中国科学院信息工程研究所 | 一种弱标注数据的神经网络模型训练方法及装置 |
CN110084245A (zh) * | 2019-04-04 | 2019-08-02 | 中国科学院自动化研究所 | 基于视觉注意机制强化学习弱监督图像检测方法、系统 |
CN110796183A (zh) * | 2019-10-17 | 2020-02-14 | 大连理工大学 | 基于相关性引导的判别学习的弱监督细粒度图像分类算法 |
CN111242102A (zh) * | 2019-12-17 | 2020-06-05 | 大连理工大学 | 基于判别性特征导向的高斯混合模型的细粒度图像识别算法 |
CN111191732A (zh) * | 2020-01-03 | 2020-05-22 | 天津大学 | 一种基于全自动学习的目标检测方法 |
CN111340096A (zh) * | 2020-02-24 | 2020-06-26 | 北京工业大学 | 一种基于对抗互补学习的弱监督蝴蝶目标检测方法 |
CN111401551A (zh) * | 2020-03-11 | 2020-07-10 | 同济大学 | 基于强化学习的弱监督自学习方法 |
CN111651998A (zh) * | 2020-05-07 | 2020-09-11 | 中国科学技术大学 | 虚拟现实与增强现实场景下弱监督深度学习语义解析方法 |
Non-Patent Citations (3)
Title |
---|
Review of Deep Reinforcement Learning-Based Object Grasping: Techniques, Open Challenges, and Recommendations;MARWAN QAID MOHAMMED 等;《IEEE》;20200930;第8卷;178450-178481 * |
基于弱监督学习的医学图像跨模态超分辨率重建方法研究;王丁东;《中国优秀硕士学位论文全文数据库信息科技辑》;20200715(第07期);I138-1264 * |
基于弱监督学习的图像识别与转换算法研究;朱月熠;《中国优秀硕士学位论文全文数据库信息科技辑》;20200215(第02期);I138-1893 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364980A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674880B (zh) | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 | |
CN108694443B (zh) | 基于神经网络的语言模型训练方法和装置 | |
WO2018153806A1 (en) | Training machine learning models | |
US20220067588A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
CN116635866A (zh) | 用于挖掘少数类数据样本以训练神经网络的方法和系统 | |
CN112364980B (zh) | 一种弱监督场景下基于强化学习的深度神经网络训练方法 | |
WO2021138092A1 (en) | Artificial neural network architectures based on synaptic connectivity graphs | |
WO2021138085A1 (en) | Predicting neuron types based on synaptic connectivity graphs | |
CN113868366B (zh) | 一种面向流数据的在线跨模态检索方法与系统 | |
CN113469186B (zh) | 一种基于少量点标注的跨域迁移图像分割方法 | |
US11380301B2 (en) | Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program | |
CN115115389A (zh) | 一种基于价值细分和集成预测的快递客户流失预测方法 | |
CN111008689B (zh) | 使用softmax近似来减少神经网络推理时间 | |
CN116227578A (zh) | 一种无源域数据的无监督领域适应方法 | |
Lim et al. | More powerful selective kernel tests for feature selection | |
CN108573275B (zh) | 一种在线分类微服务的构建方法 | |
US20230029590A1 (en) | Evaluating output sequences using an auto-regressive language model neural network | |
CN116563602A (zh) | 基于类别级软目标监督的细粒度图像分类模型训练方法 | |
CN113849634B (zh) | 用于提升深度模型推荐方案可解释性的方法 | |
US20220253694A1 (en) | Training neural networks with reinitialization | |
EP4002222A1 (en) | Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model | |
CN113300884B (zh) | 一种基于gwo-svr的分步网络流量预测方法 | |
CN115578593A (zh) | 一种使用残差注意力模块的域适应方法 | |
WO2022162839A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
Raximov et al. | The importance of loss function in artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |