CN111401551A - 基于强化学习的弱监督自学习方法 - Google Patents

基于强化学习的弱监督自学习方法 Download PDF

Info

Publication number
CN111401551A
CN111401551A CN202010165953.9A CN202010165953A CN111401551A CN 111401551 A CN111401551 A CN 111401551A CN 202010165953 A CN202010165953 A CN 202010165953A CN 111401551 A CN111401551 A CN 111401551A
Authority
CN
China
Prior art keywords
data
weak supervision
reinforcement learning
network
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010165953.9A
Other languages
English (en)
Inventor
王成
柴松耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010165953.9A priority Critical patent/CN111401551A/zh
Publication of CN111401551A publication Critical patent/CN111401551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于强化学习的弱监督自学习方法,包括步骤:S1:收集获取并预处理弱监督数据,获得弱监督数据特征集合;S2:基于所述弱监督数据特征集合及业务场景,对弱监督场景进行信息量化;S3:基于深度强化学习算法训练强化学习模型,确定弱监督算法调度策略。本发明的一种基于强化学习的弱监督自学习方法,针对弱监督数据和场景,能够自适应地选择弱监督学习策略。

Description

基于强化学习的弱监督自学习方法
技术领域
本发明涉及弱监督自适应策略选择领域,尤其涉及一种基于强化学习的弱监督自学习方法。
背景技术
监督学习技术通过学习大量训练样本来构建预测模型,其中每个训练样本都有一个标签标明其真值输出,模型的效果很大程度上依赖于标签的质量。而在实际应用中,由于数据标注过程的高成本,很难获得如全部真值标签的强监督信息。这便产生了弱监督问题,如何在弱监督的数据上训练高效的模型成为当下的一大研究热点。
目前已经存在一些基于机器学习甚至深度学习的弱监督问题解决方法,如主动学习、直推学习、标签传播等,它们大都只是单一地运用于弱监督场景中,而在复杂多变的实际应用中,方法的选择耗时耗力,同时单一方法也往往不足以训练出高效的模型。
发明内容
针对上述现有技术中的不足,本发明提供一种基于强化学习的弱监督自学习方法,针对弱监督数据和场景,能够自适应地学习弱监督学习策略。
为了实现上述目的,本发明提供一种基于强化学习的弱监督自学习方法,包括步骤:
S1:收集获取并预处理弱监督数据,获得弱监督数据特征集合;
S2:基于所述弱监督数据特征集合及业务场景,对弱监督场景进行信息量化;
S3:基于深度强化学习算法训练强化学习模型,确定弱监督算法调度策略。
优选地,所述S1步骤进一步包括步骤:
S11:数据清理,通过对原始所述弱监督数据进行填写缺失值、光滑噪声和识别解决数据不一致来实现数据的格式化、异常数据的清除错误纠正以及重复数据的清除;
S12:数据变换,通过平滑聚集,数据概化或规范化的方式将数据转换成学习模型需要的形式;
S13:数据表征,通过对业务属性进行邻接性,聚集性和结构性分析,对数据变换后的原始所述弱监督数据进行重新表征,获得弱监督数据特征集合。
优选地,所述S2步骤进一步包括步骤:
S21:量化所述弱监督数据特征集合的内部信息,所述内部信息包括标签比率、标签的均衡度比率和数据的分布与标签的互信息量;
S22:量化弱监督业务场景的外部辅助量。
优选地,所述S3进一步包括步骤:
S31:建立强化学习模型;所述强化学习模型包括一强化学习的状态集和一动作集,所述强化学习的状态集包括内部信息和外部辅助量,所述动作集包括若干弱监督算法;
S32:初始化重播缓冲区D,初始化一Q网络,记作Q,所述Q网络随机生成权重θ;初始化一target Q网络,记作
Figure BDA0002407465140000021
所述target Q网络结构与所述Q网络完全相同,所述target Q网络随机生成权重θ′;θ′=θ;
初始化状态s={x1,x2,…,xn}。其中,x1,x2,…,xn为所述内部信息和所述外部辅助量;
S33:将当前所述状态s输入Q,输出所有动作对应的Q值Q(s,a;θ),a表示动作;基于ε-greedy策略选择一个所述动作a,有概率ε根据Q(s,a;θ)中最大值选择对应的所述动作,此时a=argmaxaQ(s,a;θ),而有概率(1-ε)随机选择一个所述动作;
S34:根据当前选择的动作a,使用对应的所述弱监督算法对当前所述弱监督数据特征集合进行标签增强,获得标签增强后的新数据集;
S35:评估所述新数据集的标签效用并反馈给智能体奖赏值,分别使用本次标签增强前的有标签数据和所述新数据集训练一个预测模型,并在一测试集结果进行预测,通过计算准确率、召回率和打扰率对两个模型的预测结果进行评估,并根据评估结果反馈给智能体一个奖励值;
准确率precision表达为公式(1):
Figure BDA0002407465140000031
召回率recall表达为公式(2):
Figure BDA0002407465140000032
打扰率disturb表达为公式(3):
Figure BDA0002407465140000033
其中,TP为模型将正类判定为正类的数量,FP为模型将负类判定为正类的数量,FN为模型将正类判定为负类的数量,TN为模型将负类判定为负类的数量;
S36:将本次转换存储在所述重播缓冲区D中,记作(st,at,rt,st+1),其中st为本次动作之前的环境,at为本次执行的动作,rt为奖励值,st+1为执行本次动作后的环境状态;
S37:从所述重播缓冲区D中随机抽取一个minibatch的样本,并使用梯度下降法对Q进行更新,损失函数Loss表达为公式(4):
Loss=(yj-Q(sj,aj;θ))2 (4);
其中,Q(sj,aj;θ)为在状态sj在执行动作aj时对应的Q值;
Figure BDA0002407465140000034
其中,第一种取值在sj+1为最终状态下成立,rj为在状态sj执行动作aj后环境反馈给智能体的奖励值,γ为衰变常数,maxa
Figure BDA0002407465140000035
为在输入为sj+1的情况下任意取a′∈A中
Figure BDA0002407465140000036
的最大值,A为S31中所定义的动作集;
S38:每隔若干步,更新
Figure BDA0002407465140000037
网络,将Q网络拷贝至target Q网络,使θ′=θ;
S39:重复步骤S33至S38直至标签增强后的数据集达到期望。
本发明由于采用了以上技术方案,使其具有以下有益效果:
本发明的一种基于强化学习的弱监督自学习方法,针对弱监督数据和场景,能够自适应地选择弱监督学习策略。
附图说明
图1为本发明实施例的基于强化学习的弱监督自学习方法的流程图;
图2为本发明实施例的基于强化学习的弱监督自学习方法的模型图;
图3为本发明实施例的DQN模型图。
具体实施方式
下面根据附图1~图3,给出本发明的较佳实施例,并予以详细描述,使能更好地理解本发明的功能、特点。
请参阅图1和图2,本发明实施例的一种基于强化学习的弱监督自学习方法,包括步骤:
S1:收集获取并预处理弱监督数据,获得弱监督数据特征集合。
其中,S1步骤进一步包括步骤:
S11:数据清理,通过对原始弱监督数据进行填写缺失值、光滑噪声和识别解决数据不一致来实现数据的格式化、异常数据的清除错误纠正以及重复数据的清除;
S12:数据变换,通过平滑聚集,数据概化或规范化的方式将数据转换成学习模型需要的形式;
S13:数据表征,通过对业务属性进行邻接性,聚集性和结构性分析,对数据变换后的原始弱监督数据进行重新表征,获得弱监督数据特征集合。
S2:基于弱监督数据特征集合及业务场景,对弱监督场景进行信息量化。
其中,S2步骤进一步包括步骤:
S21:量化弱监督数据特征集合的内部信息,内部信息包括标签比率、标签的均衡度比率和数据的分布与标签的互信息量;
S22:量化弱监督业务场景的外部辅助量,主要包含是否有可靠的模式或者业务规则以及众包数据的来源可信度等。
S3:基于DQN算法训练强化学习模型,确定弱监督算法调度策略。
其中,S3进一步包括步骤:
S31:建立强化学习模型;强化学习模型包括一强化学习的状态集和一动作集,强化学习的状态集为连续状态空间,包括内部信息和外部辅助量,动作集包括若干弱监督算法,如主动学习、直推学习、标签传播、数据编辑、Snorkel等;
S32:初始化重播缓冲区D,重播缓冲区D中存储着之前智能体所经历的行为,用来在训练神经网络的时候打破经历之间的相关性,并且可以解决非静态分布问题;
初始化一Q网络,记作Q,Q网络随机生成权重θ;该网络对应于Q-Learning算法中的Q函数,可以解决状态空间连续的问题,实际该网络是对于状态到动作的映射的拟合;
初始化一target Q网络,记作
Figure BDA0002407465140000051
target Q网络结构与Q网络完全相同,target Q网络随机生成权重θ′;θ′=θ;该网络用于经验重放,是若干次迭代之前的Q网络;
初始化状态s={x1,x2,…,xn}。其中,x1,x2,…,xn为S2步骤中定义的原始数据集的内部信息和外部辅助量;
S33:将当前状态s输入Q,输出所有动作对应的Q值Q(s,a;θ),a表示动作;基于ε-greedy策略选择一个动作a,有概率ε根据Q(s,a;θ)中最大值选择对应的动作,此时a=argmaxaQ(s,a;θ),而有概率(1-ε)随机选择一个动作;
S34:根据当前选择的动作a,使用对应的弱监督算法对当前弱监督数据特征集合进行标签增强,获得标签增强后的新数据集;
S35:评估新数据集的标签效用并反馈给智能体奖赏值,分别使用本次标签增强前的有标签数据和新数据集训练一个预测模型,并在一测试集结果进行预测,通过计算准确率、召回率和打扰率对两个模型的预测结果进行评估,并根据评估结果反馈给智能体一个奖励值;
准确率precision表达为公式(1):
Figure BDA0002407465140000052
召回率recall表达为公式(2):
Figure BDA0002407465140000061
打扰率disturb表达为公式(3):
Figure BDA0002407465140000062
其中,TP为模型将正类判定为正类的数量,FP为模型将负类判定为正类的数量,FN为模型将正类判定为负类的数量,TN为模型将负类判定为负类的数量;
S36:将本次转换存储在重播缓冲区D中,记作(st,at,rt,st+1),其中st为本次动作之前的环境,at为本次执行的动作,rt为奖励值,st+1为执行本次动作后的环境状态;
S37:从重播缓冲区D中随机抽取一个minibatch的样本,并使用梯度下降法对Q进行更新,损失函数Loss表达为公式(4):
Loss=(yj-Q(sj,aj;θ))2 (4);
其中,Q(sj,aj;θ)为在状态sj在执行动作aj时对应的Q值;
Figure BDA0002407465140000063
其中,第一种取值在sj+1为最终状态下成立,rj为在状态sj执行动作aj后环境反馈给智能体的奖励值,γ为衰变常数,maxa
Figure BDA0002407465140000064
为在输入为sj+1的情况下任意取a′∈A中
Figure BDA0002407465140000065
的最大值,A为S31中所定义的动作集;
S38:每隔若干步,更新
Figure BDA0002407465140000066
网络,将Q网络拷贝至target Q网络,使θ′=θ;
S39:重复步骤S33至S38直至标签增强后的数据集达到期望。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (4)

1.一种基于强化学习的弱监督自学习方法,包括步骤:
S1:收集获取并预处理弱监督数据,获得弱监督数据特征集合;
S2:基于所述弱监督数据特征集合及业务场景,对弱监督场景进行信息量化;
S3:基于深度强化学习算法训练强化学习模型,确定弱监督算法调度策略。
2.根据权利要求1所述的基于强化学习的弱监督自学习方法,其特征在于,所述S1步骤进一步包括步骤:
S11:数据清理,通过对原始所述弱监督数据进行填写缺失值、光滑噪声和识别解决数据不一致来实现数据的格式化、异常数据的清除错误纠正以及重复数据的清除;
S12:数据变换,通过平滑聚集,数据概化或规范化的方式将数据转换成学习模型需要的形式;
S13:数据表征,通过对业务属性进行邻接性,聚集性和结构性分析,对数据变换后的原始所述弱监督数据进行重新表征,获得弱监督数据特征集合。
3.根据权利要求2所述的基于强化学习的弱监督自学习方法,其特征在于,所述S2步骤进一步包括步骤:
S21:量化所述弱监督数据特征集合的内部信息,所述内部信息包括标签比率、标签的均衡度比率和数据的分布与标签的互信息量;
S22:量化弱监督业务场景的外部辅助量。
4.根据权利要求3所述的基于强化学习的弱监督自学习方法,其特征在于,所述S3进一步包括步骤:
S31:建立强化学习模型;所述强化学习模型包括一强化学习的状态集和一动作集,所述强化学习的状态集包括内部信息和外部辅助量,所述动作集包括若干弱监督算法;
S32:初始化重播缓冲区D,初始化一Q网络,记作Q,所述Q网络随机生成权重θ;初始化一target Q网络,记作
Figure FDA0002407465130000011
所述target Q网络结构与所述Q网络完全相同,所述target Q网络随机生成权重θ′;θ′=θ;
初始化状态s={x1,x2,…,xn}。其中,x1,x2,…,xn为所述内部信息和所述外部辅助量;
S33:将当前所述状态s输入Q,输出所有动作对应的Q值Q(s,a;θ),a表示动作;基于ε-greedy策略选择一个所述动作a,有概率ε根据Q(s,a;θ)中最大值选择对应的所述动作,此时a=argmaxaQ(s,a;θ),而有概率(1-ε)随机选择一个所述动作;
S34:根据当前选择的动作a,使用对应的所述弱监督算法对当前所述弱监督数据特征集合进行标签增强,获得标签增强后的新数据集;
S35:评估所述新数据集的标签效用并反馈给智能体奖赏值,分别使用本次标签增强前的有标签数据和所述新数据集训练一个预测模型,并在一测试集结果进行预测,通过计算准确率、召回率和打扰率对两个模型的预测结果进行评估,并根据评估结果反馈给智能体一个奖励值;
准确率precision表达为公式(1):
Figure FDA0002407465130000021
召回率recall表达为公式(2):
Figure FDA0002407465130000022
打扰率disturb表达为公式(3):
Figure FDA0002407465130000023
其中,TP为模型将正类判定为正类的数量,FP为模型将负类判定为正类的数量,FN为模型将正类判定为负类的数量,TN为模型将负类判定为负类的数量;
S36:将本次转换存储在所述重播缓冲区D中,记作(st,at,rt,st+1),其中st为本次动作之前的环境,at为本次执行的动作,rt为奖励值,st+1为执行本次动作后的环境状态;
S37:从所述重播缓冲区D中随机抽取一个minibatch的样本,并使用梯度下降法对Q进行更新,损失函数Loss表达为公式(4):
Loss=(yj-Q(sj,aj;θ))2 (4);
其中,Q(sj,aj;θ)为在状态sj在执行动作aj时对应的Q值;
Figure FDA0002407465130000031
其中,第一种取值在sj+1为最终状态下成立,rj为在状态sj执行动作aj后环境反馈给智能体的奖励值,γ为衰变常数,
Figure FDA0002407465130000032
为在输入为sj+1的情况下任意取a′∈A中
Figure FDA0002407465130000033
的最大值,A为S31中所定义的动作集;
S38:每隔若干步,更新
Figure FDA0002407465130000034
网络,将Q网络拷贝至target Q网络,使θ′=θ;
S39:重复步骤S33至S38直至标签增强后的数据集达到期望。
CN202010165953.9A 2020-03-11 2020-03-11 基于强化学习的弱监督自学习方法 Pending CN111401551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010165953.9A CN111401551A (zh) 2020-03-11 2020-03-11 基于强化学习的弱监督自学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010165953.9A CN111401551A (zh) 2020-03-11 2020-03-11 基于强化学习的弱监督自学习方法

Publications (1)

Publication Number Publication Date
CN111401551A true CN111401551A (zh) 2020-07-10

Family

ID=71428784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010165953.9A Pending CN111401551A (zh) 2020-03-11 2020-03-11 基于强化学习的弱监督自学习方法

Country Status (1)

Country Link
CN (1) CN111401551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862347A (zh) * 2021-03-02 2021-05-28 同济大学 基于联邦学习的设备异常监测方法、系统、存储介质及终端
CN112364980B (zh) * 2020-11-09 2024-04-30 北京计算机技术及应用研究所 一种弱监督场景下基于强化学习的深度神经网络训练方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364980B (zh) * 2020-11-09 2024-04-30 北京计算机技术及应用研究所 一种弱监督场景下基于强化学习的深度神经网络训练方法
CN112862347A (zh) * 2021-03-02 2021-05-28 同济大学 基于联邦学习的设备异常监测方法、系统、存储介质及终端

Similar Documents

Publication Publication Date Title
US11295226B2 (en) Optimization recommendation services for quantum computing
US11694109B2 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
EP4235514A2 (en) Methods, systems, articles of manufacture and apparatus to map workloads
CN109376267B (zh) 用于生成模型的方法和装置
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
CN111401551A (zh) 基于强化学习的弱监督自学习方法
CN111126495A (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
CN111582371A (zh) 一种图像分类网络的训练方法、装置、设备及存储介质
CN113360763A (zh) 基于人工智能的业务关注倾向预测方法及人工智能云系统
CN109086345B (zh) 一种内容识别方法、内容分发方法、装置及电子设备
WO2022035441A1 (en) Dynamic dispatching with robustness for large-scale heterogeneous mining fleet via deep reinforcement learning
CN111159241B (zh) 一种点击转化预估方法及装置
CN115130888A (zh) 一种基于自步学习的众包任务分配方法及系统
EP4252151A1 (en) Data source correlation techniques for machine learning and convolutional neural models
CN112163132B (zh) 一种数据标注方法、装置、存储介质及电子设备
KR20200082490A (ko) 기계 학습 데이터 선택 방법 및 장치
CN117235527A (zh) 端到端容器化的大数据模型构建方法、装置、设备及介质
CN109711555B (zh) 一种预测深度学习模型单轮迭代时间的方法和系统
CN109189973B (zh) 基于策略梯度的大规模图像检索方法及装置
CN110502635A (zh) 信息质量评价方法及装置
Sagaama et al. Automatic parameter tuning for big data pipelines with deep reinforcement learning
CN114692888A (zh) 系统参数处理方法、装置、设备及存储介质
CN112132310A (zh) 基于改进lstm的电力设备状态预估方法及装置
KR102270169B1 (ko) 데이터 관리 방법
CN115827989B (zh) 大数据环境下网络舆情人工智能预警系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710