CN113326689B - 一种基于深度强化学习模型的数据清洗方法及装置 - Google Patents

一种基于深度强化学习模型的数据清洗方法及装置 Download PDF

Info

Publication number
CN113326689B
CN113326689B CN202010128327.2A CN202010128327A CN113326689B CN 113326689 B CN113326689 B CN 113326689B CN 202010128327 A CN202010128327 A CN 202010128327A CN 113326689 B CN113326689 B CN 113326689B
Authority
CN
China
Prior art keywords
data
network
action
input
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010128327.2A
Other languages
English (en)
Other versions
CN113326689A (zh
Inventor
张学君
林格平
万辛
沈亮
宁珊
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN202010128327.2A priority Critical patent/CN113326689B/zh
Publication of CN113326689A publication Critical patent/CN113326689A/zh
Application granted granted Critical
Publication of CN113326689B publication Critical patent/CN113326689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法,该方法包括:获取待清洗的带标签的数据集;采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。

Description

一种基于深度强化学习模型的数据清洗方法及装置
技术领域
本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法及装置。
背景技术
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担,人们开始研究使用计算机对数据进行自动分类。
在文本分类技术研究中,通常的数据清洗方法就是利用带标签的文本数据训练深度神经网络的分类器,达到识别文本类别的目的。在这个过程中,数据的可信度和有效性直接影响系统的性能,因此,需要对数据进行清洗处理,以剔除异常数据。目前,对于数据往往采取人工清洗的方式,缺少统一、标准的清洗过程,人工清洗主要存在以下问题:
1、数据清洗耗时长,依赖于操作人员的数据判断,并且判断后需要一步步完成清洗,需要大量时间
2、数据清洗容易出现差错,操作人员在进行大量数据操作时,会因为某些原因遗漏或者判断错误某些数据
3、数据清洗结果不稳定,数据清洗的结果会因为操作人员的不同而出现清洗结果不一致的问题。
发明内容
本发明的目的在于,为解决现有的数据清洗方法存在上述缺陷,本发明提出了一种基于深度强化学习模型的数据清洗方法,克服文本分类的训练数据存在噪声的问题,采用强化学习的方式,丢弃掉异常的标注数据,保留正确的标注数据,从而达到数据清洗的目的。
为了实现上述目的,本发明提供了一种基于深度强化学习模型的数据清洗方法,该方法包括:
获取待清洗的带标签的数据集;
采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;
将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;
再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
作为上述技术方案的改进之一,所述无内容数据包括:空文本、过短文本、无意义文本;
其中,空文本为没有文本内容且只有标签的文本;过短文本为文本内容字数低于某阈值的数据的文本;无意义文本为文本内容不包含该类别的关键词的文本;
所述不在标签集内的标签数据为数据的标签不在已定义的标签集内的数据;
所述标签矛盾的数据为文本内容相同,但是标签却不相同的数据。
作为上述技术方案的改进之一,所述深度强化学习模型包括:决策网络、建模网络和分类网络;
深度强化学习模型的处理过程具体包括:
在深度强化学习模型中,定义动作集合为A={“保留”,“丢弃”},“保留”代表保留样本的有效数据、“丢弃”代表丢弃样本的有偏数据;定义状态列表S为输入的一个batch的数据的编码后的向量;
根据决策网络的动作列表,得到对应的状态列表S;根据状态列表S,建模网络对输入的一个batch的数据集进行建模,获得输入的矩阵;所述数据集包括多个样本数据;分类网络根据得到的输入矩阵进行分类,从而获得不同类别的延迟奖励,再将其反馈给决策网络,决策网络根据每个样本数据的动作,基于动作集合,决定对每一个样本数据进行保留或丢弃,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
作为上述技术方案的改进之一,所述方还包括:对决策网络、建模网络和分类网络同时训练的步骤,具体包括:
所述建模网路的训练步骤具体包括:
建立训练数据集,所述训练集为一个batch的数据集;通过每个样本数据对应的动作,保留有效的样本数据,丢弃有偏样本数据,获得一个batch的矩阵,作为待分类的数据集,即X={x1,x2,xi,...xL};其中,xi为第i个样本;其中,/>为第i个样本中的第M个词;
首先,经过LSTM网络来编码输入:
其中,是LSTM网络的函数,其包括所有的Gate函数和Update函数;ct是t时刻的记忆单元;ht是t时刻的隐层的状态;ct-1是t-1时刻的记忆单元;ht-1是t-1时刻的隐层的状态;是在t时刻输入的第i个样本;
在建模网络中,采用注意力机制来生成句子的向量表示ci,公式如下:
C=[ci,c2...cL]
其中,ci为第i个样本的动作向量;xj是从动作集合A中取得的值,表示第j个样本是丢弃还是保留;hj为是j时刻LSTM网络隐层的状态输出;
得到每个样本的动作向量ci后,根据从决策网络得到的动作列表a={a1,a2,a3...aL},得到最终所有样本的输入的矩阵Z:
Z=C*V
其中,
V=[vi,v2...vt]
根据从动作集合中取得的值,生成二进制的决策向量vt
其中,bi是从动作集合中取得的值,表示丢弃或保留第i个样本;
所述分类网络的训练步骤具体包括:
分类网络的输入是从建模网络获得的输入的矩阵Z,输出是y类的类别标签的概率分布P(y|X);其中,X是待分类的样本集,采取一层全连接网络作为分类网络,具体公式如下:
P(y|X)=softmax(WShL+bs)
其中,WS是全连接网络的权重,bs是全连接网络的系数,二者都是分类网络的训练参数;y∈{y1,y2,y3...yK}是类别的标签,K是类别的个数;
采用交叉熵作为目标函数训练分类网络,目标函数如下:
其中,是输入的真正的概率分布,P(y|X)是预测的概率分布;
所述决策网络的训练步骤具体包括:
采用强化学习的算法和目标函数,来训练决策网络,来最大化每一类别的延迟奖励值,如下面公式所示:
其中,J(θ)为目标函数;πθ为策略函数;RL为第L类别的延迟奖励;L∈y;st是t时刻的状态;at是t个样本的对应动作;θ是决策网络的训练参数;
RL=log p(y|X)+γL′/L
其中,L’为被清洗掉的样本的个数;γ是超参数,用以平衡这两项;L为原始样本个数;
通过以下公式来更新梯度:
其中,为对θ求偏导;/>代表对θ求偏导。
作为上述技术方案的改进之一,所述将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;具体包括:
将决策网络提供的动作列表(a1,a2,a3,at,...aL)输入至建模网络,得到对应的状态列表S=(S1,S2,S3,St,...SL),并将其输入至决策网络;
决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,...SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,...xL),并将其输入至建模网络;
建模网络根据输入的待分类的动作列表(x1,x2,x3,xt,...xL),得到输入的矩阵Z=C*V,并将其输入至分类网络;
分类网络根据得到的输入的矩阵进行分类,获得不同类别的延迟奖励。
作为上述技术方案的改进之一,所述将决策网络提供的动作列表(a1,a2,a3,at,...aL)输入至建模网络,得到对应的状态列表S=(S1,S2,S3,St,...SL),并将其输入至决策网络;具体为:
对输入的动作列表(a1,a2,a3,at,...aL)中的每一个样本动作进行编码,获得状态列表=(S1,S2,S3,St,...SL)具体为:
S=(S1,S2,S3,St,...SL)
其中,代表向量的级联;at是当前输入的动作;ct-1是t-1时刻LSTM网络记忆单元的输出,ht-1是t-1时刻LSTM网络隐层的状态输出;
将状态列表S=(S1,S2,S3,St,...SL)输入至决策网络。
作为上述技术方案的改进之一,所述决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,...SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,...xL),并将其输入至建模网络;具体为:
决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,...SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,...xL);
根据从决策网络输入的待分类的动作列表(x1,x2,x3,xt,...xL),得到所有样本的输入的矩阵C=[c1,c2,ci...cL];
其中,ci为第i个样本的动作向量;
其中,xj是从动作集合A中取得的值,表示第j个样本是丢弃还是保留;hj为是j时刻LSTM网络隐层的状态输出;
根据决策网络中的每一个动作中取得的值,生成二进制的决策向量V=[v1,v2,...vt]:
根据获得的C和V,得到输入的矩阵:
Z=C*V;
将输入的矩阵Z=C*V输入至分类网络。
作为上述技术方案的改进之一,所述分类网络根据得到的输入的矩阵进行分类,获得不同类别的延迟奖励;具体为:
将得到的输入的矩阵输入至分类网络,分类网络将其分成y类,对每一类的输入的矩阵计算其输出概率,具体如下:
其中,为第y类的当前的输入的动作xt的概率;σ代表sigmoid函数;θ代表了分类网络的参数;/>为第y类的输出概率;
基于此,获得y类的输出概率分布
其中,y为类别标签,X为待分类样本;
根据获得的y类的输出概率分布将其输入至延迟奖励计算模块,得到延迟奖励Ro
Ro=log p(y|X)+γL′/L
其中,L’为被清洗掉的样本的个数;γ是超参数,用以平衡这两项;L为原始的所有样本的个数。
本发明还提供了一种基于深度强化学习模型的数据清洗装置,该装置包括:
数据获取模块,用于获取待清洗的带标签的数据集;
预先清洗模块,用于采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;
奖励获取模块,用于将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;和
数据清洗模块,用于再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集。
本发明与现有技术相比的有益效果是:
本发明的方法克服文本分类的训练数据存在噪声的问题,采用强化学习的方式,丢弃掉有偏数据,保留有效数据,从而提高数据清洗的准确性,大大缩短数据清洗时长。
附图说明
图1是本发明的一种基于深度强化学习模型的数据清洗方法中的深度强化学习模型的结构示意图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于深度强化学习模型的数据清洗方法,该方法针对用于文本分类的数据集,引入了深度强化学习模型,根据深度强化学习模型中的分类网络输出的不同类别的延迟奖励,并依据样本数据的动作和动作集合,进行数据的清洗,去掉有偏数据,保留有效数据,提升分类的性能;该方法包括:
定义文本分类的标签集,并且获取待清洗的带标签的数据集;
采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;
其中,所述无内容数据包括:空文本、过短文本、无意义文本;
其中,空文本为没有文本内容且只有标签的文本;过短文本为文本内容字数低于某阈值的数据的文本;无意义文本为文本内容不包含该类别的关键词的文本。其中,每个类别的关键词我们采取TF-IDT统计的方式获得。
所述不在标签集内的数据为数据的标签不在已定义的标签集内的数据。
所述标签矛盾的数据为文本内容相同,但是标签却不相同的数据。
将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;
其中,所述深度强化学习模型包括:决策网络、建模网络和分类网络;
如图1所示,深度强化学习模型的处理过程具体包括:
在深度强化学习模型中,定义动作集合为A={“保留”,“丢弃”},“保留”代表保留样本的有效数据、“丢弃”代表丢弃样本的有偏数据;定义状态列表S为输入的一个batch的数据的编码后的向量;
根据决策网络的动作列表,得到对应的状态列表S;根据状态列表S,建模网络对输入的一个batch的数据集进行建模,所述数据集包括多个样本数据,获得输入的矩阵;分类网络根据得到的输入矩阵进行分类,从而获得不同类别的延迟奖励,再将其反馈给决策网络,决策网络根据每个样本数据的动作,基于动作集合,决定对每一个样本数据进行保留或丢弃,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
如图1所示,所述决策网络、建模网络和分类网络的联合训练的步骤具体包括:
决策网络采取随机策略π(at|st;θ),用延迟回报来指导策略的学习。在每个状态St,以一定概率对输入的待分类的数据集进行动作采样,每个状态St都是从建模网络中获得。为了获得不同类别的延迟奖励,我们对输入的待分类的数据集中所有的输入样本进行动作采样,对每一个动作,都得到输入的矩阵。将该输入的矩阵输入至分类网络,就能获得输出概率,通过输出概率计算延迟奖励,再反馈给决策网络,用于策略的学习。
状态:状态st对输入的动作列表进行编码,具体的定义如下:
其中,代表向量的级联,xt是当前的输入的动作列表中的动作,ct-1是上一时刻LSTM网络记忆单元输出,ht-1是LSTM网络隐层的状态输出。
策略:采取随机策略,假设at代表了在st状态的动作,策略定义如下:
π(at|st;θ)=σ(W*St+b)
其中,π(at|st;θ)代表选择at的概率,σ代表sigmoid函数,θ代表了决策模型的参数;W为权重;b为系数。在训练阶段,通过上述公式进行采样动作at,在测试阶段,为了获得最佳的预测结果,我们选择最大的概率值比如/>
奖励:当所有样本对应的动作均被采样后,输入的矩阵通过建模网络确定,该输入的矩阵将会被传递到分类网络以获得输出的概率分布p(y|X);其中y类标签。延迟奖励将从预测的概率分布p(y|X)中计算出来,这是一个典型的延迟奖励,因为我们只能在最终的输入表示建立后获得它。
所述决策网络的训练步骤具体包括:
采用强化学习的算法和目标函数,来训练决策网络,来最大化每一类别的延迟奖励值,如下面公式所示:
其中,J(θ)为目标函数;πθ为策略函数;RL为第L类别的延迟奖励;L∈y;st是t时刻的状态;at是t个样本的对应动作;θ是决策网络的训练参数;
RL=log p(y|X)+γL′/L
其中,L’为被清洗掉的样本的个数;γ是超参数,用以平衡这两项;L为原始样本个数;
通过以下公式来更新梯度:
其中,RL为延迟奖励;st是t时刻的状态;at是t个样本的对应动作;θ是决策网络的训练参数;代表θ的偏导;/>为对J(θ)函数中的θ求偏导;
具体来说,使用分类网络输出概率的对数,即P(y=cg|X);其中,cg是输入X的标签。此外,为了促进模型丢弃无效的数据,添加一项来计算被删掉数据的占比,具体公式如下:
RL=log P(cg|X)+γL′/L
其中,L’代表了被丢弃的样本的个数。γ是超参数,用以平衡这两项。
目标函数:用强化学习的算法来训练策略网络,来最大化每一类别的延迟奖励值,如下面公式所示:
其中,J(θ)为目标函数;πθ为决策函数;at为样本对应的动作,st为t时刻样本的状态;RL为奖励值
通过以下公式来更新梯度:
其中,为梯度更新;/>为梯度更新公式;L为样本个数;
所述建模网路的训练步骤具体包括:
建立训练数据集,所述训练集为一个batch的数据集;通过每个样本数据对应的动作,保留有效的样本数据,丢弃有偏样本数据,获得一个batch的矩阵,作为待分类的数据集,即X={x1,x2,xi,...xL};其中,xi为第i个样本;其中,/>为第i个样本中的第M个词;
首先,经过LSTM网络(Long Short Term Memory Network,长短期记忆网络)来编码输入:
其中,是LSTM网络的函数,其包括所有的Gate函数和Update函数;ct是t时刻的记忆单元;ht是t时刻的隐层的状态;ct-1是t-1时刻的记忆单元;ht-1是t-1时刻的隐层的状态;是在t时刻输入的第i个样本;
考虑到要关注每个词的重要程度才能更好地对句子进行建模,在建模网络中,采用注意力机制来生成句子的向量表示ci,公式如下:
C=[ci,c2...cL]
其中,ci为第i个样本的动作向量;xj是从动作集合A中取得的值,表示第j个样本是丢弃还是保留;hj为是j时刻LSTM网络隐层的状态输出;
得到每个样本的动作向量ci后,根据从决策网络得到的动作列表a={a1,a2,a3...aL},得到最终所有样本的输入的矩阵Z:
Z=C*V
其中,
V=[vi,v2...vt]
根据从动作集合中取得的值,生成二进制的决策向量vt
其中,bi是从动作集合中取得的值,表示丢弃或保留第i个样本;
所述分类网络的训练步骤具体包括:
分类网络的输入是从建模网络获得的输入的矩阵Z,输出是y类的类别标签的概率分布P(y|X);其中,X是待分类的样本集,采取一层全连接网络作为分类网络,具体公式如下:
P(y|X)=softmax(WShL+bs)
其中,WS是全连接网络的权重,bs是全连接网络的系数,二者都是训练参数;y∈{y1,y2,y3...yK}是类别的标签,K是类别的个数;
采用交叉熵作为目标函数训练分类网络,目标函数如下:
其中,是输入的真正的概率分布,P(y|X)是预测的概率分布;
将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;具体包括:
将决策网络提供的动作列表(a1,a2,a3,at,...aL)输入至建模网络,得到对应的状态列表S=(S1,S2,S3,St,...SL),并将其输入至决策网络;
具体地,对输入的动作列表(a1,a2,a3,at,...aL)中的每一个样本动作进行编码,获得状态列表=(S1,S2,S3,St,...SL)具体为:
S=(S1,S2,S3,St,...SL)
其中,代表向量的级联;at是当前输入的动作;ct-1是t-1时刻LSTM网络记忆单元的输出,ht-1是t-1时刻LSTM网络隐层的状态输出;
将状态列表S=(S1,S2,S3,St,...SL)输入至决策网络。
决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,...SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,...xL),并将其输入至建模网络;
建模网络根据输入的待分类的动作列表(x1,x2,x3,xt,...xL),得到输入的矩阵Z=C*V,并将其输入至分类网络;
具体地,决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,...SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,...xL);
根据从决策网络输入的待分类的动作列表(x1,x2,x3,xt,...xL),得到所有样本的输入的矩阵C=[c1,c2,ci...cL];
其中,ci为第i个样本的动作向量;
其中,xj是从动作集合A中取得的值,表示第j个样本是丢弃还是保留;hj为是j时刻LSTM网络隐层的状态输出;
根据决策网络中的每一个动作中取得的值,生成二进制的决策向量V=[v1,v2,...vt]:
根据获得的C和V,得到输入的矩阵:
Z=C*V;
将输入的矩阵Z=C*V输入至分类网络。
分类网络根据得到的输入的矩阵进行分类,获得不同类别的延迟奖励。
具体地,将得到的输入的矩阵输入至分类网络,分类网络将其分成y类,对每一类的输入的矩阵计算其输出概率,具体如下:
其中,为第y类的当前的输入的动作xt的概率;σ代表sigmoid函数;θ代表了分类网络的参数;/>为第y类的输出概率;
基于此,获得y类的输出概率分布
其中,y为类别标签,X为待分类样本;
根据获得的y类的输出概率分布将其输入至延迟奖励计算模块,得到延迟奖励Ro
Ro=log p(y|X)+γL′/L
其中,L’为被清洗掉的样本的个数;γ是超参数,用以平衡这两项;L为原始的所有样本的个数。
再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,决定是否丢弃待分类的数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。具体为:
该决策网络的输入是待分类的样本集,利用获得的不同类别的延迟奖励,输出决策出来的动作集;其中,该动作集表示每一个样本是应该保留还是丢弃,根据动作集结果,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
本发明还提供了一种基于深度强化学习模型的数据清洗装置,该装置包括:
数据获取模块,用于获取待清洗的带标签的数据集;
预先清洗模块,用于采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;
奖励获取模块,用于将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;和
数据清洗模块,用于再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于深度强化学习模型的数据清洗方法,该方法包括:
获取待清洗的带标签的数据集;
采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;
将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;
再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗;
所述深度强化学习模型包括:决策网络、建模网络和分类网络;
所述将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;具体包括:
将决策网络提供的动作列表(a1,a2,a3,at,…aL)输入至建模网络,得到对应的状态列表S=(S1,S2,S3,St,…SL),并将其输入至决策网络;
决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,…SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,…xL),并将其输入至建模网络;
建模网络根据输入的待分类的动作列表(x1,x2,x3,xt,…xL),得到输入的矩阵Z=C*V,并将其输入至分类网络;
分类网络根据得到的输入的矩阵进行分类,获得不同类别的延迟奖励;
所述无内容数据包括:空文本、过短文本、无意义文本;
其中,空文本为没有文本内容且只有标签的文本;过短文本为文本内容字数低于某阈值的数据的文本;无意义文本为文本内容不包含该类别的关键词的文本;
所述不在标签集内的标签数据为数据的标签不在已定义的标签集内的数据;
所述标签矛盾的数据为文本内容相同,但是标签却不相同的数据。
2.根据权利要求1所述的方法,其特征在于,所述深度强化学习模型包括:决策网络、建模网络和分类网络;
深度强化学习模型的处理过程具体包括:
在深度强化学习模型中,定义动作集合为A={“保留”,“丢弃”},“保留”代表保留样本的有效数据、“丢弃”代表丢弃样本的有偏数据;定义状态列表S为输入的一个batch的数据的编码后的向量;
根据决策网络的动作列表,得到对应的状态列表S;根据状态列表S,建模网络对输入的一个batch的数据集进行建模,获得输入的矩阵;所述数据集包括多个样本数据;分类网络根据得到的输入矩阵进行分类,从而获得不同类别的延迟奖励,再将其反馈给决策网络,决策网络根据每个样本数据的动作,基于动作集合,决定对每一个样本数据进行保留或丢弃,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对决策网络、建模网络和分类网络同时训练的步骤,具体包括:
所述建模网络的训练步骤具体包括:
建立训练数据集,所述训练数据集为一个batch的数据集;通过每个样本数据对应的动作,保留有效的样本数据,丢弃有偏样本数据,获得一个batch的矩阵,作为待分类的数据集,即X={x1,x2,xi,…xL};其中,xi为第i个样本;其中,/>为第i个样本中的第M个词;
首先,经过LSTM网络来编码输入:
其中,是LSTM网络的函数,其包括所有的Gate函数和Update函数;ct是t时刻的记忆单元;ht是t时刻的隐层的状态;ct-1是t-1时刻的记忆单元;ht-1是t-1时刻的隐层的状态;/>是在t时刻输入的第i个样本;
在建模网络中,采用注意力机制来生成句子的向量表示ci,公式如下:
C=[ci,c2…cL]
其中,ci为第i个样本的动作向量;xj是从动作集合A中取得的值,表示第j个样本是丢弃还是保留;hj为是j时刻LSTM网络隐层的状态输出;
得到每个样本的动作向量ci后,根据从决策网络得到的动作列表a={a1,a2,a3…aL},得到最终所有样本的输入的矩阵Z:
Z=C*V
其中,
V=[vi,v2…vt]
根据从动作集合中取得的值,生成二进制的决策向量vt
其中,bi是从动作集合中取得的值,表示丢弃或保留第i个样本;
所述分类网络的训练步骤具体包括:
分类网络的输入是从建模网络获得的输入的矩阵Z,输出是y类的类别标签的概率分布P(y|X);其中,X是待分类的样本集,采取一层全连接网络作为分类网络,具体公式如下:
P(y|X)=softmax(WShL+bs)
其中,WS是全连接网络的权重,bs是全连接网络的系数,二者都是分类网络的训练参数;y∈{y1,y2,y3…yK}是类别的标签,K是类别的个数;
采用交叉熵作为目标函数训练分类网络,目标函数如下:
其中,是输入的真正的概率分布,P(y|X)是预测的概率分布;
所述决策网络的训练步骤具体包括:
采用强化学习的算法和目标函数,来训练决策网络,来最大化每一类别的延迟奖励值,如下面公式所示:
其中,J(θ)为目标函数;πθ为策略函数;RL为第L类别的延迟奖励;L∈y;st是t时刻的状态;at是t个样本的对应动作;θ是决策网络的训练参数;
RL=logp(y|X)+γL′/L
其中,L’为被清洗掉的样本的个数;γ是超参数,用以平衡这两项;L为原始样本个数;
通过以下公式来更新梯度:
其中,为对θ求偏导;/>代表对θ求偏导。
4.根据权利要求1所述的方法,其特征在于,所述将决策网络提供的动作列表(a1,a2,a3,at,…aL)输入至建模网络,得到对应的状态列表S=(S1,S2,S3,St,…SL),并将其输入至决策网络;具体为:
对输入的动作列表(a1,a2,a3,at,…aL)中的每一个样本动作进行编码,获得状态列表=(S1,S2,S3,St,…SL)具体为:
S=(S1,S2,S3,St,…SL)
其中,代表向量的级联;at是当前输入的动作;ct-1是t-1时刻LSTM网络记忆单元的输出,ht-1是t-1时刻LSTM网络隐层的状态输出;
将状态列表S=(S1,S2,S3,St,…SL)输入至决策网络。
5.根据权利要求1所述的方法,其特征在于,所述决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,…SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,…xL),并将其输入至建模网络;具体为:
决策网络根据建模网络输入的状态列表S=(S1,S2,S3,St,…SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,…xL);
根据从决策网络输入的待分类的动作列表(x1,x2,x3,xt,…xL),得到所有样本的输入的矩阵C=[c1,c2,ci…cL];
其中,ci为第i个样本的动作向量;
其中,xj是从动作集合A中取得的值,表示第j个样本是丢弃还是保留;hj为是j时刻LSTM网络隐层的状态输出;
根据决策网络中的每一个动作中取得的值,生成二进制的决策向量V=[v1,v2,…vt]:
根据获得的C和V,得到输入的矩阵:
Z=C*V;
将输入的矩阵Z=C*V输入至分类网络。
6.根据权利要求1所述的方法,其特征在于,所述分类网络根据得到的输入的矩阵进行分类,获得不同类别的延迟奖励;具体为:
将得到的输入的矩阵输入至分类网络,分类网络将其分成y类,对每一类的输入的矩阵计算其输出概率,具体如下:
其中,为第y类的当前的输入的动作xt的概率;σ代表sigmoid函数;θ代表了分类网络的参数;/>为第y类的输出概率;
基于此,获得y类的输出概率分布
其中,y为类别标签,X为待分类样本;
根据获得的y类的输出概率分布将其输入至延迟奖励计算模块,得到延迟奖励Ro
Ro=logp(y|X)+γL/L
其中,L’为被清洗掉的样本的个数;γ是超参数,用以平衡这两项;L为原始的所有样本的个数。
7.一种基于深度强化学习模型的数据清洗装置,其特征在于,该装置包括:
数据获取模块,用于获取待清洗的带标签的数据集;
预先清洗模块,用于采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;
奖励获取模块,用于将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;和
数据清洗模块,用于再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集;
所述深度强化学习模型包括:决策网络、建模网络和分类网络;
奖励获取模块,用于将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;具体包括:
将决策网络提供的动作列表(a1,a2,a3,at,…aL)输入至建模网络,得到对应的状态列表S=(S1,S2,S3,St,…SL),并将其输入至决策网络;
决策网络,用于根据建模网络输入的状态列表S=(S1,S2,S3,St,…SL),对待分类的数据进行动作采样,获得待分类的动作列表(x1,x2,x3,xt,…xL),并将其输入至建模网络;
建模网络,用于根据输入的待分类的动作列表(x1,x2,x3,xt,…xL),得到输入的矩阵Z=C*V,并将其输入至分类网络;
分类网络,用于根据得到的输入的矩阵进行分类,获得不同类别的延迟奖励;
所述无内容数据包括:空文本、过短文本、无意义文本;
其中,空文本为没有文本内容且只有标签的文本;过短文本为文本内容字数低于某阈值的数据的文本;无意义文本为文本内容不包含该类别的关键词的文本;
所述不在标签集内的标签数据为数据的标签不在已定义的标签集内的数据;
所述标签矛盾的数据为文本内容相同,但是标签却不相同的数据。
CN202010128327.2A 2020-02-28 2020-02-28 一种基于深度强化学习模型的数据清洗方法及装置 Active CN113326689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010128327.2A CN113326689B (zh) 2020-02-28 2020-02-28 一种基于深度强化学习模型的数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010128327.2A CN113326689B (zh) 2020-02-28 2020-02-28 一种基于深度强化学习模型的数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN113326689A CN113326689A (zh) 2021-08-31
CN113326689B true CN113326689B (zh) 2023-08-18

Family

ID=77412623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010128327.2A Active CN113326689B (zh) 2020-02-28 2020-02-28 一种基于深度强化学习模型的数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN113326689B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595211A (zh) * 2022-01-25 2022-06-07 杭州新中大科技股份有限公司 一种基于深度学习的产品数据清洗方法及系统
CN116204769B (zh) * 2023-03-06 2023-12-05 深圳市乐易网络股份有限公司 一种基于数据分类识别的数据清洗方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961098A (zh) * 2019-03-22 2019-07-02 中国科学技术大学 一种机器学习的训练数据选择方法
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961098A (zh) * 2019-03-22 2019-07-02 中国科学技术大学 一种机器学习的训练数据选择方法
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卷积自注意力编码过滤的强化自动摘要模型;徐如阳;曾碧卿;韩旭丽;周武;;小型微型计算机系统(第02期);全文 *

Also Published As

Publication number Publication date
CN113326689A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN111428021A (zh) 基于机器学习的文本处理方法、装置、计算机设备及介质
CN113326689B (zh) 一种基于深度强化学习模型的数据清洗方法及装置
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
WO2023241272A1 (zh) 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法
CN114417913B (zh) 基于pc-tcn和迁移学习的轴承寿命预测方法
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及系统
CN117475038B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN111046171A (zh) 一种基于细粒度标注数据的情感判别方法
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN116258978A (zh) 一种自然保护区遥感影像弱标注的目标检测方法
CN116818325A (zh) 一种滚动轴承故障诊断方法及系统
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN114692623A (zh) 一种环境类网络舆情的情感分析方法
CN113469013B (zh) 一种基于迁移学习和时间序列的电机故障预测方法及系统
CN112488160B (zh) 图像分类任务的模型训练方法
CN111401551A (zh) 基于强化学习的弱监督自学习方法
CN114972299B (zh) 一种基于深度迁移学习的铁路轨道缺陷检测方法
CN116380438A (zh) 一种故障诊断方法、装置、电子设备及存储介质
CN113673680B (zh) 通过对抗网络自动生成验证性质的模型验证方法和系统
CN113962999B (zh) 基于高斯混合模型和标签矫正模型的噪声标签分割方法
CN113377884B (zh) 基于多智能体增强学习的事件语料库提纯方法
CN114860952A (zh) 一种基于数据统计和知识指导的图拓扑学习方法及系统
CN114625831A (zh) 一种面向智能电网负荷辨识的分类评价反馈方法
CN114036288A (zh) 一种基于强化学习的关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant