CN113326689B

CN113326689B - 一种基于深度强化学习模型的数据清洗方法及装置

Info

Publication number: CN113326689B
Application number: CN202010128327.2A
Authority: CN
Inventors: 张学君; 林格平; 万辛; 沈亮; 宁珊; 颜永红
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-08-18
Anticipated expiration: 2040-02-28
Also published as: CN113326689A

Abstract

本发明属于数据通信和数据处理技术领域，具体涉及一种基于深度强化学习模型的数据清洗方法，该方法包括：获取待清洗的带标签的数据集；采用预筛选算法，删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据，获得待分类的数据集；将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。

Description

一种基于深度强化学习模型的数据清洗方法及装置

技术领域

本发明属于数据通信和数据处理技术领域，具体涉及一种基于深度强化学习模型的数据清洗方法及装置。

背景技术

随着计算机技术和通讯技术的飞速发展，人们可以获得越来越多的数字化信息，但同时也需要投入更多的时间对信息进行组织和整理。为了减轻这种负担，人们开始研究使用计算机对数据进行自动分类。

在文本分类技术研究中，通常的数据清洗方法就是利用带标签的文本数据训练深度神经网络的分类器，达到识别文本类别的目的。在这个过程中，数据的可信度和有效性直接影响系统的性能，因此，需要对数据进行清洗处理，以剔除异常数据。目前，对于数据往往采取人工清洗的方式，缺少统一、标准的清洗过程，人工清洗主要存在以下问题：

1、数据清洗耗时长，依赖于操作人员的数据判断，并且判断后需要一步步完成清洗，需要大量时间

2、数据清洗容易出现差错，操作人员在进行大量数据操作时，会因为某些原因遗漏或者判断错误某些数据

3、数据清洗结果不稳定，数据清洗的结果会因为操作人员的不同而出现清洗结果不一致的问题。

发明内容

本发明的目的在于，为解决现有的数据清洗方法存在上述缺陷，本发明提出了一种基于深度强化学习模型的数据清洗方法，克服文本分类的训练数据存在噪声的问题，采用强化学习的方式，丢弃掉异常的标注数据，保留正确的标注数据，从而达到数据清洗的目的。

为了实现上述目的，本发明提供了一种基于深度强化学习模型的数据清洗方法，该方法包括：

获取待清洗的带标签的数据集；

采用预筛选算法，删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据，获得待分类的数据集；

将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；

再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。

作为上述技术方案的改进之一，所述无内容数据包括：空文本、过短文本、无意义文本；

其中，空文本为没有文本内容且只有标签的文本；过短文本为文本内容字数低于某阈值的数据的文本；无意义文本为文本内容不包含该类别的关键词的文本；

所述不在标签集内的标签数据为数据的标签不在已定义的标签集内的数据；

所述标签矛盾的数据为文本内容相同，但是标签却不相同的数据。

作为上述技术方案的改进之一，所述深度强化学习模型包括：决策网络、建模网络和分类网络；

深度强化学习模型的处理过程具体包括：

在深度强化学习模型中，定义动作集合为A＝{“保留”,“丢弃”}，“保留”代表保留样本的有效数据、“丢弃”代表丢弃样本的有偏数据；定义状态列表S为输入的一个batch的数据的编码后的向量；

根据决策网络的动作列表，得到对应的状态列表S；根据状态列表S，建模网络对输入的一个batch的数据集进行建模，获得输入的矩阵；所述数据集包括多个样本数据；分类网络根据得到的输入矩阵进行分类，从而获得不同类别的延迟奖励，再将其反馈给决策网络，决策网络根据每个样本数据的动作，基于动作集合，决定对每一个样本数据进行保留或丢弃，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。

作为上述技术方案的改进之一，所述方还包括：对决策网络、建模网络和分类网络同时训练的步骤，具体包括：

所述建模网路的训练步骤具体包括：

建立训练数据集，所述训练集为一个batch的数据集；通过每个样本数据对应的动作，保留有效的样本数据，丢弃有偏样本数据，获得一个batch的矩阵,作为待分类的数据集，即X＝{x₁,x₂,x_i,...x_L}；其中,x_i为第i个样本；其中，/>为第i个样本中的第M个词；

首先，经过LSTM网络来编码输入：

其中，是LSTM网络的函数，其包括所有的Gate函数和Update函数；c_t是t时刻的记忆单元；h_t是t时刻的隐层的状态；c_t-1是t-1时刻的记忆单元；h_t-1是t-1时刻的隐层的状态；是在t时刻输入的第i个样本；

在建模网络中，采用注意力机制来生成句子的向量表示c_i，公式如下：

C＝[c_i,c₂...c_L]

其中，c_i为第i个样本的动作向量；x_j是从动作集合A中取得的值，表示第j个样本是丢弃还是保留；h_j为是j时刻LSTM网络隐层的状态输出；

得到每个样本的动作向量c_i后，根据从决策网络得到的动作列表a＝{a₁,a₂,a₃...a_L}，得到最终所有样本的输入的矩阵Z：

Z＝C*V

其中，

V＝[v_i,v₂...v_t]

根据从动作集合中取得的值，生成二进制的决策向量v_t：

其中，b_i是从动作集合中取得的值，表示丢弃或保留第i个样本；

所述分类网络的训练步骤具体包括：

分类网络的输入是从建模网络获得的输入的矩阵Z，输出是y类的类别标签的概率分布P(y|X)；其中，X是待分类的样本集，采取一层全连接网络作为分类网络，具体公式如下：

P(y|X)＝softmax(W_Sh_L+b_s)

其中，W_S是全连接网络的权重，b_s是全连接网络的系数，二者都是分类网络的训练参数；y∈{y₁，y₂，y₃...y_K}是类别的标签，K是类别的个数；

采用交叉熵作为目标函数训练分类网络，目标函数如下：

其中，是输入的真正的概率分布，P(y|X)是预测的概率分布；

所述决策网络的训练步骤具体包括：

采用强化学习的算法和目标函数，来训练决策网络，来最大化每一类别的延迟奖励值，如下面公式所示：

其中，J(θ)为目标函数；π_θ为策略函数；R_L为第L类别的延迟奖励；L∈y；s_t是t时刻的状态；a_t是t个样本的对应动作；θ是决策网络的训练参数；

R_L＝log p(y|X)+γ^L′/L

其中，L’为被清洗掉的样本的个数；γ是超参数，用以平衡这两项；L为原始样本个数；

通过以下公式来更新梯度：

其中，为对θ求偏导；/>代表对θ求偏导。

作为上述技术方案的改进之一，所述将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；具体包括：

将决策网络提供的动作列表(a₁，a₂，a₃，a_t，...a_L)输入至建模网络，得到对应的状态列表S＝(S₁，S₂，S₃，S_t，...S_L)，并将其输入至决策网络；

决策网络根据建模网络输入的状态列表S＝(S₁，S₂，S₃，S_t，...S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁，x₂，x₃，x_t，...x_L)，并将其输入至建模网络；

建模网络根据输入的待分类的动作列表(x₁，x₂，x₃，x_t，...x_L)，得到输入的矩阵Z＝C*V，并将其输入至分类网络；

分类网络根据得到的输入的矩阵进行分类，获得不同类别的延迟奖励。

作为上述技术方案的改进之一，所述将决策网络提供的动作列表(a₁，a₂，a₃，a_t，...a_L)输入至建模网络，得到对应的状态列表S＝(S₁，S₂，S₃，S_t，...S_L)，并将其输入至决策网络；具体为：

对输入的动作列表(a₁，a₂，a₃，a_t，...a_L)中的每一个样本动作进行编码，获得状态列表＝(S₁，S₂，S₃，S_t，...S_L)具体为：

S＝(S₁，S₂，S₃，S_t，...S_L)

其中，代表向量的级联；a_t是当前输入的动作；c_t-1是t-1时刻LSTM网络记忆单元的输出，h_t-1是t-1时刻LSTM网络隐层的状态输出；

将状态列表S＝(S₁，S₂，S₃，S_t，...S_L)输入至决策网络。

作为上述技术方案的改进之一，所述决策网络根据建模网络输入的状态列表S＝(S₁，S₂，S₃，S_t，...S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁，x₂，x₃，x_t，...x_L)，并将其输入至建模网络；具体为：

决策网络根据建模网络输入的状态列表S＝(S₁，S₂，S₃，S_t，...S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁，x₂，x₃，x_t，...x_L)；

根据从决策网络输入的待分类的动作列表(x₁，x₂，x₃，x_t，...x_L)，得到所有样本的输入的矩阵C＝[c₁，c₂，c_i...c_L]；

其中，c_i为第i个样本的动作向量；

其中，x_j是从动作集合A中取得的值，表示第j个样本是丢弃还是保留；h_j为是j时刻LSTM网络隐层的状态输出；

根据决策网络中的每一个动作中取得的值，生成二进制的决策向量V＝[v₁,v₂,...v_t]：

根据获得的C和V，得到输入的矩阵：

Z＝C*V；

将输入的矩阵Z＝C*V输入至分类网络。

作为上述技术方案的改进之一，所述分类网络根据得到的输入的矩阵进行分类，获得不同类别的延迟奖励；具体为：

将得到的输入的矩阵输入至分类网络，分类网络将其分成y类，对每一类的输入的矩阵计算其输出概率，具体如下：

其中，为第y类的当前的输入的动作x_t的概率；σ代表sigmoid函数；θ代表了分类网络的参数；/>为第y类的输出概率；

基于此，获得y类的输出概率分布

其中，y为类别标签，X为待分类样本；

根据获得的y类的输出概率分布将其输入至延迟奖励计算模块，得到延迟奖励R_o：

R_o＝log p(y|X)+γ^L′/L

其中，L’为被清洗掉的样本的个数；γ是超参数，用以平衡这两项；L为原始的所有样本的个数。

本发明还提供了一种基于深度强化学习模型的数据清洗装置，该装置包括：

数据获取模块，用于获取待清洗的带标签的数据集；

预先清洗模块，用于采用预筛选算法，删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据，获得待分类的数据集；

奖励获取模块，用于将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；和

数据清洗模块，用于再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集。

本发明与现有技术相比的有益效果是：

本发明的方法克服文本分类的训练数据存在噪声的问题，采用强化学习的方式，丢弃掉有偏数据，保留有效数据，从而提高数据清洗的准确性，大大缩短数据清洗时长。

附图说明

图1是本发明的一种基于深度强化学习模型的数据清洗方法中的深度强化学习模型的结构示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提供了一种基于深度强化学习模型的数据清洗方法，该方法针对用于文本分类的数据集，引入了深度强化学习模型，根据深度强化学习模型中的分类网络输出的不同类别的延迟奖励，并依据样本数据的动作和动作集合，进行数据的清洗，去掉有偏数据，保留有效数据，提升分类的性能；该方法包括：

定义文本分类的标签集，并且获取待清洗的带标签的数据集；

其中，所述无内容数据包括：空文本、过短文本、无意义文本；

其中，空文本为没有文本内容且只有标签的文本；过短文本为文本内容字数低于某阈值的数据的文本；无意义文本为文本内容不包含该类别的关键词的文本。其中，每个类别的关键词我们采取TF-IDT统计的方式获得。

所述不在标签集内的数据为数据的标签不在已定义的标签集内的数据。

其中，所述深度强化学习模型包括：决策网络、建模网络和分类网络；

如图1所示，深度强化学习模型的处理过程具体包括：

根据决策网络的动作列表，得到对应的状态列表S；根据状态列表S，建模网络对输入的一个batch的数据集进行建模，所述数据集包括多个样本数据，获得输入的矩阵；分类网络根据得到的输入矩阵进行分类，从而获得不同类别的延迟奖励，再将其反馈给决策网络，决策网络根据每个样本数据的动作，基于动作集合，决定对每一个样本数据进行保留或丢弃，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。

如图1所示，所述决策网络、建模网络和分类网络的联合训练的步骤具体包括：

决策网络采取随机策略π(a_t|s_t；θ),用延迟回报来指导策略的学习。在每个状态S_t，以一定概率对输入的待分类的数据集进行动作采样，每个状态S_t都是从建模网络中获得。为了获得不同类别的延迟奖励，我们对输入的待分类的数据集中所有的输入样本进行动作采样，对每一个动作，都得到输入的矩阵。将该输入的矩阵输入至分类网络，就能获得输出概率，通过输出概率计算延迟奖励，再反馈给决策网络，用于策略的学习。

状态：状态s_t对输入的动作列表进行编码，具体的定义如下：

其中，代表向量的级联，x_t是当前的输入的动作列表中的动作，c_t-1是上一时刻LSTM网络记忆单元输出，h_t-1是LSTM网络隐层的状态输出。

策略：采取随机策略，假设a_t代表了在s_t状态的动作，策略定义如下：

π(a_t|s_t；θ)＝σ(W*S_t+b)

其中，π(a_t|s_t；θ)代表选择a_t的概率，σ代表sigmoid函数，θ代表了决策模型的参数；W为权重；b为系数。在训练阶段，通过上述公式进行采样动作a_t，在测试阶段，为了获得最佳的预测结果，我们选择最大的概率值比如/>

奖励：当所有样本对应的动作均被采样后，输入的矩阵通过建模网络确定，该输入的矩阵将会被传递到分类网络以获得输出的概率分布p(y|X)；其中y类标签。延迟奖励将从预测的概率分布p(y|X)中计算出来，这是一个典型的延迟奖励，因为我们只能在最终的输入表示建立后获得它。

所述决策网络的训练步骤具体包括：

R_L＝log p(y|X)+γ^L′/L

通过以下公式来更新梯度：

其中，R_L为延迟奖励；s_t是t时刻的状态；a_t是t个样本的对应动作；θ是决策网络的训练参数；代表θ的偏导；/>为对J(θ)函数中的θ求偏导；

具体来说，使用分类网络输出概率的对数，即P(y＝c_g|X)；其中，c_g是输入X的标签。此外，为了促进模型丢弃无效的数据，添加一项来计算被删掉数据的占比，具体公式如下：

R_L＝log P(c_g|X)+γ^L′/L

其中，L’代表了被丢弃的样本的个数。γ是超参数，用以平衡这两项。

目标函数：用强化学习的算法来训练策略网络，来最大化每一类别的延迟奖励值，如下面公式所示：

其中，J(θ)为目标函数；π_θ为决策函数；a_t为样本对应的动作，s_t为t时刻样本的状态；R_L为奖励值

通过以下公式来更新梯度：

其中，为梯度更新；/>为梯度更新公式；L为样本个数；

所述建模网路的训练步骤具体包括：

首先，经过LSTM网络(Long Short Term Memory Network,长短期记忆网络)来编码输入：

考虑到要关注每个词的重要程度才能更好地对句子进行建模，在建模网络中，采用注意力机制来生成句子的向量表示c_i，公式如下：

C＝[c_i,c₂...c_L]

Z＝C*V

其中，

V＝[v_i，v₂...v_t]

根据从动作集合中取得的值，生成二进制的决策向量v_t：

所述分类网络的训练步骤具体包括：

P(y|X)＝softmax(W_Sh_L+b_s)

其中，W_S是全连接网络的权重，b_s是全连接网络的系数，二者都是训练参数；y∈{y₁，y₂，y₃...y_K}是类别的标签，K是类别的个数；

采用交叉熵作为目标函数训练分类网络，目标函数如下：

其中，是输入的真正的概率分布，P(y|X)是预测的概率分布；

将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；具体包括：

具体地，对输入的动作列表(a₁，a₂，a₃，a_t，...a_L)中的每一个样本动作进行编码，获得状态列表＝(S₁，S₂，S₃，S_t，...S_L)具体为：

S＝(S₁，S₂，S₃，S_t，...S_L)

将状态列表S＝(S₁，S₂，S₃，S_t，...S_L)输入至决策网络。

具体地，决策网络根据建模网络输入的状态列表S＝(S₁，S₂，S₃，S_t，...S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁，x₂，x₃，x_t，...x_L)；

其中，c_i为第i个样本的动作向量；

根据决策网络中的每一个动作中取得的值，生成二进制的决策向量V＝[v₁，v₂，...v_t]：

根据获得的C和V，得到输入的矩阵：

Z＝C*V；

将输入的矩阵Z＝C*V输入至分类网络。

具体地，将得到的输入的矩阵输入至分类网络，分类网络将其分成y类，对每一类的输入的矩阵计算其输出概率，具体如下：

基于此，获得y类的输出概率分布

其中，y为类别标签，X为待分类样本；

R_o＝log p(y|X)+γ^L′/L

再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，决定是否丢弃待分类的数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。具体为：

该决策网络的输入是待分类的样本集，利用获得的不同类别的延迟奖励，输出决策出来的动作集；其中，该动作集表示每一个样本是应该保留还是丢弃，根据动作集结果，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。

数据获取模块，用于获取待清洗的带标签的数据集；

数据清洗模块，用于再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习模型的数据清洗方法，该方法包括：

获取待清洗的带标签的数据集；

再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集，从而完成数据清洗；

所述深度强化学习模型包括：决策网络、建模网络和分类网络；

所述将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；具体包括：

将决策网络提供的动作列表(a₁,a₂,a₃,a_t,…a_L)输入至建模网络，得到对应的状态列表S＝(S₁,S₂,S₃,S_t,…S_L)，并将其输入至决策网络；

决策网络根据建模网络输入的状态列表S＝(S₁,S₂,S₃,S_t,…S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)，并将其输入至建模网络；

建模网络根据输入的待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)，得到输入的矩阵Z＝C*V，并将其输入至分类网络；

分类网络根据得到的输入的矩阵进行分类，获得不同类别的延迟奖励；

所述无内容数据包括：空文本、过短文本、无意义文本；

2.根据权利要求1所述的方法，其特征在于，所述深度强化学习模型包括：决策网络、建模网络和分类网络；

深度强化学习模型的处理过程具体包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：对决策网络、建模网络和分类网络同时训练的步骤，具体包括：

所述建模网络的训练步骤具体包括：

建立训练数据集，所述训练数据集为一个batch的数据集；通过每个样本数据对应的动作，保留有效的样本数据，丢弃有偏样本数据，获得一个batch的矩阵,作为待分类的数据集，即X＝{x₁,x₂,x_i,…x_L}；其中,x_i为第i个样本；其中，/>为第i个样本中的第M个词；

首先，经过LSTM网络来编码输入：

其中，是LSTM网络的函数，其包括所有的Gate函数和Update函数；c_t是t时刻的记忆单元；h_t是t时刻的隐层的状态；c_t-1是t-1时刻的记忆单元；h_t-1是t-1时刻的隐层的状态；/>是在t时刻输入的第i个样本；

C＝[c_i,c₂…c_L]

得到每个样本的动作向量c_i后，根据从决策网络得到的动作列表a＝{a₁,a₂,a₃…a_L}，得到最终所有样本的输入的矩阵Z：

Z＝C*V

其中，

V＝[v_i,v₂…v_t]

根据从动作集合中取得的值，生成二进制的决策向量v_t：

所述分类网络的训练步骤具体包括：

P(y|X)＝softmax(W_Sh_L+b_s)

其中，W_S是全连接网络的权重，b_s是全连接网络的系数，二者都是分类网络的训练参数；y∈{y₁,y₂,y₃…y_K}是类别的标签，K是类别的个数；

采用交叉熵作为目标函数训练分类网络，目标函数如下：

其中，是输入的真正的概率分布，P(y|X)是预测的概率分布；

所述决策网络的训练步骤具体包括：

R_L＝logp(y|X)+γL′/L

通过以下公式来更新梯度：

其中，为对θ求偏导；/>代表对θ求偏导。

4.根据权利要求1所述的方法，其特征在于，所述将决策网络提供的动作列表(a₁,a₂,a₃,a_t,…a_L)输入至建模网络，得到对应的状态列表S＝(S₁,S₂,S₃,S_t,…S_L)，并将其输入至决策网络；具体为：

对输入的动作列表(a₁,a₂,a₃,a_t,…a_L)中的每一个样本动作进行编码，获得状态列表＝(S₁,S₂,S₃,S_t,…S_L)具体为：

S＝(S₁,S₂,S₃,S_t,…S_L)

将状态列表S＝(S₁,S₂,S₃,S_t,…S_L)输入至决策网络。

5.根据权利要求1所述的方法，其特征在于，所述决策网络根据建模网络输入的状态列表S＝(S₁,S₂,S₃,S_t,…S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)，并将其输入至建模网络；具体为：

决策网络根据建模网络输入的状态列表S＝(S₁,S₂,S₃,S_t,…S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)；

根据从决策网络输入的待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)，得到所有样本的输入的矩阵C＝[c₁,c₂,c_i…c_L]；

其中，c_i为第i个样本的动作向量；

根据决策网络中的每一个动作中取得的值，生成二进制的决策向量V＝[v₁,v₂,…v_t]：

根据获得的C和V，得到输入的矩阵：

Z＝C*V；

将输入的矩阵Z＝C*V输入至分类网络。

6.根据权利要求1所述的方法，其特征在于，所述分类网络根据得到的输入的矩阵进行分类，获得不同类别的延迟奖励；具体为：

基于此，获得y类的输出概率分布

其中，y为类别标签，X为待分类样本；

R_o＝logp(y|X)+γL^′/L

7.一种基于深度强化学习模型的数据清洗装置，其特征在于，该装置包括：

数据获取模块，用于获取待清洗的带标签的数据集；

数据清洗模块，用于再根据获得的不同类别的延迟奖励，依据预先训练的深度强化学习模型中的动作集合，丢弃掉有偏数据，保留有效数据，并更新状态列表S，最大化每一类别的延迟奖励值，将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集；

奖励获取模块，用于将待分类的数据集输入至预先训练的深度强化学习模型中，获得不同类别的延迟奖励；具体包括：

决策网络，用于根据建模网络输入的状态列表S＝(S₁,S₂,S₃,S_t,…S_L)，对待分类的数据进行动作采样，获得待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)，并将其输入至建模网络；

建模网络，用于根据输入的待分类的动作列表(x₁,x₂,x₃,x_t,…x_L)，得到输入的矩阵Z＝C*V，并将其输入至分类网络；

分类网络，用于根据得到的输入的矩阵进行分类，获得不同类别的延迟奖励；

所述无内容数据包括：空文本、过短文本、无意义文本；