CN115048425A

CN115048425A - 一种基于强化学习的数据筛选方法及其装置

Info

Publication number: CN115048425A
Application number: CN202210652572.2A
Authority: CN
Inventors: 王尧舒; 谢珉; 樊文飞
Original assignee: Shenzhen Institute of Computing Sciences
Current assignee: Shenzhen Institute of Computing Sciences
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-13
Also published as: WO2023236240A1

Abstract

本申请提供了一种基于强化学习的数据筛选方法及其装置，用于对目标数据进行数据筛选，并判断其筛选得到的目标数据是否为有效数据，所述方法包括获取所述目标数据，并确定所述目标数据的数据属性；依据所述数据属性确定待选谓词集合和被选择谓词集合；依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。在数据筛选的过程中筛选掉无意义的谓词组合，从而提高数据筛选的执行效率。

Description

一种基于强化学习的数据筛选方法及其装置

技术领域

本申请涉及数据处理领域，特别是一种基于强化学习的数据筛选方法及其装置。

背景技术

典型的规则挖掘算法以深度优先或者广度优先搜索为基础，通过谓词的枚举，进行规则挖掘。谓词所有可能的排列组合都可能构成一个规则。因此在大规模数据中进行规则挖掘，需要遍历所有谓词的组合，这是一个费时费力的过程。

发明内容

鉴于所述问题，提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于强化学习的数据筛选方法及其装置，包括：

一种基于强化学习的数据筛选方法，用于对目标数据进行规则挖掘，并判断其挖掘得到的规则是否为有效规则，包括：

获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；

依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；

依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；

将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。

进一步地，所述获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词的步骤，包括：

获取所述目标数据；

依据所述目标数据确定对应的数据库；

依据所述数据库和所述目标数据生成数据关系表；

在所述数据关系表内确定所述目标数据对应的所述数据属性。

进一步地，所述依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词的步骤，包括：

依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型；

依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词。

进一步地，所述依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型的步骤，包括：

依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理构建强化学习策略；

依据所述强化学习策略、所述待选谓词和所述被选择谓词集合生成训练数据；

依据所述训练数据和所述强化学习策略构建所述谓词分类模型。

进一步地，所述依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理构建强化学习策略的步骤，包括：

构建当前网络和目标网络，并标记所述待选谓词为执行动作以及标记所述被选择谓词集合为当前状态；

依据所述当前网络、所述当前状态和所述执行动作生成奖励值；

依据所述奖励值构建所述强化学习策略，其中，所述强化学习策略包括当所述奖励值为正时，则认定所述待选谓词和所述被选择谓词集合之间相关；或，当所述奖励值为负时，则认定所述待选谓词和所述被选择谓词集合之间不相关。

进一步地，所述依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词的步骤，包括：

依据所述谓词分类模型和所述待选谓词确定所述待选谓词的估计值；

当所述待选谓词的所述估计值大于或等于预设阈值时，确定所述待选谓词为所述有效谓词。

进一步地，所述当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据的步骤，包括：

依据所述谓词分类模型和所述有效谓词生成状态信息，其中，所述状态信息包括正确和错误；

依据所述谓词分类模型、所述状态信息和所述有效谓词确定所述有效谓词的相关性信息，其中，所述相关性信息包括相关和不相关；

当所述谓词分类模型依据当前所述有效谓词所返回的所述状态信息为所述正确时，则确定当前所述有效谓词的所述相关性信息为所述相关，则确定带有所述有效谓词的所述目标数据为所述有效数据。

本申请还公开了一种基于强化学习的数据筛选装置，用于对目标数据进行规则挖掘，并判断其挖掘得到的规则是否为有效规则，包括：

获取模块，用于获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；

第一确定模块，用于依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；

第二确定模块，用于依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；

判定模块，用于将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。

本申请还公开了一种设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的一种基于强化学习的数据筛选方法的步骤。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的一种基于强化学习的数据筛选方法的步骤。

本申请具有以下优点：

在本申请的实施例中，通过获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。通过采用相关性分类器M_corr(P_sel，p，e)，在数据筛选的过程中筛选掉无意义的谓词组合。M_corr(P_sel，p，e)实质上是利用了DQN的方式，减少数据筛选的搜索空间，达到了加速发现过程的目的；能够高效的发现由多个元组变量定义的跨表REE规则，从而提高数据筛选的执行效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图2是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图3是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图4是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图5是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图6是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图7是本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

图8是本申请一实施例提供的一种基于强化学习的数据筛选装置的结构框图；

图9是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本发明利用的规则是实体增强规则(Entity Enhancing Rules，简称REE)。REE的基本组成部分是谓词p，定义如下：

p:＝R(t)|t.A◎c|t.A◎s.B|M(t.A,s.B)

其中，◎是一个操作符，可以是等于或不等于；R(t)表示t是关系表R中的一个元组变量；t.A表示变量t的A属性；M是一个机器学习模型，如果t.A和s.B是相关的，那么这个模型返回true(正确)，否则返回false(错误)。t.A◎c带有常数，被称为常数谓词；t.A◎s.B不带有常数，被称为变量谓词；M(t.A,s.B)被称为机器学习谓词。

基于谓词，REE的定义为：X->e。其中，(1)X是多个谓词的结合，被称谓这个REE的条件；(2)e是一个谓词，被称为这个REE的结果。

一个具体的REE实例如下：

快递(t)∧快递(s)∧t.收件人＝s.收件人∧t.地址＝“广东省深圳市”->s.邮编＝“510000”

这个REE描述的场景是，如果快递t和快递s的收件人为同一人，且快递t的地址在“广东省深圳市”，那么快递s的邮编一定是“510000”。

典型的规则挖掘算法以深度优先或者广度优先搜索为基础，在关系数据中发现REE规则。具体来说，对于每一个REE结果e，这些方法会储存两个谓词集合：P_sel和P_re。其中P_sel存的是已经被选择组成REE条件的谓词，而P_re存的是待选谓词。最开始，P_sel为空集，P_re是所有可能的谓词集合。然后规则挖掘算法通过深度优先或者广度优先的方式遍历搜索空间，迭代地选择P_re里的谓词加入到P_sel中去，直到满足以下条件之一：(1)P_re成了空集；或，(2)P_sel→e是有效的REE。

参照图1，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

所述方法用于对目标数据进行规则挖掘，并判断其挖掘得到的规则是否为有效规则，包括：

S110、获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；

S120、依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；

S130、依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；

S140、将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。

在本申请的实施例中，通过获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。通过采用相关性分类器M_corr(P_sel，p，e)即谓词分类模型，在规则挖掘的过程中筛选掉无意义的谓词组合。M_corr(P_sel，p，e)实质上是利用了DQN的方式，减少规则挖掘的搜索空间，达到了加速发现过程的目的；能够高效的发现由多个元组变量定义的跨表REE规则。

下面，将对本示例性实施例中一种基于强化学习的数据筛选方法作进一步地说明。

如所述步骤S110所述，获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词。

在本发明一实施例中，可以结合下列描述进一步说明步骤S110所述“获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词”的具体过程。

参照图2，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

如下列步骤所述，

S210、获取所述目标数据；

S220、依据所述目标数据确定对应的数据库；

S230、依据所述数据库和所述目标数据生成数据关系表；

S240、在所述数据关系表内确定所述目标数据对应的所述数据属性。

需要说明的是，依据所述目标数据确定对应的数据库；通过目标数据确定目标数据来源的数据库；

需要说明的是，依据所述数据库和所述目标数据生成数据关系表；数据库内存在与目标数据对应的数据关系表。

需要说明的是，在所述数据关系表内确定所述目标数据对应的所述数据属性；通过数据关系表确定目标数据的数据属性。

如所述步骤S130所述，依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词。

在本发明一实施例中，可以结合下列描述进一步说明步骤S130所述“依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词”的具体过程。

参照图3，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

如下列步骤所述，

S310、依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型；

S320、依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词。

需要说明的是，依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型；通过前馈神经网络构建用于判断待选谓词的相关性的谓词分类模型。

需要说明的是，依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词；通过谓词分类模型能够确定待选谓词中的有效谓词，并将有效谓词存储在被选择谓词集合内。

如所述步骤S310所述，依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型；

在本发明一实施例中，可以结合下列描述进一步说明步骤S310所述“依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型”的具体过程。

参照图4，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

如下列步骤所述，

S410、依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理构建强化学习策略；

S420、依据所述强化学习策略、所述待选谓词和所述被选择谓词集合生成训练数据；

S430、依据所述训练数据和所述强化学习策略构建所述谓词分类模型。

需要说明的是，依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理生成强化学习策略；通过采用深度强化学习(Deep Q-learning，DQN)的方式产生训练数据，通过采用深度强化学习生成的训练数据，其标签的成本是指数上升的。

作为一种示例，深度强化学习包括一Q网络以及一目标Q网络，其中目标Q网络是固定的，Q网络会输出一预测值，目标Q网络会输出一目标值，预测值和目标值之间的差距，可以用一个量化指标损失去定义，使得预测值和目标值尽可能的接近，也就是损失尽可能的小。计算出来的损失可用于更新Q网络，而Q网络也会定期的更新为目标Q网络。根据Q网络的输出，采样一个动作a与环境交互，环境会返回执行这个动作的奖励r和一个新的状态s；这些信息会被存储到回放内存中；通过在回放内存学习到的信息，会被用于计算量化指标损失，从而进行Q网络的更新。

需要说明的是，依据所述强化学习策略、所述待选谓词和所述被选择谓词集合生成训练数据；通过强化学习策略对待选谓词和被选择谓词集合生成训练数据。

需要说明的是，依据所述训练数据和所述强化学习策略构建所述谓词分类模型；通过强化学习策略以及若干个训练数据构成谓词分类模型。

如所述步骤S410所述，依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理生成强化学习策略；

在本发明一实施例中，可以结合下列描述进一步说明步骤S410所述“依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理构建强化学习策略”的具体过程。

参照图5，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

如下列步骤所述，

S510、构建当前网络和目标网络，并标记所述待选谓词为执行动作以及标记所述被选择谓词集合为当前状态；

S520、依据所述当前网络、所述当前状态和所述执行动作生成奖励值；

S530、依据所述奖励值构建所述强化学习策略，其中，所述强化学习策略包括当所述奖励值为正时，则认定所述待选谓词和所述被选择谓词集合之间相关；或，当所述奖励值为负时，则认定所述待选谓词和所述被选择谓词集合之间不相关。

需要说明的是，依据所述当前网络、所述当前状态和所述执行动作生成奖励值；其中奖励值越高，代表其执行动作越优；在强化学习中，谓词分类模型会逐渐学习怎么执行动作才能使奖励最大化。

在一具体实现中，把当前的选择P_sel作为当前状态，下一个要加的待选谓词p作为执行动作，把待选谓词p都加到P_sel前后的置信度差值作为奖励值。在DQN中，当待选谓词p加到P_sel后规则超过最大长度或者规则无效时，该待选谓词p为负奖励即奖励值为负，表明对应的谓词组合是没有前途的，也就是说这个谓词组合是不会产生有效的REE规则的。

在初始时，用s₁表示的第一个P_sel为空的状态。在第i个状态s_i时，DQN要确定应用的下一个动作p_i，将p_i添加到P_sel，并将s_i转换为s_i+1，用s_i→_pi s_i+1表示。

为了确定下一个动作(例如，从s_i转换为s_i+1)，DQN利用两个网络：当前网络和目标网络；其中，当前网络被实现为具有两个隐藏层的前馈网络,当前网络将当前状态P_sel和执行动作p作为输入，并输出一个预测值，作为采取该行动的估计奖励值即Q^值；这个Q^值在每次状态转换时都会被学习和更新。一个越大的Q^值意味着应用对应动作的可能性越大。对于目标网络来说，其参数仅由Q网络中的参数的最新状态决定；具体来说，通过复制Q网络在上一个状态下的参数，生成下一次的学习目标；Q网络随着P_sel的增加，逐渐学习其参数。假设P_sel ⁱ是一个大小为i的谓词集合；给定一个空的P_sel ⁰，P_sel ⁰会被ΔL个谓词逐步扩展，获得一个由执行动作和当前状态交替产生的序列S_seq，序列S_seq的Q*值为：

其中ξ是环境，即规则挖掘函数，是折扣率。在DQN中，通过Q^值学习目标网络输出的Q*值，使得Q*≈Q^。学习方法与DQN相似，其损失函数为：

其中ρ是行为分布，θ_i表示第i步中Q网络的参数。然而与传统DQN不同的是，并不是从一个固定的动作集中选择执行动作；相反，本发明选择的执行动作需是不属于当前状态P_sel的谓词；因此对于给定的P_sel，在获得执行动作和当前状态生成的序列时，动作集在不断缩小。在学习了DQN的策略后，生成一些M_corr的训练数据。例如，对于P_sel，通过使用DQN选择新的拥有最大Q值的谓词，直到组成的规则满足REE结果e，则该训练数据带有标签1。否则，该训练数据带有标签0。最后，用这些训练数据进行M_corr即谓词分类模型的训练。当M_corr即谓词分类模型训练好后，就可以用M_corr即谓词分类模型来筛选规则挖掘中的不相关的谓词。

如所述步骤S320所述，依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词；

在本发明一实施例中，可以结合下列描述进一步说明步骤S320所述“依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词”的具体过程。

参照图6，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

如下列步骤所述，

S610、依据所述谓词分类模型和所述待选谓词确定所述待选谓词的估计值；

S620、当所述待选谓词的所述估计值大于或等于预设阈值时，确定所述待选谓词为所述有效谓词。

需要说明的是，依据所述谓词分类模型和所述待选谓词确定所述待选谓词的估计值；通过分类器M_corr(P_sel，p，e)即谓词分类模型确定待选谓词的估计值；

需要说明的是，当所述待选谓词的所述估计值大于或等于预设阈值时，确定所述待选谓词为所述有效谓词；通过判断待选谓词的估计值是否大于或等于预设阈值，从而确定待选谓词是否为有效谓词；

在一具体实现中，为了避免错误排除相关的谓词，通过采用一个预设置阈值，并采用启发式方法，只筛选置信度不小于(即大于或者等于)该预设置阈值的谓词。

如所述步骤S140所述，将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据；

在本发明一实施例中，可以结合下列描述进一步说明步骤S140所述“将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据”的具体过程。

参照图7，示出了本申请一实施例提供的一种基于强化学习的数据筛选方法的步骤流程图；

如下列步骤所述，

S710、依据所述谓词分类模型和所述有效谓词生成状态信息，其中，所述状态信息包括正确和错误；

S720、依据所述谓词分类模型、所述状态信息和所述有效谓词确定所述有效谓词的相关性信息，其中，所述相关性信息包括相关和不相关；

S730、当所述谓词分类模型依据当前所述有效谓词所返回的所述状态信息为所述正确时，则确定当前所述有效谓词的所述相关性信息为所述相关，则确定带有所述有效谓词的所述目标数据为所述有效数据。

需要说明的是，当所述谓词分类模型依据当前所述有效谓词所返回的所述状态信息为所述错误时，则确定当前所述有效谓词的所述相关性信息为所述不相关，则确定该带有所述有效谓词的所述目标数据不是所述有效数据。

需要说明的是，依据所述谓词分类模型和所述有效谓词生成状态信息，其中，所述状态信息包括正确和错误；通过有效谓词的状态信息得知其相关性信息。

需要说明的是，依据所述谓词分类模型确定所述有效谓词的相关性信息，其中，所述相关性信息包括相关和不相关；依据相关性信息判断带有该有效谓词的目标数据是否为有效数据。

作为一种示例，不会把P_re里面所有的有效谓词p都加到P_sel中去；只有当当前的P_sel和p是与REE结果e相关时，才会把有效谓词p都加到P_sel中去。

在一具体实现中，当P_sel∧p→e组成一个有效规则，M_corr(P_sel，p，e)即谓词分类模型返回生成状态信息，且状态信息为正确时，表示Psel和当前有效谓词p是与REE结果e相关的。当M_corr(P_sel，p，e)即谓词分类模型返回生成状态信息，且状态信息为错误时，表示P_sel和当前有效谓词p是与REE结果e无关的，即不会把当前有效谓词p都加到P_sel中。

本发明的技术效果：与现有技术中把谓词的所有排列组合都试一遍的暴力枚举法相比，通过采用相关性分类器M_corr(P_sel，p，e)，在数据筛选的过程中筛选掉无意义的谓词组合。M_corr(P_sel，p，e)实质上是利用了DQN的方式，减少数据筛选的搜索空间，达到了加速发现过程的目的；能够高效的发现由多个元组变量定义的跨表REE规则。

在多个公开数据中对比了不使用本发明动态谓词拓展技术的数据筛选算法的效率和准确度。结果显示，在使用了动态谓词拓展后，只损失了1％的数据筛选准确度；与不使用动态谓词拓展技术的数据筛选算法相比，本发明平均提速2.52倍，最高提速效果甚至达到了4.77倍；这充分证明了本发明动态谓词拓展技术能有效的减少需要遍历的数据筛选数量，提高数据筛选的执行效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

参照图8，示出了本申请一实施例提供的一种基于强化学习的数据筛选装置的结构框图；

所述装置用于对目标数据进行规则挖掘，并判断其挖掘得到的规则是否为有效规则，具体包括：

获取模块810，用于获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；

第一确定模块820，用于依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；

第二确定模块830，用于依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；

判定模块840，用于将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。

在本发明一实施例中，所述获取模块810，包括：

第一获取子模块，用于获取所述目标数据；

第一确定子模块，用于依据所述目标数据确定对应的数据库；

第一生成子模块，用于依据所述数据库和所述目标数据生成数据关系表；

第二获取子模块，用于在所述数据关系表内确定所述目标数据对应的所述数据属性。

在本发明一实施例中，所述第二确定模块830，包括：

第一构建子模块，用于依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型；

第二确定子模块，用于依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词。

在本发明一实施例中，所述第一构建子模块，包括：

第一生成单元，用于依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理构建强化学习策略；

第二生成单元，用于依据所述强化学习策略、所述待选谓词和所述被选择谓词集合生成训练数据；

第一构建单元，用于依据所述训练数据和所述强化学习策略构建所述谓词分类模型。

在本发明一实施例中，所述第一生成单元，包括：

第一构建子单元，用于构建当前网络和目标网络，并标记所述待选谓词为执行动作以及标记所述被选择谓词集合为当前状态；

第一生成子单元，用于依据所述当前网络、所述当前状态和所述执行动作生成奖励值；

第二构建子单元，用于依据所述奖励值构建所述强化学习策略，其中，所述强化学习策略包括当所述奖励值为正时，则认定所述待选谓词和所述被选择谓词集合之间相关；或，当所述奖励值为负时，则认定所述待选谓词和所述被选择谓词集合之间不相关。

在本发明一实施例中，所述第二确定子模块，包括：

第一确定单元，用于依据所述谓词分类模型和所述待选谓词确定所述待选谓词的估计值；

第二确定单元，用于当所述待选谓词的所述估计值大于或等于预设阈值时，确定所述待选谓词为所述有效谓词。

在本发明一实施例中，所述判定模块840，包括：

第二生成子模块，用于依据所述谓词分类模型和所述有效谓词生成状态信息，其中，所述状态信息包括正确和错误；

第三确定子模块，用于依据所述谓词分类模型、所述状态信息和所述有效谓词确定所述有效谓词的相关性信息，其中，所述相关性信息包括相关和不相关；

第一判定子模块，用于当所述谓词分类模型依据当前所述有效谓词所返回的所述状态信息为所述正确时，则确定当前所述有效谓词的所述相关性信息为所述相关，则确定带有所述有效谓词的所述目标数据为所述有效数据。

参照图9，示出了本发明的一种基于强化学习的数据筛选方法的计算机设备，具体可以包括如下：

上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线18，微通道体系结构(MAC)总线18，增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN))，广域网(WAN)和/或公共网络(例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图9中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种基于强化学习的数据筛选方法。

也即，上述处理单元16执行上述程序时实现：获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。

在本发明实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的一种基于强化学习的数据筛选方法：

也即，给程序被处理器执行时实现：获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词；依据所述数据属性确定待选谓词集合和被选择谓词集合，其中，所述待选谓词集合内包括若干个待选谓词，所述被选择谓词集合为空集；依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词；将所述有效谓词添加至所述被选择谓词集合内，当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于强化学习的数据筛选方法及其装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于强化学习的数据筛选方法，用于对目标数据进行数据筛选，并判断其筛选得到的目标数据是否为有效数据，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标数据，并确定所述目标数据的数据属性，其中，所述数据属性为所述目标数据内的谓词的步骤，包括：

获取所述目标数据；

依据所述目标数据确定对应的数据库；

依据所述数据库和所述目标数据生成数据关系表；

3.根据权利要求1所述的方法，其特征在于，所述依据所述待选谓词和所述被选择谓词集合构建谓词分类模型，并通过所述谓词分类模型确定所述待选谓词中的有效谓词的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述依据所述待选谓词和所述被选择谓词集合通过前馈神经网络构建谓词分类模型的步骤，包括：

5.根据权利要求4所述的方法，其特征在于，所述依据所述待选谓词和所述被选择谓词集合进行深度强化学习处理构建强化学习策略的步骤，包括：

6.根据权利要求3所述的方法，其特征在于，所述依据所述谓词分类模型、所述待选谓词和所述被选择谓词集合确定所述有效谓词的步骤，包括：

7.根据权利要求1所述的方法，其特征在于，所述当所述被选择谓词集合内的所有所述有效谓词和所述被选择谓词集合均与所述所述谓词分类模型相关时，则确定带有所述有效谓词的所述目标数据为所述有效数据的步骤，包括：

8.一种基于强化学习的数据筛选装置，用于对目标数据进行数据筛选，并判断其筛选得到的目标数据是否为有效数据，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。