CN112256739A

CN112256739A - 一种基于多臂赌博机的动态流大数据中数据项筛选方法

Info

Publication number: CN112256739A
Application number: CN202011263725.1A
Authority: CN
Inventors: 丁春玲; 曾国荪; 王顺
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-01-22
Anticipated expiration: 2040-11-12
Also published as: CN112256739B

Abstract

本发明涉及一种基于多臂赌博机的动态流大数据中数据项筛选方法，包括步骤1：获取动态流大数据的数据项信息；步骤2：构建多臂赌博机模型；步骤3：判断当前时间窗口是否为最后一个时间窗口，若是，则执行步骤6，否则，执行步骤4；步骤4：在当前时间窗口内选取多臂赌博机模型的臂；步骤5：从步骤4选出的臂中选取数据项，并将其合并到数据项集合中，然后返回步骤3；步骤6：输出数据项集合。与现有技术相比，本发明具有筛选结果更加精确、适应性强等优点。

Description

一种基于多臂赌博机的动态流大数据中数据项筛选方法

技术领域

本发明涉及流大数据分析挖掘技术领域，尤其是涉及一种基于多臂赌博机的动态流大数据中数据项筛选方法。

背景技术

分析和挖掘流大数据中蕴藏的价值是大数据处理中的关键任务之一，由此可以提取知识、获得见解，继而帮助人们做出更好的决策。因此，实时处理这些动态产生的流大数据十分重要，其重要性甚至超过数据计算的精度。在这一类应用中，处理每一个数据项将获得一定的价值，每个数据项的价值各不相同，因此从源源不断的数据流中获取更多的价值是这类应用的主要目标。然而，在资源有限条件下，如何充分利用各种计算资源，并从流大数据中选择一批具有较高价值数据是一个重要问题。传统的选择方法难以解决没有先验知识条件下的流数据项选择问题，这为流数据项的选择带来了困难。

在流数据项选择中，现有区分数据“重要”与否的方法大体可以分为两类：有监督算法和无监督算法。有监督学习算法有SVM、贝叶斯网络、决策树归纳、神经网络等。这类算法必须要有已被分类标记的训练数据，这为算法的实施带来了诸多困难。无监督学习算法有K-means、近邻传播、基于密度的聚类、基于层次的聚类算法、核聚类、智能搜索聚类等。这类算法虽然不需要训练数据，但它们仍就只考虑数据本身的特性，在实际应用中，数据的价值高低还与处理数据的环境、业务相关，这就为实时、高效选择流数据项提出了新的挑战。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种筛选结果更加精确、适应性强的基于多臂赌博机的动态流大数据中数据项筛选方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多臂赌博机的动态流大数据中数据项筛选方法，所述的数据项筛选方法包括以下步骤：

步骤1：获取动态流大数据的数据项信息；

步骤2：构建多臂赌博机模型；

步骤3：判断当前时间窗口是否为最后一个时间窗口，若是，则执行步骤6，否则，执行步骤4；

步骤4：在当前时间窗口内选取多臂赌博机模型的臂；

步骤5：从步骤4选出的臂中选取数据项，并将其合并到数据项集合中，然后返回步骤3；

步骤6：输出数据项集合。

优选地，所述的步骤2具体为：

设数据项共有M个类别，根据数据项模的大小，将数据项的模划分为M个区间，即[D₁,D₂),[D₃,D₄),…,[D_M,D_M+1]，分别对应M个缓冲区buffer₁,buffer₂,…,buffer_M，M个缓冲区作为多臂赌博机模型的M个臂arm₁,arm₂,…,arm_M构建多臂赌博机模型；

每个数据项到达时，首先计算数据项的模，根据模所在区间将其缓存至相应的缓存区内，完成多臂赌博机模型的构建。

优选地，所述的步骤4以UCB-greedy-Mix选择策略选取多臂赌博机模型的臂。

更加优选地，所述的步骤4具体为：

步骤4-1：设置探索概率ε_i的取值；

步骤4-2：在当前时间窗口T_k内，以概率ε_i进行多臂赌博机的探索，以概率1-ε_i进行多臂赌博机的利用；

步骤4-3：获取多臂赌博机进行探索或利用后的臂buffer。

更加优选地，所述的步骤4-1具体为：

定义探索概率ε_i序列，即

ε_i∈(0,1]i＝1,2,…

其中，c和d为调节ε_i降低速度的常数参数。

更加优选地，所述步骤4-2中以概率ε_i进行多臂赌博机的探索具体为：

设S^k,j表示在时间窗口T_k内，从buffer_j中被取走的数据的总个数，R(T_k,buffer_j)表示在T_k时间窗口内，从buffer_j中选择的所有数据项处理后的累计回报，即

R(→T_k,buffer_j)表示从buffer_j中选择的所有数据的累计回报，

表示单个数据项的回报；

在时间窗口T_k内，多臂赌博机进行探索时，将每个臂累计回报的置信上界R(→T_k,buffer_j,UCB)作为选择的依据，即以概率ε_i选中buffer_j＝arg_jmaxR(→T_k,buffer_j,UCB)。

更加优选地，所述步骤4-2中以概率1-ε_i进行多臂赌博机的利用具体为：

对于当前时间窗口T_p，设O^p,j表示由时间窗口T_p的初始时刻到当前时刻已经从buffer_j中取走的数据项个数，则上述时间段内的总回报为

从buffer_j选择取走的数据项的累计回报为R(→T_p,buffer_j)；

在当前时间窗口T_p内，以1-ε_i的概率选中buffer_j＝arg_jmaxR(→T_p,buffer_j)。

更加优选地，所述的累计回报R(→T_p,buffer_j)的计算方法为：

更加优选地，所述的数据项回报的计算方法为：

其中，

为任意数据项

处理后得到的业务价值；

为处理数据项

所需的硬件资源；

为处理数据项

所需的时间资源；

为直到当前

取走时，总共从buffer_j取走的数据项的总个数；

为补偿系数。

优选地，所述的步骤5具体为：在步骤4选出的臂中随机抽取该臂中的数据项，并将其合并到数据项集合。

与现有技术相比，本发明具有以下优点：

一、筛选结果更加精确：本发明中的数据项筛选方法通过构造多缓冲队列的多臂赌博机模型，并给出了考虑价值、处理时间、消耗资源、损失价值的综合回报计算方法，将多种因素纳入到多臂赌博机模型中，筛选出的数据项的价值也更高，结果也更为精确。

二、适应性强：本发明中的数据项筛选方法使用多臂赌博机模型来对动态流大数据的数据项进行筛选，该方法对动态流大数据的要求较低，算法的适用范围广，适应性强。

附图说明

图1为本发明中数据项筛选方法对的流程示意图；

图2为本发明中多臂赌博机模型的示意图；

图3为本发明中数据项选择流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于多臂赌博机的动态流大数据中数据项筛选方法，其流程如图1所示，包括：

步骤1：获取动态流大数据的数据项信息；

步骤2：构建多臂赌博机模型，多臂赌博机模型的结构如图2所示，构建过程具体为：

数据流可根据数据项的特征(例如类型、属性、模数等)不同，分成多个类别，且每个类别的数据项对应的价值分布往往不同，这为构造多臂赌博机模型提供了基础。将不同特征的数据项构成不同的队列，放置到不同的缓冲区buffer，从而构成赌博机的多条臂。根据多臂赌博机的原理，可以构造多个臂，即是创建多个存放数据项buffer，这是成功应用多臂赌博机技术的关键步骤。

每个数据项到达时，首先计算数据项的模，根据模所在区间将其缓存至相应的缓存区内，完成多臂赌博机模型的构建；

步骤4：在当前时间窗口内选取多臂赌博机模型的臂；

本专利以ε-Greedy算法为基础，结合UCB策略中的探索思想，提出了一种新的选择策略：UCB-greedy-Mix选择策略。与ε-Greedy类似，UCB-greedy-Mix选择策略也分为探索和利用两个阶段，其中探索阶段将每个臂回报的置信上界作为选择的依据。此外，该策略设置了一个参数ε_n作为探索概率，ε_n根据n的增长而递减，选择过程具体为：

步骤4-1：设置探索概率ε_i的取值；

定义探索概率ε_i序列，即

ε_i∈(0,1]i＝1,2,…

其中，c和d为调节ε_i降低速度的常数参数，由用户输入。

R(→T_k,buffer_j)表示从buffer_j中选择的所有数据的累计回报，

表示单个数据项的回报；

在时间窗口T_k内，多臂赌博机进行探索时，将每个臂累计回报的置信上界R(→T_k,buffer_j,UCB)作为选择的依据，即以概率ε_i选中buffer_j＝arg_jmaxR(→T_k,buffer_j,UCB)；

从buffer_j选择取走的数据项的累计回报为R(→T_p,buffer_j)；

在当前时间窗口T_p内，以1-ε_i的概率选中buffer_j＝arg_jmaxR(→T_p,buffer_j)；

回报计算是多臂赌博机进行在线学习的关键之一。每次处理一个数据，都会获得相应的价值，消耗一定的资源，并花费一定的处理时间，这些反馈从不同角度对回报产生影响。在上述模型的基础上，给出一个数据项

的综合回报的计算方法如下：

其中，

为任意数据项

处理后得到的业务价值；

为处理数据项

所需的硬件资源；

为处理数据项

所需的时间资源；

为直到当前

取走时，总共从buffer_j取走的数据项的总个数；

为补偿系数；

以微博社交网络为例，每一条微博数据的业务价值是关于转发量、点赞量、时间以及关注对象粉丝量的一个函数，即

表示计算

在特定计算环境下需要消耗的CPU指令次数，

表示计算

的时间。由该实例可以得出本市首例中业务价值、硬件资源和时间资源的数据选取方法，由于在不同的应用环境下，选取具体数值的方法不唯一，所以需要根据实际情况选取对应的数据。

对流数据选择处理是一个持续的过程，所有被处理数据的累计回报最大化是进行数据选择的目标。每个buffer的回报分布不同，只有尽可能多地选择回报高的buffer才能获得最佳效果。为此，将每个buffer的累计回报作为多臂赌博机模型中进行下一次选择的依据。这里一个buffer的累计回报是指从第一个时间窗口的初始时刻开始，到当前时间窗口的当前时刻，该buffer上的回报值的累计之和。对于任意时间窗口T_k，当T_k为当前时间窗口时，从buffer中取数据的过程可能尚未完成；当T_k为之前的时间窗口时，由于T_k已结束，buffer已完成取数据和丢弃数据。因此，可以将累计回报分成两部分计算：

步骤4-3：获取多臂赌博机进行探索或利用后的臂buffer；

步骤5：从步骤4选出的臂中选取数据项，并将其合并到数据项集合中，然后返回步骤3，具体为：

在步骤4选出的臂中随机抽取该臂中任意数量的数据项，并将其合并到数据项集合。

步骤6：输出数据项集合。

本实施例中的数据项筛选方法提炼了影响数据项选择的四方面因素，包括业务价值、处理时间、消耗资源、损失价值。然后，将流大数据按照一定的规则分成多个缓存队列，作为臂构建了多臂赌博机模型，给出多臂赌博机考虑了业务价值、处理时间、消耗资源和损失的综合回报计算方式。先后给出了基于ε-greedy、UCB策略的流数据选择方法，并将两者结合提出了UCB-greedy-Mix数据选择策略，数据项筛选过程如图3所示。理论和实验对比表明，这种交互在线学习的数据项选择方法，能够更好地适应应用领域数据选择的实际情况。

本实施例进行数据项筛选的具体方法为：

将动态流大数据项选择分为两个阶段，分别是探索阶段和利用阶段。在探索阶段，每次选择置信上界R(→T_k,buffer_j,UCB)最大的buffer；在利用阶段每次选择累计回报R(→T_p,buffer_j)最大的buffer。

输入：流大数据S＝{d₁,d₂,...,d_n...}，buffer个数M，参数c和d，c＞0，0＜d＜1；

输出：被选择的数据项集合D。

第1步：初始化，即定义一个序列ε_i∈(0,1]；i＝1,2,…；

第2步：根据具体规则构造M个buffer：buffer₁，buffer₂，……buffer_M；

第3步：在任意一个时间窗口T_k内，以概率ε_i选中buffer_j＝arg_jmaxR(→T_k,buffer_j,UCB)；以概率1-ε_i选中buffer_j＝arg_jmaxR(→T_p,buffer_j)；在选中的buffer_j中，取出数据项

放入输出数据集合，即

以上操作对所有的时间窗口全部执行完成；

第4步：输出集合D＝D₁∪D₂∪...∪D_p。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。