CN109828836A - 一种批量流式计算系统参数动态配置方法 - Google Patents

一种批量流式计算系统参数动态配置方法 Download PDF

Info

Publication number
CN109828836A
CN109828836A CN201910050828.0A CN201910050828A CN109828836A CN 109828836 A CN109828836 A CN 109828836A CN 201910050828 A CN201910050828 A CN 201910050828A CN 109828836 A CN109828836 A CN 109828836A
Authority
CN
China
Prior art keywords
parameter
data
value
batch
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910050828.0A
Other languages
English (en)
Other versions
CN109828836B (zh
Inventor
梁毅
曾绍康
苏醒
于泽群
梁岩德
伍佳名
丁治明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910050828.0A priority Critical patent/CN109828836B/zh
Publication of CN109828836A publication Critical patent/CN109828836A/zh
Application granted granted Critical
Publication of CN109828836B publication Critical patent/CN109828836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种批量流式计算系统参数动态配置方法,包括:样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,样本收集、模型构建和最优方案生成在后台阶段完成;在线匹配和参数优化于在线阶段完成。本方法根据每种参数与数据处理响应延迟的皮尔森相关显著性大小,选取对应用性能影响较大的核心参数集;在参数约简的前提下,选取支持向量回归方法构建应用性能模型,该模型可量化评估给定数据到达速率和相关参数配置下,数据处理的响应延迟性能;在性能建模的基础上,选取启发式遗传算法,在较大的解空间中快速搜索优化配置方案。

Description

一种批量流式计算系统参数动态配置方法
技术领域
本发明属于分布式计算领域,具体涉及批量流式计算系统的参数配置与优化方法。
背景技术
互联网、物联网的发展驱动大数据时代的到来。流式数据是大数据的一类重要数据形态,并随着社交网络等应用的发展,占据越来越高的比重。流式数据被定义为一系列海量、高速、持续到达的数据序列,是随着时间无限增长的动态数据集合。波动性是流式数据的核心特征:数据的产生完全由数据源确定,不同数据源的动态变化导致数据产生速率呈现波动变化,即前一时刻和后一时刻数据速率可能有很大的差异。
大数据流式计算是针对流式数据的数据处理技术。批量流式计算(batchedstream processing model)是一类重要的大数据流式计算模型。批量流式计算系统将流式数据的处理划分为三个阶段:数据接收、数据划分和数据计算。其中,数据接收是从以数据单元为粒度,按照系统设定的接收速率从数据源接收流式数据;数据划分则是指按照一定的数据块划分间隔,将连续的流式数据单元划分为离散的数据块,并按照一定的批次划分间隔按序将数据块封装为数据批次;数据计算则是指将形成的数据批次提交至批处理计算引擎的调度队列,最终以作业的形式进行数据的并行计算。批量流式计算系统可充分利用内存数据快速读取能力,以及批处理计算引擎的并行计算能力,从而获得近实时的数据单元处理响应,因此被广泛使用。数据处理响应延迟(data process latency)是批量流式计算系统的主要性能目标,响应延迟可定义为数据单元从到达系统到处理完毕所经过的时间。
参数配置是批量流式计算系统优化数据处理响应延迟的主要手段之一。参数配置是指在应用运行前或运行过程中,通过设置或修改系统提供的配置参数优化数据处理的延迟性能。在一定的资源分配下,改变参数配置对系统延迟性能具有较大的影响。目前,既有参数配置可分为两类,静态配置和动态配置。静态配置是指在批量流式计算应用运行前,根据应用运行语义和数据源特征,为应用一次性配置相关系统参数,且在应用运行过程中不再改变。动态配置是指在应用运行过程中,针对流式数据负载的波动性,改变系统参数的设置,从而保障在不同数据到达速率下的数据响应延迟。
然而,既有工作运用于实际生产型平台尚存在如下不足:
静态配置是目前批量流式计算系统提供的缺省方式,其优势是简单、成本低;缺点是不能适应流式数据天然的波动性特征。针对此缺点,动态配置被提出,但目前的动态配置只集中于数据划分阶段。而事实上,其它两个阶段的参数配置对性能也有重要影响:例如,随着批量流式计算系统数据计算阶段的参数值的降低,响应延迟会增加。显然,现有的工作只局限于数据划分阶段参数的动态配置,导致了性能调优灵活性的降低;另外,各阶段的参数存在依赖关系:例如,随着批量流式计算系统数据计算阶段的参数值的增加,数据批次划分间隔的最优值会降低。可见,现有的优化工作健壮性也较差,即现有对数据划分阶段的优化方案会由于数据接收或者数据计算阶段的参数改变而失效。综上所述,应将不同阶段参数协同配置,构建一体化的参数配置方法。
发明内容
针对上述问题,本发明提出一种覆盖数据处理全生命周期的批量流式计算系统参数动态配置方法。该方法使用机器学习及启发式优化理论工具,可对数据接收、数据划分和数据计算阶段的相关参数进行协同优化配置。本发明所提出的方法将批量流式计算系统参数动态配置分为两个阶段:后台阶段和在线阶段。后台阶段在流式应用运行过程中周期性执行。在后台阶段,周期性根据不断累积的历史样本数据,评估不同数据到达速率及参数配置下数据处理的响应延迟,并依据用户的响应延迟需求为流式应用在每一种数据到达速率下选取优化参数配置,构建优化配置方案集。在线阶段则在流式应用数据到达速率发生变化时执行。在在线阶段,根据实时数据到达速率,从优化配置方案集中快速选取目标方案并进行参数调优,从而满足批量流式计算系统数据响应延迟保障的实时性需求。
本发明所述的批量流式计算系统参数动态配置方法主要分为六个步骤:核心参数选取、样本收集、模型构建、最优方案生成、在线匹配和参数优化。其中,核心参数选取在应用运行之前模拟测试;样本收集、模型构建和最优方案生成步骤在后台阶段完成;在线匹配和参数优化步骤于在线阶段完成。本发明做如下假设:1)外部数据源的数据到达符合泊松分布;2)网络带宽足够。在本方法中,有几个基本的参数:收集样本的批次数的阈值Nbmax、预测函数拟合次数阈值Ctmax、种群中个体数阈值Npmax、进化次数阈值Cpmax、样本收集周期t。
上述方法在计算机上按照以下步骤实现:
(1)核心参数选取
本步骤在后台阶段一次性执行,以选取对批量流式计算系统性能影响较大的参数集合;
1.1)令核心参数集合为PC。初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA,PA={pai|1≤i≤n};
1.2)选取低、中、高三种数据到达速率,分别表示为λl、λm、λh。对于每一个pai∈PA,执行步骤1.2.1)~1.2.4);
1.2.1)在pai取值范围内随机选取k个值,表示为V={vj|1≤j≤k}。其余参数在缺省的情况下,分别在数据到达速率为λl、λm、λh下,依次选取V中的数值vj进行k次流式应用模拟实验,获取相应的数据处理响应延迟集合LL={llj|1≤j≤k}、LM={lmj|1≤j≤k}、LH={lhj|1≤j≤k};
1.2.2)利用公式(1)~(3),分别计算λl、λm、λh三种数据到达速率下,pai与批量流式计算系统性能的皮尔森相关系数rl、rm、rh
1.2.3)利用公式(4)计算pai的平均皮尔森相关系数
1.2.4)若且显著性检验的p值小于0.05,则设置PC←PC∪{pai};
(2)样本收集
本步骤于后台阶段在应用运行过程中周期性执行;
2.1)依据步骤(1)选取的核心参数集合PC={pci|1≤i≤N},令样本表S表示为S={sm|sm=(λm,v1m,v2m,...,vNm,tcm),tcm=lm-tbm,1≤m≤D},其中,m为样本数据编号,D为样本数据总数,λm为第m个样本的数据到达速率,v1m,v2m,...,vNm为第m个样本对应核心参数pc1,pc2,...pcN的值,tcm为第m个样本的数据计算时间,是由数据处理响应延迟lm减去批次划分间隔tbm得到的;
2.2)令Nb为批量流式计算系统当前收集样本的批次数,设置Nb=0;
2.3)从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc1,pc2,...pcN的值、数据处理响应延迟和批次划分间隔,分别表示为λ′、v1′,v2′...,vN′、l′、tb′;
2.4)遍历样本表S,若满足λm=λ′,v1m,v2m,...,vNm=v1′,v2′,...,vN′,则利用公式(5)求取两个样本数据计算时间的均值并设置否则,设置S←S∪{(λ′,v1′,v2′,...,vN′,l′-tb′)};
2.5)Nb←Nb+1,若Nb=Nbmax,则执行步骤(3);否则,执行步骤2.3);其中,Nbmax为批量流式计算系统收集样本的批次数的阈值;
(3)模型构建
3.1)定义训练样本集T,初始化定义测试样本集F,初始化对每一个sm∈S中的λm、v1m,v2m,...,vNm作Z-score标准化处理,处理后得到的数值构成新的元组(λzm,vz1m,vz2m,...,vzNm)。对于每一个元组(λzm,vz1m,vz2m,...,vzNm),在(0,10]内随机生成正整数r,若r≤8,设置T←T∪{(λzm,vz1m,vz2m,...,vzNm),tcm};否则,设置F←F∪{(λm,v1m,v2m,...,vNm),tcm};
3.2)构建的性能模型表示为f:(λ,pc1,pc2,...pcN)→tc。对T中样本(x1,y1),(x2,y2),...,(x|T|,y|T|),xi=(λzi,vz1i,vz2i,...,vzNi)(1≤i≤|T|),yi=tci(1≤i≤|T|),设回归函数为式(6)。其中,w和b是待确定的参数,φ(x)表示一个非线性变换。令Ct为性能模型当前训练次数,设置Ct←0;
f(x)=wTφ(x)+b (6)
3.3)利用支持向量回归方法解决上述回归预测问题,等价于求解式(7)。
其中,C为大于0的常数,ξi、ξi *为松弛变量。利用拉格朗日函数和对偶原理,可以得到式(8)的对偶问题。
其中,Qi,j=φT(xi)φ(xj),I=[1,...,1]T,α、α*为拉格朗日乘子。求解此二次型规划可求得α的值,同时求得
利用KKT(Karush-Kuhn-Tucker)条件计算出常值偏差b,即
根据上述推导可得回归函数f(x)的表达式为式(11)。
其中,K(x,xi)=φT(x)φ(xi)为一个核函数。利用式(12)径向基函数核函数实现;
K(xi,xj)=exp(-γ||xi-xj||2),γ>0 (12)
3.4)对F中样本,(x1,y1),(x2,y2),...,(x|F|,y|F|),xl=(λl,v1l,v2l,...,vNl)(1≤l≤|F|),yl=tcl(1≤l≤|F|),利用公式(13)计算平均误差
3.5)若则模型构建成功,执行步骤4.1);否则,执行步骤3.7);
3.6)Ct←Ct+1,若Ct>Ctmax,则构建失败,执行步骤(7);否则,执行步骤3.7);其中,Ctmax为预测函数拟合次数阈值;
3.7)调整核函数参数γ,设置f(x)中γ←0.9γ,执行步骤3.4);
(4)最优方案生成
4.1)令性能预测表为R,初始化令最优参数配置方案表为B,初始化
4.2)令流式应用的数据到达速率最小值为λl,最大值为λh,选取速率步长为stepλ,则选取的离散化数据到达速率集合如式(14);
4.3)对核心参数集合PC={pci|1≤i≤N}中每一个pci,令参数取值范围为[dli,dhi],选取步长stepi,则选取的核心参数pci的离散化取值集合如式(15);
4.4)对于每一个λi∈Λ,遍历所有的核心参数取值的组合形如d1,d2,...,dN(di∈Di),利用步骤(3)构建的性能模型求取在该核心参数设置下的数据处理时间 设置
4.5)给定数据到达速率,生成最优参数配置方案的目标函数可被定义如公式(16);其中约束条件定义为处理响应延迟限制,tb为批次划分间隔;
min(tb+tc)
s.t.tc≤tb≤1.2tc (16)
4.6)利用遗传算法解决上述问题。对于每一个选取的数据到达速率离散值λi∈Λ,执行步骤4.6.1)~4.6.10);
4.6.1)定义种群个体pk=(g1k,g2k,...,gNk),其中gik表示为一个基因,则每个个体即一条染色体共有N个基因。定义种群集合P,初始化定义当前种群中个体数Np,初始化Np←0。定义当前进化次数Cp,初始化Cp←0;
4.6.2)若满足λm=λi,编码d1m,d2m,...,dNm为染色体ch=(d1m,d2m,...,dNm),设置P←P∪{ch};
4.6.3)Np←Np+1,若Np=Npmax,则初始化种群结束,执行步骤4.6.4);否则,继续添加个体,执行步骤4.6.2);其中,Npmax为初始种群中个体数阈值;
4.6.4)对于每一个pk∈P,遍历性能预测表R,若满足d1m=g1k,d2m=g2k,...,dNm=gNk,定义利用公式(17),计算该个体的适应度;
4.6.5)定义备选父母集合为PT,初始化对P按个体适应度由大到小排列,选取适应度排名前50%的个体组成P′,设置PT←P′,p←p-P′;
4.6.6)在PT中随机选择两个个体ft、mt作为父母,于[1,N]内随机生成正整数c。然后选取ft中基因下标1至c的基因,在mt中自下标c+1开始从左至右选取所有的基因,将其组合为子代sn的基因。sn表示为式(18),其中,sgi为sn第i位基因,fgi为ft第i位基因,mgi为mt第i位基因;
sn=(sg1,sg2,...,sgN)
4.6.7)在[1,N]内随机生成正整数t,再于[1,100]内随机生成正整数pm。若pm≤15,则对于sn的基因sgt,将其替换为相应参数合理取值范围的任意值μ,即设置sgt←μ;
4.6.8)P←P∪{sn},若|P|=Npmax,执行步骤4.6.9);否则,执行步骤4.6.6);
4.6.9)Cp←Cp+1,若Cp=Cpmax,执行步骤4.6.10);否则,执行步骤4.6.5);其中,Cpmax为进化次数阈值;
4.6.10)定义best为P中适应度最大的个体,设置B←B∪{(λi,best)};
(5)在线匹配
5.1)定义参数配置方案为C,初始化
5.2)当批量流式计算应用的一个批次结束后,从既有组件采集数据到达速率λc
5.3)令λc除以stepλ向下取整的值为v,令u=λc%stepλ,其中stepλ为数据到达速率选取步长。利用公式(19),将λc映射到离散值λd
5.4)若满足λi=λd,C←(b1i,b2i,...,bNi);否则,执行步骤(7);
(6)参数优化
6.1)依据参数配置方案C=(b1i,b2i,...,bNi),对元组中每一个bni(1≤n≤N),从批量流式系统相应组件中更新核心参数pcn的值为bni
(7)回溯:判断应用程序是否结束,是则跳转至步骤(8);否则判断是否时间达到样本收集周期t,是则跳转至步骤2.2),否则跳转至步骤(5);
(8)结束:中止对批量流式系统的参数动态配置。
为了实现上述方法,本发明在批量流式计算系统每个计算节点上增设样本收集模块,用于周期性地获取当前批次的数据到达速率、每个核心参数信息以及数据处理响应延迟。本发明将样本收集模块所获取的信息构成发明步骤(2)中样本元素的值;为了实现该方法,本发明在批量流式计算系统中增设方案生成模块,用于对样本数据集构建性能模型(步骤(3)),生成性能预测表,最后得到最优方案表(步骤(4));为了实现该方法,本发明在批量流式计算系统中增设在线匹配模块,通过将当前批次的数据到达速率映射为离散值,匹配最优方案表中相应的参数方案(步骤(5));为了实现该方法,本发明在批量流式计算系统中对每个核心参数增设参数更新模块,根据在线匹配模块获取的参数配置方案,更新最优值(步骤(6))。
附图说明
图1为本发明方法所依附的批量流式计算平台的部署图。
图2为采用本发明方法的批量流式计算平台中新增软件模块及其交互关系图。
图3为本发明方法的总体流程图。
图4为核心参数选取流程图。
图5为样本收集流程图。
图6为模型构建流程图。
图7为性能预测表生成流程图。
图8为最优参数配置表生成流程图。
图9为在线匹配最优方案流程图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
本发明所提出的参数配置动态方法可依附于现有批量流式计算系统(如SparkStreaming),通过新增相应的软件模块实现。图1是本方法所依附的Spark Streaming的部署图。该平台由多个计算机服务器(平台节点)组成,服务器间通过网络连接。平台节点分为两类:包括一个管理节点(Master)和多个计算节点(Slave)。本发明所依附的平台包含以下核心软件模块:资源管理模块、节点管理模块、应用管理模块、数据接收模块、数据管理模块和数据计算模块。其中,资源管理模块负责维护平台中所有节点的资源信息,仅在管理节点上部署;节点管理模块负责启动和结束任务执行器,并监控本节点上数据在各组件的执行情况,每个计算节点上均部署一个节点管理模块。应用管理模块负责流应用的依赖解析以及作业的生成与调度,在Spark Streaming平台中提交和运行的每个流应用均对应一个应用管理模块。数据接收模块负责数据项的接收及数据块的构建,数据管理模块负责数据块的存储管理,数据计算模块负责作业的计算。上述软件模块中,资源管理模块和节点管理模块在Spark Streaming系统启动时即部署运行,应用管理模块、数据接收模块、数据管理模块和数据计算模块分别在相应的流应用提交运行时触发部署运行。
图2是为实施本发明方法在所依附的Spark Streaming系统中需增加的软件模块及其交互关系图。为实现本发明方法须在既有Spark Streaming系统中新增模块,包括样本收集模块、方案生成模块、在线匹配模块、参数更新决策模块和参数更新执行模块。其中,样本收集模块主要负责从既有组件中对数据到达速率、数据处理延迟以及每个核心参数值得收集;方案生成模块主要负责根据样本数据通过支持向量回归方法构建性能模型生成性能预测表,再利用遗传算法获取每一种数据到达速率下的最优参数配置,以构成最优方案表;在线匹配模块主要负责根据当前批次的数据到达速率从最优方案表中匹配到最优参数配置;参数更新决策模块主要负责根据最优参数配置传递调优信息;参数更新执行模块主要负责根据具体的调优信息更改核心参数值,以实现系统延迟性能的优化。
下面结合图3发明内容总流程说明本发明的具体实施方法。在本实施方法中,基本的参数设置如下:收集样本的批次数的阈值Nbmax=50、预测函数拟合次数阈值Ctmax=5、初始种群中个体数阈值Npmax=1000、进化次数阈值Cpmax=20、样本收集周期t=15min。本实施方法可分为以下步骤:
(1)核心参数选取(流程如图4所示)
1.1)令核心参数集合为PC。初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA,
PA={spark.cores.max,spark.streaming.batchInterval,spark.shuffle.file.buffer spark.streaming.blockInterval,spark.broadcast.blockSize,spark.shuffle.memoryFraction,spark.storage.memoryMapThreshold,spark.reducer.maxSizeInFlight,spark.default.parallelism,spark.streaming.receiver.maxRate};
1.2)选取低、中、高三种数据到达速率,分别表示为λl=1MB/s、λm=10MB/s、λh=20MB/s。对于每一个pai∈PA,根据发明内容1.2.1)~1.2.4)得到每一个pai的平均皮尔森相关系数及p值如表1所示,
表1备选参数平均皮尔森相关系数
核心参数集合PC={spark.cores.max,spark.streaming.batchInterval,spark.streaming.blockInterval,spark.default.parallelism,spark.streaming.receiver.maxRate};
(2)样本收集(流程如图5所示)
2.1)样本收集模块根据发明内容2.1)中的方法,定义样本表S;
2.2)设置Nb=0;
2.3)样本收集模块从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc1,pc2,...pcN的值以及数据处理响应延迟;
2.4)样本收集模块根据发明内容2.4)合并同特征值的样本数据,并更新样本表S;
2.5)Nb←Nb+1,若Nb=Nbmax,则执行步骤(3);否则,执行步骤2.3);
(3)模型构建(流程如图6所示)
3.1)方案生成模块根据发明内容3.1)中的方法,生成训练样本集厂以及测试样本集F;
3.2)构建的性能模型表示为f:(λ,pc1,pc2,...pc5)→tc。对T中样本(x1,y1),(x2,y2),...,(x|T|,y|T|),xi=(λzi,vz1i,vz2i,...,vz5i)(1≤i≤|T|),yi=tci(1≤i≤|T|),设回归函数为式(6)。其中,w和b是待确定的参数,φ(x)表示一个非线性变换;
3.3)方案生成模块根据发明内容3.3)中的方法,利用支持向量回归方法解决上述回归预测问题;
3.4)对F中样本,(x1,y1),(x2,y2),...,(x|F|,y|F|),xl=(λl,v1l,v2l,...,v5l)(1≤l≤|F|),yl=tcl(1≤l≤|F|),利用公式(12)计算平均误差
3.5)若则模型构建成功,执行步骤4.1);否则,执行步骤3.7);
3.6)Ct←Ct+1,若Ct>Ctmax,则构建失败,执行步骤(7);否则,执行步骤3.7);
3.7)方案生成模块根据发明内容3.7)中的方法,调整预测函数中核函数的参数,执行步骤3.4);
(4)最优方案生成(流程如图7、图8所示)
4.1)令性能预测表为R,初始化令最优参数配置方案表为B,初始化
4.2)令流式应用的数据到达速率最小值为0MB/s,最大值为20MB/s,选取速率步长为0.1MB/s,则选取的离散化数据到达速率集合如式(20);
Λ={λii=0.1(i-1),1≤i≤201} (20)
4.3)对核心参数集合PC={pci|1≤i≤5}中每一个pci,令参数取值范围为[dli,dhi],选取步长stepi,则选取的核心参数pci的离散化取值集合如式(21)~(25);其中,dl1=2、dh1=20、step1=1,dl2=50ms、dh2=2000ms、step2=50ms,dl3=50ms、dh3=2000ms、step3=50ms,dl4=2、dh4=20、step4=1,dl5=0MB/s、dh5=20MB/s、step5=0.1MB/s;
D1={d1j|d1j=2+(j-1),1≤j≤19} (21)
D2={d2j|d2k=50+50(j-1),1≤j≤40} (22)
D3={d3j|d3j=50+50(j-1),1≤j≤40} (23)
D4={d4j|d4j=2+(j-1),1≤j≤19} (24)
D5={d5j|d5j=0.1(j-1),1≤j≤201} (25)
4.4)方案生成模块根据发明内容4.4)生成完整的性能预测表R;
4.5)根据发明内容4.5),定义目标函数及其约束条件,其中tb由核心参数批次划分间隔的值得到;
4.6)方案生成模块利用遗传算法解决上述问题。对于每一个选取的数据到达速率离散值λi∈Λ,根据发明内容4.6.1)~4.6.10),得到完整的最优参数配置方案表B;
(5)在线匹配(流程如图9所示)
5.1)定义参数配置方案为C,初始化
5.2)当批量流式计算应用的一个批次结束后,从既有组件采集数据到达速率λc
5.3)在线匹配模块根据发明内容5.3),得到λc在Λ中的离散值λd
5.4)在线匹配模块根据发明内容5.4),如图(6)匹配到最优方案表B中,数据到达速率为λd的最优参数配置方案,并赋值给C;
(6)参数优化
6.1)根据C中每个元素,获取最优参数配置中每个核心参数的值b1,b2,b3,b4,b5
6.2)对于集群总核数(spark.cores.max)的最优值b1,计算Δ=b1-nc,若Δ>0,则通过资源管理模块中的该参数更新模块增加Δ个核;否则,减少Δ个核。其中,nc为当前系统的集群总核数,由既有组件中获取;
6.3)对于批次划分间隔(spark.streaming.batchInterval)的最优值b2,通过数据管理模块中的该参数更新模块设置为b2
6.4)对于数据块划分间隔(spark.streaming.blockInterval)的最优值b3,通过数据管理模块中的该参数更新模块设置为b3
6.5)对于规约操作并行度(spark.default.parallelism)的最优值b4,通过数据管理模块中的该参数更新模块设置为b4
6.6)对于单个接收器最大数据接收速率(spark.streaming.receiver.maxRate)的最优值b5,通过数据接收模块中的该参数更新模块设置为b5
(7)回溯:判断应用程序是否结束,是则跳转至步骤(8);否则判断是否时间达到样本收集周期t,是则跳转至步骤2.2),否则跳转至步骤(5);
(8)结束:中止对批量流式系统的参数动态配置。
本发明基于典型的批量流式计算系统Spark Streaming进行了实现(以下简称SS-PDC),并将所实现的系统与原生的Spark Streaming(以下简称OSS)以及动态优化了批次划分间隔和数据块划分间隔的DyBBS进行了性能比较测试。测试结果表明,与既有的系统相比,应用本发明的批量流式计算系统可获得较低的平均响应延迟,且更可能在高数据到达速率来临时,保证系统的稳态。
测试以数据响应延迟为指标,指数据单元从进入Spark Streaming系统到处理完毕的持续时间,是评价系统性能的重要指标。实验中使用的平台由6台物理机组成,实验环境配置如表2所示。平台以虚拟机(Virtual Machine,VM)的形式提供服务,每个VM分配两个CPU以及4GB内存。每个物理机最多可以启动3个VM。测试选取HiBench作为本发明的性能测试基准程序集,采用典型的多阶段负载Reparition。设置Spark Streaming系统数据接收器数量为4。
表2测试环境配置
针对不同数据到达速率下的测试
在测试中对核心参数集以表4进行配置,并分别在表3中所示的不同数据到达速率范围下提交负载运行1小时。数据到达符合泊松分布。
表3初始参数配置
表4数据到达速率分组
表5不同数据到达速率下的平均响应延迟
从表5(Inf表示系统已处于非稳态)中可以看到相比OSS,在数据到达速率变化速率范围为1、2组时,SS-PDC的平均响应延迟平均降低了78.4%,在数据到达速率范围为3、4组时,OSS系统长时间处于非稳定状态,平均响应延迟不断增长,而SS-PDC能使得系统稳定运行;相比DyBBS,SS-PDC的平均响应延迟平均降低了80.6%。
针对不同初始参数配置下的测试
(1)不同初始批次划间隔,数据块划分间隔
在测试中设置8MB/s固定数据到达速率,集群总核数为10,规约操作并行度为10,单个接收器最大数据接收速率为2MB/s,并分别以表6中所示的不同批次划分间隔、数据块划分间隔提交负载运行1小时。
表6不同初始批次划分间隔,数据块划分间隔配置分组
表7不同初始批次划分间隔,数据块划分间隔下的平均响应延迟
从表7中看到,OSS的平均响应延迟随着批次划分间隔以及数据块划分间隔的不同而不同;DyBBS和SS-PDC的平均响应延迟均不受初始批次划分间隔以及数据块划分间隔设置的影响。从中可以看到相比OSS,SS-PDC的平均响应延迟平均降低了49.3%;相比DyBBS,SS-PDC的平均响应延迟平均降低了41.1%。
(2)不同初始集群总核数
在测试中设置8MB/s固定数据到达速率,批次划分间隔为600,数据块划分间隔为100,规约操作并行度为10,单个接收器最大数据接收速率为2MB/s,并分别以表8中所示的不同集群总核数提交负载运行1小时。
表8不同初始集群总核数配置分组
表9不同初始集群总核数下的平均响应延迟
从表9中可以看出,OSS和DyBBS的平均响应延迟随着集群总核数的增加而减少;SS-PDC的平均响应延迟不受初始集群总核数设置的影响。相比OSS,SS-PDC的平均响应延迟平均降低了36.6%;相比DyBBS,SS-PDC的平均响应延迟平均降低了38.3%。
(3)不同初始规约操作并行度
在测试中设置8MB/s固定数据到达速率,批次划分间隔为600,数据块划分间隔为100,集群总核数为10,单个接收器最大数据接收速率为2MB/s,并分别以表10中所示的不同规约操作并行度提交负载运行l小时。
表10不同初始规约操作并行度配置分组
表11不同初始规约操作并行度下的平均响应延迟
从表11中可以看出,OSS和DyBBS的平均响应延迟随着规约操作并行度的增加而减少;SS-PDC的平均响应延迟不受初始规约操作并行度设置的影响。相比前3组OSS,SS-PDC能使系统稳定运行;相比后3组OSS,SS-PDC的平均响应延迟平均降低了72.3%;相比DyBBS,SS-PDC的平均响应延迟平均降低了48.3%。
(4)不同初始单个接收器最大数据接收速率
在测试中设置24MB/s固定数据到达速率,批次划分间隔为600,数据块划分间隔为100,集群总核数为8,规约操作并行度为8,并分别以表12中所示的不同单个接收器最大数据接收速率提交负载运行1小时。
表12不同初始单个接收器最大数据接收速率配置分组
表13不同初始单个接收器最大数据接收速率下的平均响应延迟
从表13中可以看出,OSS和DyBBS的平均响应延迟随着最大数据接收速率的增加而增加;SS-PDC的平均响应延迟在系统能承受的数据接收速率内不受初始最大数据接收速率设置的影响。相比前4组OSS,SS-PDC的平均响应延迟平均降低了39.8%;相比后2组OSS,SS-PDC能使系统稳定运行;相比前5组DyBBS,SS-PDC的平均响应延迟平均降低了6.11%;相比第六组DyBBS,SS-PDC能使系统稳定运行。
以上实施例仅用以说明本发明,而并非限制本发明所描述的技术方案。因此,一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种批量流式计算系统参数动态配置方法,其特征在于:分为六个步骤:核心参数选取、样本收集、模型构建、最优方案生成、在线匹配和参数优化;其中,核心参数选取在应用运行之前模拟测试;样本收集、模型构建和最优方案生成步骤在后台阶段完成;在线匹配和参数优化步骤于在线阶段完成;做如下假设:1)外部数据源的数据到达符合泊松分布;2)网络带宽足够,设收集样本的批次数的阈值Nbmax、预测函数拟合次数阈值Ctmax、种群中个体数阈值Npmax、进化次数阈值Cpmax、样本收集周期t;具体为:
(1)核心参数选取
选取对批量流式计算系统性能影响较大的参数集合;
1.1)令核心参数集合为PC,初始化在批量流式计算系统的所有参数中筛选得到备选参数集合PA,PA={pai|1≤i≤n};
1.2)选取低、中、高三种数据到达速率,分别表示为λl、λm、λh。对于每一个pai∈PA,执行步骤1.2.1)~1.2.4);
1.2.1)在pai取值范围内随机选取k个值,表示为V={vj|1≤j≤k}。其余参数在缺省的情况下,分别在数据到达速率为λl、λm、λh下,依次选取V中的数值vj进行k次流式应用模拟实验,获取相应的数据处理响应延迟集合LL={llj|1≤j≤k}、LM={lmj|1≤j≤k}、LH={lhj|1≤j≤k};
1.2.2)利用公式(1)~(3),分别计算λl、λm、λh三种数据到达速率下,pai与批量流式计算系统性能的皮尔森相关系数rl、rm、rh
1.2.3)利用公式(4)计算pai的平均皮尔森相关系数
1.2.4)若且显著性检验的p值小于0.05,则设置PC←PC∪{pai};
(2)样本收集
2.1)依据步骤(1)选取的核心参数集合PC={pci|1≤i≤N},令样本表S表示为S={sm|sm=(λm,v1m,v2m,...,vNm,tcm),tcm=lm-tbm,1≤m≤D},其中,m为样本数据编号,D为样本数据总数,λm为第m个样本的数据到达速率,v1m,v2m,...,vNm为第m个样本对应核心参数pc1,pc2,...pcN的值,tcm为第m个样本的数据计算时间,是由数据处理响应延迟lm减去批次划分间隔tbm得到的;
2.2)令Nb为批量流式计算系统当前收集样本的批次数,设置Nb=0;
2.3)从批量流式计算系统既有组件采集流式应用当前批次的数据到达速率、核心参数pc1,pc2,...pcN的值、数据处理响应延迟和批次划分间隔,分别表示为λ′、v1′v2′...,vN′、l′、tb′;
2.4)遍历样本表S,若满足λm=λ′,v1m,v2m,...,vNm=v1′,v2′,...,vN′,则利用公式(5)求取两个样本数据计算时间的均值并设置否则,设置S←S∪{(λ′,v1′,v2′,...,vN′,l′-tb′)};
2.5)Nb←Nb+1,若Nb=Nbmax,则执行步骤(3);否则,执行步骤2.3);其中,Nbmax为批量流式计算系统收集样本的批次数的阈值;
(3)模型构建
3.1)定义训练样本集T,初始化定义测试样本集F,初始化对每一个sm∈S中的λm、v1m,v2m,...,vNm作Z-score标准化处理,处理后得到的数值构成新的元组(λzm,vz1m,vz2m,...,vzNm)。对于每一个元组(λzm,vz1m,vz2m,...,vzNm),在(0,10]内随机生成正整数r,若r≤8,设置T←T∪{(λzm,vz1m,vz2m,...,vzNm),tcm};否则,设置F←F∪{(λm,v1m,v2m,...,vNm),tcm};
3.2)构建的性能模型表示为f:(λ,pc1,pc2,...pcN)→tc。对T中样本(x1,y1),(x2,y2),...,(x|T|,y|T|),xi=(λzi,vz1i,vz2i,...,vzNi)(1≤i≤|T|),yi=tci(1≤i≤|T|),设回归函数为式(6)。其中,w和b是待确定的参数,φ(x)表示一个非线性变换。令Ct为性能模型当前训练次数,设置Ct←0;
f(x)=wTφ(x)+b (6)
3.3)利用支持向量回归方法解决上述回归预测问题,等价于求解式(7)。
其中,C为大于0的常数,ξi、ξi *为松弛变量。利用拉格朗日函数和对偶原理,可以得到式(8)的对偶问题。
其中,Qi,j=φT(xi)φ(xj),I=[1,...,1]T,α、α*为拉格朗日乘子。求解此二次型规划可求得α的值,同时求得
利用KKT(Karush-Kuhn-Tucker)条件计算出常值偏差b,即
根据上述推导可得回归函数f(x)的表达式为式(11)。
其中,K(x,xi)=φT(x)φ(xi)为一个核函数。利用式(12)径向基函数核函数实现;
K(xi,xj)=exp(-γ||xi-xj||2),γ>0 (12)
3.4)对F中样本,(x1,y1),(x2,y2),...,(x|F|,y|F|),xl=(λl,v1l,v2l,...,vNl)(1≤l≤|F|),yl=tcl(1≤l≤|F|),利用公式(13)计算平均误差
3.5)若则模型构建成功,执行步骤4.1);否则,执行步骤3.7);
3.6)Ct←Ct+1,若Ct>Ctmax,则构建失败,执行步骤(7);否则,执行步骤3.7);其中,Ctmax为预测函数拟合次数阈值;
3.7)调整核函数参数γ,设置f(x)中γ←0.9γ,执行步骤3.4);
(4)最优方案生成
4.1)令性能预测表为R,初始化令最优参数配置方案表为B,初始化
4.2)令流式应用的数据到达速率最小值为λl,最大值为λh,选取速率步长为stepλ,则选取的离散化数据到达速率集合如式(14);
4.3)对核心参数集合PC={pci|1≤i≤N}中每一个pci,令参数取值范围为[dli,dhi],选取步长stepi,则选取的核心参数pci的离散化取值集合如式(15);
4.4)对于每一个λi∈Λ,遍历所有的核心参数取值的组合形如d1,d2,...,dN(di∈Di),利用步骤(3)构建的性能模型求取在该核心参数设置下的数据处理时间设置
4.5)给定数据到达速率,生成最优参数配置方案的目标函数可被定义如公式(16);其中约束条件定义为处理响应延迟限制,tb为批次划分间隔,;
min(tb+tc)
s.t.tc≤tb≤1.2tc (16)
4.6)利用遗传算法解决上述问题,对于每一个选取的数据到达速率离散值λi∈Λ;
(5)在线匹配
5.1)定义参数配置方案为C,初始化
5.2)当批量流式计算应用的一个批次结束后,从既有组件采集数据到达速率λc
5.3)令λc除以stepλ向下取整的值为v,令u=λc%stepλ,其中stepλ为数据到达速率选取步长。利用公式(19),将λc映射到离散值λd
5.4)若满足λi=λd,C←(b1i,b2i,...,bNi);否则,执行步骤(7)。
2.如权利要求1所述批量流式计算系统参数动态配置方法,其特征在于:4.6)具体为:
4.6.1)定义种群个体pk=(g1k,g2k,...,gNk),其中gik表示为一个基因,则每个个体即一条染色体共有N个基因,定义种群集合P,初始化定义当前种群中个体数Np,初始化Np←0。定义当前进化次数Cp,初始化Cp←0;
4.6.2)若满足λm=λi,编码d1m,d2m,...,dNm为染色体ch=(d1m,d2m,...,dNm),设置P←P∪{ch};
4.6.3)Np←Np+1,若Np=Npmax,则初始化种群结束,执行步骤4.6.4);否则,继续添加个体,执行步骤4.6.2);其中,Npmax为初始种群中个体数阈值;
4.6.4)对于每一个pk∈P,遍历性能预测表R,若满足d1m=g1k,d2m=g2k,...,dNm=gNk,定义利用公式(17),计算该个体的适应度;
4.6.5)定义备选父母集合为PT,初始化对P按个体适应度由大到小排列,选取适应度排名前50%的个体组成P′,设置PT←P′,P←P-P′;
4.6.6)在PT中随机选择两个个体ft、mt作为父母,于[1,N]内随机生成正整数c。然后选取ft中基因下标1至c的基因,在mt中自下标c+1开始从左至右选取所有的基因,将其组合为子代sn的基因。sn表示为式(18),其中,sgi为sn第i位基因,fgi为ft第i位基因,mgi为mt第i位基因;
sn=(sg1,sg2,...,sgN)
4.6.7)在[1,N]内随机生成正整数t,再于[1,100]内随机生成正整数pm。若pm≤15,则对于sn的基因sgt,将其替换为相应参数合理取值范围的任意值μ,即设置sgt←μ;
4.6.8)P←P∪{sn},若|P|=Npmax,执行步骤4.6.9);否则,执行步骤4.6.6);
4.6.9)Cp←Cp+1,若Cp=Cpmax,执行步骤4.6.10);否则,执行步骤4.6.5);其中,Cpmax为进化次数阈值;
4.6.10)定义best为P中适应度最大的个体,设置B←B∪{(λi,best)}。
CN201910050828.0A 2019-01-20 2019-01-20 一种批量流式计算系统参数动态配置方法 Active CN109828836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910050828.0A CN109828836B (zh) 2019-01-20 2019-01-20 一种批量流式计算系统参数动态配置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910050828.0A CN109828836B (zh) 2019-01-20 2019-01-20 一种批量流式计算系统参数动态配置方法

Publications (2)

Publication Number Publication Date
CN109828836A true CN109828836A (zh) 2019-05-31
CN109828836B CN109828836B (zh) 2021-04-30

Family

ID=66860970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910050828.0A Active CN109828836B (zh) 2019-01-20 2019-01-20 一种批量流式计算系统参数动态配置方法

Country Status (1)

Country Link
CN (1) CN109828836B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475317A (zh) * 2020-04-17 2020-07-31 上海中通吉网络技术有限公司 Spark批次时间修改方法、装置、设备和存储介质
CN112346866A (zh) * 2020-11-05 2021-02-09 中国科学院计算技术研究所 一种基于异步数据传输的gpu调度方法及系统
CN112732444A (zh) * 2021-01-12 2021-04-30 北京工业大学 一种面向分布式机器学习的数据划分方法
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140215484A1 (en) * 2010-03-11 2014-07-31 International Business Machines Corporation Managing model building components of data analysis applications
CN104020994A (zh) * 2014-05-30 2014-09-03 华为技术有限公司 基于流系统的流过程定义装置和流过程定义方法
US20150334153A1 (en) * 2012-12-21 2015-11-19 Koninklijke Kpn N.V. Low-Latency Streaming
US20160044139A1 (en) * 2014-08-07 2016-02-11 Hsiu-Ping Lin Methods and systems for communications between apps and virtual machines
CN106845767A (zh) * 2016-12-16 2017-06-13 浙江大学 一种行业科技发展力量化评估方法与评估系统
CN107086929A (zh) * 2017-04-16 2017-08-22 北京工业大学 一种基于排队建模的批量流式计算系统性能保障方法
US20170289601A1 (en) * 2016-04-04 2017-10-05 Comcast Cable Communications, Llc Camera cloud recording
CN107609652A (zh) * 2017-08-30 2018-01-19 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN107844837A (zh) * 2017-10-31 2018-03-27 第四范式(北京)技术有限公司 针对机器学习算法进行算法参数调优的方法及系统
CN108037998A (zh) * 2017-12-01 2018-05-15 北京工业大学 一种面向Spark Streaming平台的数据接收通道动态分配方法
CN108536128A (zh) * 2018-05-14 2018-09-14 浙江大学 一种参数优化的机器学习故障诊断系统
CN108628605A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 流式数据处理方法、装置、服务器和介质
CN108958789A (zh) * 2018-05-20 2018-12-07 湖北九州云仓科技发展有限公司 一种并行流式计算方法、电子设备、存储介质及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140215484A1 (en) * 2010-03-11 2014-07-31 International Business Machines Corporation Managing model building components of data analysis applications
US20150334153A1 (en) * 2012-12-21 2015-11-19 Koninklijke Kpn N.V. Low-Latency Streaming
CN104020994A (zh) * 2014-05-30 2014-09-03 华为技术有限公司 基于流系统的流过程定义装置和流过程定义方法
US20160044139A1 (en) * 2014-08-07 2016-02-11 Hsiu-Ping Lin Methods and systems for communications between apps and virtual machines
US20170289601A1 (en) * 2016-04-04 2017-10-05 Comcast Cable Communications, Llc Camera cloud recording
CN106845767A (zh) * 2016-12-16 2017-06-13 浙江大学 一种行业科技发展力量化评估方法与评估系统
CN107086929A (zh) * 2017-04-16 2017-08-22 北京工业大学 一种基于排队建模的批量流式计算系统性能保障方法
CN107609652A (zh) * 2017-08-30 2018-01-19 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN107844837A (zh) * 2017-10-31 2018-03-27 第四范式(北京)技术有限公司 针对机器学习算法进行算法参数调优的方法及系统
CN108037998A (zh) * 2017-12-01 2018-05-15 北京工业大学 一种面向Spark Streaming平台的数据接收通道动态分配方法
CN108628605A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 流式数据处理方法、装置、服务器和介质
CN108536128A (zh) * 2018-05-14 2018-09-14 浙江大学 一种参数优化的机器学习故障诊断系统
CN108958789A (zh) * 2018-05-20 2018-12-07 湖北九州云仓科技发展有限公司 一种并行流式计算方法、电子设备、存储介质及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HU ZHOU ET AL.: "QoE-aware admission control and MAC layer parameter configuration algorithm in WLAN", 《 2015 IEEE WIRELESS COMMUNICATIONS AND NETWORKING》 *
POOYAN JAMSHIDI,GIULIANO CASALE: ""An Uncertainty-Aware Approach to Optimal Configuration of Stream Processing Systems"", 《2016 IEEE 24TH INTERNATIONAL SYMPOSIUM ON MODELING, ANALYSIS AND SIMULATION OF COMPUTER AND TELECOMMUNICATION SYSTEMS (MASCOTS)》 *
梁毅 等: ""Spark Streaming中参数与资源协同调整策略"", 《软件导刊》 *
梁毅 等: "基于预测的Spark动态资源分配策略", 《软件导刊》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
CN111475317A (zh) * 2020-04-17 2020-07-31 上海中通吉网络技术有限公司 Spark批次时间修改方法、装置、设备和存储介质
CN111475317B (zh) * 2020-04-17 2023-09-15 上海中通吉网络技术有限公司 Spark批次时间修改方法、装置、设备和存储介质
CN112346866A (zh) * 2020-11-05 2021-02-09 中国科学院计算技术研究所 一种基于异步数据传输的gpu调度方法及系统
CN112346866B (zh) * 2020-11-05 2023-09-01 中国科学院计算技术研究所 一种基于异步数据传输的gpu调度方法及系统
CN112732444A (zh) * 2021-01-12 2021-04-30 北京工业大学 一种面向分布式机器学习的数据划分方法

Also Published As

Publication number Publication date
CN109828836B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN109828836A (zh) 一种批量流式计算系统参数动态配置方法
US11481653B2 (en) Predictive asset optimization for computer resources
Yi et al. Task optimization and scheduling of distributed cyber–physical system based on improved ant colony algorithm
Zhou et al. Multi-population parallel self-adaptive differential artificial bee colony algorithm with application in large-scale service composition for cloud manufacturing
Babazadeh et al. Application of particle swarm optimization to transportation network design problem
US20180270121A1 (en) Information processing architecture for network edge-based optimization problems
Ni et al. A multi-graph attributed reinforcement learning based optimization algorithm for large-scale hybrid flow shop scheduling problem
CN113705610A (zh) 一种基于联邦学习的异构模型聚合方法和系统
Zhong et al. A modified ant colony optimization algorithm for multi-objective assembly line balancing
CN113627871B (zh) 一种基于多目标粒子群算法的工作流调度方法、系统及存储介质
CN108182109A (zh) 一种云环境下的工作流调度与数据分配方法
Bazinet et al. Computing the tree of life: Leveraging the power of desktop and service grids
Lu et al. A GRU-based prediction framework for intelligent resource management at cloud data centres in the age of 5G
CN103593323A (zh) 一种MapReduce任务资源配置参数的机器学习方法
CN107357652A (zh) 一种基于分段排序及标准差调整因子的云计算任务调度方法
CN111611062A (zh) 云边协同分层计算方法及云边协同分层计算系统
Zaman et al. Multi-method based algorithm for multi-objective problems under uncertainty
PVGDP et al. Multi objective particle swarm optimization for software cost estimation
CN113485801B (zh) 基于神经网络相似度建模的实时dnn调度系统及方法
Zhu et al. A priority-aware scheduling framework for heterogeneous workloads in container-based cloud
Jin et al. A hybrid teaching-learning-based optimization algorithm for QoS-aware manufacturing cloud service composition
Zhou et al. DPS: Dynamic pricing and scheduling for distributed machine learning jobs in edge-cloud networks
JP2021005387A (ja) コンピュータリソースのための予測的資産最適化
Yang et al. Trust-based scheduling strategy for cloud workflow applications
Huang et al. Mobile network traffic prediction based on seasonal adjacent windows sampling and conditional probability estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant