CN111832823A - 基于统计假设检验的学习自动机实现系统及方法 - Google Patents

基于统计假设检验的学习自动机实现系统及方法 Download PDF

Info

Publication number
CN111832823A
CN111832823A CN202010662967.1A CN202010662967A CN111832823A CN 111832823 A CN111832823 A CN 111832823A CN 202010662967 A CN202010662967 A CN 202010662967A CN 111832823 A CN111832823 A CN 111832823A
Authority
CN
China
Prior art keywords
action
hypothesis
actions
test
convergence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010662967.1A
Other languages
English (en)
Inventor
狄冲
王嘉略
杨君中
李生红
董之微
金世鑫
任帅
朱钰
赵东艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Original Assignee
Shanghai Jiaotong University
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd filed Critical Shanghai Jiaotong University
Priority to CN202010662967.1A priority Critical patent/CN111832823A/zh
Publication of CN111832823A publication Critical patent/CN111832823A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于统计假设检验的学习自动机实现系统及方法,包括:在泛在电力物联网中,导入模块:采用积极初始化算法,导入先验知识;动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。本发明去除了复杂的参数调谐,收敛速度显著提升,即使在基于动作概率向量的方案不适用的大规模动作环境仍能保持高准确率和效率。

Description

基于统计假设检验的学习自动机实现系统及方法
技术领域
本发明涉及学习自动机技术领域,具体地,涉及一种基于统计假设检验的学习自动机实现系统及方法。
背景技术
在泛在电力物联网系统的感知防御模块中,所面临的最严峻的挑战是泛在电力物联网系统中庞大的数据量和复杂的参数调谐问题导致诸如异常流量检测等防御模块效率低,实时性差,鲁棒性差,抗干扰能力差的问题。因此,特征及参数的优化是泛在电力物联网系统的感知防御模块的研究重心。学习自动机凭借其具备强化学习的特点以及在概率空间上运行不必关注样本间测度的特性,避免了参数调谐,且具备全局优化能力,与随机环境的反复交互也使其具备了强大的抗干扰能力。使用学习自动机对泛在电力物联网系统感知防御模块中的特征进行优化是可行的。
统计假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。事先对总体参数或分布形式作出假设,然后利用样本信息来判断原假设是否成立,采用逻辑上的反证法,依据统计上的小概率原理。
学习自动机(LA)是强化学习的重要研究方向,其旨在通过在与随机环境交互的学习过程中,探索所有可行选择中的最优动作,所述的最优动作是在当前的环境下,能得到环境奖励的概率最大的动作。即是在与环境的循环交互过程中获得经验,进而改善自己的动作。
根据状态转移函数的不同,学习自动机可以分为固定结构随机自动机(FSSA) 或可变结构随机自动机(VSSA)。FSSA的状态之间的转换是确定性的,而VSSA的状态之间的转换是随机的。FSSA是LA的原型,而VSSA通过更灵活和更广泛的应用场景来改进FSSA。而从动作集的种类来划分,LA可以分为连续动作集学习自动机 (CALA)和有限动作集学习自动机(FALA)。CALA的动作集是一段实数轴上的区间,由无限多个数组成,而FALA的动作集是有限的。根据其反馈的类型,随机环境可以分为P模型,Q模型或S模型。对于P模型环境,反馈是{0,1}区间中的二值函数,对于Q模型环境,反馈是{β1,β2,···,βQ}(Q>2),中的特定值,而对于S模型环境,为[0,1]区间中的任意值。在学习自动机的种类中,在P模型环境中具有随机状态转移函数和有限动作集(VSFALA)的学习自动机较为常用。
VSFALA的优良特性之一是∈最优性,它确保了VSFALA在与环境的交互次数接近无穷大时以1的概率收敛到最优动作。不同VSFALA方案的性能是在一定准确度的前提下通过收敛速度来评估的。所述的准确性定义为正确收敛的概率,即LA找到具有最高奖励概率的动作的概率。所述的收敛速率是迭代的平均次数,即,LA学习到正确最优行为所需要与环境交互的平均次数。LA方案的复杂性通过收敛时间来衡量,收敛时间定义为LA达到正确收敛时所消耗的时间。
VSFALA的框架主要是基于动作概率向量P的学习过程。对于具有r个动作的动作集,P具有r个非负分量pi,i=1,2,···,r,∑pi=1,其中pi表示LA选择第i个动作的概率。该框架包括三个阶段:(1)根据动作概率向量选择一个动作; (2)与环境互动并获得反馈;(3)更新动作概率向量。当P中的最大动作概率大于预定义的阈值V,即max{pi}≥V时,VSFALA收敛。然而,目前旨在加快VSFALA 收敛速度的方案在实际应用中都会受到两个主要限制:一、参数调谐带来的计算代价:大多数传统方案都是参数敏感的,参数调整的成本可能非常昂贵;二、在泛在电力物联网系统这种大规模动作环境下效率下降显著:在动作概率向量更新步骤中,步长随动作数的增加而减小。因此,在大规模动作方案中,步长较小,这可能会降低收敛速度。
专利文献CN110222817A(申请号:201910390336.6)公开了一种基于学习自动机的卷积神经网络压缩方法、系统及介质,包括:参数初始化步骤:初始化学习自动机参数;状态值选择步骤:根据获得的初始化后的学习自动机参数,每个学习自动机依据预设的行为选择概率选择自己的状态值,获得每个学习自动机的状态值;网络结构更新步骤:根据获得的每个学习自动机的状态值更新网络结构,获得更新后网络结构。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于统计假设检验的学习自动机实现系统及方法,针对泛在电力物联网系统中前置采集器采集到的现场设备的上传信息和后置采集器采集到的控制器的命令信息等庞大的流量数据特征,使用基于统计假设检验的学习自动机,通过与环境的反复交互,不断自适应调整流量数据特征集合,动态比较各流量特征集合在当前环境中隐含的优劣性,从而学习到当前环境中的最优特征集合,传递给后续安全态势感知防御模块进行分析和应用,优化后的流量特征的冗余性低、信息量大,能有效提高安全态势感知防御模块的性能和效率。
具体而言,对于一组泛在电力物联网系统采集平台采集到的流量特征集合,本发明会根据其策略主动丢弃一个特征,采用其他剩余特征进行分类器训练;对于训练好的特征分类器,通过评估其准确率,给予本发明的学习自动机一定程度的奖励反馈或惩罚反馈;学习自动机在接收到来自环境的奖惩反馈后,根据其自身的学习策略,调整内部状态,评估各特征对分类器分类结果的影响,直至收敛到当前对分类结果影响最小的行为,丢弃该特征后重复上述过程,从而实现流量特征的优化和选择。
根据本发明提供的基于统计假设检验的学习自动机实现系统,包括:
导入模块:在泛在电力物联网中,采用积极初始化算法,导入先验知识;
动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;
动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;
收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。
优选的,所述积极初始化算法,对于每个动作ai的反馈序列Fi(0)的值随机地从{0,1} 中设置。
优选的,所述动作选择模块的学习过程分为多个回合,每个回合与环境的交互组成;其中每个回合的索引用l=1,2,3...L表示,L是直到收敛为止的总回合数;在第l回合设置的动作用A(l)表示,大小用|A(l)|表示;
统一选择策略在第l轮中,当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。
根据本发明提供的基于统计假设检验的学习自动机实现方法,包括:
步骤1:根据林德伯格列维定理,将两个动作的收敛概率作为两个高斯随机变量的均值进行比较,从而引入z检验:
步骤2:通过比较收敛概率确定预定最佳动作,通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较,剔除次优动作,更新动作集,进而确定最佳动作。
优选的,所述林德伯格列维定理包括:假设动作ai被选择了n次,反馈序列为 {βi(1),βi(2),···,βi(n)},Pri(k)=1}=di,Pri(k)=0}=1-di,则有:
Figure BDA0002579302290000041
βi(1)表示动作ai的第一个反馈序列;di表示动作ai的任意一个反馈序列被选中的概率值;k表示计数,动作ai对应的任意一个反馈序列;N表示正态分布;pr表示动作ai的任意一个反馈序列被选中的概率。
优选的,动作集更新的过程包括:
在第l轮学习过程结束后,对于动作ai∈A(l),反馈序列记为:Fi(l)={βi(1),βi(2),···,βi(l+2)};
根据林德伯格列维定理,有:
Figure BDA0002579302290000042
将动作的最大预定收敛概率
Figure BDA0002579302290000043
定义为反馈序列的均值:
Figure BDA0002579302290000044
第l轮学习过程结束后预定最佳动作am(l)为具备最大预定收敛概率
Figure BDA0002579302290000045
的动作:
Figure BDA0002579302290000046
该动作的反馈序列记为:Fm(l)={βm(1),βm(2),···,βm(l+2)};βm(1)表示最佳动作am的第一个反馈序列。
优选的,所述t检验包括:
声明零假设H0和备择假设H1
Figure BDA0002579302290000047
计算t检验统计量:
Figure BDA0002579302290000048
其中,
Figure BDA0002579302290000049
Figure BDA00025793022900000410
Figure BDA0002579302290000051
Si表示动作ai的反馈序列的标准差;Sm表示最佳动作am的反馈序列的标准差;
对于任意显著性水平α,定义自由度n=n-1,临界值|tα/2(n)|计算公式为:
Figure BDA0002579302290000052
比较|t|和|tα/2(n)|的大小,如果|t|>|tα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设;反之,则接受原假设。
优选的,所述z检验包括:
声明零假设H0和备择假设H1
Figure BDA0002579302290000055
计算z统计量:
Figure BDA0002579302290000053
对于任意显著性水平α,临界值|zα/2|计算公式为:
Figure BDA0002579302290000054
比较|z|和|zα/2(n)|的大小,如果|z|>|zα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设;反之,则接受原假设。
优选的,其特征在于,如果拒绝原假设,则在α的显著性水平下,动作ai与估计最佳动作am(l)的收敛概率不等,将动作ai从当前动作集中剔除;直至所有非最佳动作都从动作集中消除后,收敛判断模块进行判断,如果动作集中有大于1个动作,则在当前显著性水平α下,剩余动作的收敛概率无法区分,则继续将这些无法区分的动作与环境进行交互。
优选的,如果|Fi(l)|≤30,则继续使用t检验;如果|Fi(l)|>30,则继续使用z 检验;根据t/z检验的计算方法,直至动作集中仅剩1个动作时,收敛判断模块判断此时已收敛,结束训练。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过积极初始化算法对动作的反馈序列进行初始化赋值,引入先验知识,促进后续收敛;
2、本发明使用统一选择策略将动作集中的动作无差别地与随机环境进行交互,避免了动作概率向量选择策略在大规模动作环境的低效率问题;
3、本发明使用统计假设检验的方式比较动作的奖励概率进而逐渐次优动作从而自适应地调整动作集,直至产生最优动作,判断收敛并结束学习过程,实验表明本发明在避免了复杂参数调谐的同时能够保证在大规模动作环境下的效率,并且能够自适应地在探索和利用间达到平衡。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为统计假设检验的学习自动机框架流程示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1所示,本实施例具体包括:初始化模块、动作选择模块,动作集更新模块和收敛判断模块。
首先,初始化模块并没有将动作的反馈序列置空,而是采用积极初始化方案,反馈序列均初始化为{0,1}序列,进而引入先验知识,对后续的收敛有促进作用。
动作选择模块采用统一选择策略:在第l轮学习过程中,当前动作集集A(l)中的每个动作均被无差别地选择一次以与环境交互。将动作与环境之间的一次交互定义为进行了一次迭代。因此,第l轮学习过程由|A(l)|次“动作—环境”交互组成,经历了|A(l)| 次迭代。
动作集更新模块和收敛判断模块:在每轮学习过程后,通过从动作集中消除次优动作来自适应地调整动作集,直至收敛。具体更新策略如下:
步骤1、在第l轮学习过程结束后,对于动作ai∈A(l),反馈序列记为Fi(l)= {βi(1),βi(2),···,βi(l+2)};
步骤2、根据Lévy-Lindberg中心极限定理的推论,有:
Figure BDA0002579302290000071
将动作的估计奖励概率
Figure BDA0002579302290000072
定义为反馈序列的均值:
Figure BDA0002579302290000073
第 l轮学习过程结束后估计最优动作am(l)为具备最大估计奖励概率
Figure BDA0002579302290000074
的动作:
Figure BDA0002579302290000075
Figure BDA0002579302290000076
该动作的反馈序列记为:Fm(l)={βm(1),βm(2),···,βm(l+2)};
步骤3、根据反馈序列的长度|Fi(l)|(即样本数)的大小选择统计假设检验的类型,如果|Fi(l)|≤30,使用t检验,进入步骤4;如果|Fi(l)|>30,使用z检验,进入步骤8;
步骤4、声明零假设H0和备择假设H1
Figure BDA00025793022900000718
步骤5、计算t统计量:
Figure BDA0002579302290000079
其中
Figure BDA00025793022900000710
Figure BDA00025793022900000711
步骤6、对于任意显著性水平α,定义自由度n=n-1,临界值|tα/2(n)|计算公式如下:
Figure BDA00025793022900000712
步骤7、比较|t|和|tα/2(n)|的大小,如果|t|>|tα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设,反之,则接受原假设;
步骤8、声明零假设H0和备择假设
Figure BDA00025793022900000719
步骤9、计算z统计量:
Figure BDA00025793022900000715
步骤10、对于任意显著性水平α,临界值|zα/2|计算公式如下:
Figure BDA00025793022900000716
Figure BDA00025793022900000717
步骤11、比较|z|和|zα/2(n)|的大小,如果|z|>|zα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设,反之,则接受原假设;
步骤12、如果拒绝原假设,则说明在α的显著性水平下,动作ai与估计最佳动作am(l)的奖励概率不等,故将动作ai从当前动作集中剔除;
步骤13、直至所有非最佳动作都从动作集中消除后,收敛判断模块进行判断,如果动作集中有多于1个动作,则说明在当前显著性水平α下,剩余动作的奖励概率无法区分,则继续将这些无法区分的动作与环境进行交互。如果|Fi(l)|≤30,继续使用t 检验,返回步骤4;如果|Fi(l)|>30,继续使用z检验,返回步骤8;根据t/z检验的计算方法,随着交互次数的增加,t/z的检验值会减小,从而最终实现在给的显著性水平的情况下,动作奖励概率的区分。直至动作集中仅剩1个动作,收敛判断模块判断此时已收敛,结束。
实施例2:
本发明的实现过程总结如下:
步骤1、输入显著性水平α;
步骤2、初始化模型参数,设定各参数的值;
所述的参数包括:学习轮数l=1,动作集A(l)=A(1)=A,反馈序列:
Figure BDA0002579302290000081
Figure BDA0002579302290000082
Fi(0)={0,1};
步骤3、动作集A(l)中的动作依次与随机环境进行交互,更新每个动作的反馈序列: Fi(l)={Fi(l-1),βi(l)},ai∈A(l);
步骤4、计算每个动作的估计奖励概率
Figure BDA0002579302290000083
Figure BDA0002579302290000084
步骤5、确定最佳动作am(l)
Figure BDA0002579302290000085
步骤6、声明零假设H0和备择假设
Figure BDA0002579302290000086
步骤7、对于任意ai∈A(l),i≠m(l):判断反馈序列长度(样本数)|Fi(l)|的大小,如果|Fi(l)|≤30,使用t检验,进入步骤7;如果|Fi(l)|>30,使用z检验,进入步骤9;
步骤8、计算t统计量和临界值|tα/2(n)|,比较|t|和|tα/2(n)|的大小,如果|t|> |tα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设,反之,则接受原假设;
步骤9、计算z统计量和临界值|zα/2|,比较|z|和|zα/2(n)|的大小,如果|z|> |zα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设,反之,则接受原假设;
步骤10、如果拒绝原假设,则将动作ai从当前动作集中剔除,更新动作集:A(l+1)=A(l)\{ai},l=l+1,返回步骤7;
步骤11、直至所有次优动作都被剔除,判断动作集大小|A(l)|,如果|A(l)|>1,则返回步骤6,将剩余动作继续与环境进行交互;如果|A(l)|=1,进入步骤12;
步骤12、模型收敛,输出最佳动作am
为证明本实施例的一般性和高效性,将本实施例在基准环境和单调环境下与当前该领域下最具代表性的三种基于动作概率向量的算法进行对比实验,得到各算法的准确率和收敛速度,比较实验结果得出结论。
所述的基准环境是指学习自动机领域公认的五种基准环境,每种环境的奖励(收敛) 概率如下:
E1:D={0.65,0.50,0.45,0.40,0.35,0.30,0.25,0.20,0.15,0.10};
E2:D={0.60,0.50,0.45,0.40,0.35,0.30,0.25,0.20,0.15,0.10};
E3:D={0.55,0.50,0.45,0.40,0.35,0.30,0.25,0.20,0.15,0.10};
E4:D={0.70,0.50,0.30,0.20,0.40,0.50,0.40,0.30,0.50,0.20};
E5:D={0.10,0.45,0.84,0.76,0.20,0.40,0.60,0.70,0.50,0.30};
环境的复杂性体现在两个方面:行动次数r和最优行动与次优行动的奖励概率之间的差异,用δ表示。从这个角度来看,E3是基准环境中最复杂的一个,δ=d1-d2= 0.05最小。但是这五个基准环境行动次数r明显不足,在大多数应用场景中不具代表性,因此需要引入更为复杂但实际的单调环境。
所述的单调环境是相对于LA领域五种基准环境更为复杂但更实际的大规模动作环境,单调环境对于所有i=2,3,···,r,设置d1=dm
Figure BDA0002579302290000091
本实施例生成了一系列不同参数的单调环境E6-E10进行扩展实验:
E6-E10:dm=0.8,γ=0.1,r={1000,5000,10000,50000,100000};
所述10种实验环境的复杂度如表1所示:
表1基准环境和单调环境的复杂度
E<sub>1</sub> E<sub>2</sub> E<sub>3</sub> E<sub>4</sub> E<sub>5</sub> E<sub>6</sub> E<sub>7</sub> E<sub>8</sub> E<sub>9</sub> E<sub>10</sub>
r 10 10 10 10 10 1000 5000 10000 50000 100000
δ 0.15 0.10 0.05 0.20 0.08 0.40 0.34 0.31 0.27 0.25
所述的三种基于动作概率向量的算法依次为:基于
Figure BDA0002579302290000094
策略的DPRI算法,基于
Figure BDA0002579302290000092
策略的DGPA算法和基于
Figure BDA0002579302290000093
策略的LELA算法。
为了体现显著性水平α对于准确率和收敛效率的影响,我们在每轮实验中固定显著性水平α的值,再更改α进行多组对比实验,凸显显著性水平α的影响。
对于基于动作概率向量的方案,必须事先手动调整参数。具体地,必须针对每个环境确定在更新动作概率向量时用于离散步长的分辨率参数N。N的调整是一个线性搜索问题,需要与每个环境进行数百万次交互。表2显示了基准环境中DPRI,DGPA和LELA 的最佳参数和参数调谐的成本。
表2基于动作概率向量的方案在基准环境下的最佳参数和参数调谐的成本
Figure BDA0002579302290000101
调整参数后,将本实施例的性能与经过良好调整的DPRI,DGPA和LELA首先在基准环境下进行比较。表3总结了仿真结果。
表3本实施例与基于动作概率向量的方案在基准环境下的性能比较
Figure BDA0002579302290000102
从表3中我们可以看出,在参数设置上基于统计假设检验的学习自动机LASHT相较于基于动作概率向量的方案有着显著优势。对于DPRI,DGPA和LELA方案,需要针对不同环境微调用于更新动作概率的步长,以实现具有基本精度要求的最快收敛速度。而本实施例方案,可以在任何基准环境中使用相同的显着性水平,在准确性和收敛速度之间的折衷中具有明显的自适应性,体现了无参数方案的优势。
同时,本实施例方法在收敛速度上具有显著优势。与基于动作概率向量的方案相比,以α=0.01的情况为例,本实施例在每个基准环境中以最快的速率收敛(更少的迭代次数),并且具有较高的准确性。这意味着本实施例在固定显著性水平α的情况下已经可以保证可观的准确率和优异的收敛速率。如果需求更高的准确率,仅需执行收敛判断模块的自动更新显著性水平的操作,即可有效提高准确率,而如α=0.005情况的实验结果所示,在提升了准确率的情况下,收敛速率并没有明显的下降,相较于基于动作概率向量的方案仍有着更少的迭代次数。
在证本实施例方法在基准环境下具有优异性能之后,在单调环境E6-E10中研究其在大动作环境下的性能。需要注意的是,由于在大规模动作环境中参数调谐的成本难以承受,因此我们将分辨率参数N设置为1,以使DGPA和LELA的收敛速度最高。而DPRI方案即使设置N=1,性能仍然极差,因此不参与单调环境下的实验。由于动作数r是大规模动作环境E6-E10中的主要变量,因此可以将其定义为自变量。表4和表5分别说明了方案的迭代次数和收敛时间与动作数量的关系。表6列出了LASHT方案的性能,由于基于动作概率向量的方案DGPA和LELA在大规模动作环境下准确率低且不稳定,波动幅度大,故仅列出本实施例方法的性能。
表4三种方案在单调环境下动作数量与迭代次数的关系
Figure BDA0002579302290000111
表5三种方案在单调环境下动作数量与收敛时间的关系
Figure BDA0002579302290000112
Figure BDA0002579302290000121
表6本实施例在单调环境下的性能
Figure BDA0002579302290000122
从表4、表5、表6可以看出,本实施例在大规模动作环境下的的优势显著。一方面,基于动作概率向量的方案的迭代次数随着动作数量的增加而迅速增加,而本实施例的迭代次数的增长却慢得多。在最极端的情况E10中,动作数量r=100000,本实施例(α= 0.01)与环境所需的交互次数不足DGPA的四分之一,同样不足LELA的八分之一。另一方面,收敛时间之间的比较也很明显,基于动作概率向量的方案在大规模动作环境中效率低下。如表5所示,同样在E10环境中,本实施例(α=0.01)的收敛时间为0.147s,而DGPA的收敛时间为4436.61s,LELA的收敛时间为7298.58s。显然,基于统计假设检验的学习自动机在大规模动作环境中的性能显著优于基于动作概率向量的方案。
实施例3:
根据本发明提供的基于统计假设检验的学习自动机实现系统,包括:
导入模块:在泛在电力物联网中,采用积极初始化算法,导入先验知识;
动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;
动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;
收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。
优选的,所述积极初始化算法,对于每个动作ai的反馈序列Fi(0)的值随机地从{0,1} 中设置。
优选的,所述动作选择模块的学习过程分为多个回合,每个回合与环境的交互组成;其中每个回合的索引用l=1,2,3...L表示,L是直到收敛为止的总回合数;在第l回合设置的动作用A(l)表示,大小用|A(l)|表示;
统一选择策略在第l轮中,当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。
根据本发明提供的基于统计假设检验的学习自动机实现方法,包括:
步骤1:根据林德伯格列维定理,将两个动作的收敛概率作为两个高斯随机变量的均值进行比较,从而引入z检验:
步骤2:通过比较收敛概率确定预定最佳动作,通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较,剔除次优动作,更新动作集,进而确定最佳动作。
优选的,所述林德伯格列维定理包括:假设动作ai被选择了n次,反馈序列为 {βi(1),βi(2),···,βi(n)},Pri(k)=1}=di,Pri(k)=0}=1-di,则有:
Figure BDA0002579302290000131
βi(1)表示动作ai的第一个反馈序列;di表示动作ai的任意一个反馈序列被选中的概率值;k表示计数,动作ai对应的任意一个反馈序列;N表示正态分布;pr表示动作ai的任意一个反馈序列被选中的概率。
优选的,动作集更新的过程包括:
在第l轮学习过程结束后,对于动作ai∈A(l),反馈序列记为:Fi(l)={βi(1),βi(2),···,βi(l+2)};
根据林德伯格列维定理,有:
Figure BDA0002579302290000132
将动作的最大预定收敛概率
Figure BDA0002579302290000133
定义为反馈序列的均值:
Figure BDA0002579302290000134
第l轮学习过程结束后预定最佳动作am(l)为具备最大预定收敛概率
Figure BDA0002579302290000135
的动作:
Figure BDA0002579302290000136
该动作的反馈序列记为:Fm(l)={βm(1),βm(2),···,βm(l+2)};βm(1)表示最佳动作am的第一个反馈序列。
优选的,所述t检验包括:
声明零假设H0和备择假设H1
Figure BDA0002579302290000141
计算t检验统计量:
Figure BDA0002579302290000142
其中,
Figure BDA0002579302290000143
Figure BDA0002579302290000144
Figure BDA0002579302290000145
Si表示动作ai的反馈序列的标准差;Sm表示最佳动作am的反馈序列的标准差;
对于任意显著性水平α,定义自由度n=n-1,临界值|tα/2(n)|计算公式为:
Figure BDA0002579302290000146
比较|t|和|tα/2(n)|的大小,如果|t|>|tα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设;反之,则接受原假设。
优选的,所述z检验包括:
声明零假设H0和备择假设H1
Figure BDA0002579302290000147
计算z统计量:
Figure BDA0002579302290000148
对于任意显著性水平α,临界值|zα/2|计算公式为:
Figure BDA0002579302290000149
比较|z|和|zα/2(n)|的大小,如果|z|>|zα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设;反之,则接受原假设。
优选的,其特征在于,如果拒绝原假设,则在α的显著性水平下,动作ai与估计最佳动作am(l)的收敛概率不等,将动作ai从当前动作集中剔除;直至所有非最佳动作都从动作集中消除后,收敛判断模块进行判断,如果动作集中有大于1个动作,则在当前显著性水平α下,剩余动作的收敛概率无法区分,则继续将这些无法区分的动作与环境进行交互。
优选的,如果|Fi(l)|≤30,则继续使用t检验;如果|Fi(l)|>30,则继续使用z 检验;根据t/z检验的计算方法,直至动作集中仅剩1个动作时,收敛判断模块判断此时已收敛,结束训练。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于统计假设检验的学习自动机实现系统,其特征在于,包括:
导入模块:在泛在电力物联网中,采用积极初始化算法,导入先验知识;
动作选择模块:根据先验知识,采用统一选择策略选取动作,构建动作集;
动作集更新模块:采用统计假设检验算法从动作集中消除不符合预设规则的动作;
收敛判断模块:判断动作集大小,若不符合预设规则,则回调动作集更新模块,将剩余动作与环境进行交互,继续消除不符合预设规则的动作,直至动作集中仅剩一个动作,此时判断为已收敛,结束训练。
2.根据权利要求1所述的基于统计假设检验的学习自动机实现系统,其特征在于,所述积极初始化算法,对于每个动作ai的反馈序列Fi(0)的值随机地从{0,1}中设置。
3.根据权利要求2所述的基于统计假设检验的学习自动机实现系统,其特征在于,所述动作选择模块的学习过程分为多个回合,每个回合与环境的交互组成;其中每个回合的索引用l=1,2,3...L表示,L是直到收敛为止的总回合数;在第l回合设置的动作用A(l)表示,大小用|A(l)|表示;
统一选择策略在第l轮中,当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。
4.一种基于统计假设检验的学习自动机实现方法,其特征在于,采用权利要求3所述的基于统计假设检验的学习自动机实现系统,包括:
步骤1:根据林德伯格列维定理,将两个动作的收敛概率作为两个高斯随机变量的均值进行比较,从而引入z检验:
步骤2:通过比较收敛概率确定预定最佳动作,通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较,剔除次优动作,更新动作集,进而确定最佳动作。
5.根据权利要求4所述的基于统计假设检验的学习自动机实现方法,其特征在于,所述林德伯格列维定理包括:假设动作ai被选择了n次,反馈序列为{βi(1),βi(2),···,βi(n)},Pri(k)=1}=di,Pri(k)=0}=1-di,则有:
Figure FDA0002579302280000011
βi(1)表示动作ai的第一个反馈序列;di表示动作ai的任意一个反馈序列被选中的概率值;k表示计数,动作ai对应的任意一个反馈序列;N表示正态分布;pr表示动作ai的任意一个反馈序列被选中的概率。
6.根据权利要求5所述的基于统计假设检验的学习自动机实现方法,其特征在于,动作集更新的过程包括:
在第l轮学习过程结束后,对于动作ai∈A(l),反馈序列记为:Fi(l)={βi(1),βi(2),···,βi(l+2)};
根据林德伯格列维定理,有:
Figure FDA0002579302280000021
将动作的最大预定收敛概率
Figure FDA0002579302280000022
定义为反馈序列的均值:
Figure FDA0002579302280000023
第l轮学习过程结束后预定最佳动作am(l)为具备最大预定收敛概率
Figure FDA0002579302280000024
的动作:
Figure FDA0002579302280000025
该动作的反馈序列记为:Fm(l)={βm(1),βm(2),···,βm(l+2)};βm(1)表示最佳动作am的第一个反馈序列。
7.根据权利要求6所述的基于统计假设检验的学习自动机实现方法,其特征在于,所述t检验包括:
声明零假设H0和备择假设H1
H0
Figure FDA0002579302280000026
H1
Figure FDA0002579302280000027
计算t检验统计量:
Figure FDA0002579302280000028
其中,
Figure FDA0002579302280000029
Figure FDA00025793022800000210
Figure FDA00025793022800000211
Si表示动作ai的反馈序列的标准差;Sm表示最佳动作am的反馈序列的标准差;
对于任意显著性水平α,定义自由度n=n-1,临界值|tα/2(n)|计算公式为:
Figure FDA0002579302280000031
比较|t|和|tα/2(n)|的大小,如果|t|>|tα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设;反之,则接受原假设。
8.根据权利要求6所述的基于统计假设检验的学习自动机实现方法,其特征在于,所述z检验包括:
声明零假设H0和备择假设H1
H0
Figure FDA0002579302280000032
H1
Figure FDA0002579302280000033
计算z统计量:
Figure FDA0002579302280000034
对于任意显著性水平α,临界值|zα/2|计算公式为:
Figure FDA0002579302280000035
比较|z|和|zα/2(n)|的大小,如果|z|>|zα/2(n)|,则拒绝零假设,以α的显著性水平接受备择假设;反之,则接受原假设。
9.根据权利要求7或权利要求8所述的基于统计假设检验的学习自动机实现方法,其特征在于,如果拒绝原假设,则在α的显著性水平下,动作ai与估计最佳动作am(l)的收敛概率不等,将动作ai从当前动作集中剔除;直至所有非最佳动作都从动作集中消除后,收敛判断模块进行判断,如果动作集中有大于1个动作,则在当前显著性水平α下,剩余动作的收敛概率无法区分,则继续将这些无法区分的动作与环境进行交互。
10.根据权利要求9所述的基于统计假设检验的学习自动机实现方法,其特征在于,如果|Fi(l)|≤30,则继续使用t检验;如果|Fi(l)|>30,则继续使用z检验;根据t/z检验的计算方法,直至动作集中仅剩1个动作时,收敛判断模块判断此时已收敛,结束训练。
CN202010662967.1A 2020-07-10 2020-07-10 基于统计假设检验的学习自动机实现系统及方法 Pending CN111832823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010662967.1A CN111832823A (zh) 2020-07-10 2020-07-10 基于统计假设检验的学习自动机实现系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010662967.1A CN111832823A (zh) 2020-07-10 2020-07-10 基于统计假设检验的学习自动机实现系统及方法

Publications (1)

Publication Number Publication Date
CN111832823A true CN111832823A (zh) 2020-10-27

Family

ID=72899726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010662967.1A Pending CN111832823A (zh) 2020-07-10 2020-07-10 基于统计假设检验的学习自动机实现系统及方法

Country Status (1)

Country Link
CN (1) CN111832823A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN110191081A (zh) * 2018-02-22 2019-08-30 上海交通大学 基于学习自动机的网络流量攻击检测的特征筛选系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN110191081A (zh) * 2018-02-22 2019-08-30 上海交通大学 基于学习自动机的网络流量攻击检测的特征筛选系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHONG DI: "A Novel Framework for Learning Automata:A Statistical Hypothesis Testing Approach", 《IEEE ACCESS》, pages 3 - 4 *

Similar Documents

Publication Publication Date Title
Gaspar-Cunha et al. A multi-objective evolutionary algorithm using neural networks to approximate fitness evaluations.
CN111414849B (zh) 一种基于演化卷积神经网络的人脸识别方法
Yuan et al. On the influence of momentum acceleration on online learning
CN112700060B (zh) 站所终端负荷预测方法和预测装置
Liu et al. An adaptive online parameter control algorithm for particle swarm optimization based on reinforcement learning
EP1205877A1 (en) Approximate fitness functions
CN110188785A (zh) 一种基于遗传算法的数据聚类分析方法
CN110826692B (zh) 一种自动化模型压缩方法、装置、设备及存储介质
CN109033513B (zh) 电力变压器故障诊断方法与电力变压器故障诊断装置
CN110533221A (zh) 基于生成式对抗网络的多目标优化方法
CN115578248B (zh) 一种基于风格引导的泛化增强图像分类算法
CN112990420A (zh) 一种用于卷积神经网络模型的剪枝方法
CN110033089A (zh) 基于分布式估计算法的深度神经网络参数优化方法及系统
Gil et al. Quantization-aware pruning criterion for industrial applications
CN112307667A (zh) 一种蓄电池的荷电状态估算方法、装置、电子设备及存储介质
CN113963410A (zh) 一种基于改进遗传算法的人脸识别优化方法
Lou et al. Autoqb: Automl for network quantization and binarization on mobile devices
CN106453294A (zh) 基于模糊淘汰机制的小生境技术的安全态势预测方法
CN112667912B (zh) 一种边缘服务器的任务量预测方法
Perenda et al. Evolutionary optimization of residual neural network architectures for modulation classification
Zhang et al. A learning automata-based particle swarm optimization algorithm for noisy environment
CN111126560A (zh) 一种基于云遗传算法优化bp神经网络的方法
CN111832823A (zh) 基于统计假设检验的学习自动机实现系统及方法
CN117369964A (zh) 边缘计算系统的任务处理方法及相关装置
Xie et al. Evolutionary sampling: A novel way of machine learning within a probabilistic framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination