CN111832823A

CN111832823A - 基于统计假设检验的学习自动机实现系统及方法

Info

Publication number: CN111832823A
Application number: CN202010662967.1A
Authority: CN
Inventors: 狄冲; 王嘉略; 杨君中; 李生红; 董之微; 金世鑫; 任帅; 朱钰; 赵东艳
Original assignee: Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd; Shanghai Jiao Tong University
Current assignee: Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd; Shanghai Jiao Tong University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-27

Abstract

本发明提供了一种基于统计假设检验的学习自动机实现系统及方法，包括：在泛在电力物联网中，导入模块：采用积极初始化算法，导入先验知识；动作选择模块：根据先验知识，采用统一选择策略选取动作，构建动作集；动作集更新模块：采用统计假设检验算法从动作集中消除不符合预设规则的动作；收敛判断模块：判断动作集大小，若不符合预设规则，则回调动作集更新模块，将剩余动作与环境进行交互，继续消除不符合预设规则的动作，直至动作集中仅剩一个动作，此时判断为已收敛，结束训练。本发明去除了复杂的参数调谐，收敛速度显著提升，即使在基于动作概率向量的方案不适用的大规模动作环境仍能保持高准确率和效率。

Description

基于统计假设检验的学习自动机实现系统及方法

技术领域

本发明涉及学习自动机技术领域，具体地，涉及一种基于统计假设检验的学习自动机实现系统及方法。

背景技术

在泛在电力物联网系统的感知防御模块中，所面临的最严峻的挑战是泛在电力物联网系统中庞大的数据量和复杂的参数调谐问题导致诸如异常流量检测等防御模块效率低，实时性差，鲁棒性差，抗干扰能力差的问题。因此，特征及参数的优化是泛在电力物联网系统的感知防御模块的研究重心。学习自动机凭借其具备强化学习的特点以及在概率空间上运行不必关注样本间测度的特性，避免了参数调谐，且具备全局优化能力，与随机环境的反复交互也使其具备了强大的抗干扰能力。使用学习自动机对泛在电力物联网系统感知防御模块中的特征进行优化是可行的。

统计假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。事先对总体参数或分布形式作出假设，然后利用样本信息来判断原假设是否成立，采用逻辑上的反证法，依据统计上的小概率原理。

学习自动机(LA)是强化学习的重要研究方向，其旨在通过在与随机环境交互的学习过程中，探索所有可行选择中的最优动作，所述的最优动作是在当前的环境下，能得到环境奖励的概率最大的动作。即是在与环境的循环交互过程中获得经验，进而改善自己的动作。

根据状态转移函数的不同，学习自动机可以分为固定结构随机自动机(FSSA) 或可变结构随机自动机(VSSA)。FSSA的状态之间的转换是确定性的，而VSSA的状态之间的转换是随机的。FSSA是LA的原型，而VSSA通过更灵活和更广泛的应用场景来改进FSSA。而从动作集的种类来划分，LA可以分为连续动作集学习自动机 (CALA)和有限动作集学习自动机(FALA)。CALA的动作集是一段实数轴上的区间，由无限多个数组成，而FALA的动作集是有限的。根据其反馈的类型，随机环境可以分为P模型，Q模型或S模型。对于P模型环境，反馈是{0,1}区间中的二值函数，对于Q模型环境，反馈是{β₁，β₂，···，β_Q}(Q>2)，中的特定值，而对于S模型环境，为[0,1]区间中的任意值。在学习自动机的种类中，在P模型环境中具有随机状态转移函数和有限动作集(VSFALA)的学习自动机较为常用。

VSFALA的优良特性之一是∈最优性，它确保了VSFALA在与环境的交互次数接近无穷大时以1的概率收敛到最优动作。不同VSFALA方案的性能是在一定准确度的前提下通过收敛速度来评估的。所述的准确性定义为正确收敛的概率，即LA找到具有最高奖励概率的动作的概率。所述的收敛速率是迭代的平均次数，即，LA学习到正确最优行为所需要与环境交互的平均次数。LA方案的复杂性通过收敛时间来衡量，收敛时间定义为LA达到正确收敛时所消耗的时间。

VSFALA的框架主要是基于动作概率向量P的学习过程。对于具有r个动作的动作集，P具有r个非负分量p_i，i＝1,2，···，r，∑p_i＝1，其中p_i表示LA选择第i个动作的概率。该框架包括三个阶段：(1)根据动作概率向量选择一个动作； (2)与环境互动并获得反馈；(3)更新动作概率向量。当P中的最大动作概率大于预定义的阈值V，即max{p_i}≥V时，VSFALA收敛。然而，目前旨在加快VSFALA 收敛速度的方案在实际应用中都会受到两个主要限制：一、参数调谐带来的计算代价：大多数传统方案都是参数敏感的，参数调整的成本可能非常昂贵；二、在泛在电力物联网系统这种大规模动作环境下效率下降显著：在动作概率向量更新步骤中，步长随动作数的增加而减小。因此，在大规模动作方案中，步长较小，这可能会降低收敛速度。

专利文献CN110222817A(申请号：201910390336.6)公开了一种基于学习自动机的卷积神经网络压缩方法、系统及介质，包括：参数初始化步骤：初始化学习自动机参数；状态值选择步骤：根据获得的初始化后的学习自动机参数，每个学习自动机依据预设的行为选择概率选择自己的状态值，获得每个学习自动机的状态值；网络结构更新步骤：根据获得的每个学习自动机的状态值更新网络结构，获得更新后网络结构。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于统计假设检验的学习自动机实现系统及方法，针对泛在电力物联网系统中前置采集器采集到的现场设备的上传信息和后置采集器采集到的控制器的命令信息等庞大的流量数据特征，使用基于统计假设检验的学习自动机，通过与环境的反复交互，不断自适应调整流量数据特征集合，动态比较各流量特征集合在当前环境中隐含的优劣性，从而学习到当前环境中的最优特征集合，传递给后续安全态势感知防御模块进行分析和应用，优化后的流量特征的冗余性低、信息量大，能有效提高安全态势感知防御模块的性能和效率。

具体而言，对于一组泛在电力物联网系统采集平台采集到的流量特征集合，本发明会根据其策略主动丢弃一个特征，采用其他剩余特征进行分类器训练；对于训练好的特征分类器，通过评估其准确率，给予本发明的学习自动机一定程度的奖励反馈或惩罚反馈；学习自动机在接收到来自环境的奖惩反馈后，根据其自身的学习策略，调整内部状态，评估各特征对分类器分类结果的影响，直至收敛到当前对分类结果影响最小的行为，丢弃该特征后重复上述过程，从而实现流量特征的优化和选择。

根据本发明提供的基于统计假设检验的学习自动机实现系统，包括：

导入模块：在泛在电力物联网中，采用积极初始化算法，导入先验知识；

动作选择模块：根据先验知识，采用统一选择策略选取动作，构建动作集；

动作集更新模块：采用统计假设检验算法从动作集中消除不符合预设规则的动作；

收敛判断模块：判断动作集大小，若不符合预设规则，则回调动作集更新模块，将剩余动作与环境进行交互，继续消除不符合预设规则的动作，直至动作集中仅剩一个动作，此时判断为已收敛，结束训练。

优选的，所述积极初始化算法，对于每个动作a_i的反馈序列F_i(0)的值随机地从{0,1} 中设置。

优选的，所述动作选择模块的学习过程分为多个回合，每个回合与环境的交互组成；其中每个回合的索引用l＝1,2,3...L表示，L是直到收敛为止的总回合数；在第l回合设置的动作用A(l)表示，大小用|A(l)|表示；

统一选择策略在第l轮中，当前动作集A(l)中的每个动作均被无差别地选择一次与环境交互。

根据本发明提供的基于统计假设检验的学习自动机实现方法，包括：

步骤1：根据林德伯格列维定理，将两个动作的收敛概率作为两个高斯随机变量的均值进行比较，从而引入z检验：

步骤2：通过比较收敛概率确定预定最佳动作，通过将任意一个动作与预定最佳动作的z检验统计量与临界值进行比较，剔除次优动作，更新动作集，进而确定最佳动作。

优选的，所述林德伯格列维定理包括：假设动作a_i被选择了n次，反馈序列为 {β_i(1)，β_i(2)，···，β_i(n)}，P_r{β_i(k)＝1}＝d_i，P_r{β_i(k)＝0}＝1-d_i，则有：

β_i(1)表示动作a_i的第一个反馈序列；d_i表示动作a_i的任意一个反馈序列被选中的概率值；k表示计数，动作a_i对应的任意一个反馈序列；N表示正态分布；p_r表示动作a_i的任意一个反馈序列被选中的概率。

优选的，动作集更新的过程包括：

在第l轮学习过程结束后，对于动作a_i∈A(l)，反馈序列记为：F_i(l)＝{β_i(1)，β_i(2)，···，β_i(l+2)}；

根据林德伯格列维定理，有：

将动作的最大预定收敛概率

定义为反馈序列的均值：

第l轮学习过程结束后预定最佳动作a_m(l)为具备最大预定收敛概率

的动作：

该动作的反馈序列记为：F_m(l)＝{β_m(1)，β_m(2)，···，β_m(l+2)}；β_m(1)表示最佳动作a_m的第一个反馈序列。

优选的，所述t检验包括：

声明零假设H₀和备择假设H₁：

计算t检验统计量：

其中，

S_i表示动作a_i的反馈序列的标准差；S_m表示最佳动作a_m的反馈序列的标准差；

对于任意显著性水平α，定义自由度n＝n-1，临界值|t_α/2(n)|计算公式为：

比较|t|和|t_α/2(n)|的大小，如果|t|＞|t_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设；反之，则接受原假设。

优选的，所述z检验包括：

声明零假设H₀和备择假设H₁：

计算z统计量：

对于任意显著性水平α，临界值|z_α/2|计算公式为：

比较|z|和|z_α/2(n)|的大小，如果|z|＞|z_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设；反之，则接受原假设。

优选的，其特征在于，如果拒绝原假设，则在α的显著性水平下，动作a_i与估计最佳动作a_m(l)的收敛概率不等，将动作a_i从当前动作集中剔除；直至所有非最佳动作都从动作集中消除后，收敛判断模块进行判断，如果动作集中有大于1个动作，则在当前显著性水平α下，剩余动作的收敛概率无法区分，则继续将这些无法区分的动作与环境进行交互。

优选的，如果|F_i(l)|≤30，则继续使用t检验；如果|F_i(l)|＞30，则继续使用z 检验；根据t/z检验的计算方法，直至动作集中仅剩1个动作时，收敛判断模块判断此时已收敛，结束训练。

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过积极初始化算法对动作的反馈序列进行初始化赋值，引入先验知识，促进后续收敛；

2、本发明使用统一选择策略将动作集中的动作无差别地与随机环境进行交互，避免了动作概率向量选择策略在大规模动作环境的低效率问题；

3、本发明使用统计假设检验的方式比较动作的奖励概率进而逐渐次优动作从而自适应地调整动作集，直至产生最优动作，判断收敛并结束学习过程，实验表明本发明在避免了复杂参数调谐的同时能够保证在大规模动作环境下的效率，并且能够自适应地在探索和利用间达到平衡。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为统计假设检验的学习自动机框架流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

如图1所示，本实施例具体包括：初始化模块、动作选择模块，动作集更新模块和收敛判断模块。

首先，初始化模块并没有将动作的反馈序列置空，而是采用积极初始化方案，反馈序列均初始化为{0,1}序列，进而引入先验知识，对后续的收敛有促进作用。

动作选择模块采用统一选择策略：在第l轮学习过程中，当前动作集集A(l)中的每个动作均被无差别地选择一次以与环境交互。将动作与环境之间的一次交互定义为进行了一次迭代。因此，第l轮学习过程由|A(l)|次“动作—环境”交互组成，经历了|A(l)| 次迭代。

动作集更新模块和收敛判断模块：在每轮学习过程后，通过从动作集中消除次优动作来自适应地调整动作集，直至收敛。具体更新策略如下：

步骤1、在第l轮学习过程结束后，对于动作a_i∈A(l)，反馈序列记为F_i(l)＝ {β_i(1)，β_i(2)，···，β_i(l+2)}；

步骤2、根据Lévy-Lindberg中心极限定理的推论，有：

将动作的估计奖励概率

定义为反馈序列的均值：

第 l轮学习过程结束后估计最优动作a_m(l)为具备最大估计奖励概率

的动作：

该动作的反馈序列记为：F_m(l)＝{β_m(1)，β_m(2)，···，β_m(l+2)}；

步骤3、根据反馈序列的长度|F_i(l)|(即样本数)的大小选择统计假设检验的类型，如果|F_i(l)|≤30，使用t检验，进入步骤4；如果|F_i(l)|＞30，使用z检验，进入步骤8；

步骤4、声明零假设H₀和备择假设H₁：

步骤5、计算t统计量：

其中

步骤6、对于任意显著性水平α，定义自由度n＝n-1，临界值|t_α/2(n)|计算公式如下：

步骤7、比较|t|和|t_α/2(n)|的大小，如果|t|＞|t_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设，反之，则接受原假设；

步骤8、声明零假设H0和备择假设

步骤9、计算z统计量：

步骤10、对于任意显著性水平α，临界值|z_α/2|计算公式如下：

步骤11、比较|z|和|z_α/2(n)|的大小，如果|z|＞|z_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设，反之，则接受原假设；

步骤12、如果拒绝原假设，则说明在α的显著性水平下，动作a_i与估计最佳动作a_m(l)的奖励概率不等，故将动作a_i从当前动作集中剔除；

步骤13、直至所有非最佳动作都从动作集中消除后，收敛判断模块进行判断，如果动作集中有多于1个动作，则说明在当前显著性水平α下，剩余动作的奖励概率无法区分，则继续将这些无法区分的动作与环境进行交互。如果|F_i(l)|≤30，继续使用t 检验，返回步骤4；如果|F_i(l)|＞30，继续使用z检验，返回步骤8；根据t/z检验的计算方法，随着交互次数的增加，t/z的检验值会减小，从而最终实现在给的显著性水平的情况下，动作奖励概率的区分。直至动作集中仅剩1个动作，收敛判断模块判断此时已收敛，结束。

实施例2：

本发明的实现过程总结如下：

步骤1、输入显著性水平α；

步骤2、初始化模型参数，设定各参数的值；

所述的参数包括：学习轮数l＝1，动作集A(l)＝A(1)＝A，反馈序列：

F_i(0)＝{0，1}；

步骤3、动作集A(l)中的动作依次与随机环境进行交互，更新每个动作的反馈序列： F_i(l)＝{F_i(l-1)，β_i(l)}，a_i∈A(l)；

步骤4、计算每个动作的估计奖励概率

步骤5、确定最佳动作a_m(l)：

步骤6、声明零假设H₀和备择假设

步骤7、对于任意a_i∈A(l)，i≠m(l)：判断反馈序列长度(样本数)|F_i(l)|的大小，如果|F_i(l)|≤30，使用t检验，进入步骤7；如果|F_i(l)|＞30，使用z检验，进入步骤9；

步骤8、计算t统计量和临界值|t_α/2(n)|，比较|t|和|t_α/2(n)|的大小，如果|t|＞ |t_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设，反之，则接受原假设；

步骤9、计算z统计量和临界值|z_α/2|，比较|z|和|z_α/2(n)|的大小，如果|z|＞ |z_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设，反之，则接受原假设；

步骤10、如果拒绝原假设，则将动作a_i从当前动作集中剔除，更新动作集：A(l+1)＝A(l)\{a_i}，l＝l+1，返回步骤7；

步骤11、直至所有次优动作都被剔除，判断动作集大小|A(l)|，如果|A(l)|＞1，则返回步骤6，将剩余动作继续与环境进行交互；如果|A(l)|＝1，进入步骤12；

步骤12、模型收敛，输出最佳动作a_m。

为证明本实施例的一般性和高效性，将本实施例在基准环境和单调环境下与当前该领域下最具代表性的三种基于动作概率向量的算法进行对比实验，得到各算法的准确率和收敛速度，比较实验结果得出结论。

所述的基准环境是指学习自动机领域公认的五种基准环境，每种环境的奖励(收敛) 概率如下：

E₁：D＝{0.65，0.50，0.45，0.40，0.35，0.30，0.25，0.20，0.15，0.10}；

E₂：D＝{0.60，0.50，0.45，0.40，0.35，0.30，0.25，0.20，0.15，0.10}；

E₃：D＝{0.55，0.50，0.45，0.40，0.35，0.30，0.25，0.20，0.15，0.10}；

E₄：D＝{0.70，0.50，0.30，0.20，0.40，0.50，0.40，0.30，0.50，0.20}；

E₅：D＝{0.10，0.45，0.84，0.76，0.20，0.40，0.60，0.70，0.50，0.30}；

环境的复杂性体现在两个方面：行动次数r和最优行动与次优行动的奖励概率之间的差异，用δ表示。从这个角度来看，E₃是基准环境中最复杂的一个，δ＝d₁-d₂＝ 0.05最小。但是这五个基准环境行动次数r明显不足，在大多数应用场景中不具代表性，因此需要引入更为复杂但实际的单调环境。

所述的单调环境是相对于LA领域五种基准环境更为复杂但更实际的大规模动作环境，单调环境对于所有i＝2，3，···，r，设置d₁＝d_m，

本实施例生成了一系列不同参数的单调环境E₆-E₁₀进行扩展实验：

E₆-E₁₀：d_m＝0.8，γ＝0.1，r＝{1000，5000，10000，50000，100000}；

所述10种实验环境的复杂度如表1所示：

表1基准环境和单调环境的复杂度

	E<sub>1</sub>	E<sub>2</sub>	E<sub>3</sub>	E<sub>4</sub>	E<sub>5</sub>	E<sub>6</sub>	E<sub>7</sub>	E<sub>8</sub>	E<sub>9</sub>	E<sub>10</sub>
											r	10	10	10	10	10	1000	5000	10000	50000	100000
δ	0.15	0.10	0.05	0.20	0.08	0.40	0.34	0.31	0.27	0.25

所述的三种基于动作概率向量的算法依次为：基于

策略的DP_RI算法，基于

策略的DGPA算法和基于

策略的LELA算法。

为了体现显著性水平α对于准确率和收敛效率的影响，我们在每轮实验中固定显著性水平α的值，再更改α进行多组对比实验，凸显显著性水平α的影响。

对于基于动作概率向量的方案，必须事先手动调整参数。具体地，必须针对每个环境确定在更新动作概率向量时用于离散步长的分辨率参数N。N的调整是一个线性搜索问题，需要与每个环境进行数百万次交互。表2显示了基准环境中DP_RI，DGPA和LELA 的最佳参数和参数调谐的成本。

表2基于动作概率向量的方案在基准环境下的最佳参数和参数调谐的成本

调整参数后，将本实施例的性能与经过良好调整的DP_RI，DGPA和LELA首先在基准环境下进行比较。表3总结了仿真结果。

表3本实施例与基于动作概率向量的方案在基准环境下的性能比较

从表3中我们可以看出，在参数设置上基于统计假设检验的学习自动机LA_SHT相较于基于动作概率向量的方案有着显著优势。对于DP_RI，DGPA和LELA方案，需要针对不同环境微调用于更新动作概率的步长，以实现具有基本精度要求的最快收敛速度。而本实施例方案，可以在任何基准环境中使用相同的显着性水平，在准确性和收敛速度之间的折衷中具有明显的自适应性，体现了无参数方案的优势。

同时，本实施例方法在收敛速度上具有显著优势。与基于动作概率向量的方案相比，以α＝0.01的情况为例，本实施例在每个基准环境中以最快的速率收敛(更少的迭代次数)，并且具有较高的准确性。这意味着本实施例在固定显著性水平α的情况下已经可以保证可观的准确率和优异的收敛速率。如果需求更高的准确率，仅需执行收敛判断模块的自动更新显著性水平的操作，即可有效提高准确率，而如α＝0.005情况的实验结果所示，在提升了准确率的情况下，收敛速率并没有明显的下降，相较于基于动作概率向量的方案仍有着更少的迭代次数。

在证本实施例方法在基准环境下具有优异性能之后，在单调环境E₆-E₁₀中研究其在大动作环境下的性能。需要注意的是，由于在大规模动作环境中参数调谐的成本难以承受，因此我们将分辨率参数N设置为1，以使DGPA和LELA的收敛速度最高。而DP_RI方案即使设置N＝1，性能仍然极差，因此不参与单调环境下的实验。由于动作数r是大规模动作环境E₆-E₁₀中的主要变量，因此可以将其定义为自变量。表4和表5分别说明了方案的迭代次数和收敛时间与动作数量的关系。表6列出了LA_SHT方案的性能，由于基于动作概率向量的方案DGPA和LELA在大规模动作环境下准确率低且不稳定，波动幅度大，故仅列出本实施例方法的性能。

表4三种方案在单调环境下动作数量与迭代次数的关系

表5三种方案在单调环境下动作数量与收敛时间的关系

表6本实施例在单调环境下的性能

从表4、表5、表6可以看出，本实施例在大规模动作环境下的的优势显著。一方面，基于动作概率向量的方案的迭代次数随着动作数量的增加而迅速增加，而本实施例的迭代次数的增长却慢得多。在最极端的情况E₁₀中，动作数量r＝100000，本实施例(α＝ 0.01)与环境所需的交互次数不足DGPA的四分之一，同样不足LELA的八分之一。另一方面，收敛时间之间的比较也很明显，基于动作概率向量的方案在大规模动作环境中效率低下。如表5所示，同样在E₁₀环境中，本实施例(α＝0.01)的收敛时间为0.147s，而DGPA的收敛时间为4436.61s，LELA的收敛时间为7298.58s。显然，基于统计假设检验的学习自动机在大规模动作环境中的性能显著优于基于动作概率向量的方案。

实施例3：

优选的，动作集更新的过程包括：

根据林德伯格列维定理，有：

将动作的最大预定收敛概率

定义为反馈序列的均值：

的动作：

优选的，所述t检验包括：

声明零假设H₀和备择假设H₁：

计算t检验统计量：

其中，

优选的，所述z检验包括：

声明零假设H₀和备择假设H₁：

计算z统计量：

对于任意显著性水平α，临界值|z_α/2|计算公式为：

优选的，如果|F_i(l)|≤30，则继续使用t检验；如果|F_i(l)|>30，则继续使用z 检验；根据t/z检验的计算方法，直至动作集中仅剩1个动作时，收敛判断模块判断此时已收敛，结束训练。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于统计假设检验的学习自动机实现系统，其特征在于，包括：

2.根据权利要求1所述的基于统计假设检验的学习自动机实现系统，其特征在于，所述积极初始化算法，对于每个动作a_i的反馈序列F_i(0)的值随机地从{0,1}中设置。

3.根据权利要求2所述的基于统计假设检验的学习自动机实现系统，其特征在于，所述动作选择模块的学习过程分为多个回合，每个回合与环境的交互组成；其中每个回合的索引用l＝1,2,3...L表示，L是直到收敛为止的总回合数；在第l回合设置的动作用A(l)表示，大小用|A(l)|表示；

4.一种基于统计假设检验的学习自动机实现方法，其特征在于，采用权利要求3所述的基于统计假设检验的学习自动机实现系统，包括：

5.根据权利要求4所述的基于统计假设检验的学习自动机实现方法，其特征在于，所述林德伯格列维定理包括：假设动作a_i被选择了n次，反馈序列为{β_i(1)，β_i(2)，···，β_i(n)}，P_r{β_i(k)＝1}＝d_i，P_r{β_i(k)＝0}＝1-d_i，则有：

6.根据权利要求5所述的基于统计假设检验的学习自动机实现方法，其特征在于，动作集更新的过程包括：

根据林德伯格列维定理，有：

将动作的最大预定收敛概率

定义为反馈序列的均值：

的动作：

7.根据权利要求6所述的基于统计假设检验的学习自动机实现方法，其特征在于，所述t检验包括：

声明零假设H₀和备择假设H₁：

H₀：

H₁：

计算t检验统计量：

其中，

比较|t|和|t_α/2(n)|的大小，如果|t|>|t_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设；反之，则接受原假设。

8.根据权利要求6所述的基于统计假设检验的学习自动机实现方法，其特征在于，所述z检验包括：

声明零假设H₀和备择假设H₁：

H₀：

H₁：

计算z统计量：

对于任意显著性水平α，临界值|z_α/2|计算公式为：

比较|z|和|z_α/2(n)|的大小，如果|z|>|z_α/2(n)|，则拒绝零假设，以α的显著性水平接受备择假设；反之，则接受原假设。

9.根据权利要求7或权利要求8所述的基于统计假设检验的学习自动机实现方法，其特征在于，如果拒绝原假设，则在α的显著性水平下，动作a_i与估计最佳动作a_m(l)的收敛概率不等，将动作a_i从当前动作集中剔除；直至所有非最佳动作都从动作集中消除后，收敛判断模块进行判断，如果动作集中有大于1个动作，则在当前显著性水平α下，剩余动作的收敛概率无法区分，则继续将这些无法区分的动作与环境进行交互。

10.根据权利要求9所述的基于统计假设检验的学习自动机实现方法，其特征在于，如果|F_i(l)|≤30，则继续使用t检验；如果|F_i(l)|>30，则继续使用z检验；根据t/z检验的计算方法，直至动作集中仅剩1个动作时，收敛判断模块判断此时已收敛，结束训练。