CN101216710A

CN101216710A - 一种由计算机实现的自适应选择动态生产调度控制系统

Info

Publication number: CN101216710A
Application number: CNA2007101920152A
Authority: CN
Inventors: 严洪森; 杨宏兵
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2007-12-28
Filing date: 2007-12-28
Publication date: 2008-07-09

Abstract

一种由计算机实现的自适应选择动态生产调度控制系统，其特征在于：设置包括系统仿真器、学习器、决策器、调度规则库、调度知识库、搬运小车、加工设备及其缓冲站，缓冲站设有光栅、传感器以及检测设备，工件到达缓冲站并被加工时，学习器检测当前系统状态进行学习，获取系统的动态调度知识，进而对调度知识库里的知识进行更新，当某加工设备需要调度时，决策器将根据检测到的系统状态，读取调度知识库中对应的调度知识，通过不断地与加工系统交互学习而获取新的调度知识，面向系统中加工设备及工件的状态来动态选取调度规则，选择最优的调度规则对该加工设备进行调度。本发明能够适应不稳定的、时变的车间动态生产环境，可以得到比现有的规则调度技术更好的工件排序，有效减少工序等待时间，提高企业产品交货期满足率。

Description

一种由计算机实现的自适应选择动态生产调度控制系统

技术领域

本发明涉及计算机集成制造技术和自动化技术领域，具体地是一种由计算机实现的自适应选择动态生产调度控制系统。

背景技术

由计算机实现的生产调度是通过计算机对一个可用的加工设备集在时间上进行加工零件集的分配，以满足一个性能指标集。具体地说，该调度的任务是在车间有限的资源约束下，确定工件在相关设备上的加工顺序和加工时间，以保证生产任务的执行时间或成本目标最优。按照工件到达车间的特点、车间环境变化情况等不同因素，可以把由计算机实现的生产调度系统分成静态调度系统和动态调度系统两大类。

实际生产中常常为了简化，调度模型通常只考虑静态问题，即问题的所有环境、任务在调度中都是已知的，所有安排加工的工件均处于待加工状态，而一次调度后，所有作业的加工就被确定了，在以后的加工过程中就不再改变。但在实际的生产过程中，不可避免地存在着大量的具有不确定性和随机性的动态事件，具体地说，这些动态事件可以分为以下三类：

1)与工件相关的事件，包括工件随机到达，工件加工时间不确定，交货期变化，定单变化，定单动态优先级，工序延误以及工件质量不稳定等。

2)与机器相关的事件，包括机器故障/修复，负载有限，机器阻塞/死锁等。

3)其它事件，包括产品需求量变化、原材料有缺陷，原材料拖期，以及与操作人员有关的操作失误等。

诸如此类动态事件发生常常导致实际的调度环境经常呈现动态的、不稳定的、时变的特性，然而静态调度模型严重依赖于已知的调度环境和任务，因此当静态调度模型面对这些实际生产中的不确定扰动时，所得到的调度结果与实际生产中期望值存在着较大偏差，调度效果往往不尽如人意。由此可见，对于加工任务和车间环境具有时变特点，或者制造环境具有一些不可预测扰动时，动态调度就显得尤为重要，也更能符合实际生产的需求。

经过对现有技术的文献检索发现，目前，解决动态调度问题的主要方法有：最优化方法、系统仿真方法、启发式方法、人工智能方法及计算智能方法等。当加工设备数M≥3的N个工件的调度问题就是NP困难(NP-hard)的，至今尚未找到多项式复杂程度的方法解决此问题，且随着调度问题规模的增大，动态调度的计算复杂性也呈指数上升。因此大多数方法都很难满足动态调度的实时性要求，而调度规则方法作为启发式方法的一种，具有对NP特性不敏感且实时性好等优点，是当前实际生产中应用最为广泛的一种方法。

虽然调度规则方法具有简单易用的特点，但其一般较难获得调度问题的最优解，有时满意解也不能得到，这是因为调度规则性能受到制造系统状态的影响，当制造系统状态发生变化时，原来效果较好的调度规则可能会变得平庸，导致单个调度规则缺乏全局性。

因此，当面对系统参数频繁变动的动态调度时，调度规则方法需要结合其它的方法，根据系统的变化情况来动态地选取合适的调度规则来进行调度，以适应车间环境的不断变化。Arzi等人在《IIETransactions》(31，217-230，1999)上撰文“Neural network-based adaptive production control system for aflexible manufacturing cell under a random environment(面向随机环境下柔性制造单元的基于神经网络自适应生产控制系统)”，该文利用神经网络构建生产控制系统，选取合适的调度规则进行调度。但该方法训练时间长，对结果的解释能力较差，且随着问题规模的增大，网络结构会变得更加复杂，也存在着训练样本获取困难的缺点。

发明内容

本发明的目的是针对现有技术的不足，提出一种由计算机实现的自适应选择动态生产调度控制系统，以适应调度环境和任务存在不可预测扰动的情况，从而可以得到比现有的动态调度方法更为有效的优化技术，有效地减少工件等待时间，提高企业产品交货期满足率。

本发明思想是由计算机按照基本顺序算法方案(BSAS)对系统状态进行合理聚类而得到聚类状态，引入调度目标函数并提出一种调度优化方法，在现有调度规则的基础上，通过学习器与制造系统的不断交互而获取有效的调度知识，用于优化生产过程。通过以下技术方案实现的：

一种由计算机实现的白适应选择动态生产调度控制系统，其特征在于：设置包括系统仿真器、学习器、决策器、调度规则库、调度知识库、搬运小车、加工设备及其缓冲站，缓冲站设有光栅、传感器以及检测设备，工件到达缓冲站并被加工时，学习器检测当前系统状态进行学习，获取系统的动态调度知识，进而对调度知识库里的知识进行更新，当某加工设备需要调度时，决策器将根据检测到的系统状态，读取调度知识库中对应的调度知识，通过不断地与加工系统交互学习而获取新的调度知识，面向系统中加工设备及工件的状态来动态选取调度规则，选择最优的调度规则对该加工设备进行调度。

具体方法是通过建立调度优化目标函数，选取系统的状态特征，在定义系统的讦估函数Q(s_u ^c，a_v)及聚类状态s_u ^c基础上，采用基本顺序算法方案BSAS对系统仿真器产生的状态进行聚类，得到系统的聚类状态，通过B-Q学习方法的迭代学习模型对评估函数进行迭代，根据得到的评估函数值选取最优的调度规则对缓冲站中的工件进行实时调度。

系统状态特征的选取，具体如下：

定义加工系统的相对机器负载ω，然后选取调度规则性能影响较大的四个状态特征：平均交货因子f、系统利用率μ、相对机器负载ω和平均松弛时间ζ，其中，f＝∑f_i/N_d，f_i是到达系统第j个工件的交货因子；μ是加工设备中当前非空闲加工设备数和总的加工设备数之比；若ζ_j，表示第j个工件的松弛时间，有

ζ_{j} = d_{j} - t - Σ_{q = k_{d}}^{k_{j}} p_{jq},

其中t是当前时刻，p_jq表示第j个工件的工序q所需加工时间(若工序q正在被加工，则p_jq为该工序的剩余加工时间)，k_d是工件正在被加工或等待加工的工序数，k_j表示工件j的工序总数，则有ζ＝(∑ζ_j)/N_d。因此系统状态s_i可用四元组表示，即s_i＝(ω，f，μ，ζ)。

系统聚类状态的得到，具体如下：

采用比例因子法对状态特征值进行标准化预处理，然后基于基本顺序算法方案(BSAS)对系统状态进行聚类，聚类过程中采用欧几里德(Euclidean)距离法计算状态s_i到聚类C_l的不相似性测度d(s_i，C_l)，进而得到聚类状态s_u ^c。

评估函数Q(s_u ^c，a_v)及聚类状态s_u ^c的确定，具体如下：

系统从t时刻的聚类状态s_t ^c开始，根据某个控制策略执行动作(调度规则)a_t，则此后也遵循该策略执行所得的折算累积回报期望值，称之为状态一动作对(s_t ^c，a_t)的评估函数，记为Q(s_t ^c，a_t)。通过BSAS对系统状态进行聚类并得到x个聚类，则把第u个聚类中所有系统状态的中心称为聚类状态s_u ^c，故共有x个聚类状态，记为s^c＝s_u ^c(u＝1，2，…，x)。

B-Q学习方法的迭代学习模型，具体如下：

确定系统最优评估函数Q^*(s_u ^c，a_v)，即系统最大的折算累积回报期望值。B-Q学习方法的迭代学习模型为

式中γ(0≤γ＜1)是对延迟回报的折扣因子，r_t+1为加工设备选择某个调度规则后系统的立即回报值，立即回报值的设定是与调度目标函数相关联的，φ(n)是循环次数n的函数，α_n为步长参数，其中：

Δ_{Θ 1} = r_{t + 1} + γ \max_{a} Q_{n - 1} (s_{t + 1}^{c}, a) - Q_{n - 1} (s_{t}^{c}, a_{t}) - Θ

Δ_{Θ 2} = r_{t + 1} + γ \max_{a} Q_{n - 1} (s_{t + 1}^{c}, a) - Q_{n - 1} (s_{t}^{c}, a_{t}) + Θ

式中的Θ为引入的评估函数阈值。当Q_n(s_t ^c，a_t)收敛到最优评估函数Q^*(s_u ^c，a_v)时停止迭代。

按如下步骤对加工设备缓冲站中的工件队列进行动态调度：

(1)按下列公式分别对平均交货因子f、系统利用率μ、相对机器负载ω和平均松弛时间ζ赋值，并把这些赋值保存在计算机中：

f＝∑f_j/N_d

μ＝N_b/N_m

ζ＝(∑ζ_j)/N_d

(2)学习器通过基本顺序算法方案BSAS得到系统的聚类状态s_h ^c，赋初始值给评估函数Q₀(s_u ^c，a_v)，置循环次数n＝1，并存储到计算机中，决策器任意选择调度规则库中的调度规则对空闲加工设备缓冲站中的工件队列进行调度；

(3)学习器检测系统当前时刻t的状态s_t，通过计算不相似性测度d(s_t，C_l)并按照

d (s_{t}, C_{u}) = \min_{1 \leq l \leq x} d (s_{t}, C_{l})

计算，获得系统聚类状态s_t ^c；

(4)决策器根据ε-greedy法选择调度规则a_v对加工设备缓冲站中的工件队列进行调度；

(5)决策器检测并判断工件是否已经加工完毕，若还有待加工工件，则学习器观察t+1时刻制造系统的状态s_t+1，计算不相似性测度得到当前系统聚类状态s_t+1 ^c，此时学习器会接受到一个立即回报值r_t+1’调用B-Q学习迭代模型公式计算评估函数Q_n(s_t ^c，a_t)值并存储在计算机中，学习器用学习到的新调度知识对调度知识库里面的知识进行更新；若工件已经加工完毕，则转入步骤(10)；

(6)学习器用聚类状态s_t+1 ^c替换s_t ^c，并更新循环次数：n＝n+1；

(7)学习器判断所有评估函数是否已经是最优评估函数Q^*(s_u ^c，a_v)，若还有评估函数未达到最优，则转入步骤(4)；

(8)调度决策模块检测系统当前状态，决策器调用知识库中的对应调度知识对加工设备缓冲站中的工件进行调度；

(9)判断制造系统中所有工件是否都已加工完毕，若还有剩余未加工工件，转步骤(8)；否则转步骤(10)；

(10)结束整个生产调度过程。

为有效地减小学习过程中Q(s_t ^c，a_t)的波动，有利于提高学习效果。所述的学习器在B-Q学习过程中引入了评估函数阈值。

在给出一种由计算机实现的调度规则自适应选择及其生产控制之前，还需完成如下几个步骤：步骤1如何最小化产品拖期是制造企业非常关心的问题，为此建立最小化平均拖期的目标函数为：

式中，是工件拖期完工惩罚因子，d_j为第j个工件的理想交货期，工件的实际完工时间为C_j，

N是总的加工工件数，工件集合表示为J＝{J₁，J₂，…，J_N}，每个工件都由多工序组成。

步骤2基于将要优化的调度目标函数Obj，设定系统的立即回报值r。

步骤3选取对调度规则性能影响较大的四个状态特征：平均交货因子(average flow allowance factor)f、系统利用率(system utilization)μ、相对机器负载(relative machine workloads)ω和平均松弛时间(average slack time)ζ，对系统状态进行描述，因此状态s_i是由四元组组成的，即s_i＝(ω，f，μ，ζ)。其中，

ω_max是机器最大负载，

为平均机器负载；f＝∑f_j/N_d，f_j是到达系统第j个工件的交货因子；μ是加工设备中当前非空闲加工设备数和总的加工设备数之比；若ζ_j表示第j个工件的松弛时间，有

ζ_{j} = d_{j} - t - Σ_{q = k_{d}}^{k_{j}} p_{jq},

其中t是当前时刻，p_jq表示第j个工件的工序q所需加工时间(若工序q正在被加工，则p_jq为该工序的剩余加工时间)，k_d是工件正在被加工或等待加工的工序数，k_j表示工件j的工序总数，则有ζ＝(∑ζ_j)/N_d。

本发明的优点及有益效果：本发明解决了背景技术中存在的问题。该调度技术是根据制造系统的瞬时状态，动态地选取最有效的调度规则对缓冲站中工件进行调度，以减少工件拖期现象的发生。嵌入到学习器中的B-Q学习方法模块具有很强的自学习能力，对那些因加工环境的变化或者某些不确定因素的发生而导致系统状态变化的动态调度，本控制决策系统将会通过学习来获取新的调度知识，以适应这些调度环境的变化。在实际生产中，动态调度的先验知识和精确的训练样本一般是很难得到的，该控制决策系统在学习过程中，是不需要任何先验知识或者精确的训练样本，这就使得本发明具有更广泛的适用性。本控制决策系统中学习器的学习以及对调度知识库中的知识更新完全可以通过离线学习来完成，这对保证实际生产中的调度实时性要求是很有意义的。本发明可以得到比现有的规则调度更好的调度效果，可使所有加工工件的平均拖期时间减少10％-50％，可用于多种制造业领域的优化调度。加工设备的缓冲站均带有光栅以及传感器等一些检测设备，能够实时读取缓冲站中工件的类型和数量，学习器和决策器具有对系统状态进行实时监控、数据采集、信息处理及决策的能力。

附图说明

图1是由计算机实现的自适应选择动态生产调度控制系统意图；

图2是由计算机实现的自适应选择动态生产调度控制系统的工作原理示意图。

具体实施方式

结合本发明技术的内容进一步提供以下实施例：

本发明提供的一种由计算机实现的自适应选择动态生产调度控制系统，请参见图1，具体包括如下几个步骤：

步骤l 对系统状态进行聚类，得到系统的聚类状态：

1.1初始化聚类数x＝1，i＝1，置最大聚类数为K，系统仿真器产生的状态数为κ。运行系统仿真器，学习器得到仿真器产生的初始状态s₁，对s₁进行特征标准化处理，得到第x个聚类

C_{x} = {s_{1}} \cdot d (s_{t}, C_{u}) = \min_{1 \leq l \leq x} d (s_{t}, C_{l});

1.2 i＝i+1，对制造状态s_i(2≤i≤κ)进行特征标准化处理，采用欧几里德(Euclidean)距离法计算状态s_i到聚类C_l(1≤l≤x)的不相似性测度d(s_i，C_l)，得到与s_i不相似性测度最小的聚类C_h，即

d (s_{i}, C_{h}) = \min_{1 \leq l \leq x} d (s_{i}, C_{l});

1.3如果x＜K，且d(s_i，C_h)＞Ω，Ω为基本顺序算法方案(BSAS)的不相似性阈值，则有x＝x+1，聚类C_x＝{s_i}，否则将状态s_j聚类到C_h中，即有C_h＝C_h∪s_i，并重新计算聚类状态s_h ^c。返回步骤1.2，直至将所有κ个状态聚类完毕，可得到x个聚类C_l和聚类状态s_u ^c，l＝1，2，…，x，u＝l，2，…，x。

步骤2初始化所有动作-状态对(s_u ^c，a_v)的评估函数，记为Q₀(s_u ^c，a_v)，u＝1，2，…，x，v＝1，2，…，β。置循环次数n＝1。在制造系统运行的初始时刻t₀，从动作集(调度规则集)中任意选择动作(调度规则)a_t0对空闲加工设备缓冲站中的工件队列进行调度。

步骤3学习器检测制造系统当前时刻t的状态s_t，计算不相似性测度d(s_t，C_l)，l＝1，2，…，x，得到

d (s_{t}, C_{u}) = \min_{l \leq l \leq x} d (s_{t}, C_{l}),

则t时刻的聚类状态

s_{t}^{c} = s_{u}^{c} .

步骤4决策器根据ε-greedy法选择动作(调度规则)a_v对加工设备缓冲站中的工件队列进行调度，即以概率(1-ε)选择具有最大评估函数值

的动作(调度规则)av，以概率ε随机选取调度规则集A中其它动作，即a_t＝a_v，a_v∈A，A＝{a₁，a₂，…，a_β}。

步骤5判断制造系统中所有工件是否都已加工完毕，若还有剩余未加工工件，转步骤6；否则停止迭代，转步骤10。

步骤6观察t+1时刻制造系统的状态S_t+1，计算不相似性测度得到当前系统聚类状态S_t+1 ^c，此时学习器会收到一个立即回报值r_t+1利用下列B-Q学习方法的迭代模型

对评估函数Q_n(s_u ^c，a_v)进行迭代调整。上式中γ(0≤γ＜1)是对延迟回报的折扣因子，r_t+1为加工设备选择某个调度规则后系统的立即回报值，φ(n)是循环次数n的函数，a_n为步长参数，可由下式得到：

α_{n} = (s_{t}^{c}, a_{t}) = C_{α} / (1 + {visits}_{n} (s_{t}^{c}, a_{t}))

式中C_a是步长参数的权系数变量，visits_n(s_t ^c，a_t)表示在n次循环中，状态一动作对(s_t ^c，a_t)被访问的总次数。B-Q学习方法的迭代模型公式中的Δ_Θ1、Δ_Θ2为：

Δ_{Θ 1} = r_{t + 1} + γ \max_{a} Q_{n - 1} (s_{t + 1}^{c}, a) - Q_{n - 1} (s_{t}^{c}, a_{t}) - Θ

Δ_{Θ 2} = r_{t + 1} + γ \max_{a} Q_{n - 1} (s_{t + 1}^{c}, a) - Q_{n - 1} (s_{t}^{c}, a_{t}) + Θ

式中Θ为引入的评估函数阈值。

步骤7用聚类状态s_t+1 ^c替换s_t ^c，n＝n+1，循环步骤4～步骤7，直到学习到所有动作-状态对的最优评估函数Q^*(s_u ^c，a_v)。

步骤8用学习到的新调度知识更新调度知识库里的已有调度知识，用于对加工设备缓冲站中的工件进行动态调度。

步骤9判断制造系统中所有工件是否都已加工完毕，若还有剩余未加工工件，转步骤8；否则转步骤10。

步骤10程序结束。

用于实现上面所述技术的控制决策系统主要包括系统仿真器、学习器、决策器、调度规则库、调度知识库、搬运小车、加工设备及其缓冲站等，请参见图2，其执行动态调度的具体方案如下：

学习器运用B-Q学习方法进行迭代学习，得到系统的动态调度知识，进而对调度决策模块中的调度知识库里的调度知识进行更新。当制造系统中有处于空闲状态的加工设备，且其缓冲站中有等待被加工的工件时，决策器将会检测制造系统当前的状态，根据从调度知识库中读取到的调度知识，选择规则库里的调度规则对该加工设备缓冲站中工件进行调度，从而保证生产过程的有效执行。

本发明实施例中工件到达车间的时间间隔服从负指数分布，平均到达率为λ。工件j的工序总数k_j为集合{1，2，…，6}中随机选取的整数，每道工序加工时间服从均匀分布U(u_pl，u_p2)。工件被随机分配到任意机器缓冲站中等待加工，且同一工件的相邻两道工序不能由同一个加工设备处理，共有M台加工设备。

图2调度规则库中调度规则选用最早交货期优先EDD、最短加工时间优先SPT和最小松弛时间优先MST三个常用规则。第j个工件的交货期d_j设定如下：

d_{j} = {rt}_{j} + f_{j} Σ_{q = 1}^{k_{j}} p_{jq}

式中，p_jq表示第j工件的工序q所需加工时间，k_j表示工件j的工序总数，rt_j是工件到达车间时刻，交货因子f_j服从均匀分布，即f_j～U(u_f1，u_f2)。由于本发明的目标函数是最小化平均拖期，而B-Q学习方法收敛于最大值，故将目标函数乘以负数转换成最大值问题，于是对B-Q学习方法中的立即回报值r设定如下：

本发明实施例主要参数如下表所示。

M	N	λ	u_p1	u_p2	u_f1	u_f2	ε	γ
M	N	λ	u_p1	u_p2	u_f1	u_f2	ε	γ	6	2400	1/5.5	2	13	1	6	0.15	0.7

定义每加工完成2400个工件称为一个episode，共对500个episode进行实验，考虑到车间各种随机因素的影响，依次对50个episode平均拖期的均值进行比较。根据本发明方法中实施步骤对实施例进行调度后，得到工件平均拖期的结果如下表所示，不难看出，本发明的调度技术大部分时间都优于其它三个调度规则，对于500个episode而言，工件平均拖期比最好的EDD规则降低改进约11.86％，比最差的SPT规则降低改进了43.17％。这样的改进程度显示了本发明与现有技术方案相比所具有显著的创造性与实用性。

调度规则	每50个episode平均拖期的均值										总均值(500episode)
	每50个episode平均拖期的均值											1	2	3	4	5	6	7	8	9	10
	EDD	10.27	9.86	10.45	10.44	10.57	10.33	10.29	11.45	9.67		1	2	3	4	5	6	7	8	9	10	9.61	10.29
MST	EDD	10.27	9.86	10.45	10.44	10.57	10.33	10.29	11.45	9.67	10.04	10.64	11.17	9.68	9.65	9.98	10.81	10.91	11.30	10.55	10.47	9.61	10.29
MST	SPT	16.09	15.59	17.14	15.59	14.87	16.59	14.59	16.40	16.48	10.04	10.64	11.17	9.68	9.65	9.98	10.81	10.91	11.30	10.55	10.47	16.26	15.96
本发明	SPT	16.09	15.59	17.14	15.59	14.87	16.59	14.59	16.40	16.48	9.62	8.78	7.92	9.52	9.40	9.42	9.13	8.85	9.01	9.06	9.07	16.26	15.96

本发明是国家高技术研究发展计划现代制造集成技术专题资助项目(2007AA04Z112)，国家自然科学基金资助项目(60574062，50475075)和高等学校博士学科点专项科研基金资助项目(20040286012)的共同成果。

Claims

1.一种由计算机实现的自适应选择动态生产调度控制系统，其特征在于：设置包括系统仿真器、学习器、决策器、调度规则库、调度知识库、搬运小车、加工设备及其缓冲站，缓冲站设有光栅、传感器以及检测设备，工件到达缓冲站并被加工时，学习器检测当前系统状态进行学习，获取系统的动态调度知识，进而对调度知识库里的知识进行更新，当某加工设备需要调度时，决策器将根据检测到的系统状态，读取调度知识库中对应的调度知识，通过不断地与加工系统交互学习而获取新的调度知识，面向系统中加工设备及工件的状态来动态选取调度规则，选择最优的调度规则对该加工设备进行调度。

2.根据权利要求1所述由计算机实现的自适应选择动态生产调度控制系统，其特征在于通过建立调度优化目标函数，选取系统的状态特征，在定义系统的评估函数及聚类状态基础上，采用基本顺序算法方案BSAS对系统仿真器产生的状态进行聚类，得到系统的聚类状态，通过B-Q学习方法的迭代学习模型对评估函数进行迭代，根据得到的评估函数值选取最优的调度规则对缓冲站中的工件进行实时调度。

3.根据权利要求2所述由计算机实现的自适应选择动态生产调度控制系统，其特征在于，按如下步骤对加工设备缓冲站中的工件队列进行动态调度：

f＝∑f_j/N_d

μ＝N_b/N_m

ζ＝(∑ζ_j)/N_d

(2)学习器通过基本顺序算法方案BSAS得到系统的聚类状态s_h ^c，赋初始值给评估函数Q₀(s_n ^c，a_v)，置循环次数n＝1，并存储到计算机中，决策器任意选择调度规则库中的调度规则对空闲加工设备缓冲站中的工件队列进行调度；

d (s_{t}, C_{u}) = \min_{1 \leq l \leq x} d (s_{t}, C_{l})

计算，获得系统聚类状态S_t ^c；

(5)决策器检测并判断工件是否已经加工完毕，若还有待加工工件，则学习器观察t+1时刻制造系统的状态s_t+1，计算不相似性测度得到当前系统聚类状态s_t+1 ^c，此时学习器会接受到一个立即回报值r_t+1，调用B-Q学习迭代模型公式计算评估函数Q_n(s_t ^c，a_t)值并存储在计算机中，学习器用学习到的新调度知识对调度知识库里面的知识进行更新；若工件已经加工完毕，则转入步骤(10)；

(7)学习器判断所有评估函数是否已经是最优评估函数Q^*(S_n ^c，a_v)，若还有评估函数未达到最优，则转入步骤(4)；

(10)结束整个生产调度过程。

4.根据权利要求2或3所述由计算机实现的自适应选择动态生产调度控制系统，其特征在于：为有效地减小学习过程中Q(s_t ^c，a_t)的波动，有利于提高学习效果。所述的学习器在B-Q学习过程中引入了评估函数阈值。