CN117273392B

CN117273392B - 家具生产决策方法、装置、电子设备及存储介质

Info

Publication number: CN117273392B
Application number: CN202311524520.8A
Authority: CN
Inventors: 杜浩铭
Original assignee: Sichuan Zhilian Digital Technology Co ltd
Current assignee: Sichuan Yadu Furniture Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-09
Anticipated expiration: 2043-11-16
Also published as: CN117273392A

Abstract

本申请提供了家具生产决策方法、装置、电子设备及存储介质，涉及家具加工技术领域。该方法包括：获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据；基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子；其中，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成；基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工。本申请实施例实现合理调度资源，有效提高生产效率。

Description

家具生产决策方法、装置、电子设备及存储介质

技术领域

本申请涉及家具加工技术领域，具体而言，本申请涉及一种家具生产决策方法、装置、电子设备及存储介质。

背景技术

随着互联网技术、物联网技术、大数据分析技术等的不断突破，木质家具制造企业逐渐意识到利用这些技术来提高生产效率、降低成本和提升产品质量的重要性。

针对工业路径决策，现有技术主要包括基于专家系统的决策方法、基于数据挖掘的决策方法、基于优化算法的决策方法等。第一，基于专家系统的决策方法指利用专家系统来分析和判断生产工艺路径，根据预设的规则和知识库进行决策。该决策方法能够根据专家经验和知识进行决策，但需要大量的专家知识和规则进行建模和维护，并且对于复杂的生产工艺情况效果有限。第二，基于数据挖掘的决策方法用数据挖掘技术对历史生产数据进行分析和挖掘，从中提取有用的规律和模式，用于实时决策。该决策方法能够根据实际生产数据进行决策，但数据的质量和可靠性对决策结果有较大影响，同时需要大量数据进行训练和模型构建。第三，基于优化算法的决策方法利用数学优化算法来求解最优的生产工艺路径，可以考虑多个约束条件和目标函数。该决策方法能够找到全局最优解或者接近最优解的解决方案，但计算复杂度较高，对计算资源和算法参数的要求较高。

以上三种决策方法在一定程度上解决了工业路径的决策问题，但通常适用于无设备故障的场景，且对数据和算力的依赖过高。对于木质家具工业生产，设备故障出现的概率对于整个生成过程是十分重要的，原因在于木质家具的主要材料木材的加工是不可逆的，即若在加工的某个步骤发生设备故障，木材加工不能像塑料加工一样进行重塑等，需要使用新的木材从头进行加工或重新调配该步骤的上一个步骤的加工件进行重加工。无论是使用新的木材还是重新调配，均会降低生产效率，并且设备的故障和该设备加工材料的数量和加工需求是紧密相关的，容易造成生产浪费。

上述可见，现有的决策方法无法适配于出现设备故障的木质家具工业生产过程，导致生产效率低下。因此，如何平衡故障概率和生产效率是目前的研究重点。

发明内容

本申请实施例提供了一种家具生产决策方法、装置、电子设备及存储介质，用于解决现有的决策方法无法适配于出现设备故障的木质家具工业生产过程，导致生产效率低下的技术问题，实现有效平衡故障概率和生产效率。

根据本申请实施例的一个方面，提供了一种家具生产决策方法，包括：

获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据；

基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子；其中，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成；

基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工。

在一个可能的实现方式中，所述基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子，包括：

基于所述待生产家具，确定相应的目标任务；

确定与所述目标任务相关联的生产模板，所述生产模板用于指示所述目标任务在各阶段中所需的加工设备；

针对所有阶段，遍历对所述生产模板中任一作用于下一阶段的加工设备的选择动作，结合所述阶段下的运行数据，确定与各所述选择动作对应的决策因子。

在一个可能的实现方式中，所述方法还包括：

确定与所述目标任务相关的自回归模型；

对所述自回归模型进行训练，得到预测模型；

将任一阶段所配置的加工设备的运行数据以及所选择的作用于下一阶段的加工设备在所述阶段下的运行数据输入到所述预测模型中，以进行预测，输出下一阶段的运行数据。

在一个可能的实现方式中，所述运行数据包括加工时长，通过如下步骤确定所述第一奖励值：

确定预设的第一奖励映射表，所述第一奖励映射表用于指示各加工设备的加工时长与各第一奖励值之间的第一映射关系；

基于所述第一映射关系，确定与所选择的加工设备在下一阶段的加工时长相应的第一奖励值。

在一个可能的实现方式中，通过如下步骤确定所述第二奖励值：

基于针对下一阶段的运行数据进行故障预测，得到故障预测概率；

确定预设的第二奖励映射表，所述第二奖励映射表用于指示各故障预测概率与各第二奖励值之间的第二映射关系；

基于所述第二映射关系，确定与所预测到的故障预测概率相应的第二奖励值。

在一个可能的实现方式中，所述方法还包括：

对所述第一奖励值和所述第二奖励值进行加权求和，得到针对所选择的加工设备的加工奖励值。

在一个可能的实现方式中，所述加工设备的运行数据包括采集于所述加工设备的第一运行数据以及由外部设备感知所述加工设备所在环境后获得的第二运行数据，所述第一运行数据包括加工时长和加工工艺类型，所述第二运行数据包括设备温度、设备振动及设备周围的空气湿度。

根据本申请实施例的另一个方面，提供了一种家具生产决策装置，包括：

数据获取模块，用于获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据；

决策因子计算模块，用于基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子；其中，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成；

决策模块，用于基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工。

根据本申请实施例的另一个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述实施例所述家具生产决策方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述家具生产决策方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的家具生产决策方法，通过获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据，继而基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成，从而基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工，这样，通过预测所选择的加工设备对应在下一阶段中的加工时长以及故障情况，作为执行该选择动作后获得的加工奖励值，使得在设备选择过程中充分考虑故障对整个生产方案的影响，能够有效控制材料、设备等资源的使用，解决了现有的决策方法无法适配于出现设备故障的木质家具工业生产过程，导致生产效率低下的技术问题，实现有效平衡故障概率和生产效率，从而实现合理调度资源，有效提高生产效率，以及减少浪费和不必要的开支，降低了生产成本。

附图说明

图1为本申请实施例提供的一种家具生产决策方法的流程示意图；

图2为本申请一个示例性实施例提供的家具生产决策方法的流程示意图；

图3为本申请实施例提供的一种家具生产决策装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1为本申请实施例提供的一种家具生产决策方法的流程示意图，该家具生产决策方法包括步骤S101至S103。

S101、获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据。

在一些实施例中，所述加工设备的运行数据包括采集于所述加工设备的第一运行数据以及由外部设备感知所述加工设备所在环境后获得的第二运行数据，所述第一运行数据包括加工时长和加工工艺类型，所述第二运行数据包括设备温度、设备振动及设备周围的空气湿度。

在本申请中，通过在执行当前生产方案的家具生产过程中实时获取的加工设备的生产状态、效率等运行数据下，不断迭代和学习实现决策出最优的生产方案。其中，第一运行数据源自于加工设备内设的内部检测子单元，如加工设备内部的检测接口，第一运行数据为与目标任务有关数据，例如加工工艺类型（如打磨、上漆、切割等）、所下发的任务总量、单件材料的加工时长等。第二运行数据源自于用以感知加工设备所在环境的数据的外部设备，如加工设备外置的传感器，第二运行数据包括但不限于设备温度、设备振动及设备周围的空气湿度。因此，本申请通过结合如加工时长、加工工艺类型等内部数据的第一运行数据以及如设备温度、设备振动及设备周围的空气湿度等外部数据的第二运行数据，提高了针对环境状态的准确描述，进一步提高了针对下一阶段的状态预测以及故障预测的准确度。

优选的，本申请中获取到的所有数据均存储为Json格式，且每一次采集时间间隔为1s，采集固定次数后均通过HTTP接口上传给云端服务器，使得在后续处理中从云端服务器获取相关的数据。

S102、基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子；其中，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成。

S103、基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工。

需要说明的是，强化学习是学习一个最优策略，在不断迭代的过程中，对于智能体而言，根据环境反馈的状态s，执行动作a；对于环境而言，接受了智能体执行的动作a，输出了环境反馈的状态和奖励r(s,a)，从而选择最大化其奖励的行动。在本申请中，将当前阶段的加工设备的运行数据作为状态，将对加工设备的选择作为动作，以预测下一阶段中加工设备的运行数据（即下一阶段的状态），并将所选择的加工设备所致的下一阶段中加工设备的加工时长与故障概率形成奖励。则遍历进入下一阶段的所有可执行的动作以及所有阶段，即遍历选择所有加工设备，更新所有可执行的动作的决策因子，从而选择最大决策因子对应的动作（即所选择的加工设备），由此输出最优生产方案。因此，本申请通过预测所选择的加工设备对应在下一阶段中的加工时长以及故障情况，作为执行该选择动作后获得的加工奖励值，使得在设备选择过程中充分考虑故障对整个生产方案的影响，能够有效控制材料、设备等资源的使用，提高了生产方案的生产效率。

具体的，基于待生产家具，确定相应的目标任务，如椅子制作、桌子制作、凳子制作等。继而，根据目标任务进行初始化，初始化过程为选定该目标任务加工时的第一个加工设备，并获取该第一个加工设备对应的运行数据。进一步，依据以下公式对决策因子进行更新，具体为：

其中，s为状态，即第j个加工设备的运行数据；a为动作，即针对作用于下一阶段的加工设备的选择；/>为基于当前阶段的状态s与动作a的决策因子；/>为状态s通过动作a进入下一状态/>所获得的加工奖励值；/>为学习率，/>为折扣率；为下一个阶段的最大决策因子，/>为动作筛选函数。针对上述决策因子的更新公式，本申请基于当前阶段s的决策因子/>、当前阶段执行一选择动作a（即选择一加工设备j）后获得的加工奖励值/>、下一个阶段/>的所有可能动作/>的最大决策因子/>，更新当前阶段的决策因子。需要说明的是，本申请利用所选择的加工设备对应下一阶段的加工时长和故障预测结构形成加工奖励值，该加工奖励值如/>，/>为在状态s执行动作a后获得的加工奖励值，/>为与加工设备的加工时长相应的第一奖励值，/>为与针对故障预测结果相关联的第二奖励值，/>为第i类目标任务。更进一步，遍历当前阶段的所有可能动作，获得所有可执行的动作的决策因子，实现对决策因子的更新调整，从而选择该决策因子最大值时对应的动作（即对应所选择的加工设备），以形成最优的生产方案。

本实施例提供的家具生产决策方法，通过获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据，继而基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成，从而基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工，这样，通过预测所选择的加工设备对应在下一阶段中的加工时长以及故障情况，作为执行该选择动作后获得的加工奖励值，使得在设备选择过程中充分考虑故障对整个生产方案的影响，能够有效控制材料、设备等资源的使用，解决了现有的决策方法无法适配于出现设备故障的木质家具工业生产过程，导致生产效率低下的技术问题，实现有效平衡故障概率和生产效率，从而实现合理调度资源，有效提高生产效率，以及减少浪费和不必要的开支，降低了生产成本。

在一些实施例中，参见图2，为本申请一个示例性实施例提供的家具生产决策方法的流程示意图，所述基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子，包括：

S201、基于所述待生产家具，确定相应的目标任务。

S202、确定与所述目标任务相关联的生产模板，所述生产模板用于指示所述目标任务在各阶段中所需的加工设备。

S203、针对所有阶段，遍历对所述生产模板中任一作用于下一阶段的加工设备的选择动作，结合所述阶段下的运行数据，确定与各所述选择动作对应的决策因子。

在本实施例中，针对每次迭代计算中遍历所有可执行的动作，对于家具生产来说较为冗余，造成不必要的计算量。对此，本实施例以待生产家具对应的目标任务为索引在数据库中检索相应的生产模板，该生产模板用于指示该家具在生产过程中各阶段所涉及的加工设备。因此，本实施例通过生产模板能够有效缩小选择动作的范围，加快决策的计算速度，大大提高了计算效率。

在一优选实施例中，对加工设备依次排列，以形成队列，并对各加工设备进行编号，这使得在选择加工设备时能够通过加工设备对应的编号，快速读取该加工设备对应的运行数据，提高了处理效率。

在一些实施例中，所述方法还包括：

确定与所述目标任务相关的自回归模型；

对所述自回归模型进行训练，得到预测模型；

在本实施例中，对于每个家具的目标任务，对应于各自的回归系数，以此确定p阶自回归模型，p阶自回归模型用以描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测。继而，通过训练该自回归模型，得到预测模型，用以利用当前阶段的运行数据预测下一阶段的运行数据。具体的，该预测模型如下所示：

其中，为所预测的下一阶段的状态（即运行数据），/>为与该目标任务相关的常数项；p为阶数，/>为中间变量，其表示所预测的下一阶段的状态与前多少个历史值有关；/>为与该目标任务相关的回归系数，/>为针对该目标任务的第一运行数据，/>为针对该目标任务的第二运行数据，/>为针对该目标任务的白噪声。因此，本实施例将第一运行数据与第二运行数据输入到自回归模型中，以预测下一阶段中所涉及的加工设备的运行数据，使得该预测结果切合生产环境的规律，提高了预测的准确度。

在一些实施例中，所述运行数据包括加工时长，通过如下步骤确定所述第一奖励值：

在本实施例中，第一奖励映射表可以是分段函数，该第一映射关系表征各加工时长的数值区间与各第一奖励值一一对应，由此加工时长较短，对应的第一奖励值较大，则选择第一奖励值较大的加工设备能够缩短该阶段的生产时间，从而提高了生产效率。示例性的，该阶段的单材料加工时长最短、该阶段的提前期最短，所对应的第一奖励值较大。因此，本实施例通过第一奖励映射表指示的映射关系，实现快速获取第一奖励值，进一步提高了数据处理效率，同时将加工时长用作评价加工设备的选择动作，保证了家具生产的高效性。

在一些实施例中，通过如下步骤确定所述第二奖励值：

在本实施例中，第二奖励映射表可以是分段函数，该第二映射关系表征各故障预测概率（即故障预测结果）的数值区间与各第二奖励值一一对应，由此故障预测概率较低，对应的第二奖励值较大，则选择第二奖励值较大的加工设备能够有效降低整体生产过程的故障率，从而提高了生产效率。因此，本实施例通过第二奖励映射表指示的映射关系，实现快速获取第二奖励值，进一步提高了数据处理效率，同时将加工时长用作评价加工设备的选择动作，保证了家具生产的高效性。

优选的，针对故障预测，本实施例可通过当前阶段以及所预测的下一阶段的运行数据中的加工时长以及加工完成程度，判断是否在当前或即将发生故障以及发生故障的部位和概率。具体的，在检测到当前阶段下所涉及的加工设备的加工时长和加工完成程度（如打磨、上漆、切割的完成度）均落于该加工设备的正常范围内时，则认为当前阶段所涉及的加工设备处于正常状态。继而，在检测到所预测的下一阶段所涉及的加工设备的加工时长和加工完成程度均落于该加工设备的正常范围内时，则认为下一阶段所涉及的加工设备处于正常状态，此时所获得的故障预测概率较小，对应的第二奖励值较大。然而，在检测到当前阶段所涉及的加工设备的加工时长和加工完成程度中的至少一项超出正常范围时，则认为当前阶段所涉及的加工设备发生故障。同理的，在检测到下一阶段所涉及的加工设备的加工时长和加工完成程度中的至少一项超出正常范围时，则认为下一阶段所涉及的加工设备发生故障。其中，可将加工时长与加工完成程度分别映射为参数值，则分别将当前阶段与下一阶段的加工时长与加工完成程度对应的参数值进行加权计算，获得故障预测数值，继而依据该故障预测数值对应的数值区间确定相应的故障预测概率。因此，本实施例通过判定故障发生时间以及所在设备，继而计算出相应的故障预测概率，体现了设备之间的相互影响及相关性，进一步提高了故障预测的准确度。

在一些实施例中，所述方法还包括：

在本实施例中，通过对第一奖励值和第二奖励值进行加权求和，实现有效平衡故障概率和生产效率，从而实现合理调度资源，有效提高生产效率。

实施例二

图3为本申请实施例提供的一种家具生产决策装置的结构示意图，该家具生产决策装置300包括：

数据获取模块301，用于获取在执行当前生产方案时任一阶段下待生产家具所配置的至少一个加工设备的运行数据；

决策因子计算模块302，用于基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子；其中，所述加工奖励值由与所选择的加工设备的加工时长相应的第一奖励值以及与针对所选择的加工设备的故障预测结果相关联的第二奖励值组织而成；

决策模块303，用于基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工。

在一些实施例中，决策因子计算模块302包括：

目标任务确定单元，用于基于所述待生产家具，确定相应的目标任务；

生产模板确定单元，用于确定与所述目标任务相关联的生产模板，所述生产模板用于指示所述目标任务在各阶段中所需的加工设备；

动作遍历单元，用于针对所有阶段，遍历对所述生产模板中任一作用于下一阶段的加工设备的选择动作，结合所述阶段下的运行数据，确定与各所述选择动作对应的决策因子。

在一些实施例中，该装置300还包括：

自回归模型构建单元，用于确定与所述目标任务相关的自回归模型；

模型训练单元，用于对所述自回归模型进行训练，得到预测模型；

模型预测单元，用于将任一阶段所配置的加工设备的运行数据以及所选择的作用于下一阶段的加工设备在所述阶段下的运行数据输入到所述预测模型中，以进行预测，输出下一阶段的运行数据。

在一些实施例中，所述运行数据包括加工时长，决策因子计算模块302还包括：

第一奖励映射表确定单元，用于确定预设的第一奖励映射表，所述第一奖励映射表用于指示各加工设备的加工时长与各第一奖励值之间的第一映射关系；

第一奖励值计算单元，用于基于所述第一映射关系，确定与所选择的加工设备在下一阶段的加工时长相应的第一奖励值。

在一些实施例中，决策因子计算模块302还包括：

故障预测单元，用于基于针对下一阶段的运行数据进行故障预测，得到故障预测概率；

第二奖励映射表确定单元，用于确定预设的第二奖励映射表，所述第二奖励映射表用于指示各故障预测概率与各第二奖励值之间的第二映射关系；

第二奖励值计算单元，用于基于所述第二映射关系，确定与所预测到的故障预测概率相应的第二奖励值。

在一些实施例中，该装置300还包括：

加权计算单元，用于对所述第一奖励值和所述第二奖励值进行加权求和，得到针对所选择的加工设备的加工奖励值。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现……方法的步骤，与相关技术相比可实现：通过预测所选择的加工设备对应在下一阶段中的加工时长以及故障情况，作为执行该选择动作后获得的加工奖励值，使得在设备选择过程中充分考虑故障对整个生产方案的影响，能够有效控制材料、设备等资源的使用，解决了现有的决策方法无法适配于出现设备故障的木质家具工业生产过程，导致生产效率低下的技术问题，实现有效平衡故障概率和生产效率，从而实现合理调度资源，有效提高生产效率，以及减少浪费和不必要的开支，降低了生产成本。

在一个可选实施例中提供了一种电子设备，如图4所示，图4所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备，或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

在本发明的实施例的描述中，术语“第一”、“第二”、“第三”、“第四”仅用以描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种家具生产决策方法，其特征在于，包括：

基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工，包括：遍历在当前阶段进入下一阶段的所有可执行的选择动作，更新各选择动作相关的决策因子，使得确定在决策因子最大值时对应的选择动作以及相应的加工设备，依据所确定的加工设备形成最优生产方案以实现更新；

其中，通过以下公式更新决策因子：

；

s为当前状态，所述当前状态表征当前阶段的加工设备的运行数据；a为当前阶段可执行的选择动作，选择动作表征对加工设备的选择；为关于当前状态s与选择动作a的决策因子；/>为下一状态，所述下一状态表征下一阶段的加工设备的运行数据，/>为下一阶段可执行的选择动作；/>为当前状态s通过选择动作a进入下一状态/>所获得的加工奖励值；/>为学习率，/>为折扣率；/>为在下一状态/>下关于所有可执行的选择动作/>的最大决策因子，/>为动作筛选函数；

通过以下公式确定所述加工奖励值：

；

为在当前状态s执行选择动作a后获得的加工奖励值/>，/>为与所选择的加工设备的加工时长相应的第一奖励值，/>为与针对所选择的加工设备的故障预测结果相关联的第二奖励值，/>为第i类目标任务，/>表征所选择的加工设备。

2.根据权利要求1所述的家具生产决策方法，其特征在于，所述基于所述运行数据以及响应对任一作用于下一阶段的加工设备的选择动作后获得的加工奖励值，确定决策因子，包括：

基于所述待生产家具，确定相应的目标任务；

3.根据权利要求2所述的家具生产决策方法，其特征在于，所述方法还包括：

确定与所述目标任务相关的自回归模型；

对所述自回归模型进行训练，得到预测模型；

4.根据权利要求3所述的家具生产决策方法，其特征在于，所述运行数据包括加工时长，通过如下步骤确定所述第一奖励值：

5.根据权利要求4所述的家具生产决策方法，其特征在于，通过如下步骤确定所述第二奖励值：

6.根据权利要求1或4所述的家具生产决策方法，其特征在于，所述方法还包括：

7.根据权利要求1或3所述的家具生产决策方法，其特征在于，所述加工设备的运行数据包括采集于所述加工设备的第一运行数据以及由外部设备感知所述加工设备所在环境后获得的第二运行数据，所述第一运行数据包括加工时长和加工工艺类型，所述第二运行数据包括设备温度、设备振动及设备周围的空气湿度。

8.一种家具生产决策装置，其特征在于，包括：

决策模块，用于基于使所述决策因子最大化的选择动作，更新所述生产方案，使得依据更新后的生产方案对所述待生产家具进行加工，包括：遍历在当前阶段进入下一阶段的所有可执行的选择动作，更新各选择动作相关的决策因子，使得确定在决策因子最大值时对应的选择动作以及相应的加工设备，依据所确定的加工设备形成最优生产方案以实现更新；

其中，通过以下公式更新决策因子：

；

通过以下公式确定所述加工奖励值：

；

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7任一项所述家具生产决策方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述家具生产决策方法的步骤。