CN117726160A

CN117726160A - 基于虚拟现实和进化强化学习的纺织流程管理方法及系统

Info

Publication number: CN117726160A
Application number: CN202410178343.0A
Authority: CN
Inventors: 林元国; 陈鸿; 宋耀祥; 李凯凯; 廖志宇; 柳蕴峰
Original assignee: Xiamen Carbon Based Aoxiang Digital Technology Co ltd; Jimei University
Current assignee: Xiamen Carbon Based Aoxiang Digital Technology Co ltd; Jimei University
Priority date: 2024-02-09
Filing date: 2024-02-09
Publication date: 2024-03-19
Anticipated expiration: 2044-02-09
Also published as: CN117726160B

Abstract

本申请提供了一种基于虚拟现实（VR）和进化强化学习的纺织流程管理方法及系统。VR纺织模拟模块利用三维物理引擎创建虚拟纺织环境，VR设备显示虚拟纺织操作画面并模拟纺织流程操作；数据处理模块收集VR纺织模拟模块的实时和历史数据以输入神经网络模型提取状态特征信息；ESRL优化引擎模块使用基于进化策略和特征的强化学习算法构建纺织流程的RL模型；RL模型的状态转移概率函数模拟纺织流程操作带来的状态变化，奖励函数评估纺织流程操作的价值，决策最优动作以更新纺织流程调度计划。本申请可精准模拟、优化和管理纺织全流程，提供逼真的虚拟纺织环境进行人员培训，提高生产效率减少资源浪费，为纺织业生产管理提供有力技术支撑。

Description

基于虚拟现实和进化强化学习的纺织流程管理方法及系统

技术领域

本申请涉及虚拟现实技术领域，特别涉及一种基于虚拟现实（VR）和进化强化学习的纺织流程管理方法及系统。

背景技术

当前纺织行业面临的主要挑战包括生产流程的复杂性、设备与工艺的多样性以及对行业需求变化的快速响应。传统的纺织管理系统通常只支持简单的数据收集和处理，无法提供高度互动和沉浸式的培训体验，这限制了在操作员培训、生产线优化等方面的进展。此外，现有的纺织生产管理系统往往缺乏灵活性，难以适应生产技术的更新。

发明内容

为了解决上述问题，本申请提供了一种基于VR和进化强化学习的纺织流程管理方法及系统，能够精准模拟、优化和管理纺织生产流程，提供高度逼真的虚拟纺织流程进行人员培训，提高生产效率减少资源浪费，为纺织业生产管理提供有力技术支撑。

第一方面，本申请提供了一种基于VR和进化强化学习的纺织流程管理系统，该系统包括：VR纺织模拟模块、数据处理模块和ESRL优化引擎模块；

所述VR纺织模拟模块用于：通过3D建模和物理引擎创建虚拟纺织环境，通过VR设备显示虚拟纺织操作画面，并实时模拟用户执行的纺织流程操作，获取所述VR设备的实时交互数据；

所述数据处理模块用于：收集来自所述VR纺织模拟模块的实时交互数据和历史纺织流程数据；采用神经网络模型提取所述虚拟纺织环境的状态特征信息，所述状态特征信息至少包括时序特征；

所述ESRL优化引擎模块用于：使用基于进化策略和特征的强化学习算法，将所述虚拟纺织环境中的纺织流程调度问题转化为马尔科夫决策过程，将所述状态特征信息作为所述马尔科夫决策过程的输入状态，构建纺织流程的强化学习（RL）模型；

所述ESRL优化引擎模块还用于：通过所述RL模型的状态转移概率函数，模拟实时执行的纺织流程操作带来的状态变化，并通过所述RL模型的奖励函数评估所述纺织流程操作的价值，决策出最优动作；基于决策得到的所述最优动作，实时更新纺织流程调度计划，所述纺织流程调度计划至少包括：纺织流程中各个环节所执行的纺织流程操作以及纺织工艺参数。

在一种可能实施方式中，所述VR纺织模拟模块包括：3D织物模拟单元和VR交互设备；

所述3D织物模拟单元用于：通过3D建模和物理引擎模拟织物的物理行为，创建三维虚拟纺织环境，用于描述所述物理行为的参数至少包括：纹织参数和运动参数；

所述VR交互设备用于：基于所述三维虚拟纺织环境，通过VR显示设备显示虚拟纺织操作画面，并通过和所述VR显示设备相连接的控制器获取用户操作参数，模拟纺织流程操作以及织物在纺织流程操作下的物理变化；

其中，所述织物的物理行为通过质量-弹簧模型进行模拟，所述质量-弹簧模型表示为：

；

其中，是施加在织物上的力，/>是弹簧系数，/>和/>分别是织物的当前位置和平衡位置，/>是阻尼系数，/>是织物的速度；施加在织物上的力通过所述控制器实时获取。

在一种可能实施方式中，所述VR纺织模拟模块还包括：实时渲染单元，所述实时渲染单元用于：

基于给定的光源环境参数和织物纹理函数，将三维的虚拟纺织环境实时渲染为所述虚拟现实显示设备中呈现的二维纺织操作画面，实时渲染过程表示为：

；

其中，代表像素点的最终颜色，/>为光源亮度，/>为织物纹理函数，/>为光的波长，/>为光的波长/>的索引，表示遍历/>种波长的光进行求和。

在一种可能实施方式中，所述实时交互数据包括纺织机器操作参数，所述历史纺织流程数据包括：生产质量数据、能耗数据、生产效率数据、环境条件数据中至少一项；

所述数据处理模块用于：采用卷积神经网络（CNN）和长短时记忆网络（LSTM），对来自所述实时交互数据和历史纺织流程数据进行时序特征提取；

所述CNN的时序特征提取过程用公式表示为：

；

其中，表示输入CNN的时间序列数据，/>和/>分别为CNN的卷积核参数和偏置项，代表卷积操作，/>是CNN的激活函数；

所述LSTM的时序特征提取过程用公式表示为：

；

其中，是在时间/>的隐藏状态，/>是在时间/>时的输入数据，/>和/>是LSTM的权重矩阵，/>是偏置项，/>是LSTM的激活函数。

在一种可能实施方式中，所述ESRL优化引擎模块用于：

针对纺织流程中任一存在空闲机器的工艺环节，若包括多个候选纺织流程操作，则通过所述RL模型的状态转移概率函数，分别模拟实时执行各个候选纺织流程操作带来的状态变化，并通过所述RL模型的奖励函数评估所述多个候选纺织流程操作的价值，从中决策出最优动作作为下一步要执行的操作；若仅包括一个候选纺织流程操作，则直接将所述一个候选纺织流程操作确定为下一步要执行的操作；

所述状态转移概率函数被定义为：

；

其中，表示状态转移概率矩阵，/>是当前状态，/>是下一个状态，/>表示动作；/>表示RL模型在t时刻的状态，/>表示RL模型在/>下执行/>后，在t+1时刻的状态；

所述奖励函数被定义为：

；

其中，是预设的奖励折扣因子，/>表示所述虚拟纺织环境中操作调度或RL模型决策导致的状态转移指标，/>表示/>的/>次幂，/>是RL模型在t时刻的动作，/>是RL模型在t时刻决策引起的关键状态转移指标，/>是RL模型在t+1时刻决策引起的关键状态转移指标，/>表示/>对应的奖励函数值，/>表示/>时刻下执行的动作，/>表示执行动作/>前RL模型的状态；/>表示执行动作/>后RL模型的状态；

在任一次决策时，若两个关键状态转移指标之间的动作为空/>，则状态转移将被忽略，奖励函数表示为：

。

在一种可能实施方式中，所述ESRL优化引擎模块用于：

采用基于特征的强化学习算法，直接与所建立的所述虚拟纺织环境进行交互，采用特征提取函数，从所述状态特征信息中提取出操作特征，作为所述RL模型的输入状态；所述特征提取函数构建的操作特征表示为：；/>是操作/>的特征表示，是特征提取函数。

在一种可能实施方式中，所述ESRL优化引擎模块还用于：

基于多层感知器MLP计算各个操作特征的得分，根据各个操作特征的得分，更新针对所述纺织流程的人员操作培训计划；

所述得分的计算过程表示为：

；

其中，是操作/>的得分，对于MLP，/>和/>分别是第/>层的权重和偏置，是用于增加非线性的激活函数，/>是第/>-1层的计算结果。

在一种可能实施方式中，所述ESRL优化引擎模块用于：

使用进化策略在所述RL模型的模型参数空间内探索并优化所述RL模型的决策策略，所述优化过程包括：对RL模型的模型参数进行梯度估计，根据估计得到的梯度进行模型参数更新；梯度估计过程表示为：

参数更新过程表示为：

其中，表示梯度估计结果，/>是生成的新参数的组数，/>是噪声标准差，/>是随机噪声，/>是t时刻的模型参数，/>代表适应度函数；/>和/>是更新前后的模型参数，/>是预设的学习率，所述适应度函数用于评估所述纺织流程的RL模型在给定虚拟纺织环境下的性能表现，所述性能表现的考量因素包括：纺织成品质量和纺织出品效率。

在一种可能实施方式中，所述适应度函数被定义为：

其中，是当前操作调度下的预计完工时间，/>是预设的最优完工时间，/>是纺织流程的总处理时间，/>是预设的缩放因子。

第二方面，提供一种基于VR和进化强化学习的纺织流程管理方法，该方法包括：

通过3D建模和物理引擎创建虚拟纺织环境，通过VR设备显示虚拟纺织操作画面，并实时模拟用户执行的纺织流程操作，获取所述VR设备的实时交互数据；

收集所述实时交互数据和历史纺织流程数据；采用神经网络模型提取所述虚拟纺织环境的状态特征信息，所述状态特征信息至少包括时序特征；

使用基于进化策略和特征的强化学习算法，将所述虚拟纺织环境中的纺织流程调度问题转化为马尔科夫决策过程，将所述状态特征信息作为所述马尔科夫决策过程的输入状态，构建纺织流程的RL模型；

通过所述RL模型的状态转移概率函数，模拟实时执行的纺织流程操作带来的状态变化，并通过所述RL模型的奖励函数评估所述纺织流程操作的价值，决策出最优动作；基于决策得到的所述最优动作，实时更新纺织流程调度计划，所述纺织流程调度计划至少包括：纺织流程中各个环节所执行的纺织流程操作以及纺织工艺参数。

在一种可能实施方式中，该方法还包括如第一方面所提供的基于VR和进化强化学习的纺织流程管理系统中各个模块所执行的对应步骤。

第三方面，提供一种计算设备，该计算设备包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由处理器执行以实现如第二方面提供的基于VR和进化强化学习的纺织流程管理方法。

第四方面，提供一种计算机可读存储介质，该存储介质中存储有至少一段程序，至少一段程序由处理器执行以实现如第二方面提供的基于VR和进化强化学习的纺织流程管理方法。

本申请提供的技术方案至少包括如下技术效果：

本申请提供了一种结合虚拟现实技术和基于进化策略和特征的强化学习算法的纺织全流程管理系统。致力于模拟、优化和管理纺织生产的各个流程，从原材料处理到最终产品的生产。系统利用VR技术提供高度逼真的纺织流程模拟，有效增强用户的交互体验和操作效率。同时，结合ESRL方法，实现对生产流程的智能化优化和自动化管理，使其能够自适应地优化生产操作和提高管理效率。不仅在纺织工艺方面可实现智能化和精准化的数字管理，还能够在工业生产管理和员工培训方面，显著提升管理效率与培训质量。

附图说明

图1是本申请实施例提供的一种基于VR和进化强化学习的纺织流程管理系统的架构图；

图2是本申请实施例提供的一种虚拟纺织画面的示意图；

图3是本申请实施例提供的一种VR交互设备实时交互的示意图；

图4是本申请实施例提供的另一种基于VR和进化强化学习的纺织流程管理系统的架构图；

图5是本申请实施例提供的一种基于VR和进化强化学习的纺织流程管理方法的流程图；

图6是本申请实施例提供的一种计算设备的硬件结构示意图。

具体实施方式

为进一步说明各实施例，本申请提供有附图。这些附图为本申请揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本申请的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上。

现结合附图和具体实施方式对本申请进一步说明。

首先对本申请涉及的一些关键术语进行介绍。

虚拟现实（Virtual Reality，VR）技术用于模拟真实环境，让体验者在虚拟世界身临其境，目前在游戏和模拟训练领域已经得到了广泛应用。

基于进化策略的强化学习（Evolutionary Strategy based ReinforcementLearning, ESRL）技术在解决复杂且动态的决策问题方面已在多个领域展现出其优势，针对需要根据环境反馈进行连续学习和调整的场景可实现良好表现。

基于特征的强化学习（Feature-based Reinforcement Learning，FRL）是一种强化学习 (RL) 的变种，它主要关注于处理状态空间中的特征，而不是直接操作原始状态。传统 RL 使用原始状态空间中的原始数据，这可能是高维度的、具有连续或离散特征的数据。FRL使用预定义的、人工选择的特征来表示状态。这些特征可以是对原始状态进行函数变换的结果，通常是更紧凑的表示。FRL通过选择合适的特征可以显著减小状态表示的维度，从而降低了问题的复杂性，提供更具信息性的表示，从而加速学习过程。

本申请提出了一种纺织流程管理系统及方法，将VR技术、基于进化策略的强化学习以及基于特征的强化学习相结合，可有效解决纺织行业中亟待解决的技术问题。

实施例1

本申请实施例提供了一种基于VR和进化强化学习的纺织流程管理系统，该系统包括：VR纺织模拟模块、数据处理模块和ESRL优化引擎模块。图1是本申请实施例提供的一种基于VR和进化强化学习的纺织流程管理系统的架构图。下面结合图1介绍系统中各个模块的功能和实现原理。

（1）VR纺织模拟模块

本申请实施例中，VR纺织模拟模块用于：通过3D建模和物理引擎创建虚拟纺织环境，通过VR设备显示虚拟纺织操作画面，并实时模拟用户执行的纺织流程操作，获取VR设备的实时交互数据。

本申请实施例中的VR纺织模拟模块是一种创新的虚拟现实技术应用，旨在提供一个高度真实和交互式的纺织流程模拟环境。在一种可能实施方式中，VR纺织模拟模块包括：3D织物模拟单元和VR交互设备。

具体地，3D织物模拟单元用于：通过3D建模和物理引擎模拟织物的物理行为，创建三维虚拟纺织环境，用于描述物理行为的参数至少包括：纹织参数和运动参数。3D织物模拟单元利用高级3D建模和物理引擎，创建精确的织物纹理和运动，提供高真实度的虚拟纺织操作画面。纹织参数例如是：纹样的宽度、高度，织物成品的经密、纬密；经纱数和纬纱数等。

其中，织物的物理行为通过质量-弹簧模型进行模拟，质量-弹簧模型参见公式（1）。

（1）

公式（1）中，是施加在织物上的力，/>是弹簧系数，/>和/>分别是织物的当前位置和平衡位置，/>是阻尼系数，/>是织物的速度；施加在织物上的力通过控制器实时获取。其中，平衡位置是指物体（织物）没有受到外力作用下所处的位置。

具体地，VR交互设备用于：基于三维虚拟纺织环境，通过VR显示设备显示虚拟纺织操作画面，并通过和VR显示设备相连接的控制器获取用户操作参数，模拟纺织流程操作以及织物在纺织流程操作下的物理变化。示例性地，虚拟纺织操作画面跟随人员的移动、头部视角的转动、手持控制器的动作进行实时切换。

VR交互设备包括上述VR显示设备和控制器。示例性地，VR显示设备例如是穿戴式的VR设备，可实时显示虚拟纺织操作画面。VR交互设备用于为用户提供一个沉浸式的操作界面，通过VR可穿戴设备和控制器实现织物模拟的直观控制和互动。例如，用户可以通过VR控制器调整织机参数，或在虚拟环境中直接操作织物。

图2是本申请实施例提供的一种虚拟纺织画面的示意图，图中用显示屏展示了人员的头戴式VR设备中正在实时显示的纺织操作画面，画面中以人员操作的第一视角显示有三维立体的纺织厂房、纺织机器，画面跟随人员的移动、头部视角的转动、手持控制器的动作进行实时切换。

图3是本申请实施例提供的一种VR交互设备实时交互的示意图，图中的人员装备有头戴式VR设备，其可以第一视角体验纺织操作画面，并通过手持的控制器进行相应操作。

在一种可能实施方式中，VR纺织模拟模块还包括：实时渲染单元，该实时渲染单元用于：基于给定的光源环境参数和织物纹理函数，将三维的虚拟纺织环境实时渲染为虚拟现实显示设备中呈现的二维纺织操作画面，实时渲染过程用公式（2）表示。

（2）

本申请实施例提供的系统中，VR技术被用于模拟纺织生产过程，提供一个互动式的虚拟环境，使用户能够在无风险的条件下测试和优化纺织工艺。此外，VR还能用于员工培训，通过模拟各种纺织机械的操作，帮助员工快速掌握必要的技能，从而提高整体生产质量和效率。

本申请实施例所提供的系统中，VR纺织模拟模块负责创建一个沉浸式的虚拟纺织环境，提供真实感很强的纺织流程模拟。其采用先进的3D渲染技术、物理模拟和交互技术，通过VR可穿戴设备和控制器实现织物模拟的直观控制和互动，为用户提供与真实纺织流程相似的交互体验，同时收集用户操作数据作为系统后续优化的输入。

（2）数据处理模块

本申请实施例中，数据处理模块用于：收集来自VR纺织模拟模块的实时交互数据和历史纺织流程数据；采用神经网络模型提取虚拟纺织环境的状态特征信息，状态特征信息至少包括时序特征。在一些其他实施例中，数据处理模块也可称为数据集成与分析模块。

在一种可能实施方式中，实时交互数据包括纺织机器操作参数，历史纺织流程数据包括：生产质量数据、能耗数据、生产效率数据、环境条件数据中至少一项。其中，纺织机器操作参数例如是每个阶段的机器运行速度、温度、湿度等参数；生产质量数据例如是纤维强度、厚度、均匀性等；能耗数据例如是油、电等能源消耗量；生产效率数据例如是出品速度、材料库存数据、原材料使用率等；环境条件数据例如是车间环境的温度、湿度等。

本申请实施例中，数据处理模块用于采用多种神经网络模型分析VR环境中采集到的实时数据和历史数据。具体地，采用卷积神经网络（CNN）和长短时记忆网络（LSTM），对来自实时交互数据和历史纺织流程数据进行时序特征提取。

其中，CNN的时序特征提取过程用公式（3）表示。

（3）

公式（3）中，表示输入CNN的时间序列数据，/>和/>分别为CNN的卷积核参数和偏置项，/>代表卷积操作，/>是CNN的激活函数；

其中，LSTM的时序特征提取过程用公式（4）表示。

（4）

是在时间/>的隐藏状态，/>是在时间/>时的输入数据，/>和/>是LSTM的权重矩阵，是偏置项，/>是LSTM的激活函数。

通过上述过程，CNN能够有效处理和识别复杂数据中的模式和特征，尤其适用于图像和序列数据。LSTM可有效捕捉时间序列中的复杂关系。通过结合所述CNN和LSTM，数据处理模块能够有效地处理和分析VR纺织流程中的复杂数据，支持决策制定和流程优化。

本申请实施例中，数据处理模块用于整合来自VR防止模拟模块和实际生产过程中的数据，对纺织流程的关键指标进行深入分析，也为后续ESRL优化引擎模块提供决策支持，进一步提高生产效率和产品质量。此模块生成的最终目标是提供一个集交互性、高效率和高质量于一体的纺织全流程管理和优化解决方案。

（3）ESRL优化引擎模块

ESRL优化引擎模块用于实现本申请所提出的基于进化策略和特征的强化学习算法，该算法是为纺织流程调度而设计的一种强化学习算法，融合了进化策略在自我优化和决策制定上的优势以及特征提取策略在特征表示上的精准性。ESRL优化引擎模块的主要功能包括下述（3-1）和（3-2）。

（3-1）基于进化策略和特征的强化学习建模

本申请实施例中，ESRL优化引擎模块用于：使用基于进化策略和特征的强化学习算法，将虚拟纺织环境中的纺织流程调度问题转化为马尔科夫决策过程，将状态特征信息作为马尔科夫决策过程的输入状态，构建纺织流程的RL模型。RL模型也即是马尔科夫决策模型。

下面将从三个方面对本申请实施例提供的这种基于进化策略和特征的强化学习算法以及建模流程进行详细介绍。

第一方面：RL基础建模

使用RL来实现纺织全流程的作业调度的关键在于将该调度问题转化为一个马尔科夫决定过程（Markov Decision Process，MDP）。MDP规定了状态、状态转移概率函数、动作和奖励函数。

ESRL优化引擎模块将纺织全流程中的实时机器参数与织料库存等视作状态输入。而当一个操作被调度执行时，它会触发状态转换，以实时更新环境的参数变化至ESRL优化引擎模块。

示例性地，状态转移概率函数被定义为：

（5）

公式（5）中，表示状态转移概率矩阵，/>是当前状态，/>是下一个状态，/>表示动作；表示RL模型在t时刻的状态，/>表示RL模型在/>下执行/>后，在t+1时刻的状态。

奖励函数被定义为：

（6）

公式（6），是预设的奖励折扣因子，/>表示虚拟纺织环境中操作调度或RL模型决策导致的状态转移指标，/>表示/>的/>次幂，/>是RL模型在t时刻的动作，/>是RL模型在t时刻决策引起的关键状态转移指标，/>是RL模型在t+1时刻决策引起的关键状态转移指标，/>表示/>对应的奖励函数值，/>表示/>时刻下执行的动作，/>表示执行动作/>前RL模型的状态；/>表示执行动作/>后RL模型的状态。

在任一次决策时，若两个关键状态转移指标之间的动作为空/>，则状态转移将被忽略，此时奖励函数表示为：

（7）

第二方面：基于特征的强化学习

本申请实施例中，ESRL优化引擎模块用于：采用基于特征的强化学习算法，直接与所建立的虚拟纺织环境进行交互，采用特征提取函数，从状态特征信息中提取出操作特征，作为RL模型的输入状态；特征提取函数构建的操作特征表示为：

（8）

公式（8）中，是操作/>的特征表示，/>是特征提取函数。

在一种可能实施方式中，ESRL优化引擎模块还用于：基于多层感知器MLP计算各个操作特征的得分，根据各个操作特征的得分，更新针对纺织流程的人员操作培训计划。其中，得分的计算过程表示为：

（9）

（10）

（11）

（12）

第三方面：基于进化策略的强化学习

本申请实施例中，ESRL优化引擎模块用于：使用进化策略在RL模型的模型参数空间内探索并优化RL模型的决策策略，优化过程包括：对RL模型的模型参数进行梯度估计，根据估计得到的梯度进行模型参数更新。

其中，梯度估计过程表示为：

（13）

参数更新过程表示为：

（14）

其中，表示梯度估计结果，/>是生成的新参数的组数，/>是噪声标准差，/>是随机噪声，/>是t时刻的模型参数，/>代表适应度函数；/>和/>是更新前后的模型参数，/>是预设的学习率，适应度函数用于评估纺织流程的RL模型在给定虚拟纺织环境下的性能表现，性能表现的考量因素包括：纺织成品质量和纺织出品效率。

进一步地，适应度函数被定义为：

（15）

可以理解地，考量因素包括纺织成品质量和纺织出品效率是根据最开始的输入数据确定的，输入数据包括生产质量数据和生产效率数据。同理，如果输入其他类型的数据，则考量因素会包括其他的因素，本申请不局限于此。

本申请使用进化策略来优化RL模型，进化策略的优势在于其独特的进化机制，通过模拟生物进化过程中的变异和自然选择，进化策略能够在参数空间内探索并优化模型的决策策略。进化算法能够在没有明确梯度指导的情况下，有效地逼近最优解。这种方法在处理纺织流程中的非线性和不确定性问题时尤为有效。

（3-2）基于强化学习模型的纺织流程决策

本申请实施例中，ESRL优化引擎模块还用于：通过RL模型的状态转移概率函数，模拟实时执行的纺织流程操作带来的状态变化，并通过RL模型的奖励函数评估纺织流程操作的价值，决策出最优动作；基于决策得到的最优动作，实时更新纺织流程调度计划，纺织流程调度计划至少包括：纺织流程中各个环节所执行的纺织流程操作以及纺织工艺参数。

其中，各个环节例如是经编车间、纬编车间、整经、纺纱机、染色机和数码印花等流程。纺织工艺参数例如是材料张力、机器运行速度、车间温度和湿度等参数。

在一种可能实施方式中，针对纺织流程中任一存在空闲机器的工艺环节，若包括多个候选纺织流程操作，则通过RL模型的状态转移概率函数，分别模拟实时执行各个候选纺织流程操作带来的状态变化，并通过RL模型的奖励函数评估多个候选纺织流程操作的价值，从中决策出最优动作作为下一步要执行的操作；若仅包括一个候选纺织流程操作，则直接将一个候选纺织流程操作确定为下一步要执行的操作。

具体地，对于空闲机器含有且仅含有一个候选操作时，RL模型不需要采取动作以评估该操作价值，而是直接执行候选操作。而对于含有多个候选操作的空闲机器，RL将以一定的状态转移概率执行相关动作。

本申请实施例提供的ESRL优化引擎模块使用进化策略优化的深度强化学习算法对纺织流程进行分析和优化，能够根据实时数据和历史数据，动态调整纺织调度计划，实现生产过程的自我优化和决策制定。因此，本申请实施例提供的技术针对VR纺织全流程，不仅能适应不同类型的纺织材料和设计要求，还能实时监控和调整生产线的各个环节，结合VR技术，ESRL能够预测和模拟不同纺织方案对成品质量和效率的影响，从而实现更精确和高效的生产调度。

为了便于理解上述各种可能实施方式所描述的系统架构，本申请实施例提供了另一种基于VR和进化强化学习的纺织流程管理系统的架构图，参见图4。

如图4所示，纺织全流程环境包含全流程模拟器和动态数据，动态数据包括例如车间设备和治疗库存等环境数据；系统中的VR纺织模拟模块从纺织全流程环境中获取数据以提供实时互动，并将实时交互数据传传输给数据集成与分析模块进行处理；数据集成与分析模块所产生的数据同时会反馈给纺织全流程环境；同时系统中的多层感知器基于纺织全流程环境提供的数据进行评分，评分结果输入至ESRL优化引擎模块作为参考；ESRL优化引擎模块中采用FRL进行学习，选择出最优调度指令反馈至纺织全流程环境；同时，ESRL优化引擎模块中采用进化策略对RL模型参数进行优化；具体地，优化后的RL策略会周期性注入到种群中参与种群进化，若优化后的RL策略优于种群当前策略，那么该RL策略则会促进种群的进化，否则该RL策略会淘汰掉。

本申请实时提供的技术方案中，ESRL优化引擎模块能够实时分析生产数据，通过预测未来的生产需求和潜在的瓶颈，自动调整生产计划。这种智能调度不仅提高生产效率，还降低能源消耗和原材料浪费。针对本系统预期实现的流程模拟、人员培训、智能调度，ESRL优化引擎模块有效地提升系统的整体性能。

在流程模拟环节，使用进化策略的梯度估计和参数更新，使系统能够更加精准地模拟和优化纺织生产流程，从而提高生产效率和减少资源浪费。

对于人员培训，系统通过特征提取函数和多层感知器得分计算公式，实现了培训内容的实时调整和个性化，提高培训的有效性和针对性。

在智能调度方面，通过适应度函数和实时生产数据分析，系统能够自动调整生产计划，优化资源分配，以满足市场需求，同时提升生产效率和降低成本。这种综合性的优化手段，为纺织业的生产管理和效率提升提供有力的技术支撑。

实施例2

本申请实施例提供了一种基于VR和进化强化学习的纺织流程管理方法，该方法应用于实施例1所提供的系统中。方法包括下述步骤S1至步骤S4。

S1、VR纺织模拟模块通过3D建模和物理引擎创建虚拟纺织环境，通过VR设备显示虚拟纺织操作画面，并实时模拟用户执行的纺织流程操作，获取VR设备的实时交互数据。

在一种可能实施方式中，步骤S1包括：

S11、3D织物模拟单元通过3D建模和物理引擎模拟织物的物理行为，创建三维虚拟纺织环境，用于描述所述物理行为的参数至少包括：纹织参数和运动参数；

S12、述VR交互设备基于所述三维虚拟纺织环境，通过VR显示设备显示虚拟纺织操作画面，并通过和所述VR显示设备相连接的控制器获取用户操作参数，模拟纺织流程操作以及织物在纺织流程操作下的物理变化；织物的物理行为通过质量-弹簧模型进行模拟，参考公式（1）。

S13、实时渲染单元基于给定的光源环境参数和织物纹理函数，将三维的虚拟纺织环境实时渲染为所述虚拟现实显示设备中呈现的二维纺织操作画面，实时渲染过程参考公式（2）。

S2、数据处理模块收集来自VR纺织模拟模块的实时交互数据和历史纺织流程数据；采用神经网络模型提取虚拟纺织环境的状态特征信息，状态特征信息至少包括时序特征。

在一种可能实施方式中，步骤S2包括：数据处理模块采用卷积神经网络和长短时记忆网络，对来自所述实时交互数据和历史纺织流程数据进行时序特征提取。

S3、ESRL优化引擎模块使用基于进化策略和特征的强化学习算法，将虚拟纺织环境中的纺织流程调度问题转化为马尔科夫决策过程，将状态特征信息作为马尔科夫决策过程的输入状态，构建纺织流程的RL模型。

在一种可能实施方式中，所述步骤S3包括：

S31、所述ESRL优化引擎模块采用基于特征的强化学习算法，直接与所建立的所述虚拟纺织环境进行交互，采用特征提取函数，从所述状态特征信息中提取出操作特征，作为所述RL模型的输入状态；所述特征提取函数构建的操作特征表示为：；是操作/>的特征表示，/>是特征提取函数。

S32、所述ESRL优化引擎模块使用进化策略在所述RL模型的模型参数空间内探索并优化所述RL模型的决策策略，所述优化过程包括：对RL模型的模型参数进行梯度估计，根据估计得到的梯度进行模型参数更新。

在一种可能实施方式中，方法还包括：所述ESRL优化引擎模块基于多层感知器（MLP）计算各个操作特征的得分，根据各个操作特征的得分，更新针对所述纺织流程的人员操作培训计划；

S4、ESRL优化引擎模块通过RL模型的状态转移概率函数，模拟实时执行的纺织流程操作带来的状态变化，并通过RL模型的奖励函数评估纺织流程操作的价值，决策出最优动作；基于决策得到的最优动作，实时更新纺织流程调度计划，纺织流程调度计划至少包括：纺织流程中各个环节所执行的纺织流程操作以及纺织工艺参数。

在一种可能实施方式中，步骤S4包括：ESRL优化引擎模块针对纺织流程中任一存在空闲机器的工艺环节，若包括多个候选纺织流程操作，则通过所述RL模型的状态转移概率函数，分别模拟实时执行各个候选纺织流程操作带来的状态变化，并通过所述RL模型的奖励函数评估所述多个候选纺织流程操作的价值，从中决策出最优动作作为下一步要执行的操作；若仅包括一个候选纺织流程操作，则直接将所述一个候选纺织流程操作确定为下一步要执行的操作。

图5是本申请实施例提供的一种基于VR和进化强化学习的纺织流程管理方法的流程图，参见图5，首先，系统初始化纺织全流程中的原始参数与状态。根据这些参数，用户通过可穿戴设备在生成的VR纺织全流程环境中进行交互操作，系统收集这些交互行为并更新对应数据。随后，数据集成与分析模块深度分析VR场景所返回的用户交互数据以及更新后的各流程参数，并使用卷积神经网络和长短时记忆网络来识别关键生产指标和特征，以供后续的ESRL优化引擎模块分析决策。接着，系统启用ESRL优化引擎模块，判断仍然有机器等待操作后，使用进化策略优化的强化学习算法来分析这些数据。通过不断迭代和自然选择过程，优化模型参数，以找到最佳的生产决策策略。新的决策策略将导致全流程环境的数据变更，在找到最佳的生成决策之前，上述步骤将自动迭代。

方法流程的核心在于高效地整合VR技术和ESRL算法。通过这种整合，能够将从VR模拟中获得的直观数据与ESRL引擎的深度学习分析相结合，从而实现对整个生产流程的全面优化。这种融合可以提高生产灵活性和效率。同时，ESRL中两种算法的结合也能够利用进化算法的全局搜索能力和强化学习的环境适应性。进化算法提供了一种有效的全局参数优化方法，而FRL则利用这些优化后的参数来做出具体的操作决策。这种联动不仅加速学习过程，还增强模型在面对VR环境中的未知挑战和动态变化时的鲁棒性。

上述实施例2中提供的基于VR和进化强化学习的纺织流程管理方法中和实施例1中基于VR和进化强化学习的纺织流程管理系统属于同一构思，方法实施例的具体实现过程详见系统实施例，这里不再赘述。

本申请提供了一种计算设备，可实现为基于VR和进化强化学习的纺织流程管理方法及系统中的任意模块，用于执行基于VR和进化强化学习的纺织流程管理方法中的任意步骤。图6是本申请实施例提供的一种计算设备的硬件结构示意图，如图6所示，该计算设备包括处理器601、存储器602、总线603、以及存储在所述存储器602中并可在所述处理器601上运行的计算机程序，处理器601包括一个或一个以上处理核心，存储器602通过总线603与处理器601相连，存储器602用于存储程序指令，所述处理器执行所述计算机程序时实现本申请提供的上述方法实施例中的全部或部分步骤。

进一步地，作为一个可执行方案，上述计算设备可以是计算机单元，该计算机单元可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机单元可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述计算机单元的组成结构仅仅是计算机单元的示例，并不构成对计算机单元的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件。例如所述计算机单元还可以包括输入输出设备、网络接入设备、总线等，本申请实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元（CentralProcessing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机单元的控制中心，利用各种接口和线路连接整个计算机单元的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机单元的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例上述方法的步骤。

所述计算机单元集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本申请，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本申请的精神和范围内，在形式上和细节上可以对本申请做出各种变化，均为本申请的保护范围。

Claims

1.一种基于虚拟现实和进化强化学习的纺织流程管理系统，其特征在于，所述系统包括：VR纺织模拟模块、数据处理模块和ESRL优化引擎模块；

所述ESRL优化引擎模块用于：使用基于进化策略和特征的强化学习算法，将所述虚拟纺织环境中的纺织流程调度问题转化为马尔科夫决策过程，将所述状态特征信息作为所述马尔科夫决策过程的输入状态，构建纺织流程的RL模型；

2.根据权利要求1所述的系统，其特征在于，所述VR纺织模拟模块包括：3D织物模拟单元和VR交互设备；

其中，是施加在织物上的力，/>是弹簧系数，/>和/>分别是织物的当前位置和平衡位置，是阻尼系数，/>是织物的速度；施加在织物上的力通过所述控制器实时获取。

3.根据权利要求2所述的系统，其特征在于，所述VR纺织模拟模块还包括：实时渲染单元，所述实时渲染单元用于：

其中，代表像素点的最终颜色，/>为光源亮度，/>为织物纹理函数，/>为光的波长，/>为光的波长的索引，表示遍历/>种波长的光进行求和。

4.根据权利要求1所述的系统，其特征在于，所述实时交互数据包括纺织机器操作参数，所述历史纺织流程数据包括：生产质量数据、能耗数据、生产效率数据、环境条件数据中至少一项；

所述数据处理模块用于：采用卷积神经网络CNN和长短时记忆网络LSTM，对来自所述实时交互数据和历史纺织流程数据进行时序特征提取；

所述CNN的时序特征提取过程用公式表示为：

；

其中，表示输入CNN的时间序列数据，/>和/>分别为CNN的卷积核参数和偏置项，/>代表卷积操作，/>是CNN的激活函数；

所述LSTM的时序特征提取过程用公式表示为：

；

5.根据权利要求1所述的系统，其特征在于，所述ESRL优化引擎模块用于：

所述状态转移概率函数被定义为：

所述奖励函数被定义为：

其中，是预设的奖励折扣因子，/>表示所述虚拟纺织环境中操作调度或RL模型决策导致的状态转移指标，/>表示/>的/>次幂，/>是RL模型在t时刻的动作，/>是RL模型在t时刻决策引起的关键状态转移指标，/>是RL模型在t+1时刻决策引起的关键状态转移指标，表示/>对应的奖励函数值，/>表示/>时刻下执行的动作，/>表示执行动作/>前RL模型的状态；/>表示执行动作/>后RL模型的状态；

。

6.根据权利要求1所述的系统，其特征在于，所述ESRL优化引擎模块用于：

采用基于特征的强化学习算法，直接与所建立的所述虚拟纺织环境进行交互，采用特征提取函数，从所述状态特征信息中提取出操作特征，作为所述RL模型的输入状态；所述特征提取函数构建的操作特征表示为：

；

其中，是操作/>的特征表示，/>是特征提取函数。

7.根据权利要求6所述的系统，其特征在于，所述ESRL优化引擎模块还用于：

所述得分的计算过程表示为：

8.根据权利要求1所述的系统，其特征在于，所述ESRL优化引擎模块用于：

参数更新过程表示为：

其中，表示梯度估计结果，/>是生成的新参数的组数，/>是噪声标准差，/>是随机噪声，是t时刻的模型参数，/>代表适应度函数；/>和/>是更新前后的模型参数，/>是预设的学习率，所述适应度函数用于评估所述纺织流程的RL模型在给定虚拟纺织环境下的性能表现，所述性能表现的考量因素包括：纺织成品质量和纺织出品效率。

9.根据权利要求8所述的系统，其特征在于，所述适应度函数被定义为：

10.一种基于虚拟现实和进化强化学习的纺织流程管理方法，其特征在于，所述方法包括：