CN117669984A

CN117669984A - 基于数字孪生及知识图谱的强化学习的车间调度方法

Info

Publication number: CN117669984A
Application number: CN202311750332.7A
Authority: CN
Inventors: 郭洪飞; 欧阳雅捷; 曾云辉; 任亚平; 何智慧; 阎龙; 朝宝
Original assignee: Guangdong Yunentropy Technology Co ltd; Jinan University
Current assignee: Guangdong Yunentropy Technology Co ltd; Jinan University
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-08

Abstract

本发明提出了基于数字孪生及知识图谱的强化学习的车间调度方法，包括：建立数据接收与存储结构收集多模态数据，根据多模态数据生成标签和元数据，并利用图模型的连接性预测与现有数据相关的标签和元数据；对生成的标签和元数据进行数据质量评估与过滤，所述数据质量评估是根据数据质量评分进行评估；设计多层次车间状态表示并建立车间数字孪生模型；构建知识图谱和可解释强化学习模型；根据可解释强化学习模型生成决策逻辑和解释决策逻辑；根据决策逻辑和车间数字孪生模型搭建实验环境并评估实验性能。本发明综合性地解决了车间调度的效率、成本和解释性问题。

Description

基于数字孪生及知识图谱的强化学习的车间调度方法

技术领域

本发明属于人工智能技术领域，尤其涉及基于数字孪生及知识图谱的强化学习的车间调度方法。

背景技术

车间调度作为制造业核心环节，具有举足轻重的地位，它的性能直接影响到制造成本、交货时间和资源利用率等多个关键指标。传统车间调度解决方案主要集中在基于优先级的规则调度和数学规划算法，如整数规划、遗传算法等。这些方法在处理静态或者低动态的生产环境时表现尚可，但当面对高度动态、复杂的生产环境时，这些方法通常表现出明显的局限性。

例如，优先级规则往往是基于人为设定的，对于未见过的场景或者复杂的多目标优化问题，这样的规则常常难以给出优秀的解决方案。数学规划方法虽然能够更系统地描述问题，但求解过程计算复杂，尤其在遇到大规模问题时，求解时间会变得无法接受。

与此同时，随着数字化和智能化技术的不断发展，新兴的技术如数字孪生和知识图谱逐渐走入人们的视野。数字孪生能为物理系统提供一个高度准确的数字复制，但在车间调度领域，其主要用途还仅限于单一过程的模拟和优化，尚未和全局的调度问题进行深度整合。知识图谱则有助于表示和处理复杂的系统关系，但也同样未被广泛应用于调度问题。

此外，现有的调度方案大多数缺乏解释性，这导致车间操作人员和管理者很难理解调度算法的决策依据，进而影响其对系统的信任和依赖。

因此，现有的车间调度技术在面对复杂、动态生产环境时，既缺乏有效性也缺乏灵活性和解释性，急需一种全新的解决方案来弥补这些不足。

发明内容

本发明的目的设计基于数字孪生及知识图谱的强化学习的车间调度方法，通过实时数据同步，不仅能够实现车间环境与调度系统之间的高度一致性，还能对复杂的生产流程和资源依赖关系进行高效管理和优化。更重要的是，该方案采用的可解释强化学习算法可以生成透明且容易理解的调度决策，大幅提升了整个系统的智能水平和用户信任度。

为了达到上述目的，在本发明提供1、基于数字孪生及知识图谱的强化学习的车间调度方法，所述方法包括：

S1、建立数据接收与存储结构收集多模态数据，根据多模态数据生成标签和元数据，并利用图模型的连接性预测与现有数据相关的标签和元数据；

所述根据多模态数据生成标签和元数据，具体指：

对收集到的每个数据点，使用基于图模型的预先训练好的分类器进行标签生成，表示如下：

L＝f_tag(D,G)

其中，L表示生成的标签，f_tag()表示基于图模型的标签生成函数，D表示原始数据，G表示现有的知识图谱；

最后为每个数据点生成元数据；

S2、对生成的标签和元数据进行数据质量评估与过滤，所述数据质量评估是根据数据质量评分进行评估，所述数据质量评分表示如下：

Q＝g_quality(D,M,T)

其中，Q表示数据质量评分，g_quality表示评分函数，M表示数据的元数据，T表示时间因素；

S3、设计多层次车间状态表示并建立车间数字孪生模型，包括：

S301、识别关键数据源；

S302、设计数据融合代理采集数据，其中，每一个数据融合代理负责采集特定类型的数据；

S303、定义多层次车间状态表示，构建车间数字孪生模型，具体包括：

使用数据融合代理收集的数据，生成基础生产数据矩阵工作流程信息矩阵环境参数矩阵ε和人员动态矩阵/>然后利用时间序列分解处理基础生产数据矩阵/>工作流程信息矩阵/>环境参数矩阵ε和人员动态矩阵/>获取车间状态特征，其中，所述时间序列分解表示为：

其中，表示处理后的基础生产数据矩阵，λ表示STL的平滑参数，利用这些处理后的数据矩阵，使用高维张量T_MLWSR进行多层次车间状态表示，通过形成高维张量T_MLWSR从而形成一个车间数字孪生模型；

S4、构建知识图谱并实现动态更新，具体包括：

S401、利用自然语言处理工具对文档进行分析，识别实体和关系，手动校验并调整自然语言处理工具的输出，生成初步的知识图谱原型，表示如下：

其中，表示知识图谱关系，V表示实体的集合，E表示关系的集合；

S402、根据知识图谱的原型构建动态知识图谱；

S403、使用基于强化学习的算法来实时更新动态知识图谱；

S5、构建并训练可解释强化学习模型；

S6、根据可解释强化学习模型生成决策逻辑和解释决策逻辑；

S7、根据决策逻辑和车间数字孪生模型搭建实验环境并评估实验性能。

进一步地，所述数据质量评分Q的评估数据质量指标包括：完整性、一致性、时效性和准确性；

根据所述评估数据质量指标计算的评估数据质量指标得分包括：完整性得分、一致性得分、时效性得分和准确性得分；

得出数据质量评分Q为：

Q＝a*Completeness Score+b*Consistency Score+c*Timeliness Score+d*Accuracy Score

即

g_quality(D,M,T)＝b*Completeness Score+b*Consistency Score+c*TimelinessScore+d*Accuracy Score

其中，a，b，c，d分别表示完整性得分、一致性得分、时效性得分和准确性得分的权重，且a+b+c+d＝1；Completeness Score表示完整性得分；Consistency Score表示一致性得分；Timeliness Score表示时效性得分；Accuracy Score表示准确性得分。

进一步地，所述数据接收与存储结构包括：

多模态传感器模块，用于对多模态传感器进行数据采集把通过IoT设备进行标准化；

实时数据预处理模块，用于对数据进行预处理；

安全数据传输模块，用于对数据进行加密传输；

数据接收与解码模块，用于在中心服务器上解码和解析接收到的数据；

数据集存储模块，用于存储实时数据并用关系型数据存储配置数据；

数据访问模块，用于开发RESTful API以供外部应用和服务访问数据；

数据分析模块，用于对数据进行深度分析。

进一步地，所述数据融合代理的数学模型表示如下：

DFA_i＝φ_i(DS_i,τ_i)

其中，DFA_i表示第i个数据融合代理，φ_i表示数据收集函数，DS_i表示负责的数据源，τ_i表示数据收集时间间隔。

进一步地，所述动态知识图谱更新规则表示如下：

其中，表示时刻t+1的知识图谱，RL表示基于强化学习的图谱更新函数，MLWSR_t+1表示时刻t+1的多层次车间状态表示。

进一步地，所述步骤S5，具体包括：

S501、用深度神经网络来学习车间的状态表示和动态知识图谱，利用决策树或规则引擎来提取特定的规则或模式，用于解释神经网络的决策逻辑，其中，所述可解释强化学习模型表示如下：

f(x)＝DNN(x)×DT(x)

其中，f(x)表示最终的决策函数，DNN(x)表示深度神经网络部分，DT(x)表示决策树部分；

S502、使用车间历史数据和模拟器生成的数据，对可解释强化学习模型进行预训练，

S503、利用实时收集的数据和反馈来微调模型，同时使用多目标优化算法来考虑模型性能和可解释性，其中，所述多目标优化算法表示如下：

其中，μ表示权重系数，和/>分别表示性能和可解释性的损失函数，θ表示模型参数。

进一步地，所述S6，具体包括：

S601、利用可解释强化学习模型生成决策逻辑，将策略转换成语言或规则，其中，所述决策逻辑的表达式如下所示：

IF(condition₁∧condition₂∧…)THEN action

其中，condition_i是决策条件，action是对应的操作；

S602、采用SHAP的方法，对生成决策逻辑进行深入的解释，其中所述SHAP的值表示如下：

其中，φ_j表示特征j的SHAP值，f(S)表示给定特征集S的预测值，N表示所有特征的集合，S表示车间状态和操作的各种组合。

进一步地，所述步骤S7，具体包括：

S701、使用硬件在环技术，整合实际车间设备和车间数字孪生模型，形成一个实物-数字模拟环境，部署决策逻辑和车间数字孪生模型；

S702、设计考虑多个生产和性能的多目标优化函数F(x)，表示如下：

F(x)＝α×效率+T×能效-γ×设备磨损

其中，α,β,γ表示各指标的权重系数；

S703、使用深度学习和统计方法进行数据分析；

S704、根据收集的数据和定义的多目标优化函数，评估实验结果的成功度，生成详细的实验报告。

进一步地，所述深度学习和统计方法包括时间序列分析和异常检测，其中，所述时间序列分析的模型表示为：

h_t＝f_W(h_t-1,x_t)

其中，h_t表示在时间t的隐藏状态，x_t表示在时间t的输入，h_t-1表示在时间t-1的隐藏状态。

进一步地，还包括，S8、使用Docker容器化技术部署模型与知识图谱，实时对数据流处理和反馈，并动态调整决策逻辑，使用深度学习生成模型检测异常行为或决策失误。

本发明的有益技术效果至少在于以下几点：

(1)本发明通过基于数字孪生及知识图谱的强化学习的车间调度方法，实现了高效、智能和可解释的生产管理。首先，数据收集和预处理步骤为整个系统提供了精确和实时的基础数据。这些数据进一步用于构建数字孪生模型，该模型精确地反映了车间的实际运营状态，并为后续的强化学习模型提供了可靠的输入。然后，知识图谱用于描述和解析车间内部的复杂关系，从而提供更高级的分析和优化手段。在此基础上，设计和训练了一个可解释的强化学习模型，它不仅能生成有效的调度策略，还能为每一项决策提供清晰的解释。最后，通过实验验证和性能评估来证实该方案在提高生产效率、降低成本以及增强决策透明度方面的优势。每个步骤都是为了实现更高的调度效率和决策透明度而设计的，相互之间存在密切的逻辑联系和数据流动，共同服务于整个专利的核心目标。

(2)本发明利用数字孪生技术，实时采集车间数据并构建一个动态的车间状态表示。这不仅解决了传统方法中数据时效性差的问题，还为强化学习提供了更准确的状态输入。

(3)在车间状态的基础上，构建知识图谱来显式地表达车间内各工序和设备之间的依赖关系。这不仅帮助强化学习模型理解车间内的复杂关系，也为后续的优化提供了更丰富的信息。

(4)本发明在车间状态的基础上，构建知识图谱来显式地表达车间内各工序和设备之间的依赖关系。这不仅帮助强化学习模型理解车间内的复杂关系，也为后续的优化提供了更丰富的信息。

(5)通过数字孪生和知识图谱的互动更新，实现了车间状态与调度策略的同步优化。数字孪生提供准确的状态信息用于图谱更新，而图谱则通过挖掘关系和提供优化建议来改善数字孪生模型。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明基于数字孪生及知识图谱的强化学习的车间调度方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在一个或多个实施方式中，如图1所示，公开了本发明基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述方法包括：

S1、建立数据接收与存储结构收集多模态数据，根据多模态数据生成标签和元数据，并利用图模型的连接性预测与现有数据相关的标签和元数据。

使用基于图模型的机器学习算法，在数据收集阶段自动为各类型数据生成标签和元数据。利用图模型的连接性来预测与现有数据相关的标签和元数据，从而增加数据的可用性。

具体地，所述多模态数据，具体包括使用IoT设备收集环境参数和机械数据、部署视觉传感器捕捉车间内各工作站的图像信息和使用音频传感器捕捉车间环境声音。

其中，所述根据多模态数据生成标签和元数据，具体指：

L＝f_tag(D,G) (1)

然后为每个数据点生成元数据。

其中，对所述标签生成函数进行解释，如下所示：

(1)图扩展：首先，将数据点D添加到图G中。每个数据点成为一个新的节点，通过相似度度量与图中现有的节点连接。

(2)节点特征设置:对于G中的每一个节点，有一组特征向量，这是根据数据点D计算出来的。

(3)图嵌入：接下来，用图神经网络对G进行嵌入。这样，每个节点(包括新添加的和原始的)都会有一个低维的嵌入向量。

E＝GNN(G)

其中，E是嵌入向量集合。

(4)标签预测:最后，用一个分类器(决策树)对每个新嵌入向量进行标签预测。

L＝Classifier(E)

综合上述步骤，f_tag(D,G)函数可以写成:

L＝f_tag(D,G)＝Classifier(GNN(G))。

具体地，所述数据接收与存储结构的结构包括：

多模态传感器模块，用于对多模态传感器进行数据采集把通过IoT设备进行标准化；利用多模态传感器(温度、湿度、振动、图像和声音等)进行数据采集。这些传感器应通过工业IoT标准进行标准化。

实时数据预处理模块，用于对数据进行预处理；在数据发送到中心服务器之前进行缓存和基本清洗，比如去除异常值、数据规范化等。

安全数据传输模块，用于对数据进行加密传输；使用基于TLS/DTLS的安全传输层进行数据的加密传输。

数据接收与解码模块，用于在中心服务器上解码和解析接收到的数据；在中心服务器上解码和解析接收到的数据。

数据集存储模块，用于存储实时数据并用关系型数据存储配置数据；利用时序数据库如InfluxDB存储实时数据，并用关系型数据库如PostgreSQL存储配置数据和元数据。

数据访问模块，用于开发RESTful API以供外部应用和服务访问数据；开发RESTful API以供外部应用和服务访问数据。

数据分析模块，用于对数据进行深度分析。利用机器学习和数据分析方法进行深度数据分析。

具体地，其中标签与元数据生成具体为：

(1)对每个收集到的数据点，使用基于图模型的预先训练好的分类器进行标签生成。

其中，数据点表示个或一组测量值，例如温度传感器每分钟生成的温度数值或者摄像头生成的每一帧图像。

标签的实际形式例如：

1.标识设备或工作站：即数据来源于车间内的哪个设备或工作站。

2.工序类别：如钻孔、焊接等，描述这个数据点代表的生产步骤。

3.产品信息：如产品类型、批次号等。

4.时间戳：记录数据收集的具体时间。

5.状态标签：表示车间或设备的运行状态，如“正常”、“待机”、“故障”等。

(2)根据数据来源、类型和时间戳等信息，为每个数据点生成元数据。元数据来源标签：标注这个数据点是来自哪个设备或工作站。数据类型标签：标注这个数据点是属于哪种类型(例如温度读数、压力读数等)。时间戳：记录这个数据点何时被生成或收集。

具体比如在实际的在JSON格式中，可能看起来像这样：{"source":"Machine_1","type":"Temperature","timestamp":"2023-10-14T12:34:56Z"}

S2、对生成的标签和元数据进行数据质量评估与过滤。

使用基于时间序列分析的实时算法对数据的质量进行评估，并过滤掉低质量数据。如果数据质量评分低于预定阈值，该数据点将被标记为低质量并过滤掉。将收集到的高质量数据通过统计方法(如归一化、标准化)进行预处理。

转换数据为知识图谱可接受的格式，比如RDF三元组或JSON-LD。

输出高质量、标签化、元数据丰富的数据集，作为知识图谱构建的基础；数据质量和标签报告用于知识图谱的元数据层。

具体地，实时的质量评估算法将利用机器学习模型进行预测，模型会随着新数据的加入而更新，其中，步骤使用的数据质量评分:

Q＝g_quality(D,M,T) (2)

其中，Q表示数据质量评分，g_quality表示评分函数，M表示数据的元数据，T表示时间因素。

具体地，g_quality函数的含义解释如下：

g_quality:这是一个评估数据质量的函数。它根据输入的数据点D，其对应的元数据M，以及时间因素T来计算一个质量评分。

D:代表原始数据点，可能是来自车间传感器的读数或其他数据源。

M:表示与数据点D相关的元数据，可能包括数据来源、数据类型、时间戳等。

T:代表时间因素，可能是数据点的时间戳或是与数据收集时间相关的其他信息。

其中，对于数据质量评分的计算如下：

(1)定义一系列用于评估数据质量的指标，例如:

完整性(Completeness)：检查每个数据点是否完整，例如没有缺失的重要字段。

一致性(Consistency)：检查数据是否与其他数据或预定义标准一致。

时效性(Timeliness)：评估数据的新鲜度，是否及时更新。

准确性(Accuracy)：评估数据是否准确，没有误差。

(2)计算各项指标的得分：

对于每个数据点D和其对应的元数据M，按照以下方法计算各指标的得分：

完整性得分：如果所有必需字段都有值，则得分最高。如果缺少某些字段，得分按缺少的重要性比例减少。

一致性得分：与其他数据或标准进行比较，得分基于一致性的比例。

时效性得分：根据数据的时间戳T和当前时间的差异计算。差异越小，得分越高。

准确性得分:可以通过与已知标准或历史数据进行比较来评估。如果差异小于某个阈值，则得高分。

得出数据质量评分Q为：

Q＝a*Completeness+b*Consistency Scpre+c*Timeliness Score+d*AccuracyScore

即

g_quality(D,M,T)＝a*Completeness Score+b*Consistency Score+c*TimelinessScore+d*Accuracy Score

其中，a，b，c，d分别表示完整性得分、一致性得分、时效性得分和准确性得分的权重，且a+b+c+d＝1；Completeness Score表示完整性得分；Completeness Score表示一致性得分；Timeliness Score表示时效性得分；Accuracy Score表示准确性得分。

如果假设这里假设指标同等重要，因此每个指标的权重为0.25。如果某些指标更重要，可以调整权重。

(3)应用评分阈值：

定义一个质量评分的接受阈值，例如0.75。只有当数据点的Q值高于此阈值时，才会将其用于后续的分析和决策。

复杂的决策逻辑依赖于高质量的数据输入。这个质量评分方案确保了进入强化学习模型和车间数字孪生模型的数据都是准确可靠的，从而提高整个系统的性能和可信度。

S301、数据整合与MLWSR生成，识别关键数据源，数据源识别与整合利用分布式数据采集系统，即数据融合代理(DFA，Data Fusion Agent)，来从各种不同类型和来源的数据中获取信息。

其中，识别关键数据源：机器状态传感器、ERP系统、环境传感器、员工轨迹系统等。

数据融合代理会按照预定义的规则和频率，从这些数据源收集数据。

数据融合代理的数学模型:

DFA_i＝φ_i(DS_i,τ_i) (3)

其中，DFA_i是第i个数据融合代理，φ_i是其数据收集函数，DS_i是其负责的数据源，τ_i是数据收集时间间隔。

具体地，所提到的特定类型具体包括：

设备运行数据：如各机器的运行状态、故障记录、维护日志、能耗数据等。

生产流程数据：包括生产线的运作情况、生产速度、产品质量控制数据、生产过程中的关键事件记录等。

环境数据：如车间的温度、湿度、噪声水平等环境参数。

物料和库存数据：原材料的使用情况、库存水平、物料流动速度等。

人员数据：员工的工作安排、操作效率、技能水平等信息。

质量控制数据：产品质量检测结果、废品率、返工率等数据。

其中，每个代理可能专门负责某一种或几种类型的数据采集和处理。例如，一个代理可能专门处理所有与设备运行相关的数据，而另一个代理可能处理生产流程相关的数据。这种分工使得数据收集和处理更为高效和专业化，同时也为构建准确和全面的数字孪生模型提供了必要的数据支持。

S303、引入时间序列分解，以获得更准确的车间状态特征，定义多层次车间状态表示，具体包括：

其中，表示处理后的基础生产数据矩阵，λ表示STL的平滑参数，利用这些处理后的数据矩阵，使用高维张量T_MLWSR进行多层次车间状态表示，获取多层次车间状态表示张量TMLWSR实质上是在创建一个综合的、数据驱动的车间数字模型，这个模型通过整合关键的生产数据、工作流程、环境参数和人员动态等多个维度的信息，能够准确反映和模拟实际车间的运行状态和动态，从而实现了车间数字孪生模型的建立。

具体地，张量通常用来表示多维数据数组，一个高维张量是一个超过两维的张量。例如，三维张量可以被视为多个矩阵堆叠在一起，四维张量则是多个三维张量堆叠起来，以此类推。

S4、构建知识图谱并更新，使用基于自然语言处理的工具来自动识别生产流程中的关键实体和关系，减少手工标注，具体包括：

S401、利用自然语言处理工具对文档进行分析，识别实体和关系，手动校验并调整自然语言处理工具的输出，生成初步的知识图谱的原型，表示如下：

其中，表示知识图谱关系，V表示实体的集合，E表示关系的集合。

具体地，自然语言处理工具主要用来做三个事情：

实体识别：从文档中识别关键实体，如设备名称、工作站、部件等。

关系提取：确定文档中提到的实体之间的关系，例如哪些部件属于哪台机器，哪些任务由哪个工作站完成等。

文档摘要：自动生成文档的摘要或关键点。

具体的工具有：Google的BERT、OpenAI的GPT系列、斯坦福NLP库等。

S402、根据知识图谱的原型构建动态知识图谱；

具体地，生成知识图谱原型的具体步骤为：

步骤1:对NLP工具的输出进行初步评估：

准确度检查：对NLP工具自动识别出的实体和关系进行检查，评估其准确度。

覆盖范围检查：确定NLP工具是否已经涵盖了所有需要的实体和关系。

步骤2:数据审计：

实体审计：对每一个识别出的实体进行详细的审计，查看其在生产流程中的具体作用。

关系审计：对识别出的关系进行更细致的审查，包括但不限于，这些关系是否都是必需的，或者是否有遗漏。

步骤3:手动修正：

实体修正：如果在步骤1或步骤2中发现了错误或遗漏，可以手动添加或删除实体。

关系修正：同理，对于关系也进行必要的添加或删除。

步骤4:再次评估：

在完成所有的手动修正后，再次进行准确度和覆盖范围的评估。

可能需要回到步骤1，进行多次迭代，直到达到满意的准确度和覆盖范围。

步骤5:生成知识图谱原型：

使用修正和验证后的实体和关系数据来生成初步的知识图谱原型。

对生成的知识图谱进行测试，以确认其有效性和准确性。

S403、使用基于强化学习的算法来实时更新知识图谱，采用强化学习算法动态地更新知识图谱，以便图谱能够适应车间环境的变化。

首先，根据之前步骤生成的多层次车间状态表示(MLWSR)，以及初步的知识图谱原型，构建一个动态知识图谱。

动态知识图谱构建流程如下：

A.构建多层次车间状态表示(MLWSR)：

首先，详细列举车间中所有可能影响生产的因素和状态。这包括设备状态(是否在运行、维修情况等)、工作负荷(当前任务量、预计完成时间等)以及人员分配(哪些人在哪些位置工作等)。

通过数据采集和分析，这些因素被量化成一个向量或矩阵形式，即MLWSR。

B.构建初步知识图谱原型：

接下来，对车间内各种实体(如机器、人员、产品等)以及它们之间的关系进行建模：

实体定义：明确图中的节点代表哪些实体。

关系定义：明确节点之间的边代表哪些类型的关系。

C.合并信息：

拥有了MLWSR和初步知识图谱后，需要将这两部分信息整合到一个统一的框架里：

权重分配：根据MLWSR中的数据为知识图谱中的节点和边分配权重。

属性添加：将MLWSR中的状态信息作为节点或边的属性加入知识图谱。

D.动态更新

至此，有了一个初步但结构完善的动态知识图谱。

使用基于强化学习的算法来实时更新这个动态知识图谱。每当新的数据点或事件进入系统时，知识图谱都会进行相应的更新。

动态知识图谱更新规则:

其中，是时刻t+1的知识图谱，RL是基于强化学习的图谱更新函数，MLWSR_t+1是时刻t+1的多层次车间状态表示。

这样，就能确保知识图谱始终是最新和最准确的，以支持之后的决策逻辑生成和解释。

上述具体使用强化学习的细节如下：

1、状态定义:在强化学习模型中定义每个节点和边作为一个状态。

2、动作定义:定义可以应用于各个节点和边的动作，如添加、删除或更新实体/关系。

3、奖励函数:设计一个奖励函数，以量化每个动作对知识图谱准确性或有效性的贡献。

4、策略迭代:使用策略迭代算法(如Q-Learning或Deep Q-Network)来优化强化学习模型。

5、实时更新:

5.1、当新的数据点或事件进入系统时，使用当前的强化学习模型来选择最优动作。

5.2、应用选定的动作来更新知识图谱。

5.3、观察奖励，并根据奖励来更新强化学习模型。

S5、构建并训练可解释强化学习模型，具体为结合深度神经网络和决策树来构建一个既有强大泛化能力又具有可解释性的模型。

f(x)＝DNN(x)×DT(x)

其中，构建的步骤如下：

利用深度神经网络(DNN)来学习车间的状态表示(从第一部分得到)和动态知识图谱(从第二部分得到)。

利用决策树或规则引擎来提取特定的规则或模式，这将用于解释神经网络的决策逻辑，其中，可解释强化学习模型如下所示：

f(x)＝DNN(x)×DT(x) (7)

其中，f(x)是最终的决策函数，DNN(x)是深度神经网络部分，DT(x)是决策树部分。

其中，采用多目标优化算法，在训练过程中同时优化性能和可解释性，训练和优化的步骤如下：

A.使用车间历史数据和模拟器生成的数据，将可解释强化学习模型进行预训练。

B.在线训练阶段:利用实时收集的数据和反馈来微调模型。同时，使用多目标优化算法来同时考虑模型性能和可解释性，具体步骤如下：

使用车间历史数据和模拟器生成的数据，将可解释强化学习模型进行预训练。

在线训练阶段：利用实时收集的数据和反馈来微调模型。同时，使用多目标优化算法来同时考虑模型性能和可解释性，所述多目标优化函数:

其中，α是一个权重系数，和/>分别是性能和可解释性的损失函数，θ是模型参数。

通过这种方式，不仅优化了模型的性能，还确保了其决策过程是可解释的，从而更好地服务于后续的决策逻辑生成和解释阶段。

S6、根据可解释强化学习模型生成决策逻辑和解释决策逻辑创新性，通过强化学习得出的策略，进一步将其转化为高级的、人类可理解的决策规则，这样操作人员可以更容易地理解和实施，具体步骤如下：

S601、利用可解释强化学习模型(从第三部分得出)生成策略，该策略定义了在给定车间状态和知识图谱的情况下如何做出最优决策，利用决策树、逻辑规则或者自然语言生成(NLG)方法，将这些策略转换成人类可理解的语言或规则，得出的决策逻辑函数为：

IF(condition₁∧condition₂∧…)THEN action(9)

其中，condition_i是决策条件，action是对应的操作。

具体地，上述决策逻辑函数采用类似LIME(局部可解释性模型敏感性)或SHAP(SHapley Additive exPlanations)的方法，对生成的决策逻辑进行深入的解释，具体步骤如下：

对于每一个生成的决策规则或者操作，使用上述方法来解释其影响因子，包括哪些状态变量或者知识图谱的元素起了主导作用。

S602、生成解释报告，包含对各个决策逻辑有效性和准确性的评估，以及如何在实际操作中实施这些逻辑，其中，所示SHAP值表示如下：

其中，φ_j是特征j的SHAP值，f(S)是给定特征集S的预测值，N是所有特征的集合；S(特征集合)具体代表的是车间状态和操作的各种可能组合。一个特定的S可能包括特定机器的状态、当前的任务类型和特定工作站的人员配置。通过分析在包含和不包含特定特征(如某台机器的状态)的情况下，对模型输出(如任务调度决策)的影响，SHAP值决定每个因素(特征)对最终决策的贡献程度。

通过这两个主要步骤，可以使生成的决策逻辑不仅优化了车间操作，而且是可解释和可验证的，从而更好地服务于后续的实验验证和性能评估阶段。

Explanations):LIME通过在输入空间中对模型进行局部近似，以理解模型在单个预测上的行为。这通常涉及生成一个相似但简化的模型(如线性模型)，该模型能很好地近似目标模型在该区域的行为。

SHAP(Shapley Additive Explanations):SHAP基于合作博弈论中的Shapley值，为每个特征分配一个“贡献度”。具体来说，它会评估一个特征在模型预测中的平均贡献，考虑到所有可能的特征子集。

S7、根据决策逻辑和车间数字孪生模型搭建实验环境并评估实验性能，采用实物-数字双重模拟环境，以获得更准确的性能评估，具体步骤如下：

S702、在该环境中，部署从前四个步骤中得出的决策逻辑和车间数字孪生模型，同时使用多目标优化，考虑生产效率、能效以及设备磨损等多个评价指标，所述多目标优化函数表示如下：

F(x)＝α×效率+β×能效-γ×设备磨损 (11)

其中，α,β,γ表示各指标的权重系数；

S703、使用深度学习和统计方法进行数据分析。

使用深度学习和统计方法进行复杂数据分析，包括时间序列分析和异常检测，具体包括：

在实验运行过程中，收集各种数据，包括生产量、能耗、设备状态等。

使用深度学习模型进行时间序列分析，以识别潜在的生产瓶颈或设备故障，其中，时间序列模型如下所示：

h_t＝f_W(h_t-1,x_t) (12)

其中，h_t是在时间t的隐藏状态，x_t是在时间t的输入。

具体地，实验设计如下：

设计多个实验场景，包括正常工作条件、异常情况(如设备故障、能源价格波动等)。

具体地，生产瓶颈：如果模型识别出某一时间点或时间段内生产量明显下降或能耗异常增加，这可能是一个生产瓶颈的迹象。这时，可以进一步查看此时其他设备或流程状态来进行确认和解决。

设备故障：如果模型预测出某个设备的状态数据(如温度、振动、噪声等)突然异常，这可能是即将发生故障的前兆。进一步的维护或检查可以被安排来避免潜在的停机。

最后得出结果评估和报告，根据收集的数据和定义的多目标优化函数，评估实验结果的成功度。生成详细的实验报告，包括方法有效性、准确性和可行性的全面评估。

通过以上步骤，该方案旨在提供一个全面而详细的方法，用于验证和评估先前阶段中开发的各个组件和策略。

S8、使用Docker容器化技术部署模型与知识图谱，实时对数据流处理和反馈，并动态调整决策逻辑，使用深度学习生成模型检测异常行为或决策失误。使用Docker容器化技术，实现模型与知识图谱的快速、可伸缩部署。具体步骤如下：

(1)使用Docker将知识图谱和决策逻辑模型打包成容器。

(2)使用Kubernetes进行容器编排，以确保高可用性和负载均衡。

(3)实时数据流与反馈循环，·实现实时数据流处理和反馈，动态调整决策逻辑，具体包括：

a.使用Apache Kafka或相似的消息队列系统，建立实时数据流。

b.实现一个反馈循环，通过实时数据自动调整决策逻辑。

具体地，关于模型监控和维护是采用使用深度学习生成模型来检测可能的异常行为或决策失误，具体步骤如下：

(1)定期运行模型有效性检测。

(2)收集日常正常运行的真实数据，并与实际行为进行比较以检测异常，其中，所述异常检测模型表示如下：

其中，L(x)是损失函数，x_i和分别是实际和正常运行的真实数据的数据点。通过以上步骤，该方案旨在实现决策逻辑和车间数字孪生模型的高效部署、实时监控和持续优化。本发明既能保证系统的实时性能，也能使其具有很好的可维护性和可解释性。

综上所述，本发明通过一种综合应用数字孪生技术、知识图谱和可解释性强化学习的车间调度方案，实现了高效、智能和可解释的生产管理。首先，数据收集和预处理步骤为整个系统提供了精确和实时的基础数据。这些数据进一步用于构建车间数字孪生模型，该模型精确地反映了车间的实际运营状态，并为后续的强化学习模型提供了可靠的输入。然后，知识图谱用于描述和解析车间内部的复杂关系，从而提供更高级的分析和优化手段。在此基础上，设计和训练了一个可解释的强化学习模型，它不仅能生成有效的调度策略，还能为每一项决策提供清晰的解释。最后，通过实验验证和性能评估来证实该方案在提高生产效率、降低成本以及增强决策透明度方面的优势。每个步骤都是为了实现更高的调度效率和决策透明度而设计的，相互之间存在密切的逻辑联系和数据流动，共同服务于整个专利的核心目标

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述方法包括：

所述根据多模态数据生成标签和元数据，具体指：

L＝f_tag(D,G)

最后为每个数据点生成元数据；

Q＝g_quality(D,M,T)

S301、识别关键数据源；

使用数据融合代理收集的数据，生成基础生产数据矩阵工作流程信息矩阵/>环境参数矩阵ε和人员动态矩阵/>然后利用时间序列分解处理基础生产数据矩阵/>工作流程信息矩阵/>环境参数矩阵ε和人员动态矩阵/>获取车间状态特征，其中，所述时间序列分解表示为：

S4、构建知识图谱并实现动态更新，具体包括：

S402、根据知识图谱的原型构建动态知识图谱；

S403、使用基于强化学习的算法来实时更新动态知识图谱；

S5、构建并训练可解释强化学习模型；

2.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述数据质量评分Q的评估数据质量指标包括：完整性、一致性、时效性和准确性；

得出数据质量评分Q为：

Q＝a*Completeness Score+b*Consistency Score+c*Timeliness Score+d*AccuracyScore

即

g_quality(D,M,T)＝a*Completeness Score+b*Consistency Score+c*Timeliness Score+d*Accurary Score

3.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述数据接收与存储结构包括：

实时数据预处理模块，用于对数据进行预处理；

安全数据传输模块，用于对数据进行加密传输；

数据分析模块，用于对数据进行深度分析。

4.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述数据融合代理的数学模型表示如下：

DFA_i＝φ_i(DS_i,τ_i)

5.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述动态知识图谱更新规则表示如下：

6.根据权利要求5所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述步骤S5，具体包括：

f(x)＝DNN(x)×DT(x)

7.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述S6，具体包括：

IF(condition₁∧condition₂∧…)THEN action

其中，condition_i是决策条件，action是对应的操作；

8.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述步骤S7，具体包括：

F(x)＝α×效率+β×能效-γ×设备磨损

其中，α,β,γ表示各指标的权重系数；

S703、使用深度学习和统计方法进行数据分析；

9.根据权利要求8所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，所述深度学习和统计方法包括时间序列分析和异常检测，其中，所述时间序列分析的模型表示为：

h_t＝f_W(h_t-1,x_t)

10.根据权利要求1所述的基于数字孪生及知识图谱的强化学习的车间调度方法，其特征在于，还包括，S8、使用Docker容器化技术部署模型与知识图谱，实时对数据流处理和反馈，并动态调整决策逻辑，使用深度学习生成模型检测异常行为或决策失误。