CN116306323B

CN116306323B - 一种数字孪生模型的确定方法、装置、终端设备及介质

Info

Publication number: CN116306323B
Application number: CN202310566397.XA
Authority: CN
Inventors: 陈晓红; 许冠英; 徐雪松; 艾彦迪; 刘星宝; 杨俊丰; 马涛
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-08
Anticipated expiration: 2043-05-19
Also published as: CN116306323A

Abstract

本申请适用于联邦学习和数字孪生技术领域，提供了一种数字孪生模型的确定方法、装置、终端设备及介质，通过构建初始数字孪生模型，并初始化模型参数，得到初始数字孪生模型参数；针对每个工业设备，根据初始数字孪生模型参数，构建初始本地模型，并对初始本地模型进行训练，得到最终本地模型；根据最终本地模型的模型参数，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备；对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型；基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型；基于联邦学习，得到目标任务对应的最终数字孪生模型。本申请能提高数字孪生模型的准确性。

Description

一种数字孪生模型的确定方法、装置、终端设备及介质

技术领域

本申请属于联邦学习和数字孪生技术领域，尤其涉及一种数字孪生模型的确定方法、装置、终端设备及介质。

背景技术

工业物联网(IIoT，Industrial Internet of Things)作为物联网的延伸应用，将众多工业设备、分析部门和工作人员连接起来。工业物联网通过机械设备的精致配合，实现从汽车到农业的自动化制造应用。

但由于工业设备之间的异构性，以及工业环境的复杂性，使得工业设备之间数据连接变得困难。数字孪生（DT，Digital-Twin）技术作为一种新兴的数字化技术，为捕捉动态复杂的工业环境提供了一种可行的解决方案。它通过软件定义，在数字空间中创建虚拟对象，并根据状态、特征和演化准确地映射物理空间中的实体，其卓越的状态感知和实时分析极大地便利了决策制定。然而，数字孪生技术是由数据驱动的，工业数字孪生中的决策通常需要通过分布在各种工业设备上的设备数据来支持，而由于竞争、隐私、安全等问题，设备数据大多存在“数据孤岛”，这导致以此构建的数字孪生模型的准确性较低，难以应用于实际生产。

发明内容

本申请提供了一种数字孪生模型的确定方法、装置、终端设备及介质，可以解决目前数字孪生模型的准确性低的问题。

第一方面，本申请提供了一种数字孪生模型的确定方法，包括：

构建目标任务对应的初始数字孪生模型，并初始化初始数字孪生模型的参数，得到初始数字孪生模型参数；

分别针对每个参与执行目标任务的工业设备，根据初始数字孪生模型参数，构建工业设备对应的初始本地模型，并利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型；

根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备；全局得分用于表征工业设备的最终本地模型的优劣程度，联邦工业设备表示参与联邦学习的工业设备；

对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型；

基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型；

基于联邦学习，根据最终全局模型，得到目标任务对应的最终数字孪生模型。

可选的，初始数字孪生模型包括用于提取目标任务特征的分支层、用于融合目标任务特征的融合层、用于给目标任务分配权重的注意力层以及输出层，分支层的输入端接收目标任务的初始特征，分支层的输出端连接融合层的输入端，融合层的输出端连接注意力层的输入端，注意力层的输出端连接输出层的输入端，输出层的输出端输出目标任务的最终特征；最终特征的表达式如下：

其中，表示第/>个目标任务中第/>个任务数据对应的最终特征，，/>表示第/>个目标任务中任务数据的总数量，/>，/>表示目标任务总数量，/>表示第/>个目标任务中第/>个任务数据的输出函数，/>表示第/>个目标任务的融合特征，/>，表示所述融合层对应的激活函数，/>表示第/>个目标任务中第/>个任务数据的特征表示，/>，/>表示所述分支层的激活函数，/>表示第/>个目标任务的分支层参数，/>表示第/>个目标任务中第/>个任务数据的输入特征，/>表示第/>个目标任务中第/>个任务数据的注意力权重，/>，表示将注意力权重进行归一化，/>表示第/>个目标任务的注意力层参数。

可选的，初始数字孪生模型参数包括所有目标任务在分支层的参数，所有目标任务在融合层的参数以及所有目标任务在注意力层的参数；

初始化初始数字孪生模型的参数，包括：

分别针对分支层、融合层以及注意力层三者中的任一者，执行以下步骤：

步骤一，将该一者每层的初始权重矩阵初始化为符合高斯分布的小值，并将该层的初始偏置/>初始化为0；其中，/>，/>表示该一者的总层数；

步骤二，获取第个目标任务在该一者第/>层的输出/>，并分别计算/>的均值和方差/>；

步骤三，通过计算公式

得到第个目标任务在该一者第/>层的中间权重矩阵/>和中间偏置/>；

步骤四，根据所述中间权重矩阵和所述中间偏置/>，获取第/>个目标任务在该一者第/>层的新输出/>；

步骤五，若，则分别将所述中间权重矩阵/>和所述中间偏置/>作为第/>个目标任务在该一者第/>层的最终权重矩阵和最终偏置，得到第/>个目标任务在该一者的参数；否则，将所述中间权重矩阵/>作为所述步骤三中的初始权重矩阵，将所述中间偏置/>作为所述步骤三中的初始偏置/>，返回执行步骤三。

可选的，初始本地模型包括分支层、融合层、注意力层以及输出层；

可选的，利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型，包括：

通过计算公式

得到所述工业设备的最终本地模型的模型参数；其中，/>表示第/>个工业设备的最终本地模型的模型参数，/>表示第/>个工业设备的初始本地模型的模型参数，/>，/>表示所有工业设备的总数量，/>表示第/>个所述工业设备的本地数据，/>表示对本地数据集中的所有数据样本进行求和，/>表示损失函数，损失函数与所述工业设备执行的任务相关，损失函数包括交叉熵损失函数和均方误差损失函数，/>表示数据样本/>对应的标签，/>表示第/>个工业设备的初始本地模型；

利用所述模型参数对初始本地模型进行更新，得到最终本地模型。

可选的，根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备，包括：

通过计算公式，得到第个工业设备的平均损失/>；

通过计算公式，得到全局得分/>；其中，/>表示第/>个工业设备的全局得分，/>表示损失函数，/>表示用于控制训练误差和模型复杂度之间平衡的超参数；

通过计算公式

得到得分排序集合；其中，/>表示第/>个工业设备的全局得分，表示按照全局得分从大到小的排序函数，/>表示所述排序函数的值，/>表示评估函数，所述评估函数用于衡量工业设备的重要性，/>表示降序排列；

通过计算公式，得到联邦工业设备集合，联邦工业设备集合包括/>个联邦工业设备，/>表示联邦工业设备的总数量，/>均表示得分排序集合/>中的索引，/>表示从得分排序集合中选取前/>个工业设备的索引。

可选的，对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型，包括：

通过计算公式

得到分支层全局参数；其中，/>表示第/>个联邦工业设备的最终本地模型融合层第/>层的权重矩阵，/>表示第/>个联邦工业设备的最终本地模型融合层第/>层的偏置；

通过计算公式

得到融合层全局参数；其中，/>表示第/>个所述联邦工业设备的最终本地模型融合层第/>层的权重矩阵，/>表示第/>个所述联邦工业设备的最终本地模型融合层第/>层的偏置；

通过计算公式

得到注意力层全局参数；其中，/>表示第/>个联邦工业设备的最终本地模型注意力层的权重矩阵，/>表示第/>个联邦工业设备的最终本地模型注意力层的偏置，/>表示第/>个联邦工业设备的权重；

通过计算公式，得到全局模型参数/>；

利用全局模型参数对初始数字孪生模型进行更新，得到初始全局模型。

可选的，基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型，包括：

步骤i，分别初始化策略网络参数和值函数网络参数/>，得到初始策略网络和初始值函数网络；

步骤ii，根据初始策略网络获取多个更新动作信息，针对多个更新动作信息中的每个更新动作信息，根据更新动作信息对初始全局模型进行更新，得到更新动作信息对应的中间全局模型，并计算更新动作信息对应的奖励；其中，更新动作信息包括更新动作和更新位置，更新动作包括增加、删除以及修改中的一种；

步骤iii，通过计算公式，得到所有更新动作信息的奖励加权和/>；其中，/>表示初始全局模型中第/>个网络结构对应的更新动作信息，/>表示使用初始策略网络参数/>和网络结构/>来选择更新动作信息/>的概率，/>表示/>对应的奖励；

步骤iv，通过计算公式，得到新的值函数网络参数/>；其中，/>表示根据/>预测的网络结构/>对应的价值估计，/>表示学习速率；

步骤v，通过计算公式，得到价值估计损失/>，价值估计损失用于最小化价值估计与实际奖励之间的差异；

步骤vi，通过计算公式，得到新的策略网络参数/>；其中，/>表示学习速率，/>表示损失函数关于策略网络的梯度；

步骤vii，统计步骤vi的执行次数，若执行次数大于等于预设阈值，则根据新的值函数网络参数和新的策略网络参数，对初始全局模型进行更新，得到最终全局模型；否则，将新的策略网络参数对应的新的策略网络作为步骤ii中的初始策略网络，将新的值函数网络参数作为步骤iv中的初始值函数网络参数，返回执行步骤ii。

第二方面，本申请提供了一种数字孪生模型的确定装置，包括：

初始数字孪生模块，用于构建目标任务对应的初始数字孪生模型，并初始化初始数字孪生模型的参数，得到初始数字孪生模型参数；

初始本地模块，用于分别针对每个参与执行目标任务的工业设备，根据初始数字孪生模型参数，构建工业设备对应的初始本地模型，并利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型；

联邦工业设备模块，用于根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备；全局得分用于表征工业设备的最终本地模型的优劣程度，联邦工业设备表示参与联邦学习的工业设备；

模型参数聚合模块，用于对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型；

强化学习模块，用于基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型；

联邦学习模块，用于基于联邦学习，根据最终全局模型，得到目标任务对应的最终数字孪生模型。

第三方面，本申请提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的数字孪生模型的确定方法。

第四方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的数字孪生模型的确定方法。

本申请的上述方案有如下的有益效果：

本申请通过构建目标任务对应的初始数字孪生模型，并初始化数字孪生模型的参数，能够使数字孪生模型学习目标任务，提取目标任务的特征，从而提高数字孪生模型的效率和准确性；根据每个工业设备的本地模型参数，计算每个工业设备的全局得分，并根据全局得分确定参与联邦学习的工业设备，能够筛选出性能更优，适用性更强的工业设备，从而提高数字孪生模型的准确性；基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型，并结合联邦学习，得到最终的数字孪生模型，能够使数字孪生模型更加适配每个工业设备，从而提高数字孪生模型的准确性。

本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的数字孪生模型的确定方法的流程图；

图2为本申请提供的数字孪生模型的确定装置的结构示意图；

图3为本申请提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

针对目前数字孪生模型的准确性低的问题，本申请提供了一种数字孪生模型的确定方法、装置、终端设备及介质，其中，该方法通过构建目标任务对应的初始数字孪生模型，并初始化数字孪生模型的参数，能够使数字孪生模型学习目标任务，提取目标任务的特征，从而提高数字孪生模型的效率和准确性；根据每个工业设备的本地模型参数，计算每个工业设备的全局得分，并根据全局得分确定参与联邦学习的工业设备，能够筛选出性能更优，适用性更强的工业设备，从而提高数字孪生模型的准确性；基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型，并结合联邦学习，得到最终的数字孪生模型，能够使数字孪生模型更加适配每个工业设备，从而提高数字孪生模型的准确性。

如图1所示，本申请提供的数字孪生模型的确定方法包括以下步骤：

步骤11，构建目标任务对应的初始数字孪生模型，并初始化初始数字孪生模型的参数，得到初始数字孪生模型参数。

在本申请的实施例中，上述初始数字孪生模型包括用于提取目标任务特征的分支层、用于融合目标任务特征的融合层、用于给目标任务分配权重的注意力层以及输出层，分支层的输入端接收目标任务的初始特征，分支层的输出端连接融合层的输入端，融合层的输出端连接注意力层的输入端，注意力层的输出端连接输出层的输入端，输出层的输出端输出目标任务的最终特征。

最终特征的表达式如下：

其中，表示第/>个目标任务中第/>个任务数据对应的最终特征，，/>表示第/>个目标任务中任务数据的总数量，/>，/>表示目标任务总数量，/>表示第/>个目标任务中第/>个任务数据的输出函数，/>表示第/>个目标任务的融合特征，/>，表示融合层对应的激活函数，/>表示第/>个目标任务中第/>个任务数据的特征表示，/>，/>表示分支层的激活函数，/>表示第/>个目标任务的分支层参数，/>表示第/>个目标任务中第/>个任务数据的输入特征，/>表示第/>个目标任务中第/>个任务数据的注意力权重，/>，/>表示将注意力权重进行归一化，/>表示第/>个目标任务的注意力层参数。

示例性的，在本申请的一实施例中，上述目标任务为图像分类任务，同时我们使用数字孪生模型进行多任务学习，其中还包括一个物体检测任务。在这种情况下，数字孪生模型将图像输入（初始特征）分别提供给图像分类任务和物体检测任务的分支层。对于图像分类任务，分支层将图像输入进行特征提取，并通过激活函数产生图像分类任务的分支特征表示。同样地，对于物体检测任务，分支层将图像输入进行特征提取，并通过激活函数产生物体检测任务的分支特征表示。融合层将这两个任务的分支特征表示进行融合，并产生图像的融合特征表示。注意力层将融合特征表示作为输入，产生图像分类任务和物体检测任务的注意力权重。最后，模型的输出层将融合特征表示和注意力权重进行拼接，产生最终的特征表示。其中，最终特征表示将包含图像分类任务和物体检测任务的信息，并且注意力权重将影响这些任务在最终预测结果中的贡献。如此一来，可以在多任务学习中同时优化图像分类和物体检测任务，以产生更好的预测结果。

步骤12，分别针对每个参与执行目标任务的工业设备，根据初始数字孪生模型参数，构建工业设备对应的初始本地模型，并利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型。

在本申请的实施例中，上述初始本地模型同样包括分支层、融合层、注意力层以及输出层，初始本地模型各网络结构的功能与初始数字孪生模型各网络结构的功能一一对应。

下面对根据初始数字孪生模型参数，构建工业设备对应的初始本地模型的过程进行示例性说明。

具体的，通过计算公式

得到初始模型参数；其中，/>表示第/>个工业设备的第/>代初始模型参数，/>，/>表示工业设备总数量，/>表示学习率，/>表示损失函数，/>表示第/>个工业设备的本地数据，/>表示/>的损失函数梯度，/>，/>表示第/>个工业设备的初始模型的输出。

需要说明的是，针对分支层和融合层，损失函数梯度；其中，/>表示/>对/>的偏导数。针对注意力层，通过计算公式/>，得到/>表示得分函数；其中，/>表示初始模型的第/>个参数，/>表示初始数字孪生模型的第/>个参数，/>和/>均表示注意力层的参数（/>表示权重矩阵，表示偏置），/>表示双曲正切函数。

得到初始模型参数后，还需构建模型损失函数来对初始模型进行更新，模型损失函数的表达式如下：

其中，表示初始模型参数，/>表示初始模型的输出，/>表示损失函数，/>表示第/>个初始模型参数，/>表示第/>个本地数据，/>表示第/>个本地数据对应的标签，/>表示控制注意力加权平均的强度的超参数，/>表示/>的范数，/>，/>表示初始数字孪生模型中参数的数量，/>表示第/>个初始模型参数与初始数字孪生模型中第/>个参数之间的注意力全中，，/>表示索引。

利用损失函数对初始模型进行反向传播，得到工业设备对应的初始本地模型。

步骤13，根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备。

在本申请的实施例中，上述全局得分用于表征工业设备的最终本地模型的优劣程度，联邦工业设备表示参与联邦学习的工业设备。

步骤14，对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型。

步骤15，基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型。

步骤16，基于联邦学习，根据最终全局模型，得到目标任务对应的最终数字孪生模型。

示例性的，在本申请的实施例中，上述联邦学习学习的过程如下：

步骤16.1，联邦学习系统将上述最终全局模型作为初始模型发送给每个联邦工业设备。

步骤16.2，每个联邦工业设备接收到初始模型后，利用自身的本地数据对该初始模型进行本地训练，得到该联邦工业设备对应的本地模型。

步骤16.3，联邦学习系统接收所有联邦工业设备返回的本地模型，并将各联邦工业设备对应的本地模型聚合为一个中间模型。

示例性的，在本申请的一些实施例中，步骤16.3采用的聚合方法可以是加权平均法。

步骤16.4，统计步骤16.3的执行次数，若执行次数大于等于预设阈值，则将步骤16.3的中间模型作为目标任务对应的最终数字孪生模型；否则，联邦学习系统将步骤16.3的中间模型作为步骤16.1中的初始模型发送给每个联邦工业设备，返回执行步骤16.2。

示例性的，在本申请的一实施例中，上述目标任务为产品检测，则可以通过采集产品数据和工业设备数据，并将采集的上述数据作为最终数字孪生模型的输入，得到准确的产品检测数据（包括产品种类、产品型号、工业设备编号、生产状态），相关技术人员通过比对上述产品检测数据与产品标准之间的差异，能够判断产品质量的优劣以及出现故障的生产环节，从而及时对出现故障的生产环节做出调整和改善。

下面对步骤11（构建目标任务对应的初始数字孪生模型，并初始化初始数字孪生模型的参数，得到初始数字孪生模型参数）中初始化初始数字孪生模型的参数的过程进行示例性说明。

上述初始数字孪生模型参数包括所有目标任务在分支层的参数，所有目标任务在融合层的参数以及所有目标任务在注意力层的参数。在本申请的实施例中，上述参数包括权重矩阵和偏置。

步骤一，将该一者每层的初始权重矩阵初始化为符合高斯分布的小值，并将该层的初始偏置/>初始化为0。

其中，，/>表示该一者的总层数。

步骤二，获取第个目标任务在该一者第/>层的输出/>，并分别计算/>的均值和方差/>。

步骤三，通过计算公式

；

得到第个目标任务在该一者第/>层的中间权重矩阵/>和中间偏置/>。

其中，表示非常小的正数，用于避免出现分母为0的情况。

步骤四，根据中间权重矩阵和中间偏置/>，获取第/>个目标任务在该一者第/>层的新输出/>。

步骤五，若，则分别将中间权重矩阵/>和中间偏置/>作为第/>个目标任务在该一者第/>层的最终权重矩阵和最终偏置，得到第/>个目标任务在该一者的参数；否则，将中间权重矩阵/>作为步骤三中的初始权重矩阵/>，将中间偏置作为步骤三中的初始偏置/>，返回执行步骤三。

下面对步骤12（分别针对每个参与执行目标任务的工业设备，根据初始数字孪生模型参数，构建工业设备对应的初始本地模型，并利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型）中利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型的过程进行示例性说明。

步骤12.1，通过计算公式

；

得到工业设备的最终本地模型的模型参数。

其中，表示第/>个工业设备的最终本地模型的模型参数，/>表示第/>个工业设备的初始本地模型的模型参数，/>，/>表示所有工业设备的总数量，/>表示第/>个工业设备的本地数据，/>表示对本地数据集中的所有数据样本进行求和，/>表示损失函数，损失函数与工业设备执行的任务相关，损失函数包括交叉熵损失函数和均方误差损失函数，/>表示数据样本/>对应的标签，/>表示第/>个工业设备的初始本地模型；

步骤12.2，利用模型参数对初始本地模型进行更新，得到最终本地模型。

下面对步骤13（根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备）的具体过程进行示例性说明。

步骤13.1，通过计算公式，得到第/>个工业设备的平均损失/>。

步骤13.2，通过计算公式，得到全局得分。

其中，表示第/>个工业设备的全局得分，/>表示损失函数，/>表示用于控制训练误差和模型复杂度之间平衡的超参数。

步骤13.3，通过计算公式

；

得到得分排序集合。

其中，表示第/>个工业设备的全局得分，/>表示按照全局得分从大到小的排序函数，/>表示排序函数的值，/>表示评估函数，评估函数用于衡量工业设备的重要性，/>表示降序排列。

步骤13.4，通过计算公式

得到联邦工业设备集合，联邦工业设备集合包括个联邦工业设备，/>表示联邦工业设备的总数量，/>均表示得分排序集合/>中的索引，表示从得分排序集合中选取前/>个工业设备的索引。

下面对步骤14（对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型）的过程进行示例性说明。

步骤14.1，通过计算公式

；

得到分支层全局参数。

其中，表示第/>个联邦工业设备的最终本地模型分支层第/>层的权重矩阵，/>表示第/>个联邦工业设备的最终本地模型分支层第/>层的偏置。

步骤14.2，通过计算公式

；

得到融合层全局参数。

其中，表示第/>个联邦工业设备的最终本地模型融合层第/>层的权重矩阵，/>表示第/>个联邦工业设备的最终本地模型融合层第/>层的偏置。

步骤14.3，通过计算公式

；

得到注意力层全局参数。

其中，表示第/>个联邦工业设备的最终本地模型注意力层的权重矩阵，表示第/>个联邦工业设备的最终本地模型注意力层的偏置，/>表示第/>个联邦工业设备的权重。

步骤14.4，通过计算公式，得到全局模型参数/>。

步骤14.5，利用全局模型参数对初始数字孪生模型进行更新，得到初始全局模型。

下面对步骤15（基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型）的过程进行示例性说明。

步骤i，分别初始化策略网络参数和值函数网络参数/>，得到初始策略网络和初始值函数网络。

需要说明的是，策略网络和值函数网络均为强化学习中的组成部分，策略网络是一个产生动作的神经网络，其输入是当前状态，输出是一个动作概率分布。策略网络的目标是最大化累积奖励，即选择能够使得未来奖励最大的动作。

值函数网络则是一个评估当前状态价值的神经网络，其输入是当前状态，输出是当前状态的价值。价值函数可以是状态价值函数或者动作价值函数。状态价值函数表示在当前状态下，能够获得的未来奖励的期望值；而动作价值函数则是在当前状态下，选择某个动作能够获得的未来奖励的期望值。

步骤ii，根据初始策略网络获取多个更新动作信息，针对多个更新动作信息中的每个更新动作信息，根据更新动作信息对初始全局模型进行更新，得到更新动作信息对应的中间全局模型，并计算更新动作信息对应的奖励。

其中，更新动作信息包括更新动作和更新位置，更新动作包括增加、删除以及修改中的一种。

步骤iii，通过计算公式，得到所有更新动作信息的奖励加权和/>。其中，/>表示初始全局模型中第/>个网络结构对应的更新动作，/>表示使用初始策略网络参数/>和网络结构/>来选择更新动作信息/>的概率，/>表示/>对应的奖励。

在本申请的一实施例中，，其中，表示在完成任务的过程中，执行动作/>所获得的奖励；/>表示在完成任务的过程中，执行动作/>所带来的成本或惩罚。示例性的，对于一个控制机器人行走的任务，定义/>包括机器人得当前位置和速度，动作/>包括机器人的加速度和方向，那么可以将定义/>为机器人按照动作/>执行后，所到达的位置和速度与目标位置和速度的差距的负数，即：

其中，和/>分别为目标位置和速度，/>和/>分别为机器人按照动作执行后到达的位置和速度。

定义为机器人执行动作/>的成本，可以是机器人的能量消耗或者时间成本等，例如：

；

其中，和/>为成本的系数。

步骤iv，通过计算公式，得到新的值函数网络参数/>。

其中，表示根据/>预测的执行/>后得到的网络结构/>对应的价值估计，/>表示学习速率。

步骤v，通过计算公式，得到价值估计损失/>，价值估计损失用于最小化价值估计与实际奖励之间的差异。

步骤vi，通过计算公式，得到新的策略网络参数/>。

其中，表示学习速率，/>表示损失函数关于策略网络的梯度。

步骤vii，统计步骤vi的执行次数，若执行次数大于等于预设阈值，则根据新的值函数网络参数和新的策略网络参数，对初始全局模型进行更新，得到最终全局模型。否则，将新的策略网络参数对应的新的策略网络作为步骤ii中的初始策略网络，将新的值函数网络参数作为步骤iv中的初始值函数网络参数，返回执行步骤ii。

由上述步骤可见，本申请提供的数字孪生模型的确定方法通过构建目标任务对应的初始数字孪生模型，并初始化数字孪生模型的参数，能够使数字孪生模型学习目标任务，提取目标任务的特征，从而提高数字孪生模型的效率和准确性；根据每个工业设备的本地模型参数，计算每个工业设备的全局得分，并根据全局得分确定参与联邦学习的工业设备，能够筛选出性能更优，适用性更强的工业设备，从而提高数字孪生模型的准确性；基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型，并结合联邦学习，得到最终的数字孪生模型，能够使数字孪生模型更加适配每个工业设备，从而提高数字孪生模型的准确性。

下面对本申请提供的数字孪生模型的确定装置进行示例性说明。

如图2所示，该数字孪生模型的确定装置200包括：

初始数字孪生模块201，用于构建目标任务对应的初始数字孪生模型，并初始化初始数字孪生模型的参数，得到初始数字孪生模型参数；

初始本地模块202，用于分别针对每个参与执行目标任务的工业设备，根据初始数字孪生模型参数，构建工业设备对应的初始本地模型，并利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型；

联邦工业设备模块203，用于根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备；全局得分用于表征工业设备的最终本地模型的优劣程度，联邦工业设备表示参与联邦学习的工业设备；

模型参数聚合模块204，用于对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型；

强化学习模块205，用于基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型；

联邦学习模块206，用于基于联邦学习，根据最终全局模型，得到目标任务对应的最终数字孪生模型。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图3所示，本申请的实施例提供了一种终端设备，如图3所示，该实施例的终端设备D10包括：至少一个处理器D100（图3中仅示出一个处理器）、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102，所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。

具体的，所述处理器D100执行所述计算机程序D102时，通过构建目标任务对应的初始数字孪生模型，并初始化初始数字孪生模型的参数，得到初始数字孪生模型参数，然后分别针对每个参与执行目标任务的工业设备，根据初始数字孪生模型参数，构建工业设备对应的初始本地模型，并利用工业设备的本地数据对初始本地模型进行训练，得到工业设备的最终本地模型，再根据每个工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个工业设备的全局得分，并根据全局得分，确定联邦工业设备，然后对所有联邦工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型，再基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型，最后基于联邦学习，根据最终全局模型，得到目标任务对应的最终数字孪生模型。其中，通过构建目标任务对应的初始数字孪生模型，并初始化数字孪生模型的参数，能够使数字孪生模型学习目标任务，提取目标任务的特征，从而提高数字孪生模型的效率和准确性；根据每个工业设备的本地模型参数，计算每个工业设备的全局得分，并根据全局得分确定参与联邦学习的工业设备，能够筛选出性能更优，适用性更强的工业设备，从而提高数字孪生模型的准确性；基于强化学习，对初始全局模型中的网络结构进行更新，得到最终全局模型，并结合联邦学习，得到最终的数字孪生模型，能够使数字孪生模型更加适配每个工业设备，从而提高数字孪生模型的准确性。

所称处理器D100可以是中央处理单元(CPU，Central Processing Unit)，该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP，Digital Signal Processor)、专用集成电路 (ASIC，Application Specific Integrated Circuit)、现成可编程门阵列(FPGA，Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元，例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备，例如所述终端设备D10上配备的插接式硬盘，智能存储卡（SMC，SmartMedia Card ），安全数字（SD，Secure Digital）卡，闪存卡（Flash Card）等。进一步地，所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到数字孪生模型的确定装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数字孪生模型的确定方法，其特征在于，包括：

构建目标任务对应的初始数字孪生模型，并初始化所述初始数字孪生模型的参数，得到初始数字孪生模型参数；

分别针对每个参与执行所述目标任务的工业设备，根据所述初始数字孪生模型参数，构建所述工业设备对应的初始本地模型，并利用所述工业设备的本地数据对所述初始本地模型进行训练，得到所述工业设备的最终本地模型；

根据每个所述工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个所述工业设备的全局得分，并根据所述全局得分，确定联邦工业设备；所述全局得分用于表征所述工业设备的最终本地模型的优劣程度，所述联邦工业设备表示参与联邦学习的工业设备；

基于强化学习，对所述初始全局模型中的网络结构进行更新，得到最终全局模型；

基于联邦学习，根据所述最终全局模型，得到所述目标任务对应的最终数字孪生模型；所述基于联邦学习，根据所述最终全局模型，得到所述目标任务对应的最终数字孪生模型，包括：

步骤①，联邦学习系统将所述最终全局模型作为初始模型发送给每个联邦工业设备；

步骤②，每个联邦工业设备接收到初始模型后，利用自身的本地数据对该初始模型进行本地训练，得到该联邦工业设备对应的本地模型；

步骤③，联邦学习系统接收所有联邦工业设备返回的本地模型，并将各联邦工业设备对应的本地模型聚合为一个中间模型；

步骤④，统计步骤③的执行次数，若执行次数大于等于预设阈值，则将步骤③的中间模型作为目标任务对应的最终数字孪生模型；否则，联邦学习系统将步骤③的中间模型作为步骤①中的初始模型发送给每个联邦工业设备，返回执行步骤②。

2.根据权利要求1所述的确定方法，其特征在于，所述初始数字孪生模型包括用于提取目标任务特征的分支层、用于融合所述目标任务特征的融合层、用于给目标任务分配权重的注意力层以及输出层，所述分支层的输入端接收所述目标任务的初始特征，所述分支层的输出端连接所述融合层的输入端，所述融合层的输出端连接所述注意力层的输入端，所述注意力层的输出端连接所述输出层的输入端，所述输出层的输出端输出所述目标任务的最终特征；所述最终特征的表达式如下：

其中，表示第/>个目标任务中第/>个任务数据对应的最终特征，/>，/>表示第/>个目标任务中任务数据的总数量，/>，/>表示目标任务总数量，/>表示第/>个目标任务中第/>个任务数据的输出函数，/>表示第/>个目标任务的融合特征，，/>表示所述融合层对应的激活函数，/>表示第/>个目标任务中第/>个任务数据的特征表示，/>，/>表示所述分支层的激活函数，/>表示第/>个目标任务的分支层参数，/>表示第/>个目标任务中第/>个任务数据的输入特征，/>表示第/>个目标任务中第/>个任务数据的注意力权重，，/>表示将注意力权重进行归一化，/>表示第/>个目标任务的注意力层参数。

3.根据权利要求2所述的确定方法，其特征在于，所述初始数字孪生模型参数包括所有目标任务在所述分支层的参数，所有目标任务在所述融合层的参数以及所有目标任务在注意力层的参数；

所述初始化所述初始数字孪生模型的参数，包括：

分别针对所述分支层、所述融合层以及所述注意力层三者中的任一者，执行以下步骤：

步骤二，获取第个目标任务在该一者第/>层的输出/>，并分别计算/>的均值/>和方差/>；

步骤三，通过计算公式

步骤五，若，则分别将所述中间权重矩阵/>和所述中间偏置/>作为第/>个目标任务在该一者第/>层的最终权重矩阵和最终偏置，得到第/>个目标任务在该一者的参数；否则，将所述中间权重矩阵/>作为所述步骤三中的初始权重矩阵/>，将所述中间偏置/>作为所述步骤三中的初始偏置/>，返回执行步骤三。

4.根据权利要求3所述的确定方法，其特征在于，所述初始本地模型包括所述分支层、所述融合层、所述注意力层以及所述输出层；

所述利用所述工业设备的本地数据对所述初始本地模型进行训练，得到所述工业设备的最终本地模型，包括：

通过计算公式

得到所述工业设备的最终本地模型的模型参数；其中，/>表示第/>个所述工业设备的最终本地模型的模型参数，/>表示第/>个所述工业设备的初始本地模型的模型参数，/>，/>表示所有工业设备的总数量，/>表示第/>个所述工业设备的本地数据，/>表示对本地数据集中的所有数据样本进行求和，/>表示损失函数，所述损失函数与所述工业设备执行的任务相关，所述损失函数包括交叉熵损失函数和均方误差损失函数，/>表示数据样本/>对应的标签，/>表示第/>个所述工业设备的初始本地模型；

利用所述模型参数对所述初始本地模型进行更新，得到所述最终本地模型。

5.根据权利要求4所述的确定方法，其特征在于，所述根据每个所述工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个所述工业设备的全局得分，并根据所述全局得分，确定联邦工业设备，包括：

通过计算公式，得到第/>个所述工业设备的平均损失/>；其中，/>表示第/>个所述工业设备的测试数据；

通过计算公式，得到所述全局得分/>；其中，/>表示第/>个所述工业设备的全局得分，/>表示损失函数，/>表示用于控制训练误差和模型复杂度之间平衡的超参数；

通过计算公式

得到得分排序集合；其中，/>表示第/>个所述工业设备的全局得分，表示按照全局得分从大到小的排序函数，/>表示所述排序函数的值，表示评估函数，所述评估函数用于衡量工业设备的重要性，/>表示降序排列；

通过计算公式，得到联邦工业设备集合，所述联邦工业设备集合包括/>个所述联邦工业设备，/>表示所述联邦工业设备的总数量，/>均表示所述得分排序集合/>中的索引，/>表示从得分排序集合中选取前/>个工业设备的索引。

6.根据权利要求5所述的确定方法，其特征在于，所述对所有联邦得到得分排序集合工业设备的最终本地模型的模型参数进行聚合，得到初始全局模型，包括：

通过计算公式

；

得到分支层全局参数；其中，/>表示第/>个所述联邦工业设备的最终本地模型分支层第/>层的权重矩阵，/>表示第/>个所述联邦工业设备的最终本地模型分支层第/>层的偏置；

通过计算公式

；

通过计算公式

；

得到注意力层全局参数；其中，/>表示第/>个所述联邦工业设备的最终本地模型注意力层的权重矩阵，/>表示第/>个所述联邦工业设备的最终本地模型注意力层的偏置，/>表示第/>个所述联邦工业设备的权重；

通过计算公式，得到全局模型参数/>；

利用所述全局模型参数对所述初始数字孪生模型进行更新，得到所述初始全局模型。

7.根据权利要求6所述的确定方法，其特征在于，所述基于强化学习，对所述初始全局模型中的网络结构进行更新，得到最终全局模型，包括：

步骤ii，根据所述初始策略网络获取多个更新动作信息，针对所述多个更新动作信息中的每个更新动作信息，根据所述更新动作信息对所述初始全局模型进行更新，得到所述更新动作信息对应的中间全局模型，并计算所述更新动作信息对应的奖励；其中，所述更新动作信息包括更新动作和更新位置，所述更新动作包括增加、删除以及修改中的一种；

步骤iii，通过计算公式，得到所有更新动作信息的奖励加权和/>；其中，/>表示所述初始全局模型中第/>个网络结构对应的更新动作信息，表示使用所述初始策略网络参数/>和网络结构/>来选择更新动作信息/>的概率，/>表示/>对应的奖励；

步骤v，通过计算公式，得到价值估计损失，所述价值估计损失用于最小化价值估计与实际奖励之间的差异；

步骤vii，统计所述步骤vi的执行次数，若所述执行次数大于等于预设阈值，则根据所述新的值函数网络参数和所述新的策略网络参数，对所述初始全局模型进行更新，得到所述最终全局模型；否则，将所述新的策略网络参数对应的新的策略网络作为所述步骤ii中的初始策略网络，将所述新的值函数网络参数作为所述步骤iv中的初始值函数网络参数，返回执行步骤ii。

8.一种数字孪生模型的确定装置，其特征在于，包括：

初始数字孪生模块，用于构建目标任务对应的初始数字孪生模型，并初始化所述初始数字孪生模型的参数，得到初始数字孪生模型参数；

初始本地模块，用于分别针对每个参与执行所述目标任务的工业设备，根据所述初始数字孪生模型参数，构建所述工业设备对应的初始本地模型，并利用所述工业设备的本地数据对所述初始本地模型进行训练，得到所述工业设备的最终本地模型；

联邦工业设备模块，用于根据每个所述工业设备的最终本地模型的模型参数，利用预先设置的测试数据，得到每个所述工业设备的全局得分，并根据所述全局得分，确定联邦工业设备；所述全局得分用于表征所述工业设备的最终本地模型的优劣程度，所述联邦工业设备表示参与联邦学习的工业设备；

强化学习模块，用于基于强化学习，对所述初始全局模型中的网络结构进行更新，得到最终全局模型；

联邦学习模块，用于基于联邦学习，根据所述最终全局模型，得到所述目标任务对应的最终数字孪生模型，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数字孪生模型的确定方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数字孪生模型的确定方法。