CN116980912A

CN116980912A - 一种信任评估方法、装置及设备

Info

Publication number: CN116980912A
Application number: CN202210426054.9A
Authority: CN
Inventors: 康鑫; 李铁岩; 王海光; 朱成康
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2023-10-31
Also published as: WO2023202363A1

Abstract

本申请提供一种信任评估方法、装置及设备。在该方法中，第一设备请求信任评估节点对多个候选设备进行信任评估，信任评估节点获取每个候选设备的初始信任值，并将多个候选设备分为至少两种信任类型。以目标设备为例，信任评估节点根据每种类型的候选设备，确定直接信任值对应的权重值，以及确定多个推荐设备和每个推荐设备对应的权重值。信任评估节点根据直接信任值对应的权重值、多个推荐设备以及每个推荐设备对应的权重值确定目标设备的信任值。信任评估节点确定每个候选设备的信任值后，确定可信任设备并反馈给第一设备。通过该方案，信任评估节点可以基于不同信任类型的候选设备确定计算信任值时所需的参数值，提升信任评估的准确性。

Description

一种信任评估方法、装置及设备

技术领域

本申请涉及通信技术领域，尤其涉及一种信任评估方法、装置及设备。

背景技术

随着第五代移动通信技术(5th generation mobile communicationtechnology，5G)网络的逐步商用，越来越多的研究开始关注未来网络愿景。目前业界普遍认为异构网络的融合是未来网络发展的必然趋势，未来网络将从各自独立封闭的网络走向异构互联，如蜂窝网、网际互连协议(internet protocol，IP)网络、卫星网络融合一体化。异构网络的融合具有如下优势：网络融合可以扩大网络的覆盖范围，使得网络具有更强的可扩展性；网络融合可以充分利用现有的网络资源，降低运营成本，增强竞争力；网络融合可以向不同用户提供各种不同服务，更好地满足未来网络用户多样性的需求；网络融合可以提高网络的可靠性、抗攻击能力等。然而不同异构网络的硬件网络设备不同，如何解决不同网络设备之间的互信问题，是网络融合所面对的巨大挑战之一。

基于数据理论的信任建模是目前一种确定设备是否为可信设备的方法，在该方法中，通过各种不同的数学方法和工具建立动态信任关系的模型，将设备对应的直接信任和间接信任值组合在一起，形成最终的信任值。但该方法是对特定场景下的信任关系进行分析，再利用数学方法将信任关系进行组合，最后形成一个完整的信任模型，因此这种方法存在场景定制化严重，可迁移性差的问题。另外，该方法中的信任模型涉及很多权重值和参数，这些权重值或参数值为技术人员的经验数值，而设置不同的权重值或参数对信任模型的性能影响较大，因此，基于数据理论的信任建模方法的鲁棒性不高。

发明内容

本申请提供一种信任评估方法、装置及设备，用以提供一种适用各类场景的、准确的信任评估方法。

第一方面，本申请提供一种信任评估方法，该方法可以应用于信任评估节点，该方法包括：

接收第一设备发送的信任评估请求，所述信任评估请求包括待评估的多个候选设备的标识；获取所述多个候选设备中每个候选设备的初始信任值，根据所述多个候选设备的初始信任值，将所述多个候选设备分为至少两种信任类型；对所述多个候选设备中的每个候选设备执行如下操作，得到所述多个候选设备的信任值：根据每种信任类型对应的候选设备，确定目标设备的直接信任值对应的权重值；以及根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值；根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，确定所述目标设备的信任值；其中，所述目标设备为所述多个候选设备中的任一设备；所述目标设备的直接信任值用于指示所述目标设备相对于所述第一设备的信任程度；根据所述多个候选设备的信任值，在所述多个候选设备中确定可信任设备，并将所述可信任设备的标识发送给所述第一设备。

在以上方法中，信任评估节点在接收到第一设备发送的信任品评估请求后，可以获取第一设备请求进行信任评估的多个候选设备的初始信任值，并将多个候选设备分为至少两种信任类型。信任评估节点根据每种信任类型对应的候选设备，确定每个候选设备的直接信任值对应的权重值，并确定每个候选设备对应的多个推荐设备以及每个推荐设备对应的权重值，从而可以得到计算候选设备的信任值时所需的参数值，以得到准确的信任值，提升信任评估的准确性。通过该方案对候选设备进行信任评估时，并不是对特定场景下设备是否可信进行分析，而是根据设备的初始信任值对候选设备进行分类后，根据分类后，每种类型的候选设备确定信任评估过程中所需的参数，因此本申请提供的信任评估方法可以适用于各种信任评估场景，适用性广，可以解决各类通信网络中的设备信任评估问题。

在一个可能的设计中，所述根据每种信任类型对应的候选设备，确定所述目标设备的直接信任值对应的权重值，包括：

基于第一强化学习模型针对所述目标设备进行多轮权重计算过程，得到多个备选权重值；根据所述多个备选权重值，确定所述目标设备的直接信任值对应的权重值；

其中，任一轮权重计算过程包括：

确定本轮权重计算过程的交互设备选择策略为第一策略或第二策略，根据本轮权重计算过程的交互设备选择策略确定至少一个交互设备；其中，所述第一策略为以预设概率从所述至少两种信任类型中确定目标信任类型，从所述目标信任类型对应的候选设备中选择一个候选设备作为交互设备；所述第二策略为在所述目标设备的邻居节点中选择信任值最高的节点作为交互设备，其中，所述信任评估节点中存储有所述目标设备的邻居节点的信任值；获取所述至少一个交互设备与所述目标设备进行通信交互的交互数据；根据所述交互数据，基于所述第一强化学习模型确定本轮权重计算过程的第一奖励值和第一状态值，存储本轮权重计算过程的第一奖励值；根据本轮权重计算过程的第一奖励值和第一状态值，计算本轮权重计算过程对应的备选权重值；其中，所述第一奖励值用于指示本轮权重计算过程中所述第一强化学习模型的性能；所述第一状态值用于指示所述目标设备与所述至少一个交互设备的通信状态。

通过该设计，信任评估节点可以基于第一强化学习模型学习直接信任值对应的权重值的计算方式，从而可以确定与目标设备匹配的直接信任值对应的权重值，提升信任评估的准确性。

在一个可能的设计中，所述确定本轮权重计算的交互设备选择策略为第一策略或第二策略，包括：根据预设的决策函数确定所述交互设备选择策略为第一策略的概率值，根据所述概率值对应的随机函数确定所述交互设备选择策略。

通过该设计，第一强化学习模型在确定目标设备的直接信任值对应的权重值时，随着多轮权重计算的进行过程，以不同的概率值确定每轮权重计算过程的交互设备选择策略，从而加快强化学习模型的优化速度，解决现有强化学习模型中奖励值收敛速度缓慢且奖励值不稳定的问题。

在一个可能的设计中，所述根据所述多个备选权重值，确定所述目标设备的直接信任值对应的权重值，包括：在所述多个备选权重值中，选择第一奖励值最高的一轮权重计算过程所计算出的备选权重值；将选择的备选权重值作为所述目标设备的直接信任值对应的权重值。

通过该设计，信任评估节点可以将奖励值最高的一轮权重计算的结果作为目标设备的直接信任值对应的权重值，从而将第一强化学习模型的多轮权重计算中模型性能最好的一轮权重计算的结果作为最终结果，提升权重计算的准确性。

在一个可能的设计中，所述方法还包括：在针对所述目标设备进行M轮的权重计算后，和/或，针对所述目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的第一奖励值之间的差值小于预设阈值，停止所述多轮权重计算；其中，M、N为正整数，且M大于N。

通过该设计，针对所述目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的奖励值之间的差值小于预设阈值可以看作第一奖励值收敛，表示第一强化学习模型的性能趋于稳定，此时可以停止多轮权重计算；或者可以预设第一强化学习模型进行权重计算的轮次数，在当前轮次数到达预设的轮次数后，停止多轮权重计算，防止第一强化学习模型进入无限循环降低效率。

在一个可能的设计中，所述交互数据包括所述目标设备与所述至少一个交互设备进行通信交互的通信成功次数和通信失败次数。

通过该设计，第一强化学习模型获取的交互数据可以为目标设备与至少一个交互设备进行通信交互的通信成功次数和通信失败次数，从而可以根据交互数据确定第一强化学习模型对应的环境的状态值，进而调整第一强化学习模型的策略，以得到性能更优的第一强化学习模型。

在一个可能的设计中，所述根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值，包括：基于第二强化学习模型针对所述目标设备进行多轮推荐设备选择过程，得到多组备选结果，每组备选结果中包括多个备选推荐设备以及每个备选推荐设备对应的权重值；在所述多组备选结果中，确定目标结果，所述目标结果中包含：所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值；

其中，任一轮推荐设备选择过程包括：确定本轮推荐设备选择过程的推荐设备选择策略为第三策略或第四策略，根据所述推荐设备选择策略确定多个第一备选推荐设备；其中，所述第三策略为以预设比例从每种信任类型的候选设备中选择与所述目标设备有过通信交互的候选设备作为推荐设备；所述第四策略为从所述目标设备的邻居节点中选择与所述目标设备有过通信交互的预设数量的节点作为推荐设备；根据所述多个第一备选推荐设备，基于所述第二强化学习模型确定本轮推荐设备选择过程的第二状态值；所述第二状态值用于指示所述目标设备与所述多个第一备选推荐设备的通信状态；基于所述第二强化学习模型进行多轮权重计算过程，确定每个第一备选推荐设备对应的权重值；根据所述多个第一备选推荐设备以及每个第一备选推荐设备对应的权重值确定本轮推荐设备选择过程的第二奖励值，并存储所述第二奖励值，所述第二奖励值用于指示本轮推荐设备选择过程中所述第二强化学习模型的性能。

通过该设计，信任评估节点可以基于第二强化学习模型学习推荐设备的选择方式以及计算推荐设备对应的权重值的方式，从而可以确定与目标设备匹配的推荐设备以及每个推荐设备对应的权重值，提升信任评估的准确性。

在一个可能的设计中，所述确定本轮推荐设备选择的推荐设备选择策略为第三策略或第四策略，包括：根据预设的决策函数确定所述推荐设备选择策略为第三策略的概率值，根据所述概率值对应的随机函数确定所述推荐设备选择策略。

在一个可能的设计中，所述在所述多组备选结果中，确定所述目标结果，包括：在所述多组备选结果中，选择第二奖励值最高的一轮推荐设备选择过程所确定出的备选结果；将选择的备选结果作为所述目标结果。

在一个可能的设计中，所述方法还包括：在针对所述目标设备进行Q轮的推荐设备选择后，和/或，针对所述目标设备进行的最后P轮推荐设备选择中任意相邻两轮推荐设备选择的奖励值之间的差值小于预设阈值，停止所述多轮推荐设备选择；其中，Q、P为正整数，且Q大于P。

在一个可能的设计中，所述获取所述多个候选设备中每个候选设备的初始信任值，包括：接收所述第一设备发送的所述多个候选设备的信任相关数据，根据每个候选设备的信任相关数据确定每个候选设备的初始信任值；其中，所述信任相关数据包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项；或者接收所述第一设备发送的所述多个候选设备的初始信任值；所述多个候选设备的初始信任值是所述第一设备从区块链或星际文件存储系统获取的。

通过该设计，信任评估节点可以接收第一设备发送的多个候选设备的信任相关数据，并根据每个候选设备的信任相关数据确定每个候选设备的初始信任值；或者第一设备可以向区块链或星际文件存储系统获取每个候选设备的初始信任值，再将每个候选设备的初始信任值发送给信任评估节点，灵活获取初始信任值以启动候选设备的信任评估过程。

在一个可能的设计中，在将所述可信任设备的标识发送给所述第一设备之后，所述方法还包括：接收所述第一设备发送的所述第一设备与所述可信任设备之间的交互数据，根据所述第一设备与所述可信任设备之间的交互数据，更新以下至少一项：第一强化学习模型的模型参数、第二强化学习模型的模型参数，以及所述可信任设备的信任值。

通过该设计，信任评估节点可以根据第一设备与可信任设备之间的真实交互数据优化第一强化学习模型和第二强化学习模型的模型参数，进一步提升两个强化学习模型的性能。并且，第一强化学习模型可以基于第一设备与可信任设备的交互数据确定可信任设备的直接信任值对应的权重值，第二强化学习模型可以基于第一设备与可信任设备的交互数据确定可信任设备对应的多个推荐设备和每个推荐设备对应的权重值，进而信任评估节点可以重新确定可信任设备的信任值，以实现根据真实交互数据更新可信任设备的信任值，进一步提升信任评估的准确性。

在一个可能的设计中，所述根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值确定所述目标设备的信任值，包括：根据所述目标设备对应的多个推荐设备，以及每个推荐设备对应的权重值，确定所述目标设备的间接信任值，其中，所述间接信任值用于指示所述目标设备相对于所述目标设备对应的多个推荐设备的信任程度；确定所述目标设备的直接信任值；根据所述目标设备的直接信任值、所述间接信任值，以及所述直接信任值对应的权重值，确定所述目标设备的信任值。

通过该设计，信任评估节点可以基于第二强化学习模型确定的目标设备对应的多个推荐设备和每个推荐设备的权重值确定间接信任值，并根据第一强化学习模型确定的目标设备的直接信任值对应的权重值、直接信任值以及间接信任值确定目标设备的信任值，提高信任评估的准确性，保证通信安全。

第二方面，本申请实施例提供一种信任评估装置，所述装置包括多个功能模块；所述多个功能模块相互作用，实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现，且所述多个功能模块可以基于具体实现进行任意组合或分割。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述存储器中存储计算机程序指令，所述电子设备运行时，所述处理器执行上述第一方面提供的方法。

第四方面，本申请实施例还提供一种计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一方面提供的方法。

第五方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被计算机执行时，使得所述计算机执行上述任一方面提供的方法。

第六方面，本申请实施例还提供一种芯片，所述芯片用于读取存储器中存储的计算机程序，执行上述任一方面提供的方法。

第七方面，本申请实施例还提供一种芯片系统，该芯片系统包括处理器，用于支持计算机装置实现上述任一方面提供的方法。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器用于保存该计算机装置必要的程序和数据。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

附图说明

图1为本申请实施例提供的一种信任数学模型的示意图；

图2为两种基于机器学习的分类模型的示意图；

图3为本申请实施例提供的信任评估方法适用的一种场景的示意图；

图4为本申请实施例提供的一种信任评估节点的结构示意图；

图5为本申请实施例提供的一种信任评估节点内各模块的功能示意图；

图6为本申请实施例提供的一种信任评估方法的流程图；

图7为本申请实施例提供的一种信任评估方法的流程图；

图8为本申请实施例提供的一种信任评估方法的流程图；

图9为本申请实施例提供的一种信任评估方法的流程图；

图10为本申请实施例提供的一种信任评估装置的结构示意图；

图11为本申请实施例提供的一种信任评估设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例作进一步地详细描述。其中，在本申请实施例的描述中，以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

应理解，本申请实施例中“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一(项)个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a、b或c中的至少一项(个)，可以表示：a，b，c，a和b，a和c，b和c，或a、b和c，其中a、b、c可以是单个，也可以是多个。

下面对本申请实施例涉及的术语进行解释：

(1)强化学习(reinforcement learning，RL)，是机器学习的一个重要分支。强化学习通过评估反馈机制对目标进行学习。强化学习与监督学习的不同之处在于，强化学习的目标并没有标签信息。强化学习通常用马尔可夫决策过程(markov decision process，MDP)来描述，MDP包括两个对象：代理(Agent)和环境(Environment)。在强化学习过程中，环境处于一个特定的状态，代理可以通过执行特定的动作来改变环境的状态。环境状态改变后会向代理返回一个观察(Observation)给代理，该观察可以为用于指示当前环境状态的状态值。同时环境还会向代理返回一个奖励值(Reward)，该奖励值可以为正数或负数，当奖励为负数时，可以看作为惩罚。代理根据环境返回的状态值和奖励值采取新的动作，代理如何选择动作可以称为策略(Policy)。重复以上过程，强化学习的任务就是找到一个策略，来获得最大化的奖励值。

演员评论家(Actor-Critic，AC)算法是一种结合策略梯度和时序差分学习的强化学习方法。其中，演员(Actor)网络是策略函数，一般用神经网络实现，Actor网络的输入为当前状态，输出为一个动作。评论家(Critic)网络是值函数，Critic网络可以对当前的Actor网络的好坏进行评价，Actor网络可以根据Critic网络返回的评价更新策略，Actor网络训练的目的是最大化累计回报的期望。

(2)深度信仰网络(deep belief network，DBN)，是一种基于玻尔兹曼预训练结构的网络，属于一种深度神经网络。DBN既可以用于非监督学习，也可以用于监督学习。本申请实施例中，DBN模型通过训练其神经元间的权重，可以对输入的数据进行分类。

(3)区块链，是由一个又一个区块组成的链条。每个区块中保存一定数量的信息，多个区块按照各自产生的时间顺序连接成链条。这个链条被保存在所有的服务器中，只要整个系统中有一台服务器可以工作，整条区块链就是安全的。这些服务器在区块链系统中被称为节点，它们为整个区块链系统提供存储空间和算力支持。如果要修改区块链中的信息，必须征得半数以上节点的同意并修改所有节点中的信息，而这些节点通常掌握在不同的主体手中，因此篡改区块链中的信息是一件极其困难的事。相比于传统的网络，区块链具有两大核心特点：数据难以篡改和去中心化。基于这两个特点，区块链所记录的信息更加真实可靠，可以帮助解决人们互不信任的问题。在本申请实施例中，区块链可以指基于区块链数据结构存储数据的存储系统，如基于区块链数据结构存储数据的一个或多个服务器。

下面对本申请实施例进行介绍：

随着第五代移动通信技术(5th generation mobile communicationtechnology，5G)网络的逐步商用，越来越多的研究开始关注未来网络愿景。目前业界普遍认为异构网络的融合是未来网络发展的必然趋势，未来网络将从各自独立封闭的网络走向异构互联，如蜂窝网、网际互连协议(internet protocol，IP)网络、卫星网络融合一体化。异构网络的融合具有如下优势：网络融合可以扩大网络的覆盖范围，使得网络具有更强的可扩展性；网络融合可以充分利用现有的网络资源，降低运营成本，增强竞争力；网络融合可以向不同用户提供各种不同服务，更好地满足未来网络用户多样性的需求；网络融合可以提高网络的可靠性、抗攻击能力等。然而不同异构网络的硬件网络设备不同，为保证通信效率和通信安全，如何解决不同网络设备之间的互信问题，是网络融合所面对的巨大挑战之一。

一种可选的实施方式中，可以通过数据理论进行信任建模，以建立可以进行动态评估设备信任值的信任数学模型。例如，图1为本申请实施例提供的一种信任数学模型的示意图。参考图1，该信任数学模型用于确定被信任设备相对于信任设备的信任值。为便于描述，下面称信任设备为设备i，被信任设备为设备j。在计算设备j相对于设备i的信任值时，可以分别计算设备j的直接信任值以及设备j的间接信任值。其中，设备j的直接信任值可以基于设备j和设备i之间的交互数据进行确定，该交互数据可以为设备i和设备j之间通信成功的次数和通信失败的次数。设备j的间接信任值取决于设备j对应的推荐设备是否可信以及推荐设备对设备j的信任程度，我们将设备j的推荐设备称为设备k。参考图1，该信任数学模型中设备j的信任值可以满足以下公式1：

T_i,j(t)＝α_i,jD_i,j(t)+(1-α_i,j)I_i,j(t) 公式1

其中，T_i,j(t)为设备j相对于设备i的信任值，D_i,j(t)为设备j相对于设备i的直接信任值，α_i,j为直接信任值对应的权重值，I_i,j(t)为设备j的间接信任值。

可选的，设备j相对于设备i的直接信任值可以满足以下公式2或公式3：

其中，为设备i与设备j的交互数据中正常数据包的数量，/>为设备i与设备j的交互数据中恶意数据包的数量，ρ为衰减指数，η为常数。需要说明的是，正常数据包可以为通信成功的数据包，恶意数据包可以为通信失败的数据包。

可选的，设备B的间接信任值可以满足以下公式4：

其中，S_i,j(t)为与设备j有过通信交互的设备集合，C_i,k(t)为设备k相对于设备i的信任值，R_k,j(t)为设备k相对于设备j的信任值。

需要说明的是，公式4中的C_i,k(t)为设备k对应的权重值的一种设置方式，设备k对应的权重值也可以设置为技术人员经验数值。

可选的，直接信任值对应的权重值可以满足以下公式5或公式6：

其中，为设备i与设备j的交互数据中数据包的总数量，c为常数，β为衰减系数。

通过公式5和公式6可以看出，随着设备i和设备j之间的通信交互次数的增多，直接信任值对应的权重值增大，此时设备i和设备j之间的直接信任值对设备j的信任值的影响更大。

通过上述公式可以看出，信任数学模型中包括较多权重因子和参数，例如，公式1中直接信任值对应的权重值α_i,j、公式5中的参数c等，这些权重因子和参数一般是技术人员基于仿真数据得到的经验数值，设置不同的权重因子和参数对信任数学模型的性能影响较大，因此基于数据理论的信任建模方法的鲁棒性不高。另外，在不同应用场景下，信任关系也会发生变化，信任数学模型只能对特定场景下的信任关系进行分析，导致信任数学模型的场景定制化验证，可迁移性较差，难以应用于实际网络系统的信任评估。

另一种可选的实施方式中，可以基于机器学习训练用于进行设备信任评估的模型。由于机器学习的信任建模对于信任关系的依赖性较弱，一般不需要针对特定场景进行信任关系的数学建模，因此机器学习的信任建模相较于上述的信任数学模型可以适用于更多的场景。在基于机器学习进行信任建模时，可以利用机器学习的分类算法根据设备数据对设备进行分类，以确定设备是否可信。在基于机器学习的信任建模过程中，需要带有标签的样本数据对分类模型进行训练，但针对信任场景，是很难获取到带有标签的信任数据的，例如，一个设备在不同场景下的信任类型可能是不同的，则该设备的数据对应的信任标签为可信还是不可信是很难界定的。因此，基于机器学习的信任建模难以获取用于模型训练的样本数据，进而难以实际应用于设备信任评估。另外，在对设备进行信任评估时，有些设备可能并不存在交互数据，也就是说，这些设备还没有和其它设备进行过通信交互，而基于机器学习的分类模型并不能确定暂不存在交互数据的设备是否可信。可见，如何冷启动也是基于机器学习的分类模型难以解决的问题。

举例来说，图2为两种基于机器学习的分类模型的示意图。参考图2中的(a)，图2中的(a)示出了带有不同信任标签的样本数据的分布情况，在对待评估设备的设备数据进行分类时，以待评估设备的设备数据位置为圆心，以分类半径K划分得到一个圆形区域，在该区域中，若信任标签为可信的样本数据数量较多，则SVM模型确定待评估设备可信；若信任标签为不可信的样本数据数量较多，则SVM模型确定待评估设备不可信。基于图2中的(a)可以看出，该分类模型需要大量带有信任标签的样本数据，且不同的分类半径K的取值，对SVM模型的性能也有较大影响。例如，如图2中的(a)所示，当K取值为3时，由于信任标签为不可信的样本数据数量大于信任标签为可信的样本数据的数量，则SVM确定待评估设备不可信；当K取值为7时，由于信任标签为可信的样本数据的数量大于信任标签为不可信的样本数据数量，则SVM确定待评估设备可信。而K的取值一般为技术人员的经验数值，因此SVM分类模型对设备进行信任评估的性能并不稳定。

图2中的(b)示出了带有不同信任标签的样本数据的分布情况，该分类模型需要基于样本数据的分布情况，通过回归算法确定一个超平面，该超平面可以对样本数据的信任类型进行划分，以实现对设备的信任评估。可见，该分类模型也需要大量带有信任标签的样本数据，才能获取一个较为准确的超平面。

综上，目前对设备进行信任评估的方案存在场景定制化严重、难以获取大量带有信任标签的样本数据、鲁棒性不高以及难以冷启动等问题，是难以应用于对实际网络系统中的设备进行信任评估的。

基于上述问题，本申请提供一种信任评估方法，用以提供一种适用各类场景的、准确的信任评估方法。图3为本申请实施例提供的信任评估方法适用的一种场景的示意图。参考图3，该场景包括第一设备、多个候选设备、信任评估节点以及存储系统。进一步的，存储系统可以为区块链或星际文件存储系统(inter planetary file system，IPFS)。其中，第一设备为发起信任评估的设备，多个候选设备为第一设备请求进行信任评估的设备。如第一设备在与多个候选设备进行通信之前，先请求信任评估节点对多个候选设备进行信任评估。信任评估节点可以用于对多个候选设备进行信任评估，以确定每个候选设备是否可信。区块链可以用于存储各个设备的数据以及传递各个设备的数据。IPFS也可以用于存储各个设备的数据，以减轻区块链的存储压力。

在本申请一些实施方式中，参考图3所示的场景，第一设备可以向信任评估节点发送信任评估请求，该信任评估请求中可以包括待评估的多个候选设备的标识。信任评估节点在接收到第一设备发送的信任评估请求后，可以获取多个候选设备中每个候选设备的初始信任值，并根据多个候选设备的初始信任值，将多个候选设备分为至少两种信任类型。信任评估节点可以对每个候选设备进行信任评估，以确定每个候选设备的信任值。以信任评估节点对目标设备进行信任评估为例，目标设备为多个候选设备中的任一候选设备。信任评估节点可以根据每种信任类型对应的候选设备，基于第一强化学习模型确定目标设备的直接信任值对应的权重值，以及根据每种信任类型对应的候选设备，基于第二强化学习模型确定目标设备对应的推荐设备和每个推荐设备对应的权重值。信任评估节点可以根据目标设备的直接信任值对应的权重值、目标设备对应的推荐设备以及每个推荐设备对应的权重值确定目标设备的信任值。通过该方式，信任评估节点可以对每个候选设备进行信任评估，进而确定每个候选设备的信任值。然后，信任评估节点可以根据多个候选设备的信任值从多个候选设备中确定可信任设备，并将可信任设备的标识发送给第一设备。第一设备在接收到信任评估节点发送的可信任设备的标识后，可以与可信任设备进行通信交互，以保证通信效率以及通信安全性。

下面对本申请实施例提供的信任评估方法中信任评估节点所执行的功能进行进一步介绍：

图4为本申请实施例提供的一种信任评估节点的结构示意图。参考图4，信任评估节点可以包括数据收集模块、分类模块、强化学习模块、基础数学模型(basicmathematical mode，BMM)模块以及信任决策模块。可以理解的是，以上多个模块可以集成在同一个设备中，也可以分别部署在不同的设备上，本申请实施例对此不做限定。下面对图4所示的信任评估节点中的各个模块的功能进行介绍：

图5为本申请实施例提供的一种信任评估节点内各模块的功能示意图。

参考图5，数据收集模块用于收集设备的信任相关数据。可选的，设备的信任相关数据可以包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项。设备的信任相关数据可以用于确定设备的初始信任值。

分类模块，可以为基于深度信仰网络(deep belief network，DBN)的分类模块，分类模块用于根据设备的初始信任值对设备进行分类。例如，基于DBN的分类模块可以根据图3所示场景中多个候选设备的初始信任值确定每个候选设备的信任类型。可选地，基于DBN的分类模块可以将多个候选设备分为至少两种信任类型。例如，若基于DBN的分类模块对多个候选设备进行二分类，则候选设备的信任类型可以为可信或不可信；若基于DBN的分类模块对多个候选设备进行三分类，则候选设备的信任类型可以为可信、一般可信或不可信。以此类推，分类模块还可以对多个候选设备进行更多类型的划分，具体实施中分类模块可划分的信任类型的数量可以根据场景动态调整。

强化学习模块，可以为基于双演员评论家模型(double actor-critic，DAC)的强化学习模块，强化学习模块用于学习直接信任值对应的权重值，以及学习如何选择推荐设备和每个推荐设备对应的权重值。可选的，基于DAC的强化学习模块可以包括两个强化学习模型，如第一强化学习模型和第二强化学习模型，其中，第一强化学习模型可以用于学习直接信任值对应的权重值或间接信任值对应的权重值，第二强化学习模块可以用于学习如何选择推荐设备以及每个推荐设备对应的权重值。需要说明的是，直接信任值对应的权重值和间接信任值对应的权重值的加和为1，第一强化学习模型可以学习直接信任值对应的权重值和间接模型对应的权重值中的任一项，进而可以确定出另一项。

BMM模块，用于计算设备的直接信任值、间接信任值，以及对直接信任值、间接信任值进行加权计算得到设备的信任值。

信任决策模块，用于根据设备的信任值确定设备的信任评估结果。例如，根据多个设备的信任值确定多个设备中的可信设备。

基于图4和图5所示的信任评估节点内的各个模块，下面对本申请实施例提供的信任评估方法中信任评估节点对多个候选设备进行信任评估的步骤进行介绍。图6为本申请实施例提供的一种信任评估方法的流程图。参考图6，该方法包括以下步骤：

S601：数据收集模块获取多个候选设备中每个候选设备的信任相关数据。

其中，每个候选设备的信任相关数据可以包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项。

S602：数据收集模块将每个候选设备的信任相关数据发送给分类模块。

S603：分类模块根据每个候选设备的信任相关数据确定每个候选设备的初始信任值，并根据多个候选设备的初始信任值将多个候选设备分为至少两种信任类型。

可选地，同一信任类型的候选设备可以作为一个集合。例如，假设分类模块为基于二分类的DBN模型对候选设备进行分类，则多个候选设备可以根据分类模块确定出的信任类型划为可信设备集合和不可信设备集合。

S604：分类模块将多个候选设备中每个候选设备的信任类型发送给强化学习模块中的第一强化学习模型和第二强化学习模型。

其中，第一强化学习模型用于确定每个候选设备的直接信任值对应的权重值；第二强化学习模型用于确定每个候选设备对应的多个推荐设备，以及多个推荐设备中每个推荐设备对应的权重值。

S605：第一强化学习模型判断对目标设备进行的本轮权重计算过程的交互设备选择策略是否为第一策略？若是，进入S606；否则，确定本轮权重计算过程的交互设备选择策略为第二策略，进入S607。

其中，目标设备为多个候选设备中的任一设备。

在本申请实施例中，第一强化学习模型可以针对目标设备进行多轮权重计算以确定目标设备的直接信任值对应的权重值，每轮权重计算过程中可以选择至少一个交互设备与目标设备进行交互，获取交互数据。其中，任一轮权重计算过程的交互设备选择策略可以为第一策略或第二策略，第一策略还可以称为探索策略，第二策略还可以称为利用策略。具体的，第一策略为以预设概率从至少两种信任类型中确定目标信任类型，从目标信任类型对应的候选设备中选择一个候选设备作为交互设备；第二策略为在目标设备的邻居节点中选择信任值最高的节点作为交互设备。

一种可选的实施方式中，第一强化学习模型可以根据预设的决策函数判断本轮权重计算过程的交互设备选择策略，如预设的决策函数可以为以下公式7：

其中，α、β、σ为常数，Pr(exp)为本轮权重计算过程的交互设备选择策略为探索策略的概率值，t为从针对目标设备开始进行权重计算到本轮权重计算之间的时长，或t可以为本轮权重计算在针对目标设备进行的权重计算中的轮次数，如本轮权重计算为针对目标设备进行的第3轮权重计算，则t可以取值为3。

需要说明的是，如公式7所示的预测函数得到的结果为本轮权重计算过程的交互设备选择策略为探索策略的概率值，在根据公式7确定出本轮权重计算过程的交互设备选择策略为探索策略的概率值后，第一强化学习模型可以根据确定出的概率值对应的随机函数确定本轮权重计算过程的交互设备选择策略为探索策略或利用策略。举例来说，第一强化学习模型可以通过随机函数Random(X)确定本轮权重计算过程的交互设备选择策略，其中，X为概率值。如当X＝0.7时，Random(0.7)表示本轮权重计算过程的交互设备选择策略为探索策略的概率为0.7，第一强化学习模型以此概率进行随机选择确定本轮权重计算过程的交互设备选择策略。

本申请一些实施例中，在针对目标设备进行的多轮权重计算过程中，第一强化学习模型可以学习如何确定直接信任值对应的权重值，通过多轮权重计算对第一强化学习模型确定直接信任值对应的权重值的策略进行调整，将多轮优化后的第一强化学习模型输出的结果作为目标设备的直接信任值对应的权重值。每一轮权重计算过程的交互设备选择策略可以为探索策略或利用策略，其中，当一轮权重计算过程的交互设备选择策略为探索策略时，表示当前目标设备与其它设备之间的交互数据较少，该轮权重计算过程中可以随机选取候选设备与目标设备进行交互以获取交互数据。当一轮权重计算过程的交互设备选择策略为利用策略时，表示当前目标设备为已与其它设备进行过多次通信交互的设备，则该轮权重计算过程中可以选择与目标设备进行过通信交互的邻居节点与目标设备进行交互以获取交互数据。因此，参见公式7，根据本申请实施例提供的决策函数，当一轮权重计算对应的t的取值越大，表示该轮权重计算之前已经进行过多轮权重计算，则目标设备已与多个候选设备或邻居节点进行过通信交互，此时第一强化学习模块确定出的本轮权重计算过程的交互设备选择策略为探索策略的概率值较小，则基于该概率值对应的随机函数确定出的本轮权重计算过程的交互设备选择策略更可能为利用策略。

举例来说，公式7可以设置为：

假设以上公式中t为本轮权重计算在针对目标设备进行的权重计算中的轮次数，当t＝1时，根据该公式计算得到本轮权重计算过程的交互设备选择策略为探索策略的概率值约为0.956，则基于概率值为0.956的随机函数确定本轮权重计算过程的交互设备选择策略时，更可能得到的结果为本轮权重计算过程的交互设备选择策略为探索策略。当t＝30时，根据该公式计算得到本轮权重计算过程的交互设备选择策略为探索策略的概率值约为0.301，则基于概率值为0.301的随机函数确定本轮权重计算过程的交互设备选择策略时，更可能得到的结果为本轮权重计算过程的交互设备选择策略为利用策略。

通过以上设计，本申请实施例提供的信任评估方法中，可以在基于强化学习模型确定目标设备的直接信任值对应的权重值时，随着多轮权重计算的进行过程，以不同的概率值确定每轮权重计算过程的交互设备选择策略，从而加快强化学习模型的优化速度，解决现有强化学习模型中奖励值收敛速度缓慢且奖励值不稳定的问题。

S606：第一强化学习模型以预设概率从至少两种信任类型中确定目标信任类型，从目标信任类型对应的候选设备中选择一个候选设备作为交互设备。

一种可选的实施方式中，当本轮权重计算过程的交互设备选择策略为探索策略时，第一强化学习模型可以以预设概率从分类模型划分的至少两种信任类型中确定目标信任类型，并从目标信任类型对应的候选设备中选择一个候选设备作为交互设备。例如，假设S603中分类模块将多个候选设备划分为两种信任类型：可信和不可信，多个候选设备可以根据分类模块确定出的信任类型划为可信设备集合和不可信设备集合。第一强化学习模型可以根据概率α的随机函数确定目标信任类型，如确定出目标信任类型为可信，则在可信设备集合中随机选择一个候选设备作为交互设备；若确定出目标信任类型为不可信，则在不可信设备集合中随机选择一个候选设备作为交互设备。

S607：第一强化学习模型在目标设备的邻居节点中选择信任值最高的节点作为交互设备。

一种可选的实施方式中，当本轮权重计算过程的交互设备选择策略为利用策略时，第一强化学习模型可以在目标设备的邻居节点中选择一个节点作为交互设备，例如选择邻居节点中信任值最高的节点作为交互设备。

S608：第一强化学习模型获取至少一个交互设备与所述目标设备进行通信交互的交互数据，根据获取到的交互数据确定本轮权重计算过程的第一奖励值和第一状态值，并根据本轮权重计算过程的第一奖励值和第一状态值确定本轮权重计算过程对应的备选权重值。

可选的，交互数据可以为目标设备与至少一个交互设备进行通信交互时通信成功的次数和通信失败的次数。

在本申请实施例中，第一强化学习模型可以根据获取到的交互数据确定本轮权重计算过程的第一奖励值和第一状态值，其中，本轮权重计算过程的第一奖励值可以用于指示本轮权重计算过程中第一强化学习模型的性能好坏，第一状态值可以用于指示目标设备和至少一个交互设备的通信状态。第一强化学习模型可以根据本轮权重计算过程的第一奖励值和第一状态值确定本轮权重计算得到的备选权重值，第一强化学习模块确定备选权重值可以看作第一强化学习模型根据第一奖励值和第一状态值采取的新的动作。通过多轮权重计算，第一强化学习模型可以优化确定备选权重值的策略，进而确定出目标设备的直接信任值对应的权重值。

S609：第一强化学习模型判断是否可以结束多轮权重计算，若是，进入S610；否则，返回S605。

一种可选的实施方式中，第一强化学习模型可以在奖励值收敛和/或当前轮次数到达预设的轮次数时，停止多轮权重计算。例如，在针对目标设备进行M轮的权重计算后，和/或，针对目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的奖励值之间的差值小于预设阈值，停止多轮权重计算；其中，M、N为正整数，且M大于N。

可以理解的是，奖励值收敛可以表示第一强化学习模型的性能趋于稳定，此时可以停止多轮权重计算；或者可以预设第一强化学习模型进行权重计算的轮次数，在当前轮次数到达预设的轮次数后，停止多轮权重计算，防止第一强化学习模型进入无限循环降低效率。

S610：第一强化学习模型确定目标设备的直接信任值对应的权重值。

可选地，第一强化学习模型可以将多轮权重计算中奖励值最高的一轮权重计算所计算出的备选权重值作为目标设备的直接信任值对应的权重值。

S611：第二强化学习模型判断对目标设备进行的本轮推荐设备选择过程的推荐设备选择策略是否为第三策略？若是，进入S612；否则，确定本轮推荐设备选择过程的推荐设备选择策略为第四策略，进入S613。

在本申请实施例中，第二强化学习模型可以针对目标设备进行多轮推荐设备选择以确定目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，每轮推荐设备选择过程中可以选择多个备选推荐设备并确定每个备选推荐设备对应的权重值。其中，任一轮推荐设备选择过程的推荐设备选择策略可以为第三策略或第四策略，第三策略还可以称为探索策略，第四策略还可以称为利用策略。具体的，第三策略为以预设比例从每种信任类型的候选设备中选择与目标设备有过通信交互的候选设备作为推荐设备；第四策略为从目标设备的邻居节点中选择与目标设备有过通信交互的预设数量的节点作为推荐设备。

可选地，第二强化学习模型在确定本轮推荐设备选择过程的推荐设备选择策略时可以根据本申请实施例提供的决策函数(如公式7)确定本轮推荐设备选择过程的推荐设备选择策略为探索策略的概率值，再根据确定出的概率值对应的随机函数确定本轮推荐设备选择过程的推荐设备选择策略为探索策略或利用策略。具体实施可以参见S605，重复之处不再赘述。

S612：第二强化学习模型以预设比例从每种信任类型的候选设备中选择与目标设备有过通信交互的候选设备作为第一备选推荐设备。

一些可选的实施方式中，当本轮推荐设备选择过程的推荐设备选择策略为探索策略时，第二强化学习模型可以从每种信任类型的候选设备中选择与目标设备有过通过交互的候选设备作为第一备选推荐设备，并且从每种信任类型的候选设备中选择作为第一备选推荐设备的候选设备的数量符合预设比例。例如，假设S603中分类模块将多个候选设备划分为两种信任类型：可信和不可信，多个候选设备可以根据分类模块确定出的信任类型划为可信设备集合和不可信设备集合。第二强化学习模型可以以X：Y的预设比例从可信设备集合和不可信设备集合中选择推荐设备。具体来说，第二强化学习模型可以从可信设备集合中选择X个候选设备作为第一备选推荐设备，从不可信设备集合中选择Y个设备作为第一备选推荐设备，其中，X、Y为正整数，例如X可以为1，Y可以为2。

S613：第二强化学习模型从目标设备的邻居节点中选择与目标设备有过通信交互的预设数量的节点作为第一备选推荐设备。

一些可选的实施方式中，当本轮推荐设备选择过程的推荐设备选择策略为利用策略时，第二强化学习模型可以从目标设备的邻居节点中选择预设数量的节点作为第一备选推荐设备，如从目标设备的邻居节点中选择与目标设备有过通信交互的Q个节点作为第一备选推荐设备，Q为正整数。

S614：第二强化学习模块根据选择出的多个第一备选推荐设备，确定本轮推荐设备选择过程的第二奖励值和第二状态值。

其中，本轮推荐设备选择的第二奖励值可以用于指示本轮推荐设备选择中第二强化学习模型的性能好坏，第二状态值可以用于指示目标设备与本轮推荐设备选择得到的多个第一备选推荐设备的通信状态。

一种可选的实施方式中，第二强化学习模型在本轮推荐设备选择中确定多个第一备选推荐设备，可以看作第二强化学习模型采取的新动作，第二强化学习模型可以根据确定出的多个推荐设备确定本轮推荐设备选择过程的第二状态值。针对确定出的多个第一备选推荐设备，第二强化学习模型可以通过多轮权重计算，确定每个第一备选推荐设备对应的权重值。具体实施中，第二强化学习模型可以根据本申请实施例提供的决策函数(如公式7)确定每轮权重计算过程的类型，进而通过多轮权重计算确定每个第一备选推荐设备对应的权重值。第二强化学习模型可以根据每轮推荐设备选择过程中确定出的多个第一备选推荐设备以及每个第一备选推荐设备对应的权重值确定本轮推荐设备选择过程的第二奖励值。重复以上过程，第二强化学习进行多轮推荐设备选择，得到多组备选结果，每组备选结果中包括多个备选推荐设备以及每个备选推荐设备对应的权重值。通过多轮推荐设备选择，可以优化第二强化学习模型选择推荐设备的策略和确定每个推荐设备对应的权重值的策略，进而根据优化后的第二强化学习模型确定目标设备对应的多个推荐设备和每个推荐设备对应的权重值。

S615：第二强化学习模型判断是否可以结束多轮推荐设备选择；若是，进入S616；否则，返回S611。

一种可选的实施方式中，第二强化学习模型可以在奖励值收敛和/或当前轮次数到达预设的轮次数时，停止多轮推荐设备选择。例如，在针对目标设备进行Q轮的推荐设备选择后，和/或，针对目标设备进行的最后P轮推荐设备选择中任意相邻两轮推荐设备选择的奖励值之间的差值小于预设阈值，停止多轮推荐设备选择；其中，Q、P为正整数，且Q大于P。

S616：第二强化学习模型确定目标设备对应的多个推荐设备以及每个推荐设备对应的权重值。

一种可选的实施方式中，第二强化学习模型针对目标设备进行多轮推荐设备选择后，可以得到多组备选结果，每组备选结果包括多个备选推荐设备和每个备选推荐设备对应的权重值。第二强化学习模型在停止多轮推荐设备选择后，从多组备选结果中确定目标结果，目标结果包括目标设备对应的多个推荐设备以及每个推荐设备对应的权重值。

可选地，第一强化学习模型可以在多组备选结果中，选择第二奖励值最高的一轮推荐设备选择过程所确定出的备选结果，将选择的备选结果作为目标结果。

S617：强化学习模块将目标设备的直接信任值对应的权重值、目标设备对应的多个推荐设备以及每个推荐设备的权重值发送给BMM模块。

S618：BMM模块根据目标设备的直接信任值对应的权重值、目标设备对应的多个推荐设备以及每个推荐设备的权重值确定目标设备的信任值。

在本申请一些实施例中，BMM模块可以根据目标设备对应的多个推荐设备以及每个推荐设备对应的权重值确定目标设备的间接信任值。其中，目标设备的间接信任值可以用于指示目标设备相对于目标设备的多个推荐设备的信任程度。例如，BMM模块可以将公式4中的C_i,k(t)替换为本申请实施例中第二强化模型确定出的每个推荐设备对应的权重值，从而计算目标设备的间接信任值。BMM模块还可以确定目标设备的直接信任值。其中，目标设备的直接信任值可以用于指示目标设备相对于第一设备的信任程度。例如，BMM模块可以根据公式2或公式3计算目标设备的直接信任值。BMM模块在确定出目标设备的直接信任值和间接信任值后，可以根据目标设备的直接信任值、间接信任值以及直接信任值对应的权重值确定目标设备的信任值。例如，BMM模块可以根据公式1计算目标设备的信任值。

重复S605-S618直至确定出多个候选设备中每个候选设备的信任值。

S619：BMM模块将多个候选设备中每个候选设备的信任值发送给信任决策模块。

S620：信任决策模块根据多个候选设备中每个候选设备的信任值确定信任评估结果。

例如，信任决策模块根据多个候选设备中每个候选设备的信任值确定多个候选设备中的可信任设备的设备标识。

通过上述方法，信任评估节点可以对第一设备请求进行信任评估的多个候选设备进行信任评估，以确定多个候选设备是否为可信任设备。本申请实施例提供的信任评估方法可以适用于各种信任评估场景，且可以解决待评估设备不存在交互数据的冷启动信任评估问题，进而提高信任评估的准确性，保证通信安全。

下面以两个示例对本申请实施例提供的信任评估方法进行进一步介绍：

示例一

图7为本申请实施例提供的一种信任评估方法的流程图。该方法可以由图3所示场景中的第一设备、信任评估节点以及存储系统执行，在本示例中存储系统可以为区块链。

S701：信任评估节点获取多个设备的信任相关数据。

其中，每个设备的信任相关数据可以包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项。

S702：信任评估节点根据每个设备的信任相关数据确定每个设备的初始信任值。

S703：信任评估节点将每个设备的初始信任值发送给区块链。

本申请一些实施例中，区块链可以存储每个设备的信任值。可选的，每个设备的信任值可以为信任评估节点根据该设备的信任相关数据确定的初始信任值，也可以为信任评估节点基于本申请实施例提供的信任评估方法对该设备进行信任评估后得到的信任值。

S704：第一设备向区块链发送请求消息，该请求消息用于向区块链请求待评估的多个候选设备的初始信任值。

S705：区块链向第一设备发送多个候选设备中每个候选设备的初始信任值。

S706：第一设备向信任评估节点发送信任评估请求。

可选地，信任评估请求可以包括待评估的多个候选设备的标识和每个候选设备的初始信任值。

S707：信任评估节点根据多个候选设备的初始信任值，将多个候选设备分为至少两种信任类型。

S708：信任评估节点根据每种信任类型对应的候选设备，基于第一强化学习模型确定每个候选设备的直接信任值对应的权重值，以及根据每种信任类型对应的候选设备，基于第二强化学习模型确定每个候选设备对应的推荐设备和每个推荐设备对应的权重值；根据每个候选设备的直接信任值对应的权重值、每个候选设备对应的推荐设备以及每个推荐设备对应的权重值确定每个候选设备的信任值。

需要说明的是，信任评估节点确定每个候选设备的信任值的方法可以参见图6所示实施例，此处不再赘述。

S709：信任评估节点根据多个候选设备的信任值确定多个候选设备中的可信任设备。

S710：信任评估节点将可信任设备的标识发送给所述第一设备。

S711：第一设备与可信任设备进行通信交互，记录第一设备与每个可信任设备进行通信交互的交互数据。

S712：第一设备将第一设备与每个可信任设备进行通信交互的交互数据发送给信任评估节点。

S713：信任评估节点根据第一设备与可信任设备之间的交互数据更新第一强化学习模型的模型参数、第二强化学习模型的模型参数以及可信任设备的信任值。

一种可选的实施方式中，第一强化学习模型可以根据第一设备与可信任设备之间的交互数据确定状态值，并根据该状态值确定可信任设备的直接信任值对应的权重值，通过该过程，可以基于真实交互数据优化第一强化学习模型的模型参数，进一步提升第一强化学习模型的性能。

类似地，第二强化学习模型可以根据第一设备与可信任设备之间的交互数据确定状态值，并根据该状态值确定可信任设备对应的多个推荐设备和每个推荐设备对应的权重值，通过该过程，可以基于真实交互数据优化第二强化学习模型的模型参数，进一步提升第二强化学习模型的性能。

一些实施例中，第一强化学习模型可以基于第一设备与可信任设备的交互数据确定可信任设备的直接信任值对应的权重值，第二强化学习模型可以基于第一设备与可信任设备的交互数据确定可信任设备对应的多个推荐设备和每个推荐设备对应的权重值，进而信任评估节点可以重新确定可信任设备的信任值，以实现根据真实交互数据更新可信任设备的信任值，进一步提升信任评估的准确性。

S714：信任评估节点将更新后的可信任设备的信任值发送给区块链。

示例二

图8为本申请实施例提供的一种信任评估方法的流程图。该方法可以由图3所示场景中的第一设备、信任评估节点以及存储系统执行。在本示例中，存储系统可以为区块链和IPFS。

S801：信任评估节点获取多个设备的信任相关数据。

S802：信任评估节点根据每个设备的信任相关数据确定每个设备的初始信任值。

S803：信任评估节点将每个设备的初始信任值以及每个设备的信任相关数据发送给IPFS。

S804：信任评估节点将每个设备的初始信任值的哈希值发送给区块链。

一种可选的实施方式中，信任评估节点可以将设备的信任值以及设备的信任相关数据发送给IPFS，IPFS可以存储设备的信任值以及设备的信任相关数据，以减轻区块链的数据存储压力。信任评估节点还可以将设备的信任值的哈希值发送给区块链，区块链中存储设备的信任值的哈希值，可以实现数据完整性保护，以防IPFS中存储的设备的信任值被篡改，保证数据安全性。其中，IPFS中存储的设备的信任值可以为信任评估节点根据该设备的信任相关数据确定的初始信任值，也可以为信任评估节点基于本申请实施例提供的信任评估方法对该设备进行信任评估后得到的信任值。

S805：第一设备向IPFS发送请求消息，该请求消息用于向IPFS请求待评估的多个候选设备的初始信任值。

S806：IPFS向第一设备发送多个候选设备中每个候选设备的初始信任值。

一种可选的实施方式中，第一设备可以向IPFS请求待评估的多个候选设备的初始信任值，IPFS将待评估的多个候选设备的初始信任值发送给第一设备。

另一种可选的实施方式中，第一设备还可以向区块链请求待评估的多个候选设备的初始信任值的哈希值，区块链将多个候选设备的初始信任值的哈希值发送给第一设备后，第一设备可以将多个候选设备的初始信任值的哈希值发送给IPFS，以获取IPFS中存储的多个候选设备的初始信任值。通过该设计，可以保证第一设备获取到的多个候选设备的初始信任值为未被篡改过的数据，保证数据安全性。

S807：第一设备向信任评估节点发送信任评估请求。

S808：信任评估节点根据多个候选设备的初始信任值将多个候选设备分为至少两种信任类型。

S809：信任评估节点根据每种信任类型对应的候选设备，基于第一强化学习模型确定每个候选设备的直接信任值对应的权重值，以及根据每种信任类型对应的候选设备，基于第二强化学习模型确定每个候选设备对应的多个推荐设备和每个推荐设备对应的权重值；根据每个候选设备的直接信任值对应的权重值、每个候选设备对应的多个推荐设备以及每个推荐设备对应的权重值确定每个候选设备的信任值。

S810：信任评估节点根据多个候选设备的信任值确定多个候选设备中的可信任设备。

S811：信任评估节点将可信任设备的标识发送给所述第一设备。

S812：第一设备与可信任设备进行通信交互，记录第一设备与每个可信任设备进行通信交互的交互数据。

S813：第一设备将第一设备与每个可信任设备进行通信交互的交互数据发送给信任评估节点。

S814：信任评估节点根据第一设备与可信任设备之间的交互数据更新第一强化学习模型的模型参数、第二强化学习模型的模型参数以及可信任设备的信任值。

S815：信任评估节点将更新后的可信任设备的信任值发送给IPFS。

S816：信任评估节点将更新后的可信任设备的信任值的哈希值发送给区块链。

基于相同的技术构思，本申请还提供了一种信任评估方法，该方法可以由图3所示场景中的信任评估节点和第一设备执行。图9为本申请实施例提供的一种信任评估方法的流程图。参考图9，该方法包括以下步骤：

S901：第一设备向信任评估节点发送信任评估请求。

其中，信任评估请求包括待评估的多个候选设备的标识。

S902：信任评估节点获取多个候选设备中每个候选设备的初始信任值，根据多个候选设备的初始信任值，将多个候选设备分为至少两种信任类型。

S903：信任评估节点对多个候选设备中的每个候选设备执行如下操作，得到多个候选设备的信任值：根据每种信任类型对应的候选设备，确定目标设备的直接信任值对应的权重值；以及根据每种信任类型对应的候选设备，确定目标设备对应的多个推荐设备和每个推荐设备对应的权重值。信任评估节点根据目标设备的直接信任值对应的权重值、目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，确定目标设备的信任值。

其中，目标设备为多个候选设备中的任一设备；目标设备的直接信任值用于指示目标设备相对于第一设备的信任程度；

S904：信任评估节点根据多个候选设备的信任值，在多个候选设备中确定可信任设备。

S905：信任评估节点将可信任设备的标识发送给第一设备。

需要说明的是，本申请图9所示的信任评估方法在具体实施时可以参见本申请上述各实施例，重复之处不再赘述。

基于相同的技术构思，本申请还提供了一种信任评估装置1000，该信任评估装置1000可以应用于图3所示场景中的信任评估节点，以实现图6-图9所示的信任评估方法中信任评估节点所执行的功能。图10为本申请实施例提供的一种信任评估装置1000的结构示意图，所述信任评估装置1000包括接收单元1001、处理单元1002和发送单元1003。其中，处理单元1002还可以划分为图4所示的多个模块，不同模块执行的功能如图5所示，此处不再赘述。

下面对信任评估装置1000中的各个单元的功能进行介绍。

接收单元1001，用于接收第一设备发送的信任评估请求，所述信任评估请求包括待评估的多个候选设备的标识；

处理单元1002，用于获取所述多个候选设备中每个候选设备的初始信任值，根据所述多个候选设备的初始信任值，将所述多个候选设备分为至少两种信任类型；对所述多个候选设备中的每个候选设备执行如下操作，得到所述多个候选设备的信任值：根据每种信任类型对应的候选设备，确定目标设备的直接信任值对应的权重值；以及根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值；根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，确定所述目标设备的信任值；其中，所述目标设备为所述多个候选设备中的任一设备；所述目标设备的直接信任值用于指示所述目标设备相对于所述第一设备的信任程度；根据所述多个候选设备的信任值，在所述多个候选设备中确定可信任设备；

发送单元1003，用于将所述可信任设备的标识发送给所述第一设备。

在一种实施方式中，所述处理单元1002具体用于：基于第一强化学习模型针对所述目标设备进行多轮权重计算过程，得到多个备选权重值；根据所述多个备选权重值，确定所述目标设备的直接信任值对应的权重值；

其中，任一轮权重计算过程包括：确定本轮权重计算过程的交互设备选择策略为第一策略或第二策略，根据本轮权重计算过程的交互设备选择策略确定至少一个交互设备；其中，所述第一策略为以预设概率从所述至少两种信任类型中确定目标信任类型，从所述目标信任类型对应的候选设备中选择一个候选设备作为交互设备；所述第二策略为在所述目标设备的邻居节点中选择信任值最高的节点作为交互设备，其中，所述信任评估节点中存储有所述目标设备的邻居节点的信任值；获取所述至少一个交互设备与所述目标设备进行通信交互的交互数据；根据所述交互数据，基于所述第一强化学习模型确定本轮权重计算过程的第一奖励值和第一状态值，存储本轮权重计算过程的第一奖励值；根据本轮权重计算过程的第一奖励值和第一状态值，计算本轮权重计算过程对应的备选权重值；其中，所述第一奖励值用于指示本轮权重计算过程中所述第一强化学习模型的性能；所述第一状态值用于指示所述目标设备与所述至少一个交互设备的通信状态。

在一种实施方式中，所述处理单元1002具体用于：根据预设的决策函数确定所述交互设备选择策略为第一策略的概率值，根据所述概率值对应的随机函数确定所述交互设备选择策略。

在一种实施方式中，所述处理单元1002具体用于：在所述多个备选权重值中，选择第一奖励值最高的一轮权重计算过程所计算出的备选权重值；将选择的备选权重值作为所述目标设备的直接信任值对应的权重值。

在一种实施方式中，所述处理单元1002还用于：在针对所述目标设备进行M轮的权重计算后，和/或，针对所述目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的奖励值之间的差值小于预设阈值，停止所述多轮权重计算；其中，M、N为正整数，且M大于N。

在一种实施方式中，所述处理单元1002具体用于：所述交互数据包括所述目标设备与所述至少一个交互设备进行通信交互的通信成功次数和通信失败次数。

在一种实施方式中，所述处理单元1002具体用于：基于第二强化学习模型针对所述目标设备进行多轮推荐设备选择过程，得到多组备选结果，每组备选结果中包括多个备选推荐设备以及每个备选推荐设备对应的权重值；在所述多组备选结果中，确定目标结果，所述目标结果中包含：所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值；

在一种实施方式中，所述处理单元1002具体用于：根据预设的决策函数确定所述推荐设备选择策略为第三策略的概率值，根据所述概率值对应的随机函数确定所述推荐设备选择策略。

在一种实施方式中，所述处理单元1002具体用于：在所述多组备选结果中，选择第二奖励值最高的一轮推荐设备选择过程所确定出的备选结果；将选择的备选结果作为所述目标结果。

在一种实施方式中，所述处理单元1002还用于：在针对所述目标设备进行Q轮的推荐设备选择后，和/或，针对所述目标设备进行的最后P轮推荐设备选择中任意相邻两轮推荐设备选择的奖励值之间的差值小于预设阈值，停止所述多轮推荐设备选择；其中，Q、P为正整数，且Q大于P。

在一种实施方式中，所述处理单元1002具体用于：通过所述接收单元1001接收所述第一设备发送的所述多个候选设备的信任相关数据，根据每个候选设备的信任相关数据确定每个候选设备的初始信任值；其中，所述信任相关数据包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项；或者通过所述接收单元1001接收所述第一设备发送的所述多个候选设备的初始信任值；所述多个候选设备的初始信任值是所述第一设备从区块链或星际文件存储系统获取的。

在一种实施方式中，所述处理单元1002还用于：通过所述接收单元1001接收所述第一设备发送的所述第一设备与所述可信任设备之间的交互数据，根据所述第一设备与所述可信任设备之间的交互数据，更新以下至少一项：第一强化学习模型的模型参数、第二强化学习模型的模型参数，以及所述可信任设备的信任值；

所述发送单元1003还用于：将更新后的可信任设备的信任值发送给区块链或星际文件存储系统。

在一种实施方式中，所述处理单元1002具体用于：根据所述目标设备对应的多个推荐设备，以及每个推荐设备对应的权重值，确定所述目标设备的间接信任值，其中，所述间接信任值用于指示所述目标设备相对于所述目标设备对应的多个推荐设备的信任程度；确定所述目标设备的直接信任值；根据所述目标设备的直接信任值、所述间接信任值，以及所述直接信任值对应的权重值，确定所述目标设备的信任值。

基于相同的技术构思，本申请还提供了一种信任评估设备1100，图11为本申请实施例提供的一种信任评估设备1100的结构示意图，所述信任评估设备1100可以用于实现图6-图9所示的信任评估方法中信任评估节点所执行的功能。参阅图11所示，所述信任评估设备1100包括：通信接口1101、处理器1102和存储器1103。

可选的，所述通信接口1101、所述处理器1102以及所述存储器1103之间通过总线1104相互连接。所述总线1104可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

所述通信接口1101，用于接收和发送数据，实现与其他设备之间的通信交互。示例性的，所述通信接口1101可以是收发器、电路、总线、模块或其它类型的通信接口。

本申请一种实施方式中，所述信任评估设备1100可以实现本申请图6-图9所示的信任评估方法中信任评估节点的功能，处理器1102的功能介绍如下：

处理器1102，用于通过通信接口1101接收第一设备发送的信任评估请求，所述信任评估请求包括待评估的多个候选设备的标识；获取所述多个候选设备中每个候选设备的初始信任值，根据所述多个候选设备的初始信任值，将所述多个候选设备分为至少两种信任类型；对所述多个候选设备中的每个候选设备执行如下操作，得到所述多个候选设备的信任值：根据每种信任类型对应的候选设备，确定目标设备的直接信任值对应的权重值；以及根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值；根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，确定所述目标设备的信任值；其中，所述目标设备为所述多个候选设备中的任一设备；所述目标设备的直接信任值用于指示所述目标设备相对于所述第一设备的信任程度；根据所述多个候选设备的信任值，在所述多个候选设备中确定可信任设备；通过通信接口1101将所述可信任设备的标识发送给所述第一设备。

在一种实施方式中，所述处理器1102具体用于：基于第一强化学习模型针对所述目标设备进行多轮权重计算过程，得到多个备选权重值；根据所述多个备选权重值，确定所述目标设备的直接信任值对应的权重值；

在一种实施方式中，所述处理器1102具体用于：根据预设的决策函数确定所述交互设备选择策略为第一策略的概率值，根据所述概率值对应的随机函数确定所述交互设备选择策略。

在一种实施方式中，所述处理器1102具体用于：在所述多个备选权重值中，选择第一奖励值最高的一轮权重计算过程所计算出的备选权重值；将选择的备选权重值作为所述目标设备的直接信任值对应的权重值。

在一种实施方式中，所述处理器1102还用于：在针对所述目标设备进行M轮的权重计算后，和/或，针对所述目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的奖励值之间的差值小于预设阈值，停止所述多轮权重计算；其中，M、N为正整数，且M大于N。

在一种实施方式中，所述处理器1102具体用于：所述交互数据包括所述目标设备与所述至少一个交互设备进行通信交互的通信成功次数和通信失败次数。

在一种实施方式中，所述处理器1102具体用于：基于第二强化学习模型针对所述目标设备进行多轮推荐设备选择过程，得到多组备选结果，每组备选结果中包括多个备选推荐设备以及每个备选推荐设备对应的权重值；在所述多组备选结果中，确定目标结果，所述目标结果中包含：所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值；

在一种实施方式中，所述处理器1102具体用于：根据预设的决策函数确定所述推荐设备选择策略为第三策略的概率值，根据所述概率值对应的随机函数确定所述推荐设备选择策略。

在一种实施方式中，所述处理器1102具体用于：在所述多组备选结果中，选择第二奖励值最高的一轮推荐设备选择过程所确定出的备选结果；将选择的备选结果作为所述目标结果。

在一种实施方式中，所述处理器1102还用于：在针对所述目标设备进行Q轮的推荐设备选择后，和/或，针对所述目标设备进行的最后P轮推荐设备选择中任意相邻两轮推荐设备选择的奖励值之间的差值小于预设阈值，停止所述多轮推荐设备选择；其中，Q、P为正整数，且Q大于P。

在一种实施方式中，所述处理器1102具体用于：通过所述通信接口1101接收所述第一设备发送的所述多个候选设备的信任相关数据，根据每个候选设备的信任相关数据确定每个候选设备的初始信任值；其中，所述信任相关数据包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项；或者通过所述通信接口1101接收所述第一设备发送的所述多个候选设备的初始信任值；所述多个候选设备的初始信任值是所述第一设备从区块链或星际文件存储系统获取的。

在一种实施方式中，所述处理器1102还用于：通过所述通信接口1101接收所述第一设备发送的所述第一设备与所述可信任设备之间的交互数据，根据所述第一设备与所述可信任设备之间的交互数据，更新以下至少一项：第一强化学习模型的模型参数、第二强化学习模型的模型参数，以及所述可信任设备的信任值；

所述通信接口1101还用于：将更新后的可信任设备的信任值发送给区块链或星际文件存储系统。

在一种实施方式中，所述处理器1102具体用于：根据所述目标设备对应的多个推荐设备，以及每个推荐设备对应的权重值，确定所述目标设备的间接信任值，其中，所述间接信任值用于指示所述目标设备相对于所述目标设备对应的多个推荐设备的信任程度；确定所述目标设备的直接信任值；根据所述目标设备的直接信任值、所述间接信任值，以及所述直接信任值对应的权重值，确定所述目标设备的信任值。

可以理解，本申请图11中的存储器1103可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

基于以上实施例，本申请还提供一种计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行本申请实施例所描述的各方法。

基于以上实施例，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被计算机执行时，使得所述计算机执行本申请实施例所描述的各方法。

基于以上实施例，本申请还提供了一种芯片，所述芯片用于读取存储器中存储的计算机程序，实现本申请实施例所描述的各方法。

基于以上实施例，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持计算机装置实现本申请实施例所描述的各方法。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器用于保存该计算机装置必要的程序和数据。该芯片系统，可以由芯片构成，也可以包含芯片和其他分立器件。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的保护范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种信任评估方法，其特征在于，应用于信任评估节点，所述方法包括：

接收第一设备发送的信任评估请求，所述信任评估请求包括待评估的多个候选设备的标识；

获取所述多个候选设备中每个候选设备的初始信任值，根据所述多个候选设备的初始信任值，将所述多个候选设备分为至少两种信任类型；

对所述多个候选设备中的每个候选设备执行如下操作，得到所述多个候选设备的信任值：根据每种信任类型对应的候选设备，确定目标设备的直接信任值对应的权重值；以及根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值；根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，确定所述目标设备的信任值；其中，所述目标设备为所述多个候选设备中的任一设备；所述目标设备的直接信任值用于指示所述目标设备相对于所述第一设备的信任程度；

根据所述多个候选设备的信任值，在所述多个候选设备中确定可信任设备，并将所述可信任设备的标识发送给所述第一设备。

2.如权利要求1所述的方法，其特征在于，所述根据每种信任类型对应的候选设备，确定所述目标设备的直接信任值对应的权重值，包括：

其中，任一轮权重计算过程包括：

确定本轮权重计算过程的交互设备选择策略为第一策略或第二策略，根据本轮权重计算过程的交互设备选择策略确定至少一个交互设备；其中，所述第一策略为以预设概率从所述至少两种信任类型中确定目标信任类型，从所述目标信任类型对应的候选设备中选择一个候选设备作为交互设备；所述第二策略为在所述目标设备的邻居节点中选择信任值最高的节点作为交互设备，其中，所述信任评估节点中存储有所述目标设备的邻居节点的信任值；

获取所述至少一个交互设备与所述目标设备进行通信交互的交互数据；根据所述交互数据，基于所述第一强化学习模型确定本轮权重计算过程的第一奖励值和第一状态值，存储本轮权重计算过程的第一奖励值；根据本轮权重计算过程的第一奖励值和第一状态值，计算本轮权重计算过程对应的备选权重值；其中，所述第一奖励值用于指示本轮权重计算过程中所述第一强化学习模型的性能；所述第一状态值用于指示所述目标设备与所述至少一个交互设备的通信状态。

3.如权利要求2所述的方法，其特征在于，所述确定本轮权重计算的交互设备选择策略为第一策略或第二策略，包括：

根据预设的决策函数确定所述交互设备选择策略为第一策略的概率值，根据所述概率值对应的随机函数确定所述交互设备选择策略。

4.如权利要求2或3所述的方法，其特征在于，所述根据所述多个备选权重值，确定所述目标设备的直接信任值对应的权重值，包括：

在所述多个备选权重值中，选择第一奖励值最高的一轮权重计算过程所计算出的备选权重值；将选择的备选权重值作为所述目标设备的直接信任值对应的权重值。

5.如权利要求2-4任一项所述的方法，其特征在于，所述方法还包括：

在针对所述目标设备进行M轮的权重计算后，和/或，针对所述目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的第一奖励值之间的差值小于预设阈值，停止所述多轮权重计算；其中，M、N为正整数，且M大于N。

6.如权利要求2-5任一项所述的方法，其特征在于，所述交互数据包括所述目标设备与所述至少一个交互设备进行通信交互的通信成功次数和通信失败次数。

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值，包括：

基于第二强化学习模型针对所述目标设备进行多轮推荐设备选择过程，得到多组备选结果，每组备选结果中包括多个备选推荐设备以及每个备选推荐设备对应的权重值；在所述多组备选结果中，确定目标结果，所述目标结果中包含：所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值；

其中，任一轮推荐设备选择过程包括：

确定本轮推荐设备选择过程的推荐设备选择策略为第三策略或第四策略，根据所述推荐设备选择策略确定多个第一备选推荐设备；其中，所述第三策略为以预设比例从每种信任类型的候选设备中选择与所述目标设备有过通信交互的候选设备作为推荐设备；所述第四策略为从所述目标设备的邻居节点中选择与所述目标设备有过通信交互的预设数量的节点作为推荐设备；

根据所述多个第一备选推荐设备，基于所述第二强化学习模型确定本轮推荐设备选择过程的第二状态值；所述第二状态值用于指示所述目标设备与所述多个第一备选推荐设备的通信状态；基于所述第二强化学习模型进行多轮权重计算过程，确定每个第一备选推荐设备对应的权重值；根据所述多个第一备选推荐设备以及每个第一备选推荐设备对应的权重值确定本轮推荐设备选择过程的第二奖励值，并存储所述第二奖励值，所述第二奖励值用于指示本轮推荐设备选择过程中所述第二强化学习模型的性能。

8.如权利要求7所述的方法，其特征在于，所述确定本轮推荐设备选择的推荐设备选择策略为第三策略或第四策略，包括：

根据预设的决策函数确定所述推荐设备选择策略为第三策略的概率值，根据所述概率值对应的随机函数确定所述推荐设备选择策略。

9.如权利要求7或8所述的方法，其特征在于，所述在所述多组备选结果中，确定所述目标结果，包括：

在所述多组备选结果中，选择第二奖励值最高的一轮推荐设备选择过程所确定出的备选结果；将选择的备选结果作为所述目标结果。

10.如权利要求7-9任一项所述的方法，其特征在于，所述方法还包括：

在针对所述目标设备进行Q轮的推荐设备选择后，和/或，针对所述目标设备进行的最后P轮推荐设备选择中任意相邻两轮推荐设备选择的奖励值之间的差值小于预设阈值，停止所述多轮推荐设备选择；其中，Q、P为正整数，且Q大于P。

11.如权利要求1-10任一项所述的方法，其特征在于，所述获取所述多个候选设备中每个候选设备的初始信任值，包括：

接收所述第一设备发送的所述多个候选设备的信任相关数据，根据每个候选设备的信任相关数据确定每个候选设备的初始信任值；其中，所述信任相关数据包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项；或者

接收所述第一设备发送的所述多个候选设备的初始信任值；所述多个候选设备的初始信任值是所述第一设备从区块链或星际文件存储系统获取的。

12.如权利要求2-11任一项所述的方法，其特征在于，在将所述可信任设备的标识发送给所述第一设备之后，所述方法还包括：

接收所述第一设备发送的所述第一设备与所述可信任设备之间的交互数据，根据所述第一设备与所述可信任设备之间的交互数据，更新以下至少一项：第一强化学习模型的模型参数、第二强化学习模型的模型参数，以及所述可信任设备的信任值。

13.如权利要求1-12任一项所述的方法，其特征在于，所述根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值确定所述目标设备的信任值，包括：

根据所述目标设备对应的多个推荐设备，以及每个推荐设备对应的权重值，确定所述目标设备的间接信任值，其中，所述间接信任值用于指示所述目标设备相对于所述目标设备对应的多个推荐设备的信任程度；

确定所述目标设备的直接信任值；

根据所述目标设备的直接信任值、所述间接信任值，以及所述直接信任值对应的权重值，确定所述目标设备的信任值。

14.一种信任评估装置，其特征在于，所述信任评估装置包括接收单元、处理单元和发送单元，

所述接收单元，用于接收第一设备发送的信任评估请求，所述信任评估请求包括待评估的多个候选设备的标识；

所述处理单元，用于获取所述多个候选设备中每个候选设备的初始信任值，根据所述多个候选设备的初始信任值，将所述多个候选设备分为至少两种信任类型；对所述多个候选设备中的每个候选设备执行如下操作，得到所述多个候选设备的信任值：根据每种信任类型对应的候选设备，确定目标设备的直接信任值对应的权重值；以及根据每种信任类型对应的候选设备，确定所述目标设备对应的多个推荐设备和每个推荐设备对应的权重值；根据所述目标设备的直接信任值对应的权重值、所述目标设备对应的多个推荐设备以及每个推荐设备对应的权重值，确定所述目标设备的信任值；其中，所述目标设备为所述多个候选设备中的任一设备；所述目标设备的直接信任值用于指示所述目标设备相对于所述第一设备的信任程度；根据所述多个候选设备的信任值，在所述多个候选设备中确定可信任设备；

所述发送单元，用于将所述可信任设备的标识发送给所述第一设备。

15.如权利要求14所述的装置，其特征在于，所述处理单元具体用于：

其中，任一轮权重计算过程包括：

16.如权利要求15所述的装置，其特征在于，所述处理单元具体用于：

17.如权利要求15或16所述的装置，其特征在于，所述处理单元具体用于：

18.如权利要求15-17任一项所述的装置，其特征在于，所述处理单元还用于：

在针对所述目标设备进行M轮的权重计算后，和/或，针对所述目标设备进行的最后N轮权重计算中任意相邻两轮权重计算的奖励值之间的差值小于预设阈值，停止所述多轮权重计算；其中，M、N为正整数，且M大于N。

19.如权利要求15-18任一项所述的装置，其特征在于，所述交互数据包括所述目标设备与所述至少一个交互设备进行通信交互的通信成功次数和通信失败次数。

20.如权利要求14-19任一项所述的装置，其特征在于，所述处理单元具体用于：

其中，任一轮推荐设备选择过程包括：

21.如权利要求20所述的装置，其特征在于，所述处理单元具体用于：

22.如权利要求20或21所述的装置，其特征在于，所述处理单元具体用于：

23.如权利要求20-22任一项所述的装置，其特征在于，所述处理单元还用于：

24.如权利要求14-23任一项所述的装置，其特征在于，所述处理单元具体用于：

通过所述接收单元接收所述第一设备发送的所述多个候选设备的信任相关数据，根据每个候选设备的信任相关数据确定每个候选设备的初始信任值；其中，所述信任相关数据包括设备制造商、设备使用范围、设备重要性和设备部署位置中的至少一项；或者

通过所述接收单元接收所述第一设备发送的所述多个候选设备的初始信任值；所述多个候选设备的初始信任值是所述第一设备从区块链或星际文件存储系统获取的。

25.如权利要求15-24任一项所述的装置，其特征在于，所述处理单元还用于：

通过所述接收单元接收所述第一设备发送的所述第一设备与所述可信任设备之间的交互数据，根据所述第一设备与所述可信任设备之间的交互数据，更新以下至少一项：第一强化学习模型的模型参数、第二强化学习模型的模型参数，以及所述可信任设备的信任值。

26.如权利要求14-25任一项所述的装置，其特征在于，所述处理单元具体用于：

确定所述目标设备的直接信任值；

27.一种信任评估设备，其特征在于，包括处理器和存储器；所述存储器中存储计算机程序指令，所述信任评估设备运行时，所述处理器执行所述存储器中存储的所述计算机程序指令以实现上述权利要求1至13中任一所述的方法的操作步骤。

28.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在被处理器运行时，使得信任评估设备执行如权利要求1至13任一项所述的方法。

29.一种计算机程序产品，其特征在于，当所述计算机程序产品在处理器上运行时，使得信任评估设备执行如权利要求1至13任一项所述的方法。