CN118138289A

CN118138289A - 一种基于主机透传的ai机密计算方法

Info

Publication number: CN118138289A
Application number: CN202410200798.8A
Authority: CN
Inventors: 张翌维; 鲍敏祺; 周永财; 吴飞; 艾顺利; 马凯; 罗安; 顾俊卿; 李翔
Original assignee: Shanghai Suiyuan Technology Co ltd
Current assignee: Shanghai Suiyuan Technology Co ltd
Filing date: 2024-02-23
Publication date: 2024-06-04

Abstract

本发明公开了一种基于主机透传的AI机密计算方法，由AI机密计算系统执行，AI机密计算系统包括数据源、主机和多个算力装置，主机分别与数据源和各算力装置通信连接，该方法基于上述系统包括以下行为：主机在上电工作后，分别与数据源和各算力装置进行双向身份认证和密钥协商后在合法主机的透传下，合法数据源分别与各合法算力装置开展动态或静态密钥协商，各合法算力装置之间开展基于主机安全分发的密钥协商或群密钥协商后，合法数据源与合法算力装置之间直接开展采用带校验的加密通信，主机仅作透传以满足AI机密计算高性能需求。本发明实施例的技术方案可以有效保障训推系统中设施要素的安全可信，数据流转的高性能、机密完整和不可抵赖。

Description

一种基于主机透传的AI机密计算方法

技术领域

本发明涉及机密计算技术领域，尤其涉及一种基于主机透传的AI(ArtificialIntelligence，人工智能)机密计算方法。

背景技术

随着AI算力的普及和商业化，科学计算的高算力环境需求，为智能社会发展和科研进步带来了极大动能。在训推系统(同时包含模型训练及模型推理功能)中，对大模型计算、科学计算应用等领域，通常部署以下设备：数据源、主机以及算力装置。在AI计算过程中，数据资产在三类设备中流转，以满足实际AI计算需求。

当前，当算力装置从数据源(云)获取数据开展训推时，主机需先行下载进行数据转储或重组，在此后分发给算力装置开展训推任务，对AI系统性能影响较大，无法开展数据端到端直通训推，以同时满足AI系统高性能、高安全需求。

另一方面，发明人在实现本发明的过程中，基于上述由上述数据源、主机以及算力装置构成的训推系统，在实际AI计算过程中可能会面临一系列安全威胁，例如：算力装置的算力被非法劫持；伪造算力装置接入合法主机；算力接口数据被篡改造成数据投毒；训推数据来源不可信；以及，用户数据泄露或隐私泄露等。

鉴于上述问题，为训推系统中的各项设施要素，设计符合AI技术特征的高性能安全可信系统，是目前有待解决的重要问题。

发明内容

本发明提供了一种基于主机透传的AI机密计算方法，以有效保障训推系统中各项设施要素的安全可信，数据流转在训推系统中的高性能、机密完整和不可抵赖。

根据本发明的实施例，提供了一种基于主机透传的AI机密计算方法，由AI机密计算系统执行，AI机密计算系统包括数据源、主机和多个算力装置，主机分别与数据源和各算力装置通信连接，所述方法包括：

主机在上电工作后，分别与数据源和各算力装置进行双向身份认证和密钥协商，以建立云到机以及机到端的机密通道，其中，AI机密计算系统中通过可信认证的各设备被标记为合法设备；

合法主机在接收到合法数据源或合法算力装置发送的数据包时，将数据包透传至匹配的合法算力装置或合法数据源；

在合法主机的透传下，合法数据源分别与各合法算力装置开展密钥协商，以建立云到端的直接机密通道；

其中，按照应用场景的不同，合法数据源与各合法算力装置之间的密钥协商包括：静态协商、合法数据源和各合法算力装置均具备密钥协商能力时的第一类动态协商，以及合法主机具备完善的加密密钥生成机制时的第二类动态协商；

在合法主机的透传下，各合法算力装置之间开展密钥协商，以建立多个算力装置之间的机密通道；

其中，按照应用场景的不同，各合法算力装置之间的密钥协商包括：合法主机具备完善的加密密钥生成机制时的基于合法主机安全分发的密钥协商，以及各合法算力装置均具备密钥协商能力时的群密钥协商；

在完成全部机密通道的建立后，合法数据源与合法算力装置之间直接开展采用带校验的加密通信，主机仅作透传；进一步的，AI机密计算系统中的各设备之间通过采用带校验的加密通信方式执行AI机密计算，并在AI机密计算过程中，各算力装置实时进行安全状态的可信验证。

本发明实施例的技术方案，在建立云到机以及机到端的机密通道后，以合法主机为中介，进一步实现云到端、端到端机密通道的建立和运行，既以安全主机为信任中心，又以主机透传的方式旁路了安全主机开展机密数据安全流通，有效提升系统效率，达成了云到多端的安全保障，同时，在主机透传情况下，数据源数据可以直通算力装置开展训推，有效减少现有系统中间通信环节，有效提升服务效率，此外，该AI机密计算系统同时具备完备安全能力，保障待训推数据源与作为中间传递者的主机之间的可信性、机密性和完整性，同时，AI机密计算系统考虑到了多算力装置机密通道的安全建立，结合双向身份认证以及密钥协商，有机的达成带校验的对称加密通信，可有效抵御现有技术中存在的各项安全威胁：此外，算力装置开展安全状态可信验证，保障了其本身在安全运行阶段，能够根据可信的安全状态度量，比对自身是否处于安全可信状态，并对外签发不可抵赖的安全可信状态报告，进一步提升了算力装置的实时工作状态安全可控。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种AI机密计算系统的硬件结构图；

图2是根据本发明实施例提供的一种基于主机透传的AI机密计算方法的流程图；

图3是根据本发明实施例所适用的一种AI机密计算场景的实现流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解，首先对本发明各实施例的技术方案所适配的AI机密计算系统进行描述。具体的，如图1所示，该AI机密计算系统包括：一个或者多个数据源、主机以及多个算力装置。该主机分别与上述一个或者多个数据源进行通信连接，同时，该主机还分别与上述每个算力装置进行通信连接。

具体的，上述数据源是指待训推的数据与安全存储计算环境，该数据源可以进行云端部署或者进行专用数据服务器部署等，数据源为其抽象表达，数据源可能与主机和算力装置物理距离很远，也可能设置在一起；主机，也可以称为HOST主机或者服务器，通常部署在数据中心，用于作为人工智能计算的核心主控设备；算力装置，一般为基于GPU(graphics processing unit图形处理器)芯片架构，同时包括但不限于：TPU(TensorProcessing Unit，张量处理器)、FPGA(Field Programmable Gate Array，现场可编程门阵列)以及ASIC(Application Specific Integrated Circuit，专用集成电路)等硬件形态。算力通常以PCIe接口卡、OAM(Ocp Accelerator Module，开放加速模组)板级连接等方式接入主机主板，为主机提供高性能算力引擎支撑。

在相关技术中，当算力装置从数据源获取数据开展训推时，主机需对训推数据先行下载，并进行数据重组，在此后分发给算力装置开展训推任务。相区别的，本发明实施例提供的AI机密计算系统在开展训推时，以主机透传作为实现方式，进而数据源中的训推数据可以从数据源直通算力装置开展训推，将减少中间通信环节，提升服务效率。此外，主机管理下的多算力装置间互联，将大大提升AI训推总体带宽，但需解决好AI机密计算系统中各设备之间交互的可信性、机密性和完整性问题。

相应的，图2为本发明实施例提供的一种基于主机透传的AI机密计算方法的流程图，本实施例可适用于AI机密计算系统中的各设备基于预先建立的各个机密通道进行可信、机密以及完整的AI机密计算的情况。如图2所示，该方法包括：

S210、主机在上电工作后，分别与数据源和各算力装置进行双向身份认证和密钥协商，以建立云到机以及机到端的机密通道，其中，AI机密计算系统中通过可信认证的各设备被标记为合法设备。

在本实施例中，主机、数据源以及各算力装置在上电工作后，基于主机与数据源之间的双向身份认证和密钥协商，建立云(指代数据源)到机的机密通道；此外，基于主机与各算力装置之间的双向身份认证和密钥协商，建立机到端的机密通道。

通过可信认证的主机、数据源和算力装置，称为合法主机、合法数据源和合法算力装置。

在本实施例的一个可选的实施方式中，主机在上电工作后，分别与数据源和各算力装置进行双向身份认证和密钥协商，包括：

主机在上电工作后，基于在初始化阶段载入的主机CA(Certificate Authority，证书授权)证书，与在初始化阶段载入数据源CA证书的数据源进行基于公钥基础设施(Public Key Infrastructure，PKI)的双向身份认证，并基于在初始化阶段载入的主机CA证书，与在初始化阶段载入算力装置CA证书的算力装置进行基于公钥基础设施的双向身份认证；

在双向身份认证通过后，主机采用设定的密钥协商算法，与数据源和各算力装置进行密钥协商；其中，主机每次上电得到的密钥协商结果均不相同。

其中，上述密钥协商算法可以为DH(Diffie-Hellman)协议协商算法，或者其变种算法，本实施例对此并不进行限制。

通过上述设置，在每次的设备上电工作时，各交互设备间动态执行双向认证操作，无需进行设备间的一一绑定固化，各交互设备之间只要具备同为上一级CA签发的公钥证书，都可进行对接认证，重新组建AI机密计算系统也时也无需专门进行设备解绑，大大提升了AI机密计算系统组建的灵活性。此外，通过在每次上电工作前重新协商密钥，可有效抵御密文重放攻击，进一步的，由于各设备每次进入工作状态时的密钥不一致，导致单次攻击获利所引发的恶意影响扩散能力被大大削弱。

S220、合法主机在接收到合法数据源或合法算力装置发送的数据包时，将数据包透传至匹配的合法算力装置或合法数据源。

在本实施例中，在合法主机与合法数据源和合法算力装置建立了云到机以及机到端的机密通道之后，合法主机可以将通过云到机的机密通道接收的数据包，经由机到端的机密通道透传至匹配的合法算力装置，也可以将通过机到端的机密通道接收的数据包，经由云到机的机密通道透传至合法数据源。进而，以主机为信任根，间接建立了合法数据源和各合法算力装置之间的直通安全连接。

S230、在合法主机的透传下，合法数据源分别与各合法算力装置开展密钥协商，以建立云到端的直接机密通道。

其中，按照应用场景的不同，合法数据源与各合法算力装置之间的密钥协商包括：静态协商、合法数据源和各合法算力装置均具备密钥协商能力时的第一类动态协商，以及合法主机具备完善的加密密钥生成机制时的第二类动态协商。

具体的，静态协商方式，可以使得数据源在空闲时间段，例如，夜间，在能耗经济也无占用的情况下，静默对数据进行加密和校验信息的生成，整个实现方式高效、经济且简便，而动态协商方式，可以使得整个数据通信过程更加安全可信。

在本实施例中，本领域技术人员可以根据AI机密计算系统的实际密钥协商需求，以及合法数据源、合法主机以及各合法算力装置的实际密钥协商能力，选择合适的密钥协商方式。

相应的，在本实施例的一个可选的实施方式中，在合法主机的透传下，合法数据源分别与各合法算力装置开展密钥协商，可以包括静态协商、第一类动态协商以及第二类动态协商：

在数据业务已密态存储，大数据加密动作已完成情况下，推荐使用静态协商，其方法包括：

各合法算力装置将在初始化阶段载入的算力装置CA证书，在合法主机的透传下，分别发送至合法数据源；

合法数据源使用各算力装置CA证书的公钥对本地存储的数据源对称密钥进行加密，得到加密密钥数据包，并在合法主机的透传下，将加密密钥数据包分别发送至各合法算力装置；

各合法算力装置使用本地存储的算力装置私钥，对接收到的加密密钥数据包进行解密处理，得到数据源对称密钥，以实现静态密钥协商。

或者，在本实施例的另一个可选的实施方式中，合法数据源和各合法算力装置均具备密钥协商能力时，推荐使用第一类动态协商，其方法包括：

在合法主机的透传下，合法数据源分别与各合法算力装置直接开展基于经典密码协议的第一类动态密钥协商，其中，经典密钥协议包括但不限于DH协议；

或者，在合法主机具备完善的加密密钥生成机制时，推荐使用第二类动态协商，其方法包括：

合法主机在随机生成目标密钥后，通过数据源CA证书的公钥对目标密钥进行加密，得到第一密钥数据包，并通过各算力装置的算力装置CA证书的公钥分别对目标密钥进行加密，得到各第二密钥数据包；

合法主机将第一密钥数据包发送至合法数据源，并将各第二密钥数据包分别发送至各合法算力装置；

合法数据源使用本地存储的数据源私钥对接收的第一密钥数据包进行解密，得到目标密钥；

各合法算力装置分别使用本地存储的算力装置私钥对接收的第二密钥数据包进行解密，得到目标密钥，以实现第二类动态密钥协商。

S240、在合法主机的透传下，各合法算力装置之间开展密钥协商，以建立多个算力装置之间的机密通道。

其中，按照应用场景的不同，各合法算力装置之间的密钥协商包括：合法主机具备完善的加密密钥生成机制时的基于合法主机安全分发的密钥协商，或者各合法算力装置均具备密钥协商能力时的群密钥协商。

在本实施例的一个可选的实施方式中，在合法主机的透传下，各合法算力装置之间开展基于合法主机安全分发的密钥协商，可以包括：

合法主机生成随机数作为共商密钥，并采用各算力装置的算力装置CA证书的公钥分别对共商密钥进行加密，得到各共商密钥数据包；

合法主机将各共商密钥数据包分别发送至各合法算力装置；

各合法算力装置分别使用本地存储的算力装置私钥对接收的共商密钥数据包进行解密，得到共商密钥，以实现基于合法主机安全分发的密钥协商。

或者，在本实施例的另一个可选的实施方式中，在合法主机的透传下，各合法算力装置之间开展群密钥协商，还可以包括：

合法主机以明文的方式向各算力装置分别发送同一个大素数q和q的本原根a；

每个合法算力装置i选择一个随机数Xi作为秘密值，计算a^Xi mod q，并发给合法主机；

合法主机保存全部N个合法算力装置发送的a^Xi mod q；

当合法算力装置m和n双方协商密钥时，合法算力装置m从合法主机获取a^Xn modq，合法算力装置n从合法主机获取a^Xm mod q；

合法算力装置m计算(a^Xn)^Xm mod q的结果K1作为与合法算力装置n之间的密钥结果；

合法算力装置n计算(a^Xm)^Xn mod q的结果K2作为与合法算力装置m之间的密钥结果，以实现两两合法算力装置之间的群密钥协商，其中，K1＝K2。

具体的，“^”运算符代表指数幂运算。

通过上述设置，两两合法算力装置之间均存储一个密钥结果。例如，如果合法算力装置的数量为N，则在每个合法算力装置中，需要存储N-1个群协商得到的密钥结果，以分别与其他N-1个合法算力装置进行加密通信。

S250、在完成全部机密通道的建立后，合法数据源与合法算力装置之间直接开展采用带校验的加密通信，主机仅作透传；进一步的，AI机密计算系统中的各设备之间通过采用带校验的加密通信方式执行AI机密计算，并在AI机密计算过程中，各算力装置实时进行安全状态的可信验证。

其中，所述全部机密通道中包括有云到端的直通机密通道。相应的，合法数据源与合法算力装置可以基于该以主机作为透传的直接机密通道，直接开展采用带校验的加密通信。

其中，所述带校验的加密通信，包含首先生成校验码后再进行数据加密的第一方式，以及先进行加密后再生成校验码的第二方式，其中第一方式的校验算法可采用不带密钥或带密钥的校验算法，包括但不限于CRC(Cyclic Redundancy Check，循环冗余校验)、消息摘要、CMAC(Cipher-based Message Authentication Code,密码型消息验证代码)以及HMAC(keyed-Hash Message Authentication Code,密钥散列消息认证码)等，第二方式必须采用带密钥的校验算法，包括但不限于CMAC以及HMAC等。

所述带校验的对称加密通信，其加密算法推荐采用带有计数器或可变初始向量的加密模式，包括但不限于CTR(CounTeR mode，计数器模式)、CBC(Cipher-block chaining，密码分组链接)、GCM(Galois Counter Mode，伽罗瓦计数器模式)以及XTS(XEX(XOREncrypt XOR)Tweakable Block Cipher with Ciphertext Stealing，可调整的分组加密算法)模式等，可有效抵御针对一次会话内的密文重放攻击。

进一步的，在带校验的对称加密通信过程中，合法数据源、合法主机以及合法算力装置在运行时，既是通信发起方，也是通信接收方，作为通信接收方时，需要按照与发起方匹配的校验码生成和加密流程，进行校验和解密，达成闭环。

在上述各实施例的基础上，在AI机密计算过程中，各算力装置实时进行安全状态的可信验证，可以具体包括：

各算力装置在进行AI机密计算的过程中，实时获取并验证安全服务器授予的可信安全度量，并将所述可信安全度量与自身设备的安全状态进行比对；

各算力装置在确定通过安全状态比对后，使用本地存储的算力装置私钥，对自身设备的安全状态信息进行签名，生成可信验证报告，以供外部验证各算力装置是否处于算力可信状态。

在本实施例中，各算力装置开展安全状态的可信验证，保障了其本身在安全运行阶段，能够根据可信的安全状态度量，比对自身是否处于安全可信状态，并对外签发不可抵赖的安全可信状态报告，进一步提升了算力装置的实时工作状态的安全可控。

在上述各实施例的基础上，所述主机CA证书、所述数据源CA证书以及所述算力装置CA证书中均包含有国家码；

相应的，主机在上电工作后，基于在初始化阶段载入的主机CA证书，与在初始化阶段载入数据源CA证书的数据源进行基于公钥基础设施的双向身份认证，并基于在初始化阶段载入的主机CA证书，与在初始化阶段载入算力装置CA证书的算力装置进行基于公钥基础设施的双向身份认证，进一步可以包括：

如果所述AI机密计算系统中的两两设备在进行双向身份认证的过程中，出现CA证书国家码不匹配的情况，则执行数据来源异常处理流程。

在本可选实施方式中，在所述公钥证书的发行中，证书版本信息可具备国家码，当收发双方证书的国家码在验证时发现不一致时，可能造成后续数据交互的跨境传输，本发明实施例的AI机密计算系统可即时审计该情况并规避该风险。

在上述各实施例的基础上，所述方法可以通过配置在所述AI机密计算系统中每个设备上的机密完整性安全通信组件执行；

其中，至少一个设备上的机密完整性安全通信组件中包含有机密完整性中间件；机密完整性安全通信组件通过直接调用机密完整性中间件的方式，执行身份认证、密钥协商、加入校验码、加密通信以及数据打包的操作，或者，执行身份认证、密钥协商、数据的解密、校验以及数据解包的操作。

进一步的，所述AI机密计算系统中至少一个设备上的机密完整性安全通信组件，运行于设备的安全隔离环境中；

所述安全隔离环境可以包括：可信安全域、安全虚拟环境或者安全隔离计算空间。

在本发明各实施例中，所述基于主机透传的AI机密计算方法，是由数据源、主机以及算力装置这三类物理实体，使用机密完整性安全通信组件所开展的一系列的信息安全步骤所组成。

机密完整性安全通信组件，可以为单纯软件形式、单纯硬件形式或者软硬件结合形式，至少具有身份认证、密钥协商、对称和非对称加解密以及完整性校验等安全能力。进一步的，还可以具备训练、推理计算能力，以及联邦学习同态密码能力等。

进一步的，该机密完整性安全通信组件除具备上述身份认证以及密钥协商等安全能力之外，还可具备机密完整性中间件。

具体的，该机密完整性中间件，可以用于对数据进行对称加密、增加校验码以及大数据量打包等操作，同时还可以实现算力装置内的数据解密、校验完成解包等操作，可采用软件形式或软硬件结合形式达成，保障数据的机密性和完整性。

当然，可以理解的是，机密完整性安全通信组件中也可不具备该机密完整性中间件，而是由数据源或AI服务运营方自行编制软件达成同等机密完整数据打包效果。

为获得进一步的安全保障，可以将机密完整性安全通信组件运行在安全隔离环境中，其中，配置于主机或者算力装置中的机密完整性安全通信组件，可以运行在其主控芯片内的安全隔离环境，包括但不限于可信安全域(Trustzone)、安全虚拟环境以及安全隔离计算空间等；配置于数据源中的机密完整性安全通信组件，可以运行在云服务(包括但不限于公有、私有云)的安全隔离环境内，例如，符合安全等级保护认证的云环境内，或者采用云安全虚拟环境和密码机达成的安全隔离环境等。

具体的，该安全隔离域环境，指软硬件隔离环境，用于满足域内程序和数据不可被外部任意逻辑和物理访问，域内程序只响应有访问控制授权的命令或调用。作为与非安全域相互隔离的安全计算环境，通常开展密码与安全相关运算。

具体应用场景

具体的，在图3中示出了本发明实施例所适用的一种AI机密计算场景的实现流程图。如图3所示，基于主机透传的AI机密计算方法，分为三个阶段：

阶段1：设备初始化阶段(也可称为设备发行或者设备激活阶段)

在该阶段中，主要实现CA证书的发行。具体的，需要预先在设备初始化、发行或者激活等过程中，由安全服务器作为CA中心，首先向数据源、主机以及各算力装置发行数字CA证书，其中CA中心为分管该业务的CA中心，不限于根CA、第二级或第三级CA等，根据业务服务系统结构选定。需要说明的是，根CA、二级CA等CA中心，管理方通常为一方，包括但不限于设备提供商、人工智能服务提供商以及第三方公立机构方等。

阶段二：设备安全接入阶段(也可以称为AI机密计算系统启动工作阶段)

在该阶段中，主机与数据源和各算力装置进行双向身份认证。具体的，各设备上电工作后，主机与数据源和各算力装置进行可信认证以及密钥协商。

具体的，主机分别与数据源和各算力装置实体间进行基于CA证书的PKI双向认证，获取并验证对方CA证书，并开展密钥协商，如采用DH等协议等密钥协商，每次上电工作的协商结果不同。

阶段三：设备交叉通信协商阶段

在该阶段中，数据源与算力装置进行密钥协商，同时，算力装置间进行密钥协商，完成机密完整性组包通信和数据保护，在该阶段中，主要包括云到端机密通道建立以及多算力装置机密通道建立两部分。

1)云到端机密通道建立：合法数据源与合法算力装置的直通通信，由于上一阶段皆由主机进行了身份验证，以主机为信任根，在合法主机透传下，二者进行云到端密钥协商。

对于云侧数据即时加密通信和云侧已加密存储两种数据状态，所述云到端密钥协商分为动态协商和静态协商：

a)动态协商指采用即时密钥协商(如DH密钥协商)；也可由合法主机方随机生成密钥，分别用合法数据源和合法算力装置公钥证书中的公钥加密，发给对方并私钥解密获得该随机生成的密钥。

b)静态协商指，合法主机将合法算力装置CA证书中的公钥转发给合法数据源，合法数据源将己方数据加密存储所用对称密钥，作为明文，用合法算力装置的公钥加密后发给合法算力装置，合法算力装置用私钥解密后得到该对称密钥。

2)多算力装置机密通道建立，其密钥协商分为主机安全分发方法和群密钥协商方法。

a)主机安全分发方法:由合法主机生成随机数作为共商密钥，采用各合法算力装置的公钥(来自上一阶段合法主机获取对方的CA证书中)加密共商密钥，分发给各合法算力装置进行私钥解密，获得相同的共商密钥。

b)群密钥协商方法:不限于采用基于主机作为公信方的群密钥交换。

阶段四：安全运行阶段

在该阶段中，在机密完整性安全通信组件以及机密完整性中间件的保障下，进行包括但不限于云到端直通的各组件机密完整性安全通信、安全状态可信验证、训练、推理以及联邦学习等AI计算。

在所述云到端机密通道建立后，数据源直接与算力装置安全通信，主机仅做路由透传。具体的，在安全运行阶段，AI机密计算系统中所有实体间均采用带校验的加密通信。此外，各算力装置在运行过程中，根据需要适时获取并验证安全服务器授予的可信安全度量，与当前系统的安全状态进行比对，并用自身私钥(如设备初始化阶段中发行的公钥证书所对应的私钥)对己方安全状态信息汇总签名生成可信验证报告，供外部验证是否处于算力可信状态。

在一个更加具体的例子中，在大模型计算服务中，某算力服务商拟建设图文类人工智能服务机密计算系统，分别采购云服务资源作为数据源(、高性能服务器作为主机、具备GPU算力卡作为算力装置。

算力服务商建设三种实体的高性能连接。

算力服务商核验云服务商具备较好安全保证等级，云密码服务具备高性能密码机。

算力服务商具备的高性能服务器，其主控CPU支持基于安全虚拟机的安全隔离环境，如选择不限于以下一种安全虚拟机解决方案：

>支持“Trusted Domain eXtensions”(TDX)的Intel CPU；

>支持“Secure Encrypted Virtualization with Secure Nested Paging”(SEV-SNP)的AMD CPU；

>支持ARM“Confidential Compute Architecture”(CCA)的ARM CPU。

算力服务商具备的GPU算力卡采用PCIe接口插入主机，其算力核心芯片具备所述安全隔离环境。

算力服务商具备内部安全服务器，具有一级根CA(服务商总CA)、二级科学研究类CA、二级图文类CA，其中二级CA公钥证书由一级根CA签发。

算力服务商采用二级图文类CA，预先向各数据源的数据实体签发三级CA证书；在主机首次运行时，向主机签发三级CA证书；在算力装置生产、发行或首次上电激活时，向算力装置签发三级CA证书。

AI机密计算系统运行时，各要素实体按照所述AI机密计算方法的阶段二、阶段三以及阶段四，开展安全认证、密钥协商以及安全运行等机密计算步骤。

当两两实体安全认证不通过时，可能遭受算力劫持、伪造设备等风险，进入认证异常处理。

当两两实体认证通过，但证书国家码不匹配时，可在大数据处理前提前发现可能的数据跨境等风险，进入数据来源异常处理。

数据源、主机可以无需自行设计带校验的加解密模块，只需调用机密完整性中间件即可对己方数据进行机密完整性打包，且打包结果符合算力装置的接收格式。数据源的大数据量打包，可以在夜间静默开展，无须在数据交互时现场打包，成本低且效率高。

在主机透传情况下，数据源的数据可以直通算力装置(如算力卡、OAM模组等)开展训推，有效减少现有系统中间通信环节，提升服务效率，同时具备完备安全能力，保障待训推数据源、中间传递者(主机)的可信性、机密性和完整性。

当两两实体开展带校验的加密通信时，根据通信误码率情况，在一段时间内，当传输错误大于某一门限时，视为可能遭受恶意数据投毒，进入数据通信异常处理或向值守人员报警；否则，仅视为系统误码，或可重传。

本发明实施例所提供的应用于AI机密计算系统上的AI机密计算方法，其安全方法皆运行在各接入要素的安全隔离环境中，保障了各接入要素的安全可信，数据流转的机密完整、不可抵赖，同时，通过密钥协商获得即时通信密钥，密钥生命周期可控。此外，在安全运行中，安全状态可信验证提供了针对训推任务以及联邦学习任务的即时环境安全监控，有效保障了系统的常态化安全运行。

本系统与方法结合云到端、端到端机密通道的建立和运行，既以主机为信任中心，又旁路主机(主机透传)开展机密数据安全流通，有效提升系统效率，达成云到多端安全保障，取得以下技术效果：

1)本系统与方法在主机透传情况下，数据源数据直通算力装置(如算力卡、OAM模组等)开展训推，有效减少现有系统中间通信环节，提升服务效率，同时具备完备安全能力，保障待训推数据源、中间传递者(主机)的可信性、机密性和完整性。

2)本系统与方法考虑到了多算力装置机密通道的安全建立，结合双向身份认证以及密钥协商，有机的达成带校验的对称加密通信，可有效抵御以下威胁：

算力装置(如算力卡、OAM模组等)的算力被非法劫持；

伪造算力装置接入合法主机；

训推数据来源不可信等威胁；

算力接口(包括但不限于PCIe、OAM等物理连接)数据被篡改造成数据投毒，用户数据泄露等威胁。

同时，认证实体之间采用双向认证，无需一一绑定固化，交互实体之间只要具备同为上一级CA签发的公钥证书，都可进行对接认证，重新组建系统也无需专门解绑，大大提升了系统组建的灵活性。此外，每次工作前重新协商密钥，可有效抵御密文重放攻击，进一步的，每次进入工作状态时的密钥不一致，导致单次攻击获利所引发的恶意影响扩散能力大大削弱。

3)所述数据源和主机的安全组件，除具备身份认证、密钥协商外，还可具备机密完整性中间件，该中间件可方便的支持对数据的机密完整性打包，完成所述带校验的对称加密通信，该中间件无需算力部署服务者重新开发。例如云端可以在夜间，能耗经济且无占用情况下静默对源数据进行加密和校验信息生成，高效、经济且简便。

4)算力装置开展安全状态可信验证，保障了其本身在安全运行阶段，能够根据可信的安全状态度量，比对自身是否处于安全可信状态，并对外签发不可抵赖的安全可信状态报告，进一步提升了算力装置的实时工作状态安全可控。

5)所述设备初始化阶段，在所述公钥证书的发行中，证书版本信息可具备国家码，当收发双方证书的国家码在验证时发现不一致时，可能造成后续数据交互的跨境传输，本系统可即时审计该情况并规避可风险。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于主机透传的人工智能AI机密计算方法，其特征在于，由AI机密计算系统执行，AI机密计算系统包括数据源、主机和多个算力装置，主机分别与数据源和各算力装置通信连接，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在合法主机的透传下，合法数据源分别与各合法算力装置开展密钥协商，包括静态协商、第一类动态协商以及第二类动态协商：

其中，静态协商方法包括：

各合法算力装置使用本地存储的算力装置私钥，对接收到的加密密钥数据包进行解密处理，得到数据源对称密钥，以实现静态密钥协商；

其中，第一类动态协商方法包括：

其中，第二类动态协商方法包括：

3.根据权利要求1所述的方法，其特征在于，在合法主机的透传下，各合法算力装置之间开展基于合法主机安全分发的密钥协商，包括：

合法主机将各共商密钥数据包分别发送至各合法算力装置；

4.根据权利要求1所述的方法，其特征在于，在合法主机的透传下，各合法算力装置之间开展群密钥协商，包括：

每个合法算力装置i选择一个随机数Xi作为秘密值，计算a^Ximod q，并发给合法主机；

合法主机保存全部N个合法算力装置发送的a^Xi mod q；

当合法算力装置m和n双方协商密钥时，合法算力装置m从合法主机获取a^Xn mod q，合法算力装置n从合法主机获取a^Xm mod q；

5.根据权利要求1所述的方法，其特征在于，主机在上电工作后，分别与数据源和各算力装置进行双向身份认证和密钥协商，包括：

主机在上电工作后，基于在初始化阶段载入的主机CA证书，与在初始化阶段载入数据源CA证书的数据源进行基于公钥基础设施的双向身份认证，并基于在初始化阶段载入的主机CA证书，与在初始化阶段载入算力装置CA证书的算力装置进行基于公钥基础设施的双向身份认证；

6.根据权利要求5所述的方法，其特征在于，所述主机CA证书、所述数据源CA证书以及所述算力装置CA证书中均包含有国家码；

主机在上电工作后，基于在初始化阶段载入的主机CA证书，与在初始化阶段载入数据源CA证书的数据源进行基于公钥基础设施的双向身份认证，并基于在初始化阶段载入的主机CA证书，与在初始化阶段载入算力装置CA证书的算力装置进行基于公钥基础设施的双向身份认证，进一步包括：

7.根据权利要求1所述的方法，其特征在于，在AI机密计算过程中，各算力装置实时进行安全状态的可信验证，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法通过配置在所述AI机密计算系统中每个设备上的机密完整性安全通信组件执行；

9.根据权利要求8所述的方法，其特征在于，所述AI机密计算系统中至少一个设备上的机密完整性安全通信组件，运行于设备的安全隔离环境中；

所述安全隔离环境包括：可信安全域、安全虚拟环境或者安全隔离计算空间。