CN113537498B - 基于TrustZone的可信量化模型推理方法 - Google Patents
基于TrustZone的可信量化模型推理方法 Download PDFInfo
- Publication number
- CN113537498B CN113537498B CN202110739276.1A CN202110739276A CN113537498B CN 113537498 B CN113537498 B CN 113537498B CN 202110739276 A CN202110739276 A CN 202110739276A CN 113537498 B CN113537498 B CN 113537498B
- Authority
- CN
- China
- Prior art keywords
- world
- data
- artificial intelligence
- computing nodes
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
- G06F21/74—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information operating in dual or compartmented mode, i.e. at least one secure mode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/547—Remote procedure calls [RPC]; Web services
Abstract
本发明公开了一种基于TrustZone的可信量化模型推理方法,首先将执行人工智能模型推理的物联网终端设备采用TrustZone技术划分为安全世界和普通世界,在安全世界中对人工智能模型进行解析与数据量化,将计算节点划分为简单计算节点和复杂计算节点,将简单计算节点部署至安全世界,复杂计算节点部署至安全世界的共享内存,在进行人工智能模型推理时,将简单计算节点在安全世界中运行,将复杂计算节点通过共享内存发送至普通世界中运行并将运算结果返回至安全世界,物联网终端设备对复杂计算节点的运算结果进行校验后与简单计算节点的运算结果进行整合,得到人工智能模型推理结果。本发明通过将简单计算节点部署和复杂计算节点分别部署,提高人工智能模型推理效率。
Description
技术领域
本发明属于物联网技术领域,更为具体地讲,涉及一种基于TrustZone的可信量化模型推理方法。
背景技术
随着物联网技术的发展,人们对硬件设备的安全化和智能化方面提出了更高的要求。得益于提供计算服务的硬件平台以及并行计算技术的发展,物联网设备的智能化得到巨大的提高。人工智能模型在设备端上的推理流程可以分为两个部分。一部分为非运行态的服务部分,即对模型管理的部分,其中包括网络模型解析、量化功能、优化网络模型等功能。另一部分为运行态相关的部分,其中包括计算库和硬件计算资源提供计算服务。而计算库中往往集成量化计算、Neon指令技术、计算算法优化、并行计算等技术。图1是物联网人工智能模型推理的流程示意图。
由于对抗攻击技术的发展以及物联网设备面向的环境复杂多样,物联网设备的智能化过程面临着巨大的安全问题。因此物联网设备上的人工智能引擎如何能提供安全的计算环境服务,逐渐成为物联网中人工智能应用落地的一个研究发展的方向。而物联网中的设备终端,是安全保护的重点。TrustZone是ARM公司推出的,针对物联网设备终端的处理器CPU运行环境的安全技术。TrustZone技术的思想是把一个单核CPU分为两种不同的执行环境:一种环境为普通世界,在这种环境下的CPU拥有很丰富的资源,因此Linux系统和普通的用户应用会部署在普通世界的环境中;另一种环境是安全世界,在这种环境中的任务往往和安全相关的,例如安全算法校验、密码验证等,因此安全的OS和应用会部署在安全中。但由于该架构技术的本质是单个CPU不同运行环境的分时共享,安全环境中安全应用根本无法执行多线程的操作,也就无法在多核上加速运行,这也是TrustZone技术带来的资源限制问题。这也给人工智能模型推理带来了许多不便,需要进行进一步研究。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于TrustZone的可信量化模型推理方法,通过将简单计算节点部署至安全世界,复杂计算节点部署至普通世界,从而利用普通世界的多线程并行计算加快复杂计算节点的运算过程,从而提高人工智能模型推理效率。
为实现上述发明目的,本发明基于TrustZone的可信量化模型推理方法包括以下步骤:
S1:对于执行人工智能模型推理的物联网终端设备,采用TrustZone将CPU划分为两个执行环境:安全世界和普通世界;
S2:预先对人工智能模型进行量化规则设置,并生成量化模型保存至物联网终端设备的安全世界中;
S3:物联网终端设备对人工智能模型进行解析:将人工智能模型从原有格式转换为ONNX模型,然后进行Protobuf反序列化,提取出人工智能模型的数据,将得到的数据划分为张量数据和计算节点数据,张量数据为人工智能模型推理各个计算节点的输入数据和输出数据,计算节点数据为人工智能模型中各个计算节点的数据和相关参数数据;然后根据步骤S1中设置的量化规则对张量数据进行量化,将量化后的张量数据和计算节点数据缓存至安全世界中;
S4:物联网终端设备根据预设的复杂度判定标准将接收到的计算节点划分为简单计算节点和复杂计算节点,然后在安全世界中划分出共享内存,将复杂计算节点数据及相关的张量数据放置到共享内存;
S5:当物联网终端设备需要进行人工智能模型推理时,将简单计算节点在安全世界中运行,将复杂计算节点通过共享内存发送至普通世界中运行,复杂计算节点运行时采用多线程操作;
S6:复杂计算节点在普通世界中计算得到运行结果后将其回传至安全世界,物联网终端设备在安全世界中根据预设的可信校验对复杂计算节点的运行结果进行校验,校验通过后和简单计算节点的运行结果整合,得到人工智能模型的推理结果。
本发明基于TrustZone的可信量化模型推理方法,首先将执行人工智能模型推理的物联网终端设备采用TrustZone技术划分为两个执行环境:安全世界和普通世界,在安全世界中对人工智能模型进行解析并进行数据量化,将计算节点划分为简单计算节点和复杂计算节点,将简单计算节点部署至安全世界,复杂计算节点通过安全世界的共享内存使得普通世界可以对其进行调用,在进行人工智能模型推理时,将简单计算节点在安全世界中运行,将复杂计算节点通过共享内存发送至普通世界中运行并将运算结果返回至安全世界,物联网终端设备在安全世界中对复杂计算节点的运算结果进行校验后与简单计算节点的运算结果进行整合,得到人工智能模型推理结果。
本发明通过将简单计算节点部署和复杂计算节点分别进行部署,提高人工智能模型推理效率。
附图说明
图1是物联网人工智能模型推理的流程示意图;
图2是本发明基于TrustZone的可信量化模型推理方法的具体实施方式流程图;
图3是本发明中物联网终端设备的结构图;
图4是本发明中人工智能模型解析的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图2是本发明基于TrustZone的可信量化模型推理方法的具体实施方式流程图。如图2所示,本发明基于TrustZone的可信量化模型推理方法的具体步骤包括:
S201:物联网终端设备配置:
对于执行人工智能模型推理的物联网终端设备,采用TrustZone将CPU划分为两个执行环境:安全世界和普通世界。
图3是本发明中物联网终端设备的结构图。如图3所示,本发明中物联网终端设备分为两个执行环境:安全世界和普通世界,安全世界承担模型解析、数据量化、推理执行和可信校验的任务,普通世界承担推理执行的任务,安全世界和普通世界之间通过通信接口实现信息交互。
S202:确定人工智能模型量化规则:
由于人工智能模型的输入数据通常是浮点数值,为了提高人工智能模型在物联网终端设备CPU上的运算速度,需要预先对人工智能模型进行量化规则设置,并生成量化模型保存至物联网终端设备的安全世界中。
量化规则可以根据人工智能模型输入数据的实际情况来进行设置,通常可以从ARM计算库中选取。量化的方式包括对称与非对称两种方式。通过将浮点数值转成低比特数值,可以有效的降低人工智能模型计算强度、参数大小和内存消耗。本实施例中量化规则采用非对称量化,量化参数为量化比例和零点,通过遍历训练集数据来找到合适的量化参数。量化模型以尽可能保障量化前后数据的分布一致为原则,以信息熵为评价标准。
S203:人工智能模型解析与量化:
物联网终端设备对人工智能模型进行解析。图4是本发明中人工智能模型解析的流程图。如图4所示,本发明中人工智能模型解析方法为:将人工智能模型从原有格式转换为ONNX模型,然后进行Protobuf反序列化,提取出人工智能模型的数据,将得到的数据划分为张量数据和计算节点数据,张量数据为人工智能模型推理各个计算节点的输入数据和输出数据,计算节点数据为人工智能模型中各个计算节点的数据和相关参数数据。然后根据步骤S202中设置的量化规则对张量数据进行量化,将量化后的张量数据和计算节点数据缓存至安全世界中。
ONNX(Open Neural Network Exchange,开放神经网络交换格式)是框架共用的一种模型交换格式,相当于一个翻译的作用,将不同格式的模型转换为统一格式,然后从中提取出所需的张量数据和计算节点数据。表1是张量数据格式示例。
表1
表2是计算节点数据格式示例。
表2
S204:计算节点部署:
物联网终端设备根据预设的复杂度判定标准将接收到的计算节点划分为简单计算节点和复杂计算节点,然后在安全世界中划分出共享内存,将复杂计算节点数据及相关的张量数据放置到共享内存。
复杂度判定标准可以参考文献“Molchanov P,Tyree S,Karras T,et al.PruningConvolutional Neural Networks for Resource Efficient Transfer Learning[J].2016.”中方法进行设置。一般来说,复杂计算多为卷积计算。表3是卷积计算节点的数据格式示例。
表3
S205:人工智能模型推理:
当物联网终端设备需要进行人工智能模型推理时,将简单计算节点在安全世界中运行,将复杂计算节点通过共享内存发送至普通世界中运行,复杂计算节点运行时采用多线程操作。
安全世界中的TA(Trust Application)与普通世界中的CA(Client Application)实现共享内存的具体方法如下:安全世界中TA和普通世界中CA建立连接,CA发送共享内存的命令TEE_IOS_SHM_ALLOC,并通过硬件指令命令让自身陷入阻塞。Linux系统通过SMC指令让世界从普通世界切换到安全世界。由于CA并不知道共享内存应该设置的大小,在安全世界下,TA通过反向RPC调用,把需要共享的内存大小传递给Linux系统,Linux系统为TA与CA分配用于数据交互的共享内存,从而实现共享内存。
在计算节点运行时,主要通过ARM计算库接口进行计算。基于OpenCL以及OpenGL计算库,对计算算子初始化以及为各种张量分配内存空间,然后根据计算节点的具体计算内容进行运算。以卷积计算节点为例,首先对卷积计算节点调用CLTensor接口初始化输入、输出、卷积核权重的张量层、卷积核偏置,创建CL调度器并进行初始化。通过CL调度器,设置运行时候的线程数涉及运行线程数,从而实现多线程并行计算,以提高运算速度。其次,创建卷积核权重的TensorShape类、偏置的TensorShape类,PadStrideInfo类,并利用输入、输出、卷积核权重、卷积核偏置的分配器对计算节点进行初始化和配置,对输入的内存块与共享内存空间进行影射。
S206:推理结果整合:
复杂计算节点在普通世界中计算得到运行结果后将其回传至安全世界,物联网终端设备在安全世界中根据预设的可信校验对复杂计算节点的运行结果进行校验,校验通过后和简单计算节点的运行结果整合,得到人工智能模型的推理结果。
以卷积计算节点为例,卷积计算中需要大量使用矩阵乘法,一个卷积运算可以由平铺算法和矩阵乘法来实现,执行矩阵乘法的为CLGEMM类。CLGEMM执行的是卷积矩阵与特征矩阵的乘法,矩阵乘法根据Freivald算法进行。当节点任务需要进行卷积操作时候,就需要对该操作进行可信校验。本实施例中采用的可信校验方法为:在安全世界中从卷积运算中选取部分矩阵乘法进行计算,和普通世界中这些矩阵乘法的计算结果,如果计算结果一致,则可信校验通过,否则不通过。由于计算中涉及到量化数值,在计算后进行数值会因为饱和产生精度的变化,因此采用基于Freivald算法思想的矩阵乘法校验来进行可信校验。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于TrustZone的可信量化模型推理方法,其特征在于,包括以下步骤:
S1:对于执行人工智能模型推理的物联网终端设备,采用TrustZone将CPU划分为两个执行环境:安全世界和普通世界;
S2:预先对人工智能模型进行量化规则设置,并生成量化模型保存至物联网终端设备的安全世界中;
S3:物联网终端设备对人工智能模型进行解析:将人工智能模型从原有格式转换为ONNX模型,然后进行Protobuf反序列化,提取出人工智能模型的数据,将得到的数据划分为张量数据和计算节点数据,张量数据为人工智能模型推理各个计算节点的输入数据和输出数据,计算节点数据为人工智能模型中各个计算节点的数据和相关参数数据;然后根据步骤S2中设置的量化规则对张量数据进行量化,将量化后的张量数据和计算节点数据缓存至安全世界中;
S4:物联网终端设备根据预设的复杂度判定标准将接收到的计算节点划分为简单计算节点和复杂计算节点,然后在安全世界中划分出共享内存,将复杂计算节点数据及相关的张量数据放置到共享内存;
S5:当物联网终端设备需要进行人工智能模型推理时,将简单计算节点在安全世界中运行,将复杂计算节点通过共享内存发送至普通世界中运行,复杂计算节点运行时采用多线程操作;
S6:复杂计算节点在普通世界中计算得到运行结果后将其回传至安全世界,物联网终端设备在安全世界中根据预设的可信校验对复杂计算节点的运行结果进行校验,校验通过后和简单计算节点的运行结果整合,得到人工智能模型的推理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739276.1A CN113537498B (zh) | 2021-06-30 | 2021-06-30 | 基于TrustZone的可信量化模型推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739276.1A CN113537498B (zh) | 2021-06-30 | 2021-06-30 | 基于TrustZone的可信量化模型推理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537498A CN113537498A (zh) | 2021-10-22 |
CN113537498B true CN113537498B (zh) | 2022-07-26 |
Family
ID=78097409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110739276.1A Active CN113537498B (zh) | 2021-06-30 | 2021-06-30 | 基于TrustZone的可信量化模型推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537498B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117256176A (zh) * | 2021-11-17 | 2023-12-19 | 北京小米移动软件有限公司 | 一种基于人工智能的网络任务处理方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021010896A1 (en) * | 2019-07-12 | 2021-01-21 | Nanyang Technological University | Method and system for distributed data management |
CN112395298A (zh) * | 2020-10-26 | 2021-02-23 | 国电南瑞科技股份有限公司 | 一种基于数据分层思想的数据一致性管理系统 |
CN112633477A (zh) * | 2020-12-28 | 2021-04-09 | 电子科技大学 | 一种基于现场可编程阵列的量化神经网络加速方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102511451B1 (ko) * | 2016-11-09 | 2023-03-17 | 삼성전자주식회사 | 리치 실행 환경에서 보안 어플리케이션을 안전하게 실행하는 컴퓨팅 시스템 |
US20210097449A1 (en) * | 2020-12-11 | 2021-04-01 | Intel Corporation | Memory-efficient system for decision tree machine learning |
-
2021
- 2021-06-30 CN CN202110739276.1A patent/CN113537498B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021010896A1 (en) * | 2019-07-12 | 2021-01-21 | Nanyang Technological University | Method and system for distributed data management |
CN112395298A (zh) * | 2020-10-26 | 2021-02-23 | 国电南瑞科技股份有限公司 | 一种基于数据分层思想的数据一致性管理系统 |
CN112633477A (zh) * | 2020-12-28 | 2021-04-09 | 电子科技大学 | 一种基于现场可编程阵列的量化神经网络加速方法 |
Non-Patent Citations (2)
Title |
---|
Secure Model Fusion for Distributed Learning Using Partial Homomorphic Encryption;Changchang Liu,et al.;《Policy-Based Autonomic Data Governance》;20191231;全文 * |
多层卷积神经网络深度学习算法可移植性分析;肖堃;《哈尔滨工程大学学报》;20200507;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537498A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sriraman et al. | Accelerometer: Understanding acceleration opportunities for data center overheads at hyperscale | |
US20210191759A1 (en) | Elastic Execution of Machine Learning Workloads Using Application Based Profiling | |
CN109558248B (zh) | 一种用于确定面向海洋模式计算的资源分配参数的方法及系统 | |
Song et al. | Bridging the semantic gaps of GPU acceleration for scale-out CNN-based big data processing: Think big, see small | |
CN113537498B (zh) | 基于TrustZone的可信量化模型推理方法 | |
Underwood et al. | Optzconfig: Efficient parallel optimization of lossy compression configuration | |
Cerotti et al. | Modeling and analysis of performances for concurrent multithread applications on multicore and graphics processing unit systems | |
US11960918B2 (en) | Creating product orchestration engines | |
Kaya et al. | Seamless computation offloading for mobile applications using an online learning algorithm | |
Brady et al. | SmartGridRPC: The new RPC model for high performance Grid computing | |
US20220107817A1 (en) | Dynamic System Parameter for Robotics Automation | |
Selvam et al. | DIPPM: a deep learning inference performance predictive model using graph neural networks | |
CN113723538A (zh) | 基于层次化迁移学习的跨平台功耗性能预测方法及系统 | |
CN112732634A (zh) | 面向边缘计算的arm-fpga协同硬件资源局部动态重构处理方法 | |
CN113705800A (zh) | 处理单元、相关装置和方法 | |
Ghosh et al. | Comparison of Standard Computation Against Distributed Computation Using Hadoop Cluster | |
Arputhamary | Skew handling technique for scheduling huge data mapper with high end reducers in mapreduce programming model | |
Sriraman et al. | Understanding acceleration opportunities at hyperscale | |
Hansson | Computation offloading of 5G devices at the Edge using WebAssembly | |
Nowack et al. | Parallel symbolic execution: Merging in-flight requests | |
Ge et al. | Asynchronous Compatible D-ML System for Edge Devices | |
Liu et al. | MicroInfer: an edge deep-learning inference framework for industry IoT | |
CN117667330A (zh) | 算子性能确定方法、装置、计算设备及存储介质 | |
Rahmani et al. | RTLB_Sched: Real Time Load Balancing Scheduler for CPU-GPU Heterogeneous Systems | |
Ranalli et al. | Automated Generation of a Single Shot Detector C Library from High Level Deep Learning Frameworks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |