CN113486347B

CN113486347B - 一种基于语义理解的深度学习硬件木马检测方法

Info

Publication number: CN113486347B
Application number: CN202110739931.3A
Authority: CN
Inventors: 董晨; 许熠; 黄槟鸿; 刘西蒙
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-07-14
Anticipated expiration: 2041-06-30
Also published as: CN113486347A

Abstract

本发明涉及一种基于语义理解的深度学习硬件木马检测方法，包括如下步骤：步骤S1：首先对芯片网表文件进行预处理，提取任意一个输入端口线网X_iport和输出端口线网X_oport来组成所有可能的路径对[X_iport,X_oport]；接着在这些路径对上寻找所有存在的简单路径T_spath，并生成对应句子f_spath，再打上硬件木马标签构成带标签的句子数据集；步骤S2：把步骤S1中生成到的句子数据集进行组件类型名的去重清洗，并用word2vec完成词库训练，得到预训练好的词向量WV_pre；步骤S3：来自步骤S1的句子数据集和来自步骤S2的词向量WV_pre共同作为材料放入TextCNN(文本卷积神经网络)的输入层中，经过静动态相结合的词向量矩阵训练得到硬件木马的检测结果。

Description

一种基于语义理解的深度学习硬件木马检测方法

技术领域

本发明涉及木马检测领域，特别是一种基于语义理解的深度学习硬件木马检测方法。

背景技术

随着以第四次工业革命为标准的智能化时代到来，集成电路(IC)的使用和投资都在年年上涨。在美国的半导体协会(SIA)的报告中指出，接下来的未来十年中，全世界关于芯片的投资将超过3万亿美元。而如今，芯片的产业链已经存在许多第三方设计和制造厂家参与。这样的现象使得在外包厂商中一旦存在恶意的攻击者往芯片里植入硬件木马，将会给芯片的使用带来不小的隐患和破坏。

芯片受硬件木马攻击的渠道主要来源于设计阶段和制造阶段，其中设计阶段的攻击面比之于制造阶段多，包括电子设计自动化工具(EDA)、知识产权(IP)核构建、门级网表这些内容上植入硬件木马。只要设计厂商内部存在着恶意的员工或者设计师，是很容易从这些攻击渠道下手发起硬件木马攻击。

目前在硬件木马的检测工作上主要存在以下四种技术：1.侧信道检测，通过测量电路中诸如电流、电压、功率、路径延迟和温度等侧信道与“金片”对比后产生的冗余信息来检测硬件木马。2.逆向工程，对成品芯片进行逐层扫描得到图像信息并破坏芯片，同样施行“金片”对比检测来发现硬件木马。3.逻辑测试，在集成电路仿真阶段输入测试向量来试图激活攻击条件以考察硬件木马的存在。4.结合了机器学习(ML)的静态检测，对芯片的设计文件(即网表)进行人工提取特征，把计算好的特征值运用机器学习算法训练分类器来识别硬件木马。

然而以上前三种技术仅能在检测性能上会受到外部因素的制约，如需要高精度的专业仪器，或者检测过程会对待测芯片造成不可逆的损害，又或者是要计算所有可能的输入面临着庞大的开销。更重要的是，它们的往往仅适用于小规模的电路。而静态检测在现有的技术中几乎都依赖人工的特征提取，提取的过程不仅困难且往往需求多个特征的判断，又受制于稀少的硬件木马信息。这些因素都会导致训练得到的分类器在性能上难以稳定。

考虑到上述针对这些硬件木马检测技术的不足，亟需涉及一种基于语义理解的TextCNN检测硬件木马方法。

发明内容

有鉴于此，本发明的目的是提供一种基于语义理解的深度学习硬件木马检测方法，该检测方法不仅可以有效地检测出硬件木马，还能保证分类器的性能稳定。

本发明采用以下方案实现：一种基于语义理解的深度学习硬件木马检测方法，包括如下步骤：

步骤S1：首先对芯片网表文件进行预处理，提取任意一个输入端口线网X_iport和输出端口线网X_oport来组成所有可能的路径对[X_iport,X_oport]；接着在这些路径对上寻找所有存在的简单路径T_spath，并生成对应句子f_spath，再打上硬件木马标签构成带标签的句子数据集；

步骤S2：把步骤S1中生成到的句子数据集进行组件类型名的去重清洗，并用word2vec完成词库训练，得到预训练好的词向量WV_pre；

步骤S3：来自步骤S1的句子数据集和来自步骤S2的词向量WV_pre共同作为材料放入TextCNN(文本卷积神经网络)的输入层中，经过静动态相结合的词向量矩阵训练得到硬件木马的检测结果。

进一步地，所述步骤S1具体包括以下步骤：

步骤S11：从网表中获取组件N(N₁,N₂,N₃,…,N_l)和线网S(S₁,S₂,S₃,…,S_k)的信息，并定义任意一个组件N_i中的入线网信息X_ii和出线网信息X_io；

步骤S12：以每个组件N(N₁,N₂,N₃,…,N_l)为节点V和以每个线网S(S₁,S₂,S₃,…,S_k)为边E，并根据每个组件中的输入输出线网关系N_i[X_ii,X_io]，运用现有的深度优先搜索算法构建整个网表电路的拓扑结构G＝(V,E)；根据电路的信号传递法则追踪各组件之间的连接关系，信号传递法则公式如下：

其中，N_i中的某个出线网标识符与N_j中的某个入线网标识符一致的话，则表明电路信号能够从组件N_i传递到组件N_j；

步骤S13：对所有的组件N(N₁,N₂,N₃,…,N_l)中的入线网X_i和出线网X_o进行起始点集合S_path和终止点集合F_path的分类，以此来确定所有的路径对组[X_iport,X_oport]；集合分类遵循以下公式：

其中，X_ii和X_io分别代表组件集合中任意一个组件N_i的入线网和出线网；

步骤S14：在已经建立好的电路拓扑基础上，运用简单路径算法对所有的路径对组合[X_iport,X_oport]搜索出所有可能的简单路径T_spath；路径生成的方法从组件角度的判断公式如下：

其中，v表示函数f_s的迭代次数；那么上述公式的定义，组件N_i为起点经过v次的信号传递函数的迭代作用下形成了通向N_j为终点的路径，并约束起点和终点不是同一个逻辑门即不是同一个节点)；

接着对于上述生成好的路径进行进一步的简单路径判断，判定公式如下：

其中，f_sp表示为简单路径函数；根据上述公式，任意个经过a次信号传递后的节点都不与除a次以外的任意个经过b次信号传递后的节点相同，则这样传递后形成的路径为简单路径T_spath；

步骤S15：对步骤S14中搜索并判断好的简单路径T_spath里所经过的电路组件都直接以组件类型名形式表示出来，形成了一个个简单路径句子f_spath进而构成一个完整的句子数据集；

步骤S16：对所有的句子数据集根据是否有经过硬件木马组件来标注标签，并规定有木马的句子标签为正样本，无木马的句子标签为负样本，这样得到了带标签的句子数据集。

进一步地，步骤S14中所述运用简单路径算法搜索出所有可能的简单路径T_spath具体包括以下步骤：

步骤S141：从步骤S12构建好的拓扑结构G＝(V,E)可直接得到该拓扑的邻接矩阵M_nlist，再根据邻接矩阵M_nlist中每一行开头的元素和该元素存在连接关系的其他元素单独拿出来并串在一起构成链表形式；邻接矩阵M_nlist中的所有行按照这样构成一个个链表的方式就整合成了邻接表L_nlist；

步骤S142：确定好组合路径对[X_iport,X_oport]上的起点组件节点N_start和终点组件节点N_end，并在邻接表L_nlist上设置一个指向访问节点u的下一个节点w的指针p为搜索简单路径做准备；同时，在初始化一个一维数组A_re来记录节点被访问的情况；将指针p先设置于起点组件节点N_start的下一个节点w，数组A_re记录节点N_start的受访状态；

步骤S143：节点w添加入简单路径数组A_spath中并在数组A_re上记录节点w的受访状态；再判断节点w是否为终点组件节点N_end；如果是，则依次输出简单路径数组A_spath上所有的组件节点信息；若不是，则结束判断；

步骤S144：指针p指向邻接表L_nlist中节点w所在行的下一个节点w′，并判断w′是否为空节点；

若节点w′不是空节点，则下一个节点w′被替换为当前节点w，然后在数组A_re上检查以下此时节点w是否被受访过；若未被访问，则进一步递归到此时节点w在邻接表L_nlist中的所在行，且继续重复从步骤S143开始的过程；若被访问过，则不再往下递归，仅让指针p指向节点w在邻接表L_nlist中不递归的所在行的下一个节点w′，且一样重复从步骤S143开始的过程；

若节点w′为空节点，则在数组A_re上取消节点w的受访状态使之可被继续访问，并根据该层的递归中在邻接表L_nlist所在行的第一个节点o回到上一层递归中在邻接表L_nlist所在行的该节点o的位置；同时让节点w去替换该节点o的位置；

步骤S145：重复步骤S143和步骤S144的过程，直到起点组件节点N_start在邻接表L_nlist所在行的所有节点全部被搜索完毕；这样就能够得到一个路径对[X_iport,X_oport]上所有存在的简单路径了。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：从步骤S1得到的句子数据集根据组件类型名进行词语的去重，留下的词语作为词库训练的材料；

步骤S22：依靠word2vec中的skip-gram词之间的相关性计算模式，对词库中包含的每一个词完成词向量WV_pre的预训练；这种词相关性计算的原理遵循如下公式：

其中,在上述第一个公式中，w_o和w_c分别表示周围词和中心词；u_o、u_i和v_c各自代表周围词的、词库中任意一个词的以及中心词的词向量；在上述第二个公式中还多了个参数u_j，它表示为中心词w_c作为其他词的周围词的时候的词向量；

上述第一个公式是个损失函数，它的原理是中心词求其周围词的概率并进行归一化处理所得的结果；为了得到最优化的词向量表达效果，再对第一个公式求导便成了梯度函数即第二个公式；最后在结合梯度下降算法令第一个公式最小化，从结果导出v_c就是训练好的词向量WV_pre。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：在TextCNN的输入层依次放入步骤S1句子数据集，同时把步骤S2中预训练好的词向量WV_pre作为静态词向量矩阵WVM_S和动态词向量矩阵WVM_D的初始化张量；其中，静态词向量矩阵WVM_S不参与TextCNN的迭代更新，而动态词向量矩阵WVM_D则为相反；

步骤S32：在一维卷积层中，选用大小分别为3、4和5的卷积核对输入层中的张量进行特征计算；在卷积核与卷积核同等大小的卷积层局部范围内，进行两者的矩阵上同一位置的相乘后再相加的结果就是特征计算，并以滑动窗口式的扫描计算形成一串串输出通道；

步骤S33：把步骤S32中的输出通道利用最大池化层挑选出对检测木马句子为最大值的特征，并将这些输出通道的最大值特征接在一起；

步骤S34：最后的全连接层依靠一个线性函数收束所有的这些最大值特征，并在输出层得出句子是否包含木马类型名的结果。

与现有技术相比，本发明具有以下有益效果：

(1)本发明中的单特征判断：基于TextCNN的硬件木马检测模型仅借助了词向量这一个特征，避免了对多特征的不确定性问题。

(2)本发明中的硬件木马的信息放大和平衡学习：在简单路径句子的提取下，将多次获取到同一个硬件木马下的不同结构信息，不重复地放大了木马信息。这使得模型有能力实现平衡数据集学习，在相同的正负样本的训练下，本发明模型维持了高性能稳定的优秀水准。

(3)本发明中的无金片检测：检测过程中的比对对象仅仅是依靠无木马语句(相当于黄金参照物)来判断句子中的硬件木马信息，很好地省去了对于“金片”的硬件开销，使该方法更低成本地运用。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的生成电路中简单路径句子的示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于语义理解的深度学习硬件木马检测方法，包括如下步骤：

在本实施例中，如图2所示，所述步骤S1具体包括以下步骤：

步骤S12：以每个组件N(N₁,N₂,N₃,…,N_l)为节点V和以每个线网S(S₁,S₂,S₃,…,S_k)为边E，并根据每个组件中的输入输出线网关系N_i[X_ii,X_io]运用深度优先搜索算法构建整个网表电路的拓扑结构G＝(V,E)；根据电路的信号传递法则追踪各组件之间的连接关系，信号传递法则公式如下：

在本实施例中，步骤S14中所述运用简单路径算法搜索出所有可能的简单路径T_spath具体包括以下步骤：

步骤S142：确定好组合路径对[X_iport,X_oport]上的起点组件节点N_start和终点组件节点N_end，并在邻接表L_nlist上设置一个指向访问节点u的下一个节点w的指针p为搜索简单路径做准备。同时，在初始化一个一维数组A_re来记录节点被访问的情况。将指针p先设置于起点组件节点N_start的下一个节点w，数组A_re记录节点N_start的受访状态；

步骤S143：节点w添加入简单路径数组A_spath中并在数组A_re上记录节点w的受访状态。再判断节点w是否为终点组件节点N_end。如果是，则依次输出简单路径数组A_spath上所有的组件节点信息；若不是，则结束判断；

步骤S144：指针p指向邻接表L_nlist中节点w所在行的下一个节点w′，并判断w′是否为空节点。

若节点w′不是空节点，则下一个节点w′被替换为当前节点w，然后在数组A_re上检查以下此时节点w是否被受访过。若未被访问，则进一步递归到此时节点w在邻接表L_nlist中的所在行，且继续重复从步骤S143开始的过程。若被访问过，则不再往下递归，仅让指针p指向节点w在邻接表L_nlist中不递归的所在行的下一个节点w′，且一样重复从步骤S143开始的过程。

若节点w′为空节点，则在数组A_re上取消节点w的受访状态使之可被继续访问，并根据该层的递归中在邻接表L_nlist所在行的第一个节点o回到上一层递归中在邻接表L_nlist所在行的该节点o的位置。同时让节点w去替换该节点o的位置；

步骤S145：重复步骤S143和步骤S144的过程，直到起点组件节点N_start在邻接表L_nlist所在行的所有节点全部被搜索完毕。这样就能够得到一个路径对[X_iport,X_oport]上所有存在的简单路径了。

在本实施例中，所述步骤S2具体包括以下步骤：

在本实施例中，所述步骤S3具体包括以下步骤：

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于语义理解的深度学习硬件木马检测方法，其特征在于：包括如下步骤：

步骤S3：来自步骤S1的句子数据集和来自步骤S2的词向量WV_pre共同作为材料放入TextCNN的输入层中，经过静动态相结合的词向量矩阵训练得到硬件木马的检测结果；

所述步骤S1具体包括以下步骤：

步骤S12：以每个组件N(N₁,N₂,N₃,…,N_l)为节点V和以每个线网S(S₁,S₂,S₃,…,S_k)为边E，并根据每个组件中的输入输出线网关系N_i[X_ii,X_io]，运用深度优先搜索算法构建整个网表电路的拓扑结构G＝(V,E)；根据电路的信号传递法则追踪各组件之间的连接关系，信号传递法则公式如下：

Path:f_s ^v(N_i)＝N_j(N_i≠N_j)

其中，v表示函数f_s的迭代次数；那么上述公式的定义，组件N_i为起点经过v次的信号传递函数的迭代作用下形成了通向N_j为终点的路径，并约束起点和终点不是同一个逻辑门即不是同一个节点；

接着对于上述搜索到的路径进行进一步的简单路径判断，判定公式如下：

步骤S16：对所有的句子数据集根据是否有经过硬件木马组件来标注标签，并规定有木马的句子标签为正样本，无木马的句子标签为负样本，这样得到了带标签的句子数据集；

所述步骤S3具体包括以下步骤：

步骤S34：最后的全连接层依靠一个线性函数收束所有的这些最大值特征,并在输出层得出句子是否包含木马类型名的结果。

2.根据权利要求1所述的一种基于语义理解的深度学习硬件木马检测方法，其特征在于：步骤S14中所述运用简单路径算法搜索出所有可能的简单路径T_spath具体包括以下步骤：

3.根据权利要求1所述的一种基于语义理解的深度学习硬件木马检测方法，其特征在于：所述步骤S2具体包括以下步骤：