CN116561568A

CN116561568A - 基于信道注意力和级联提前退出的分布外检测系统及方法

Info

Publication number: CN116561568A
Application number: CN202310288978.1A
Authority: CN
Inventors: 贾俊铖; 李永昌
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-08-08

Abstract

本发明公开了一种基于信道注意力和级联提前退出的分布外检测系统及方法，系统包括神经网络结构，通过将TinyOOD检测器设置于该神经网络结构的每个卷积层的输出侧，同时在TinyOOD检测器中引入基于信道注意力机制的NMD模型，即CA‑NMD，可以使用NMD矢量来表示挤压步骤的结果，减少了计算消耗，同时，信道注意力机制考虑了不同信道的重要性，具有更好的性能，因此，该更轻量的分布外检测系统应用更广泛，在检测方法中，通过将多个TinyOOD检测器相连，并传递CA‑NMD矢量，可以细化逻辑回归检测模型的输入，同时加入TinyOOD动态决策，可以实现在不增加本地设备推理延迟的情况下，将任务上传至云端执行，可以大幅提高推理准确度。

Description

基于信道注意力和级联提前退出的分布外检测系统及方法

技术领域

本发明涉及机器学习领域，具体涉及一种基于信道注意力和级联提前退出机制的分布外检测系统及方法。

背景技术

微型机器学习(TinyML)是一个快速发展的领域，包括嵌入式系统和机器学习交叉领域的研究和开发。TinyML的目标是将机器学习推理应用于功耗极低(～1mW)、价格便宜(约1美元)并且体积很小(～1cm3)的单片机单元(MCU)，最近，TinyML在嵌入式设备上得到了广泛的普及，这些设备无处不在并且可以实时处理传感器数据。

然而，在复杂多变的现实世界中，TinyML应用接收到的输入数据可能会与训练数据不同。这些输入样本被称为OOD样本。这些OOD样本将TinyML应用变得不可靠,不安全。因此，检测OOD样本的能力对于TinyML应用进程的部署至关重要。

目前,已经开发了许多用于OOD检测的方法。其中一种用于深度生成模型的似然比方法，可以有效地检测远离训练分布的数据实例，ODIN向输入添加小扰动，并平滑softmax分数，以分离分布内和分布外输入的softmax分数分布。然而，这些方法通常会产生大量的开销，这是TinyML无法接受的。为了解决这个问题，标准的现成模型已经包含了足够的训练数据集的数据分布信息，基于这一观察结果，技术人员提出了神经平均差异(NMD)度量，该度量可以利用模型隐藏层信息进行可靠的OOD检测，虽然NMD方法减少了OOD检测的资源消耗，但它仍然依赖于最后一层的输出，并且需要对任何给定的输入进行完整的前向推理，处理过程复杂且耗时。

发明内容

针对上述存在的问题，本发明的目的在于提供一种基于信道注意力和级联提前退出的分布外检测系统及方法，达到的目的。

为实现上述目的，本发明提供了一种基于信道注意力和级联提前退出的分布外检测系统，包括神经网络结构，所述神经网络结构包括多个卷积层，每个所述卷积层的输出侧均连接设置有TinyOOD检测器，多个所述TinyOOD检测器分别连接有一个级联提前退出分支，多个所述TinyOOD检测器顺序连接。

进一步，所述TinyOOD检测器包括CA-NMD模型和逻辑回归预测模型。

进一步，所述CA-NMD模型为将信道注意力机制应用于原始NMD模型。

本实施例的另一方面发明了应用于上述分布外检测系统的分布外检测方法，包括以下步骤：

S1：样本输入神经网络结构；

S2：经卷积层提取后的样本特征输入TinyOOD检测器；

S3：TinyOOD检测器通过CA-NMD模型对输入样本进行运算并得出CA-NMD矢量；

S4：逻辑回归预测模型通过CA-NMD矢量和前一次传递至当前卷积层的CA-NMD矢量预测输入的样本类型是否为分布外样本；

S5：TinyOOD检测器执行TinyOOD动态决策。

进一步，步骤S3中CA-NMD矢量的计算方法包括以下步骤：

S31:挤压步骤，将信道的全局空间信息挤压到信道描述符中；

S32:激励步骤，完全捕获信道依赖关系，定义CA-NMD矢量。

进一步，所述挤压步骤用于将全局空间信息挤压到信道描述符中，信道描述符的表示方式为：

其中，l为当前卷积层数，C为信道数，z^l为信道描述符矢量。

进一步，所述激励步骤为，使用两层全连接网络来捕获同一卷积层下不同信道的依赖关系，计算公式为：

s^l＝σ(W₂δ(W₁z^l))；

其中，s^l表示l层中的信道注意力权重，δ是指ReLU函数，σ是指sigmoid函数，和/>是两个全连接网络的参数，r是缩减比；

最终，l层的CA-NMD矢量可以定义为：

CA-NMD^l＝s^lz^l。

进一步，步骤S5中，TinyOOD检测器检测当前样本是否为分布外样本的检测方法为：

获取当前层下逻辑回归预测模型的输入具体为：

其中，l为当前卷积层数；

逻辑回归预测模型包括预测分数和阈值γ，TinyOOD检测器对当前输入样本的判断结果为：

其中，l为当前卷积层数对应的TinyOOD检测器的序数，若则当前输入样本为分布外样本，否则为分部内样本。

进一步，所述TinyOOD动态决策基于Q-Learning学习方法，所述TinyOOD动态决策由状态空间、动作空间和奖赏函数确定，并产生结果：继续执行、提前退出和上传云端；

所述状态空间为模型的运行状态，使用一维向量表示，并离散为多个不同的状态，表示为：S＝{1,2,3,4,…,N}；

所述动作空间包括继续执行、提前退出和上传云端决策，表示为：A＝{继续执行：0，提前退出：1，上传云端：2}，所述继续执行决策包括本地执行和云端执行；

所述奖赏函数由参数：OOD分数(scores_ood)，本地模型推理准确度(scores_local)，云端模型推理准确度(scores_cloud)和归一化后的本地已用推理时间(T_{local_used})，本地推理剩余用时(T_{local_unused})，云端推理时间(T_cloud)构成，奖赏函数具体为：

其中α₁、β₁、α₂、β₂、α₃和β₃为用于权衡各参数权重和的超参数。

进一步，步骤S5中所述TinyOOD动态决策方法包括：

S51：若TinyOOD检测器检测到当前样本为分布外样本，则执行提前退出决策，否则转到步骤S52；

S52：对当前样本执行继续执行决策；

S53：重复S2-S5，直到运行至最后一个TinyOOD检测器，若TinyOOD检测器检测到当前样本为分布外样本，则执行提前退出决策，否则执行上传云端决策，进行分类输出。

本发明的有益效果是：

1、通过将TinyOOD检测器设置于每个卷积层的输出侧，同时在TinyOOD检测器中引入基于信道注意力机制的NMD模型，即CA-NMD，可以使用NMD矢量来表示挤压步骤的结果，减少了计算消耗，同时，信道注意力机制考虑了不同信道的重要性，具有更好的性能，因此，该更轻量的分布外检测系统可以部署在浅层网络，应用更广泛。

2、通过将多个TinyOOD检测器相连，并传递CA-NMD矢量，可以细化逻辑回归检测模型的输入，可以有效提高OOD检测的准确性。

3、通过加入基于Q-Learning强化学习的TinyOOD动态决策，可以实现在不增加本地设备推理延迟的情况下，将任务上传至云端执行，可以大幅提高推理准确度。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本实施例分布外检测系统结构框图；

图2为本实施例TinyOOD检测器结构示意图；

图3为本实施例分布外检测方法流程示意图；

图4为本实施例CA-NMD矢量的计算方法流程示意图；

图5为本实施例TinyOOD动态决策方法流程示意图；

图6为本实施例分布外检测算法示意图；

图7为本实施例Q-Learning算法示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例：

参考图1和图2，基于信道注意力和级联提前退出机制的分布外检测系统，包括神经网络结构，神经网络结构可以为任何现成的神经网络结构，神经网络结构包括多个卷积层，每个卷积层的输出侧均连接设置有TinyOOD检测器，多个TinyOOD检测器分别连接有一个级联提前退出分支，多个TinyOOD检测器顺序连接，TinyOOD检测器包括CA-NMD模型和逻辑回归预测模型，连接后的TinyOOD检测器可以将CA-NMD矢量从前几层传递到当前卷积层，以实现细化逻辑回归预测模型的输入，可以提高OOD检测的准确性。其中，CA-NMD模型为将信道注意力机制应用于原始NMD模型，NMD为神经平均差异度量，该度量可以利用模型隐藏层信息进行可靠的OOD检测，在将信道注意力机制应用于NMD后，可以考虑不同信道的重要性，相比之下具有更好的性能，有利于部署在例如MCU的浅层网络，同时，级联提前退出分支允许模型检测到OOD样本时提前退出。

其中，NMD模型用于通过计算来比较输入样本和训练样本的神经均值，具体的计算方法如下：

其中，是训练数据集，I＝{x₁,...,x_|I|}是来自未知分布的一批输入样本，/>是l层中信道c的输出，d是激活图的空间大小，(m,n)表示空间位置。

本实施例还公开了一种在分布外检测方法，应用于上述分布外检测系统，以实现轻量但精确的OOD检测。

参考图3、图4、图5和图6，一种基于信道注意力和级联提前退出机制的分布外检测方法，包括以下步骤：

S1：样本输入神经网络结构；

S2：经卷积层提取后的样本特征输入TinyOOD检测器；

S3：TinyOOD检测器通过CA-NMD模型对输入样本运算并得出CA-NMD矢量；

S5：TinyOOD检测器执行TinyOOD动态决策。

参考图4,信道注意力机制由挤压信道注意力机制和激励信道注意力机制组成，具体的，步骤S3中CA-NMD矢量的计算方法包括以下步骤：

S31:挤压步骤，将信道的全局空间信息挤压到信道描述符中；

S32:激励步骤，用于完全捕获信道依赖关系，定义CA-NMD矢量。

步骤S31中，挤压步骤用于将全局空间信息挤压到信道描述符中，挤压步骤输出的结果通过NMD矢量进行表示，可以有效减少挤压步骤的计算消耗，具体来说，将l层中所有信道C的全局空间信息压缩为信道描述符矢量z^l，其表示方式为：

步骤S32中，激励步骤为，使用两层全连接网络来捕获同一卷积层下不同信道的依赖关系，计算公式为：

s^l＝σ(W₂δ(W₁z^l))；

最终，l层的CA-NMD矢量可以定义为：

CA-NMD^l＝s^lz^l。

步骤S4中，TinyOOD检测器通过逻辑回归预测模型检测当前样本是否为分布外样本的检测方法为：

获取当前层下逻辑回归预测模型的输入具体为：

其中，l为当前卷积层数；

逻辑回归预测模型包括预测分数和阈值γ，TinyOOD检测器对当前输入样本的判断结果为/>具体为：

其中，l为当前卷积层数对应TinyOOD检测器的序数，若则当前输入样本为分布外样本，否则为分部内样本，在样本为分布外样本时，分布外检测系统的检测过程提前退出，否则将当前CA-NMD矢量传递给下一个TinyOOD检测器。

TinyOOD动态决策基于Q-Learning学习方法，TinyOOD动态决策由状态空间、动作空间和奖赏函数确定，具体来说：

状态空间为模型的运行状态，使用一维向量表示，并离散为多个不同的状态，例如，本实施例的模型中包含七级TinyOOD检测器，则状态空间表示为：S＝{1,2,3,4,5,6,7}，其中S1～S5为本地模型各隐藏层的运行状态，S6为提前退出状态，S7为上传云端状态。

动作空间为执行决策的集合，包括继续执行、提前退出和上传云端决策，用动作a来描述推理任务执行的决策，表示为：A＝{继续执行：0，提前退出：1，上传云端：2}，其中，继续执行决策还包括本地执行和云端执行两种决策，对于不同的状态S，动作空间可能不一样，例如，对于状态S5，它的动作空间为A(S5)＝{提前退出：1，上传云端：2}，因为S5状态处于本实施例中本地模型的最底端，只能采取退出、上传到云端这两种动作。

奖赏函数由参数：OOD分数(scores_ood)，本地模型推理准确度(scores_local)，云端模型推理准确度(scores_cloud)和归一化后的本地已用推理时间(T_{local_used})，本地推理剩余用时(T_{local_unused})，云端推理时间(T_cloud)构成，本实施例中的奖赏函数为即时奖赏函数，构建奖赏函数的目标是获得最小的时间消耗与最高的推理准确度，因此，奖赏函数的奖励价值需要与时间消耗价值负相关，与推理准确度价值正相关，本实施例中的奖赏函数具体为：

参考图5，基于上述TinyOOD动态决策的内容化，步骤S5中TinyOOD动态决策方法包括：

S52：对当前样本执行继续执行决策；

S53：重复步骤S2-S5，直到运行至最后一个TinyOOD检测器，若TinyOOD检测器检测到当前样本为分布外样本，则执行提前退出决策，否则执行上传云端决策，进行分数输出。

因此，基于奖赏函数，对于继续执行决策中的本地执行决策和云端执行决策，云端服务器的性能比本地设备要高得多，将本地任务传输到云端设备上执行具有更高的处理效率，但是在大量的设备上传任务到云端会造成网络通信的堵塞，最终可能导致推理任务的耗时剧增，因此通过云端执行的用时与本地执行的用时差作权衡任务耗时，根据不同推理任务，任务耗时也存在较大差异，例如，假设云端执行的用时小于本地执行的用时,理论上应该是优先云端执行的，但是,我们同时考虑到样本是否为分布外样本的情况,即若此时本地模型认为当前样本很有可能是OOD样本，但还没有达到提前退出的程度下，对于这种情况,若上传任务到云端反而可能会增加系统消耗，若此时云端用时极小的情况下,则选择云端执行。

对于提前退出和上传云端的决策，将高OOD分数的任务提前终止，本地已用推理时间将会被定义为额外的时间消耗，作为惩罚项，同时，上传云端决策也意味着本地已用推理时间会被作为惩罚项。

参考图7，Q-Learning是一种有效的无模型强化学习方法，对于该方法，当前环境和状态转换概率都不是明确的，甚至是时变的，因此，Q-Learning算法试图使代理能够在每个时间步的特定上下文中分别自动学习最佳行为。采用Q-Learning方法来解决TinyOOD动态决策问题，特别是，Q-Learning方法可以估计状态的最佳动作值Q(s，a)和每个时间步的允许动作对，这些值被存储或更新在Q表中。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述发明的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.基于信道注意力和级联提前退出的分布外检测系统，包括神经网络结构，所述神经网络结构包括多个卷积层，其特征在于，每个所述卷积层的输出侧均连接设置有TinyOOD检测器，多个所述TinyOOD检测器分别连接有一个级联提前退出分支，多个所述TinyOOD检测器顺序连接。

2.根据权利要求1所述的分布外检测系统，其特征在于，所述TinyOOD检测器包括CA-NMD模型和逻辑回归预测模型。

3.根据权利要求2所述的分布外检测系统，其特征在于，所述CA-NMD模型为将信道注意力机制应用于原始NMD模型。

4.一种基于信道注意力和级联提前退出的分布外检测方法，应用于如权利要求1-3任一所述的分布外检测系统，其特征在于，包括以下步骤：

S1：样本输入神经网络结构；

S2：经卷积层提取后的样本特征输入TinyOOD检测器；

S5：TinyOOD检测器执行TinyOOD动态决策。

5.根据权利要求4所述的分布外检测方法，其特征在于，步骤S3中CA-NMD矢量的计算方法包括以下步骤：

S31:挤压步骤，将信道的全局空间信息挤压到信道描述符中；

S32:激励步骤，完全捕获信道依赖关系，定义CA-NMD矢量。

6.根据权利要求5所述的分布外检测方法，其特征在于，所述挤压步骤用于将全局空间信息挤压到信道描述符中，信道描述符的表示方式为：

7.根据权利要求6所述的分布外检测方法，其特征在于，所述激励步骤为：使用两层全连接网络来捕获同一卷积层下不同信道的依赖关系，计算公式为：

s^l＝σ(W₂δ(W₁z^l))；

最终，l层的CA-NMD矢量可以定义为：

CA-NMD^l＝s^lz^l。

8.根据权利要求4所述的分布外检测方法，其特征在于，步骤S4中，TinyOOD检测器检测当前样本是否为分布外样本的检测方法为：

获取当前层下逻辑回归预测模型的输入具体为：

其中，l为当前卷积层数；

9.根据权利要求4所述的分布外检测方法，其特征在于，所述TinyOOD动态决策基于Q-Learning学习方法，所述TinyOOD动态决策由状态空间、动作空间和奖赏函数确定，并产生结果：继续执行、提前退出和上传云端；

所述状态空间为模型的运行状态，使用一维向量表示，并离散为多个不同的状态，表示为：S＝{1，2，3，4，...，N}；

其中θ₁、β₁、α₂、β₂、α₃和β₃为用于权衡各参数权重和的超参数。

10.根据权利要求9所述的分布外检测方法，其特征在于，步骤S5中的所述TinyOOD动态决策的决策方法包括：

S52：对当前样本执行继续执行决策；