CN117542045A

CN117542045A - 一种基于空间引导自注意力的食品识别方法及系统

Info

Publication number: CN117542045A
Application number: CN202410033038.2A
Authority: CN
Inventors: 李忠涛; 程文轩; 张波; 王凯; 张玉璘
Original assignee: University of Jinan
Current assignee: Shandong Jishi Information Technology Co ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-02-09
Anticipated expiration: 2044-01-10
Also published as: CN117542045B

Abstract

本发明提出了一种基于空间引导自注意力的食品识别方法及系统，涉及计算机视觉领域。本发明根据图像特征图获取目标位置编码，并根据编码引导自注意力机制只计算存在目标的位置，同时将图像特征图进行拆分处理，并以级联方式处理拆分的图像特征图，从而达到节约计算量的目的，另外根据目标位置编码的计算方式，也可以达到节约大量计算量，并为自注意力计算提供先验知识。

Description

一种基于空间引导自注意力的食品识别方法及系统

技术领域

本发明属于计算机视觉领域，特别涉及一种基于空间引导自注意力的食品识别方法及系统。

背景技术

自注意力机制是深度学习领域中备受瞩目的特征处理技术。自注意力机制通过学习特征之间的相互依赖关系，使得模型能够准确地捕捉上下文信息，无论是在自然语言处理还是计算机视觉任务中都展现了出色的性能。然而，尽管自注意力机制取得了显著的成就，但目前这种机制仍然存在问题，例如运算量大，模型复杂度高等。如果能够在一个模型中用更少的计算量，仍充分利用自注意力机制的优势，就能够在特征的表达和信息的处理速度上取得双赢的效果。

发明内容

本发明提供一种基于空间引导自注意力的食品识别方法及系统，旨在减少传统自注意力的计算量，并通过空间注意力关注目标存在位置，从而提高食品的识别效果。

本发明对于传统自注意力机制作出了改进，提供一种基于空间引导自注意力的食品识别方法，包括以下步骤：

S1、获取食品摄像头视频，每秒对摄像头进行抽帧，获得食品待检测图像；

S2、构建空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出；

S3、构建食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成；

S4、将食品待检测图像输入进食品检测模型，获得食品检测结果。

优选地，S2中的空间引导自注意力模块，如果输入图像特征为位置编码 s 的计算为/>，SAttn 为空间注意力操作，MAX 为阈值筛选，将图像特征中非目标位置重置为0后的特征图/>计算为/>,⊙表示逐位置相乘，Mask(s)是一个与 s 具有相同形状的矩阵，其中 s 所指定的位置的元素为1，其他位置为0，对 x应用这样的掩码操作，就可以得到经过 s 筛选后的特征图，然后每个拆分特征图的优化特征/>的计算为/>其中/>代表特征图/>的第j个拆分特征图，/>分别代表生成Q、K、V的权重矩阵，Attn代表自注意力计算，然后将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征/>的计算为，其中h为拆分的特征图数量，/>为线性层，目的是将输出的优化图像特征投影回与输入图像特征一致的维度。

本发明还提供一种基于空间引导自注意力的食品识别系统，其特征在于，包括食品图像数据采集模块、食品检测模块，通过食品图像数据采集模块采集所要检测的食品目标图像，食品检测模块内置食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成，对于空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出。

与现有技术相比，本发明具有以下技术效果：

本发明提供的技术方案首先根据图像特征图获取目标位置编码，并根据编码引导自注意力机制只计算存在目标的位置，同时将图像特征图进行拆分处理，并以级联方式处理拆分的图像特征图，从而达到节约计算量的目的，另外根据目标位置编码的计算方式，也可以达到节约大量计算量，并为自注意力计算提供先验知识。

附图说明

图1是本发明提供的食品识别流程图；

图2是本发明提供的空间引导自注意力结构图。

具体实施方式

本发明旨在提出一种基于空间引导自注意力的食品识别方法及系统，根据图像特征图获取目标位置编码，并根据编码引导自注意力机制只计算存在目标的位置，同时将图像特征图进行拆分处理，并以级联方式处理拆分的图像特征图，从而达到节约计算量的目的，另外根据目标位置编码的计算方式，也可以达到节约大量计算量，并为自注意力计算提供先验知识。

请参见图1所示，本申请实施例中的一种基于空间引导自注意力的食品识别方法：

进一步，如图2所示，从摄像头获得食品图像后，将600×600分辨率的3通道图像输入进骨干网络，骨干网络使用RetinaNet网络，并输出维度为(600,600,3)图像特征图，将图像特征输入进空间注意力机制中，获得360000个像素位置得分,得分从0到1分布，按照阈值0.6进行筛选，获得存在目标的位置，并形成目标编码，根据目标编码对应位置，将特征图中不存在目标位置的值重置为0，然后拆分图像特征图为3个特征块，每个特征块维度为（200,200,3），首先将拆分特征1进行自注意力计算，得到优化特征1，然后将优化特征1与拆分特征2进行相加，并进行自注意力计算，得到优化特征2，然后将优化特征2与拆分特征3进行相加，并进行自注意力计算，得到优化特征3，将三个优化特征进行连接，并进行线性层运算，得到优化图像特征，其维度为(600,600,3)，将优化图像特征输入到检测头，检测头使用RetinaNet网络检测头，并最终得到食品检测结果。

进一步，S2中的空间引导自注意力模块，如果输入图像特征为位置编码 s 的计算为/>，SAttn 为空间注意力操作，MAX 为阈值筛选，将图像特征中非目标位置重置为0后的特征图/>计算为/>,⊙表示逐位置相乘，Mask(s)是一个与 s 具有相同形状的矩阵，其中 s 所指定的位置的元素为1，其他位置为0，对 x应用这样的掩码操作，就可以得到经过 s 筛选后的特征图，然后每个拆分特征图的优化特征/>的计算为/>其中/>代表特征图/>的第j个拆分特征图，/>分别代表生成Q、K、V的权重矩阵，Attn代表自注意力计算，然后将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征/>的计算为，其中h为拆分的特征图数量，/>为线性层，目的是将输出的优化图像特征投影回与输入图像特征一致的维度。

本实施例提供一种基于空间引导自注意力的食品识别系统，其特征在于，包括食品图像数据采集模块、食品检测模块，通过食品图像数据采集模块采集所要检测的食品目标图像，食品检测模块内置食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成，对于空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出。

以上仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于空间引导自注意力的食品识别方法，其特征在于，包括以下步骤：

2.据权利要求1所述的一种基于空间引导自注意力的食品识别方法，其特征在于，S2中的空间引导自注意力模块，如果输入图像特征为位置编码s的计算为/>，SAttn为空间注意力操作，MAX 为阈值筛选，将图像特征中非目标位置重置为0后的特征图计算为/>,⊙表示逐位置相乘，Mask(s) 是一个与 s 具有相同形状的矩阵，其中 s 所指定的位置的元素为1，其他位置为0，对 x 应用这样的掩码操作，就可以得到经过 s 筛选后的特征图，然后每个拆分特征图的优化特征/>的计算为其中/>代表特征图/>的第j个拆分特征图，分别代表生成Q、K、V的权重矩阵，Attn代表自注意力计算，然后将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征/>的计算为，其中h为拆分的特征图数量，/>为线性层，目的是将输出的优化图像特征投影回与输入图像特征一致的维度。

3.一种基于空间引导自注意力的食品识别系统，其特征在于，包括食品图像数据采集模块、食品检测模块，通过食品图像数据采集模块采集所要检测的食品目标图像，食品检测模块内置食品检测模型，模型由骨干网络、空间引导自注意力模块、检测头组成，对于空间引导自注意力模块，输入图像特征到该模块，将图像特征进行空间注意力操作，得到图像每个像素的空间位置得分，将得分进行阈值筛选，将得分高的像素位置视为存在目标位置，并将这些位置形成图像特征对应的目标位置编码，然后根据目标位置编码，将图像特征中非目标位置重置为0，然后将图像特征拆分为多个特征块，依次计算每个特征块，单个特征块生成对应Q、K、V，并进行自注意力计算，输出该特征块对应的优化特征，除第一个计算的特征块，每一个特征块和上一特征块对应的优化特征进行相加运算，然后再进行自注意力计算，所有特征块计算完毕，将所有的优化特征进行连接，得到和图像特征维度相同的优化图像特征，并进行输出。