CN115862005A

CN115862005A - 一种食品检测系统、模型训练方法和食品检测方法

Info

Publication number: CN115862005A
Application number: CN202211698870.1A
Authority: CN
Inventors: 闵巍庆; 刘春霖; 周鹏飞; 刘涛; 蒋树强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-03-28

Abstract

本发明提供了一种食品检测系统、模型训练方法和食品检测方法，该系统包括基于神经网络构建的特征提取器和检测头，其中，特征提取器，用于根据多个处理层对输入的图像进行特征提取以得到图像特征，其中至少部分处理层为动态可变形卷积层，动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括用于确定与输入的图像适配的变形参数的变形单元和多个用于根据该变形单元的变形参数调整卷积形态的动态卷积分支；检测头，用于根据图像特征对输入的图像进行检测，确定输入的图像中食品的位置区域和各位置区域对应的食品类别；本发明可提高食品检测模型的检测性能。

Description

一种食品检测系统、模型训练方法和食品检测方法

技术领域

本发明涉及神经网络技术领域，具体来说涉及食品图像处理领域，更具体地说，涉及一种食品检测系统、模型训练方法和食品检测方法。

背景技术

食品是支持人们生活的物质基础，饮食也是日常生活中与营养健康关联最大的因素之一，良好的饮食习惯可以帮助人们预防如糖尿病等各种慢性疾病。食品检测是食品计算领域的一种典型检测应用和一项基本任务，基于食品检测的结果，可用于实现自动记录与结算、膳食评估及可持续饮食监测等上游任务，对于个人建立良好的饮食习惯及兼顾营养和环境的可持续饮食有重要意义。

现有的食品检测技术主要有两个发展路线：

(1)利用通用检测模型实现食品检测。例如，此前有研究人员在一个混合了UECFood-100和UECFood-256的数据集上开发了一个基于YOLOv2的食品检测模型，该模型在测试集中可以达到平均接近80％的检测性能。

(2)从实例分割方法出发。此前的研究人员在1620张食品图像上训练一个实例分割模型，从而实现了食品检测。也有研究从网络上收集的食品图像训练一个全卷积神经网络，用于实现基于食品建议分割的网络监督方法。

但是，相比普通的目标检测，食品检测存在一定难点：

(1)食品通常具有细粒度特性，这会导致同一类别的食品在不同场景下的外观出现差异，而使用类似食材和调味料的不同食品的外观则可能相似的特点；在利用通用检测模型进行食品检测时，容易出现错分和漏分的现象。这可能是因为通用的检测模型没有针对食品细粒度的特性进行模型结构设计，从而影响食品检测的准确性。

(2)在现实生活中，检测场景中的影响因素(如盛放食品的容器、图像采集设备的视角和检测场景的照明)往往丰富而多变，这会引发外观变形和光照不均匀等现象，进而导致检测性能的不理想。这仍可能是因为通用的检测模型没有针对食品细粒度的特性进行模型结构设计，从而影响检测性能。

(3)若利用像素级的精细标注训练分割模型，因为像素级的精细标注能够带来较好的训练，但实际标注成本相对较高，因此一般仅利用相对小的数据量进行完成训练。其也因此可能无法适应丰富多变的场景影响要素，进而在实际应用中无法达到理想的性能。

可见，在采用现有的目标检测模型时，由于没有针对食品细粒度的特性进行模型结构设计，影响食品检测的准确性。因此，需要对现有技术进行改进。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种食品检测系统、模型训练方法和食品检测方法。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种食品检测系统，其包括基于神经网络构建的特征提取器和检测头，其中，特征提取器，用于根据多个处理层对输入的图像进行特征提取以得到图像特征，其中至少部分处理层为动态可变形卷积层，动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括用于确定与输入的图像适配的变形参数的变形单元和多个用于根据该变形单元的变形参数调整卷积形态的动态卷积分支；检测头，用于根据图像特征对输入的图像进行检测，确定输入的图像中食品的位置区域和各位置区域对应的食品类别。

在本发明的一些实施例中，变形单元为卷积核，该卷积核根据输入其所在的可变形共享块的特征图进行卷积，以确定对应动态卷积分支中在该特征图上进行卷积的动态卷积分支的卷积核在每个卷积位置处各权重参数在宽度和高度方向上的偏移量。

在本发明的一些实施例中，每个可变形共享块包括感知单元，其用于根据当前输入该可变形共享块的特征图确定该可变形共享块的每个动态卷积分支对应的加权参数，其中，每个动态卷积分支的输出为加权参数与对应卷积核的权重参数相乘得到的卷积权重与输入该动态卷积分支的特征图进行卷积运算的结果。

在本发明的一些实施例中，每个动态可变形卷积层将输入该层的特征图以通道为划分单位按预定的规则分配到其所含的所有可变形共享块中的每个动态卷积分支进行处理，不同动态卷积分支所分得的通道不重复。

在本发明的一些实施例中，每个可变形共享块的感知单元用于为每个动态卷积分支在对应特征图上进行卷积的卷积核的各权重参数在每个卷积通道上分别确定对应的加权参数，并根据加权参数和权重参确定实际用于卷积运算的卷积权重。

在本发明的一些实施例中，动态可变形卷积层还包括用于对输入该动态可变形卷积层的特征图的通道数基于卷积进行调整的通道调整单元，该通道调整单元调整后的特征图按通道分配到各个可变形共享块进行处理；以及通道还原单元，其用于对输入其中的特征图基于卷积进行通道还原，以使动态可变形卷积层输出的通道数量与其输入的通道数量相同。

在本发明的一些实施例中，动态可变形卷积层还包括注意力单元，所述注意力单元用于确定需要为每个可变形共享块分配的注意力值，动态可变形卷积层的输出至少基于每个可变形共享块分配的注意力值和该动态可变形卷积层的对应可变形共享块的输出加权得到。

根据本发明第二方面，提供一种食品检测系统的训练方法，包括：获取训练集，其中包括用于训练的多张图像以及每个图像对应的标签，标签指示对应图像中的各个位置区域、图像中是否含有食品、各个位置区域的食品类别；利用该训练集对第一方面的所述的食品检测系统进行训练，其中，训练时根据食品检测系统对图像样本的输出以及对应标签确定的总损失更新特征提取器和检测头的参数，其中，所述总损失与图像中含有食品的概率对应的损失、食品的位置区域对应的损失、各位置区域的食品类别置信度对应的损失相关。

根据本发明第三方面，在本发明的一些实施例中，将第一方面的检测头替换为改进的检测头，改进的检测头包括：用于根据图像特征检测对应图像中含有食品的概率、食品的位置区域、各位置区域的食品类别置信度的基础的检测头；用于根据对应图像中含有食品的概率、食品的位置区域、各位置区域的食品类别置信度得到各位置区域中的感兴趣区域以及对感兴趣区域进行食品分类和位置偏差估计以检测感兴趣区域的食品类别置信度和位置区域偏差的聚焦的检测头；用于根据基础的检测头得到的食品的位置区域、各位置区域的食品类别置信度的基础的检测头以及聚焦的检测头得到的感兴趣区域的食品类别置信度和位置区域偏差确定食品检测结果的输出单元，所述食品检测结果包括最终得到的食品的位置区域和各位置区域的食品类别置信度。

根据本发明第四方面，提供一种食品检测系统的训练方法，包括：获取训练集，其中包括多个样本图像以及每个样本图像对应的标签，标签指示样本图像中食品的位置区域和各个位置区域对应的食品类别；利用该训练集对第三方面所述的食品检测系统进行训练，其中，训练时根据食品检测系统对图像样本的输出以及对应标签确定的总损失更新特征提取器和检测头的参数，所述总损失与样本图像中含有食品的概率对应的损失、食品的位置区域对应的损失、各位置区域的食品类别置信度对应的损失、感兴趣区域的食品类别置信度对应的损失和位置区域偏差对应的损失得到的总损失更新特征提取器和检测头的参数。

根据本发明第五方面，提供一种食品检测方法，包括：获取待检测的图像，利用第二方面或者第三方面的训练方法训练得到的食品检测系统对待检测的图像进行食品检测，确定其中的食品的位置区域和各位置区域的食品类别置信度。

根据本发明第六方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储可执行指令；所述一个或多个处理器被配置为经由执行所述可执行指令以实现权利要求第二方面、第三方面或者第五方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明基于神经网络构建特征提取器和检测头，特征提取器，用于至少根据一个或者多个动态可变形卷积层对输入的图像进行特征提取以得到图像特征，动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括用于确定与输入的图像适配的变形参数的变形单元和多个动态卷积分支，每个动态卷积分支中卷积核的卷积形态根据其所处可变形共享块的变形单元的变形参数调整；经与此模型结构改进，一方面，特征提取器可以根据每个输入的图像，合理地确定与之适配的变形参数，从而在动态卷积分支中调整对应的卷积核的卷积形态，结合形态变化的卷积核以及动态卷积的特性，可让模型能更多地关注与食品检测相关的区域的特征提取；另一方面，通过一个动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括多个动态卷积分支的结构设置，可以让模型从不同的维度层面提取食品检测所需的特征；由此，提高食品检测模型的检测性能。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的动态可变形卷积层的结构示意图；

图2为根据本发明实施例的食品检测系统的结构示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，在采用现有的目标检测模型时，由于没有针对食品细粒度的特性进行模型结构设计，影响食品检测的准确性。发明人在进行食品检测中细粒度特性的研究时，发现现有技术中对相似食品的区分能力差的特性是因为没有考虑食品的细粒度的特性，仅考虑了目标具有的一般特性，而没有做特殊设计。这可能是因为通用检测模型为了尽可能的检出更多尺寸和类别有差异的目标，主要在对小目标检测和密集目标检测方面进行了优化和设计，而没有对细粒度的特征进行兼顾和针对性的改进。发明人经过对细粒度相关技术的研究发现，解决该项缺陷可以通过引入细粒度特征提取结构。发明人在进行食品检测中应对多变场景问题的研究时，发现现有技术中对多样化场景的泛化能力差的原因是因为普通的卷积泛化能力有限，仅能够在有限程度实现对多样化场景的适应。这可能是因为在之前的检测任务中所应对的场景和情况并不够丰富，使用常规的卷积权重和采样点能够适应有限的场景因素影响。发明人经过对可变形卷积和动态卷积的研究发现，解决该项缺陷可以通过在主干网络应用多分支的可变形卷积，并为每个分支添加独立可变的动态采样权重来实现。对此，本发明基于神经网络构建特征提取器和检测头，特征提取器，用于至少根据一个或者多个动态可变形卷积层对输入的图像进行特征提取以得到图像特征，动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括用于确定与输入的图像适配的变形参数的变形单元和多个动态卷积分支，每个动态卷积分支中卷积核的卷积形态根据其所处可变形共享块的变形单元的变形参数调整；经与此模型结构改进，一方面，特征提取器可以根据每个输入的图像，合理地确定与之适配的变形参数，从而在动态卷积分支中调整对应的卷积核的卷积形态，结合形态变化的卷积核以及动态卷积的特性，可让模型能更多地关注与食品检测相关的区域的特征提取；另一方面，通过一个动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括多个动态卷积分支的结构设置，可以让模型从不同的维度层面提取食品检测所需的特征；由此，提高食品检测模型的检测性能。

为了更好地说明本发明的技术方案，下面从模型结构、训练的样本、训练过程、应用场景四个方面进行详细描述。

一、模型结构

根据本发明的一个实施例，一种食品检测系统(或者称一种食品检测模型，为神经网络)，其包括用于对输入的图像进行特征提取以得到图像特征的特征提取器和用于根据图像特征对输入的图像进行检测确定输入的图像中食品的位置区域和各位置区域对应的食品类别的检测头；其中，特征提取器包括多个处理层，输入的图像经过多个处理层的处理后得到图像特征，多个处理层中至少部分处理层为动态可变形卷积层。动态可变形卷积层是融合可变形卷积与动态卷积的卷积运算，其具有动态的卷积权重与可变形的卷积形态。又或者，特征提取器包括多个处理层，处理层分为卷积层和用于缩小特征图的尺度的池化层，处理层中的至少部分卷积层为动态可变形卷积层。优选的，特征提取器包括多个处理层，处理层中的至少部分卷积层为动态可变形卷积层，处理层中的至少部分卷积层为步长为大于1的3×3卷积层以在卷积的同时缩小特征图的尺度。该实施例的技术方案至少能够实现以下有益技术效果：在动态卷积分支中调整对应的卷积核的卷积形态，结合形态变化的卷积核以及动态卷积的特性，可让模型能更多地关注与食品检测相关的区域的特征提取，有助于提高模型的性能。

为了更好地针对输入的图像进行细粒度的特征提取，以提高食品检测的准确性，根据本发明的一个实施例，动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括用于确定与输入的图像适配的变形参数的变形单元和多个动态卷积分支，每个动态卷积分支中卷积核的卷积形态根据其所处可变形共享块的变形单元的变形参数调整；每个可变形共享块包括感知单元，其用于根据当前输入该可变形共享块的特征图确定该可变形共享块的每个动态卷积分支对应的加权参数，其中，每个动态卷积分支的输出为加权参数与对应卷积核的权重参数相乘得到的卷积权重与输入该动态卷积分支的特征图进行卷积运算的结果。优选的，变形单元为卷积核，该卷积核根据输入其所在的可变形共享块中的特征图进行卷积，以确定对应动态卷积分支中在该特征图上进行卷积的动态卷积分支的卷积核在每个卷积位置处各权重参数在宽度和高度方向上的偏移量。优选的，每个可变形共享块的感知单元用于为每个动态卷积分支在对应特征图上进行卷积的卷积核的各权重参数在每个卷积通道上分别确定对应的加权参数，并根据加权参数和权重参确定实际用于卷积的卷积权重。本实施例的动态可变形卷积层中卷积核的卷积形态是通过变形单元根据输入的图像适配的，可以根据输入的图像对应调整卷积形态，提取对食品检测有用的细粒度特征；同时本发明的动态可变形卷积层中卷积核不是直接利用原来的权重参数与输入的特征图进行卷积运算，而是采用根据当前输入该可变形共享块的特征图确定该可变形共享块的每个动态卷积分支对应每个通道的加权参数，通过该通道的加权参数与权重参数相乘得到卷积权重与输入的特征图进行卷积运算，由此可以为对食品检测有用的位置赋予更大的关注度(对应卷积权重中的数值可能会更高)，由此，同时在一个卷积层中使用变形卷积和动态卷积来共同提高食品检测的性能。

为了更好地利用不同可变形共享块的信息，在动态可变形卷积层的不同的可变形共享块可得到不同的特征中，关注与食品检测相关的分析的特征，可以设置为不同可变形共享块提取的特征图分配对应的注意力。根据本发明的一个实施例，动态可变形卷积层还包括注意力单元，所述注意力单元用于确定需要为每个可变形共享块分配的注意力值，所述动态可变形卷积层的输出至少基于每个可变形共享块分配的注意力值和该动态可变形卷积层的所有可变形共享块的输出加权得到的特征图。注意力单元可采用现有的结构，本发明对此不作赘述。

应当理解，不设置上述实施例的注意力单元在原理上仍可行，根据本发明的一个实施例，动态可变形卷积层的输出为其所含的所有可变形共享块的输出按通道堆叠得到的特征图。

为了避免多个动态卷积分支带来计算量的爆炸式增长，根据本发明的一个实施例，每个动态可变形卷积层将输入该层的特征图以通道为划分单位按预定的规则分配到其所含的所有可变形共享块中的每个动态卷积分支进行处理，不同动态卷积分支所分得的通道不重复。由此，可以降低计算量，保障模型的计算效率。

应当理解，若不考虑计算量的影响，动态可变形卷积层也可采用其他的实施方式，根据本发明的一个实施例，每个动态可变形卷积层将输入该层的特征图输入到其所含的所有可变形共享块中的每个动态卷积分支进行处理。

进一步的，为了让本发明的动态可变形卷积层可以高效地替换或者插入到现有的模型中，从而降低实施难度，提高效率，可对动态可变形卷积层进一步改进。根据本发明的一个实施例，动态可变形卷积层还包括用于对输入该动态可变形卷积层的特征图的通道数基于卷积进行调整的通道调整单元，该通道调整单元调整后的特征图按通道分配到各个可变形共享块进行处理；以及通道还原单元，其用于对输入通道还原单元中的特征图基于卷积进行通道还原，以使动态可变形卷积层输出的通道数量与其输入的通道数量相同。优选的，通道调整单元和通道还原单元可采用1×1卷积或者3×3卷积。如果不设置通道调整单元和通道还原单元，在动态可变形卷积层可替换或者插入到现有的模型中时，由于不同处理层的特征图的通道数可能有所差别，需要花较多时间设计各个分支分配的通道数，不同分支分配的通道数也可能分配不均，导致动态可变形卷积层的结构过于复杂。采用本实施例的结构时，该实施例的技术方案至少能够实现以下有益技术效果：本实施例的动态可变形卷积层可以高效地替换或者插入到现有的模型中；例如，对于本领域中现有的模型中的一个不改变特征图尺度的普通的卷积层，可以直接用本实施例的动态可变形卷积层对其进行替代，仅需根据输入的特征图的通道数和动态卷积分支的数据设计调整通道调整单元和通道还原单元的输入和输出的通道数，使其能够均衡分配到各个动态卷积分支；在现有的模型的某两个处理层之间插入本实施例的动态可变形卷积层的原理类似，此处不作赘述。

为了更直观地展示一个动态可变形卷积层的示意性结构，下面结合图1进行说明，根据本发明的一个实施例，动态可变形卷积层(可称DynamiX卷积)包括通道调整单元、多个可变形共享块(图1中为D个)和注意力单元B和通道还原单元，每个可变形共享块包括一个变形单元和多个动态卷积分支(图1中为G个)，其中，输入该动态可变形卷积层的特征图先经通道调整单元调整通道数后按通道被分配到不同可变形共享块的不同动态卷积分支中处理，其中，同一可变形共享块下的动态卷积分支可共享一个变形单元确定的变形参数，动态可变形卷积层的所有动态卷积分支处理后的特征图堆叠并经过注意力单元B输出的注意力值对应加权后经通道还原单元的处理，以得到该动态可变形卷积层的输出。动态可变形卷积层中卷积的结构设计采用了“调整-拆分-处理-合并-还原”的结构原理，包含以下处理过程：

(1)输入的特征图(假设原来通道数为C_in)经过通道调整单元(例如用1×1卷积)的调整，得到D×G×J个通道的特征图；

(2)D×G×J个通道数的特征图被分配到D个可变形共享块，每个可变形共享块可分到G×J个通道的特征图；

(3)每个可变形共享块利用其变形单元基于分到的G×J个通道数的特征图确定变形参数(即偏移量)；

(4)每个可变形共享块的每个动态卷积分支得到该可变形共享块的变形单元确定的变形参数以及J个通道的特征图，动态卷积分支基于J个通道的特征图确定加权参数，根据变形参数和加权参数进行动态可变形卷积，得到该动态卷积分支处理后的J个通道数的特征图；例如，假设原始的权重参数分别为W₁、W₂、……、W_k，为之确定的加权参数分别为α₁、α₂、……、α_k，则卷积权重分别为α₁*W₁、α₂*2₂、……、α_k*W_k，并基于变形参数所确定的卷积权重实际采样的位置进行动态可变形卷积。应当理解，若一些卷积权重需对特征图的同一点进行相乘后求和得到输出的特征图中的某个值，可以先将对应的加权后的卷积权重进行求和得到合并的权重W(例如W＝a1w1+a2w2+…+akwk)，利用合并的权重计算动态可变形卷积的结果。因为卷积是数字相乘的线性运算，满足组合律，在同一张图上计算多个卷积核的卷积结果再求和应当在数值上等于多个卷积核求和之后对特征图(为原始图像或者原始图像对应的特征图)进行卷积的结果，使得计算量更小(基本等价与一般卷积的计算量)。

(5)注意力单元B根据通道调整单元输出的D×G×J个通道数的特征图确定每个可变形共享块输出的特征图的注意力值，每个可变形共享块分配的注意力值和该动态可变形卷积层的对应可变形共享块的输出加权得到，所有可变形共享块的输出经注意力值加权后堆叠，得到经注意力调整的Z个通道数(Z可以为D×G×J或者其他数值)的特征图；

(6)利用通道还原单元对经注意力调整的Z个通道数的特征图进行处理，得到输出的特征图(输出的特征图的通道数等于C_in)。

对于食品检测系统的检测头，其结构可采用的现有的目标检测模型(比如：Deformable DETR模型的检测头、YOLO模型的检测头)中执行目标检测的检测头的结构。若是Deformable DETR模型的检测头、YOLO模型的检测头，则检测头从多尺度特征图构成的图像特征中进行食品检测确定输入的图像中食品的位置区域和各位置区域对应的食品类别；或者，其结构也可采用改进的检测头，例如，优选的，改进的检测头包括：用于根据图像特征检测对应图像中含有食品的概率、食品的位置区域、各位置区域的食品类别置信度的基础的检测头；用于根据对应图像中含有食品的概率、食品的位置区域、各位置区域的食品类别置信度得到各位置区域中的感兴趣区域以及对感兴趣区域进行食品分类和位置偏差估计以检测感兴趣区域的食品类别置信度和位置区域偏差的聚焦的检测头；用于根据基础的检测头得到的食品的位置区域、各位置区域的食品类别置信度的基础的检测头以及聚焦的检测头得到的感兴趣区域的食品类别置信度和位置区域偏差确定食品检测结果的输出单元，所述食品检测结果包括最终的食品的位置区域和各位置区域的食品类别置信度。最终得到的食品的位置区域是利用聚焦的检测头得到的位置区域偏差对基础的检测头得到的对应的食品的位置区域进行校正得到的。例如，最终的食品的位置区域等于基础的检测头得到的对应的食品的位置区域与聚焦的检测头得到的位置区域偏差之和。又或者，最终得到的食品的位置区域等于基础的检测头得到的对应的食品的位置区域与聚焦的检测头得到的位置区域偏差乘以一个预定的加权系数之和。换言之，本实施例提出了改进的检测头，能够以相对较低的开销对检出的食品进行额外的类别分类和边界框回归确定位置区域偏差，改善检测的准确度。具体来说，引入聚焦的检测头(或者称食品聚焦帽，Food Focusing Head，简写FFH)在现有检测网络的网络架构计算到初步的检测结果和区域之后，并预测图像中含有食品的概率(Foodness，食物概率数值)。聚焦的检测头对有食品的概率经过归一化的激活函数(例如Sigmoid激活函数或者tanh)处理后的数值与各位置区域的食品类别置信度相乘，得到每个预测的置信度(为[0,1]之间的得分)，通过设置的经验阈值进行筛选可得到包含潜在食品的感兴趣区域；通过感兴趣区域对齐池化(Region Of Interest Align，感兴趣区域对齐池化是本领域技术人员所知晓的，比如可采用通用的ROI提取器实现，本发明对此不作赘述)从图像特征中取出感兴趣区域对应的区域特征，聚焦的检测头根据区域特征对感兴趣区域进行食品分类和位置偏差估计(回归)，以得到检测感兴趣区域的食品类别置信度和位置区域偏差，从而实现对原有预测的微调。聚焦的检测头中食品分类可采用卷积层及全连接层实现，同样的，位置偏差估计也可采用卷积层及全连接层实现。

应当理解，本领域的实施者也可以在现有的一些模型的基础上改进部分结构，从而得到本发明的食品检测系统的结构，根据本发明的一个实施例，食品检测系统可以在Deformable DETR模型的基础上改进得到。参见图2，例如，基于Deformable DETR模型改进得到的食品检测系统中，将Deformable DETR模型的主干网络(Resnet网络)中3×3的卷积层替换为本发明的动态可变形卷积层，其余不作改进(比如：检测头就采用DeformableDETR模型原有的检测头的结构)。又或者，基于Deformable DETR模型改进得到的食品检测系统中，将Deformable DETR模型的主干网络(Resnet网络)中3×3的卷积层替换为本发明的动态可变形卷积层，并且在Deformable DETR模型中原有的检测头(对应基础的检测头)之外，新增一个聚焦的检测头和输出单元，输出单元根据原有的检测头和聚焦的检测头的输出得到食品检测结果。基础的检测头、聚焦的检测头、输出单元可参考在前实施例的实施细节，此处不作赘述。另外，本领域技术人员所知晓的，在得到食品检测结果前，由于检测的位置区域很多，需要过滤低置信度的预测，一般利用非最大值抑制去重等过滤算法，如果采用现有的检测头，则在检测头中自带过滤算法；若采用改进的检测头，则基础的检测头可不作过滤，在输出单元处使用过滤算法以得到食品检测结果。

应当理解，本领域的实施者还可以根据需要自定义食品检测系统的结构，根据本发明的一个实施例，食品检测系统的特征提取器包括堆叠的动态可变形卷积层和池化层(即：特征提取器为动态可变形卷积层、池化层、……动态可变形卷积层的结构形式、池化层，或者特征提取器为动态可变形卷积层、池化层、……动态可变形卷积层的结构形式)，从不同的动态可变形卷积层或者池化层处得到多尺度(尺寸)特征图构成的图像特征；检测头采用现有的检测头或者改进的检测头。

二、训练的样本

根据本发明的一个实施例，训练集从食品检测的数据集中获得，比如：从食品检测的数据集中提取一个子集构成训练集。食品检测的数据集可以由实施者自制。食品检测的数据集包括多个样本图像以及每个样本图像对应的标签，标签指示对应图像中的各个位置区域(往往通过边界框的形式指示)、图像中是否含有食品、各个位置区域的食品类别。例如，申请人制作了FoodDet100K数据集，FoodDet100K数据集是一个规模在10万张图片左右，跨越10个餐厅场景，包含多类食品，分别为：海产类(鱼类、虾类等)、汤类、水果类、主食类(面包、蒸饺、面食、披萨、米饭等)、肉食类(炸肉、烤肉、炖肉等)、素菜类(豆腐、蘑菇、绿叶等)、混合菜品类(包含蛋、菜、肉等多种原料的常见菜品)、饮料类(果汁、饮料等)；据此，制作包含491种食品类别(标签中对应设置491种食品类别)食品的团餐检测数据集，食品类别包括炖豆腐、腌豆角、腌萝卜、焖面、橘汁龙利鱼、阿萨姆奶茶、奥尔良鸡翅、八宝菜、八宝粥、白菜、白菜豆腐、白菜粉丝、白粥、包菜粉丝、包菜米粉、扁豆角、冰红茶、菠萝披萨、菜包、彩椒炒鸡块、彩椒炒茭白、彩椒腊肉、菜汤、茶树菇、茶叶蛋、炒茭白、炒包心菜、炒花菜、炒茶树菇、炒冬瓜、炒豆角、炒豆苗、炒豆皮、炒豆芽、炒饭、炒菇片、炒花菜、炒花蛤、炒花生、炒火腿、炒火腿片、炒鸡胗、炒鸡胗、炒苦瓜、炒莲菜、炒毛豆、炒面、炒蘑菇、炒年糕、炒藕片、炒排骨、炒千张、炒茄子、炒芹菜、炒青菜、炒青椒、炒秋葵、炒时蔬、炒四季豆、炒笋干、炒土豆、炒土豆丝、炒西葫芦、炒西蓝花、炒香菇、炒小番茄、炒鸭血、炒腰子、炒鱿鱼、炒猪肝、翅尖、葱烤大排、葱烤牛肉、葱香小黄鱼、葱油带鱼、葱油花卷、葱油面条、粗粮发糕、醋溜粉丝、脆萝卜、大排、大盘鸡、带鱼、蛋饼、蛋羹、蛋花汤、蛋饺、蛋挞、蛋汤、冬瓜汤、东坡肉、豆腐干炒芹菜、豆腐脑、豆腐泡炒肉、豆干炒彩椒、豆干炒马兰、豆干鸡蛋、豆浆、豆角、豆角炒鸡蛋、豆角炒茄子、豆角炒肉、豆沙包、豆芽、番茄蛋花汤、番茄汤、菲力牛排、菲力扒面、风干牛肉、腐竹、干炒扁豆、干锅花菜、干锅土豆片、干牛肉、宫保鸡丁、海草、海带、海鲜炒饭、海鲜饭、海鲜烩、海鲜面、海鲜墨鱼丸汤、海鲜粥、荷包蛋、黑椒鸡、黑米粥、红豆派、红豆披萨、红豆粥、红膏炝蟹、红烧翅根、红烧带鱼、红烧冬瓜、红烧豆腐鱼头、红烧豆干、红烧鸡尖、红烧鸡腿、红烧金针菇、红烧排骨、红烧茄子、红烧肉、红烧狮子头、红烧笋丝、红烧土豆、红烧香干、红烧小黄鱼、红烧小排、红糖发糕、红糖馒头、红枣南瓜、红枣山药粥、胡辣汤、胡萝卜炒豆干、胡萝卜炒花菜、胡萝卜炒丸子、花菜、花菜炒金针菇、花蛤、花花牛牛奶、话梅花生、花生米、黄豆芽炒芹菜、黄豆猪蹄、黄瓜变蛋、黄瓜炒火腿鸡蛋、黄瓜皮蛋、黄瓜丝、烩饭、回锅肉、馄饨、火腿炒蛋、火腿披萨、火腿肉末蒸蛋、拌土豆丝、鸡蛋、鸡蛋饼、鸡蛋煎饺、鸡尖、鸡米花、炸鸡排、鸡丝汤、鸡汁面结、家常炒肉、家常豆腐、家常盖饭、煎饺、尖椒肥牛片、尖椒鸡肉、健康油条、酱炒鸡蛋、酱黄瓜、酱牛肉、酱鸭肉、酱油茭白丝、椒盐虾姑、劲爆鸡米花、经典披萨、韭菜鸡蛋、韭菜猪肉水饺、橘子、咖喱鱼丸、烤麸、烤鸡、烤鸡翅、烤虾、烤香肠、烧鸭、烤鸭肉、可口可乐、口水鸡、腊肠炒蒜苔、腊肠肉片、辣椒炒肉、辣子鸡丁、凉拌豆皮、凉拌豆腐、凉拌豆角、凉拌豆皮、凉拌粉丝、凉拌海带、凉拌海带丝、凉拌黑木耳、凉拌黄瓜、凉拌绿豆芽、凉拌面筋、凉拌木耳、凉拌青瓜、凉拌香菇、凉皮、榴莲披萨、流沙奶黄包、卤鸡爪、卤牛肉、卤鸭头、萝卜干、罗宋汤、绿茶、绿豆汤、绿豆芽、麻辣鸭子、麻婆豆腐、麻球、麻团、蚂蚁上树、脉动、馒头、毛豆炒蘑菇、毛豆虾仁、毛血旺、梅菜扣肉、梅干菜烤肉、美式薯条、米饭、米酒汤、秘制鸡块、面包、面筋、面条、蘑菇炒秋葵、木耳炒花菜、木耳炒肉、奶黄包、奶油蘑菇汤、奶油培根面、南瓜饼、南瓜羹、南瓜泥、南瓜粥、泥螺、牛奶、牛扒面、牛排、牛肉干饭、牛肉卷饼、农夫山泉、藕片、泡菜、泡椒、泡椒凤爪、皮蛋、皮蛋豆腐、皮蛋瘦肉粥、皮蛋粥、啤酒鸭、披萨、苹果、千页豆腐、芹菜炒豆干、芹菜炒豆芽、芹菜炒黄豆芽、芹菜炒肉、芹菜豆干、青菜豆腐汤、青菜蘑菇、青菜粥、清炒莴笋、清炒冬瓜、清炒豆腐、蘑菇炒秋葵、清炒苦瓜、清炒茄子、清炒时蔬、清炒丝瓜、清炒四季豆、清炒笋丝、清炒土豆丝、清炒西兰花、青椒炒鸡胸肉、青椒炒蘑菇、青椒炒土豆、青椒炖豆腐、青椒鸡肉、青椒牛肉、青椒肉片、青椒土豆、青椒五花肉、清汤白菜、清蒸白蟹、清蒸小黄鱼、青砖鱼、秋刀鱼、秋葵炒肉、日本豆腐、肉、肉包、肉酱焗饭、肉酱面、肉末粉条、肉末茄子、肉末蒸蛋、肉丝炒胡萝卜、肉丸子、肉蒸蛋、萨萨里披萨(为团餐场景中商家命名的披萨类别)、沙拉、山药菠菜、上校鸡块、烧麦、烧鸭、生煎、时令蔬菜、时蔬炒鸡肠、狮子头、瘦肉西蓝花、寿司、手撕包菜、寿司拼盘、薯薯乐乐(为团餐场景中商家命名的食品类别，为一种薯条拼盘的菜品，也可命名为薯条拼盘或者薯条套餐)、薯条、水果披萨、水果沙拉、水煎包、水煮蛋、水煮花菜、水煮肉片、四季豆炒鸡肉、四喜烤麸、素鸡、素三鲜、酸白菜、酸菜鱼、酸辣土豆丝、酸萝卜、酸梅菜、蒜蓉面包、蒜苔炒腊肠、蒜香肉末、笋、笋炒咸菜、笋干炒肉、台式香肠、台湾饭卷、汤、糖醋鸡块、糖醋鸡胸肉、糖醋里脊、糖醋排骨、糖渍番茄、土豆炒豆角、土豆炒青椒、土豆炒香肠、土豆烤小排、土豆泥、土豆牛肉、土豆丝、外婆菜、丸子、丸子汤、丸子鱼豆腐、旺仔牛奶、莴笋、莴笋炒肉、乌鸡汤、西红柿、西红柿炒蛋、西红柿炒鸡蛋、西葫芦、西葫芦炒肉、西葫芦毛豆汤、虾皮冬瓜、夏威夷披萨、夏威夷意面、咸菜鱿鱼、咸菜炒毛豆、咸菜炒肉、咸菜毛豆、咸蛋、香菜豆腐干、香肠、香肠煎卷、香干青椒、香菇烤肉、香菇披萨、香蕉、香蕉牛奶蛋糕、香辣鸡翅、香酥鸡排、香酥鳕鱼棒、小刀切、小糕点、小黄鱼、小笼包、小米粥、蟹黄粥、蟹酱、新奥尔良烤鸡、雪碧、雪菜鱿鱼、熏鱼、牙签肉、鸭腿、盐水毛豆、洋葱炒蛋、洋葱炒肉、洋葱炒土豆、洋葱炒土豆片、洋葱圈、椰果奶昔、银耳粥、饮料、饮料1、饮料2、饮料3、饮料4、油爆茄子、油爆虾、油豆腐炒青菜、油豆腐烤肉、油煎鸡排、油煎龙利鱼、油焖大虾、油焖鸡、油条、油炸鳍鱼、油煎冰激凌、油炸带鱼、玉米、玉米包、玉米馒头、玉米虾仁、鱼丸、鱼香肉丝、月饼、云吞、早餐卷饼、榨菜、榨菜汤、炸鸡、炸鸡翅、炸鸡翅根、炸鸡排、炸鸡腿、炸藕片、炸土豆、炸物组合1、炸物组合2、炸物组合3、炸虾、蒸白蟹、蒸粗粮、蒸蛋、蒸饺、至尊披萨、粥、煮白菜、煮河虾、煮南瓜、紫包菜、紫菜蛋花汤、紫菜汤、粽子。应当理解，以上食品类别仅为示意性的，根据具体的应用场景，可以根据实施者的需要调整，比如，食品类别为上述食品类别的组合，例如，删除一些食品类别，如：炸物组合1、炸物组合2、炸物组合3、薯薯乐乐、花花牛牛奶等；又例如，增加一些食品类别，如：小龙虾、卤猪蹄。换言之，食品类别可以是相应的应用场景(团餐场景)所预设的所有食品类别，对应的图像也可从具体的应用场景中采集并制作数据集。为了保障所构建的数据集的质量，该数据集构建时可遵循以下要求：(1)图像成像应尽可能清晰，所拍摄的菜品应具有基本的辨识度；(2)图像在采集时尽可能的采用不同的光照和拍摄角度进行拍摄；相机使用标准镜头，拍摄时的位置控制在餐盘上方0.4-0.6m左右，视角允许在垂直角度左右范围内变动不超过10度；(3)餐盘尽量位于画面中心部分，占比至少超过50％。另外，食品检测的数据集可以采用现有的数据集。例如，UECFood-100、UECFood-256、UNIMIB2015、UNIMIB2016、EgocentricFood、School Lunch、Oktoberfest Food或者Mixed Dish数据集，这些数据集中自带多个样本图像以及每个样本图像对应的标签，标签指示样本图像中食品的位置区域和各个位置区域对应的食品类别，其简要介绍如表1所示：

表1

数据集名称	菜系	类别数目	图像数目	标注形式	发布时间
						UECFood-100	日本	100	14361	标注框	2012
UECFood-256	日本	256	25088	标注框	2014
						UNIMIB2015	西式	15	2000	多边形	2015
UNIMIB2016	西式	73	1027	多边形	2016
						Egocentric Food	西式	9	5038	标注框	2016
School Lunch	日本	21	4877	标注框	2017
						Oktoberfest Food	德国	15	1110	标注框	2019
Mixed Dish	东南亚	164	9254	标注框	2019

三、训练过程

对于采用现有的检测头的食品检测系统的训练，根据本发明的一个实施例，利用该训练集对前述实施例的食品检测系统进行训练，其中，训练时根据食品检测系统对图像样本的输出以及对应标签确定的总损失更新特征提取器和检测头的参数，其中，所述总损失与图像中含有食品的概率对应的损失、食品的位置区域对应的损失、各位置区域的食品类别置信度对应的损失相关。对应的，用于计算总损失的总损失函数可采用现有的检测头对应的总损失函数，本实施例对此不作赘述。

对于采用聚焦的检测头的食品检测系统的训练，根据本发明的一个实施例，一种食品检测系统的训练方法，包括：获取训练集，其中包括多个样本图像以及每个样本图像对应的标签，标签指示样本图像中食品的位置区域和各个位置区域对应的食品类别；利用该训练集对前述实施例中有聚焦的检测头的食品检测系统进行训练，其中，训练时根据食品检测系统对图像样本的输出以及对应标签确定的总损失更新特征提取器和检测头的参数，所述总损失与样本图像中含有食品的概率对应的损失、食品的位置区域对应的损失、各位置区域的食品类别置信度对应的损失、感兴趣区域的食品类别置信度对应的损失和位置区域偏差对应的损失得到的总损失更新特征提取器和检测头的参数。在进行反向传播计算时进行端到端的训练，模型中所有的可训练的参数均参与更新。对应的，用于计算总损失的总损失函数需要调整，总损失函数定义如下：

L＝L_f+L_l+L_s+L_cls+L_reg

其中，L_f表示图像中含有食品的概率对应的损失，L_l表示食品的位置区域对应的损失(由于位置区域由边界框划定，因此通常也称边界框回归损失)，L_s表示各位置区域的食品类别置信度对应的损失(通常也称分类损失)，L_cls表示感兴趣区域的食品类别置信度，L_reg表示位置区域偏差对应的损失。L_f基于预测的含有食品的概率与标签中设定的图像中是否含有食品(比如有食品为1，无食品为0)的指示的偏差确定。L_l基于预测的食品的位置区域与标签中指示的食品的位置区域确定，通常使用L1损失回归。L_s基于基础的检测头预测的相应位置区域对应的食品类别置信度与标签中指示的该位置区域对应的食品类别确定，通常使用分类交叉熵损失。L_cls基于聚焦的检测头预测的相应位置区域(一些感兴趣区域)对应的食品类别置信度与标签中指示的该位置区域对应的食品类别确定，通常使用分类交叉熵损失到。L_reg通过估计的位置区域偏差与基础检测框预测的位置区域与标签中指定的实际位置区域的差值之间的偏差确定，可采用L1损失得到；例如，若基础的检测头预测某个目标的位置为(x₀,y₀,x₁,y₁)，目标的真实位置为

则L_reg计算聚焦的检测框预测的位置区域偏差与/>

之间的L1损失。

应当理解，总损失函数也可进行其他修改，以得到另外的实施例，比如，为L_f、L_l、L_s、L_cls、L_reg中的至少部分损失项添加预定的加权系数，通过加权求和的方式得到对应的总损失。

四、应用场景

根据本发明的一个实施例，提供一种食品检测方法，包括：获取待检测的图像，利用前述实施例的训练方法训练得到的食品检测系统对待检测的图像进行食品检测，确定其中的食品的位置区域和各位置区域的食品类别置信度。

为了验证本发明的效果，申请人进行了对比实验。在实验中，使用了3个数据集，分别为UNIMIB2016、Oktoberfest两个公开的食品检测数据集，以及自制的FoodDet100K的数据集。对比实验的结果如表2所示：

表2对比试验结果

备注：

1、“模型”列为对比实验所基于的基础模型，分别为3种已有的检测模型：FCOS模型(Fully Convolutional One-Stage Object Detector(FCOS)，Dynamic R-CNN模型、Deformable DETR模型；模型名称后括号中为对应模型所使用的主干网络。在“模块”列表示具体的模块类型，其中：“-”表示没有对基础模型的结构进行调整，即原始的基础模型，作为基线模型；“+DynamiX”表示将基础模型中主干网络中原有的卷积层替代为本发明的动态可变形卷积层，“+FFH”表示在基础模型中采用改进的检测头；“DyFoc”表示将基础模型中主干网络中原有的卷积层替代为本发明的动态可变形卷积层并且在基础模型中采用改进的检测头。

2、将12个模型在3个数据集上(UNIMIB2016,Oktoberfest,FoodDet100K)进行实验，每个实验提供了3个检测指标(mAP,AP50,AP75)，收集对应的实验结果。其中，AP指标含义为平均精度(Average Precision)，使用交并比为r的AP值一般记作AP_r，如表格中的AP₅₀，AP₇₅等。mAP平均精度均值则是将AP50，AP55，…，AP95的一系列AP值再求平均作为的指标，也是较为全面衡量模型性能的一个指标。从表2所示的结果可以看出，在采用本发明的动态可变形卷积层和/或改进的检测头后，得到的模型的性能比基线模型更优。

总的来说，本发明的目的是克服已有技术的细粒度检测识别性能局限性和食品检测场景中的性能不理想问题。本发明提出了一种利用可变形的动态卷积权重和聚焦食品区域的食品检测系统，称为动态且聚焦检测器(Dynamic and Focusing Detector,DyFoc)，以提高食品检测的准确性。其中，提出了多分支动态可变形卷积(对应于动态可变形卷积层)用于替代常规的卷积权重，能够增强网络对于细粒度检测的效果及应对不同检测场景下的外观差异的性能。具体来说，提出多分支动态可变形卷积(DynamiX convolution)，其工作原理为将网络输入拆分为若干个独立的可变形卷积组(对应于可变形共享块)，每一个可变形卷积组有独立的采样偏移；卷积组内包含若干个通道分支(对应于动态卷积分支)，每个分支有独立的权重。常用的可变形卷积能够为卷积神经网络增加对物体外观变形的适应能力，但当面对更多的食物类别和更多的影响因素时，其权重和采样点可能仍不足以较好和准确的实现特征提取和帮助分类定位。而多分支动态可变形卷积则通过多组采样点和权重增添对多种目标和影响因素的适应力，最终能够帮助检测网络实现更准确的检测。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种食品检测系统，其特征在于，其包括基于神经网络构建的特征提取器和检测头，其中，

特征提取器，用于根据多个处理层对输入的图像进行特征提取以得到图像特征，其中至少部分处理层为动态可变形卷积层，动态可变形卷积层包括多个可变形共享块，每个可变形共享块包括用于确定与输入的图像适配的变形参数的变形单元和多个用于根据该变形单元的变形参数调整卷积形态的动态卷积分支；

检测头，用于根据图像特征对输入的图像进行检测，确定输入的图像中食品的位置区域和各位置区域对应的食品类别。

2.根据权利要求1所述的食品检测系统，其特征在于，所述变形单元为卷积核，该卷积核根据输入其所在的可变形共享块的特征图进行卷积，以确定对应动态卷积分支中在该特征图上进行卷积的动态卷积分支的卷积核在每个卷积位置处各权重参数在宽度和高度方向上的偏移量。

3.根据权利要求2所述的食品检测系统，其特征在于，每个可变形共享块包括感知单元，其用于根据当前输入该可变形共享块的特征图确定该可变形共享块的每个动态卷积分支对应的加权参数，

其中，每个动态卷积分支的输出为加权参数与对应卷积核的权重参数相乘得到的卷积权重与输入该动态卷积分支的特征图进行卷积运算的结果。

4.根据权利要求3所述的食品检测系统，其特征在于，每个动态可变形卷积层将输入该层的特征图以通道为划分单位按预定的规则分配到其所含的所有可变形共享块中的每个动态卷积分支进行处理，不同动态卷积分支所分得的通道不重复。

5.根据权利要求4所述的食品检测系统，其特征在于，每个可变形共享块的感知单元用于为每个动态卷积分支在对应特征图上进行卷积的卷积核的各权重参数在每个卷积通道上分别确定对应的加权参数，并根据加权参数和权重参确定实际用于卷积运算的卷积权重。

6.根据权利要求1所述的食品检测系统，其特征在于，所述动态可变形卷积层还包括用于对输入该动态可变形卷积层的特征图的通道数基于卷积进行调整的通道调整单元，该通道调整单元调整后的特征图按通道分配到各个可变形共享块进行处理；以及通道还原单元，其用于对输入其中的特征图基于卷积进行通道还原，以使动态可变形卷积层输出的通道数量与其输入的通道数量相同。

7.根据权利要求1-6任一项所述的食品检测系统，其特征在于，所述动态可变形卷积层还包括注意力单元，所述注意力单元用于确定需要为每个可变形共享块分配的注意力值，动态可变形卷积层的输出至少基于每个可变形共享块分配的注意力值和该动态可变形卷积层的对应可变形共享块的输出加权得到。

8.根据权利要求7所述的食品检测系统，其特征在于，所述检测头包括：

用于根据图像特征检测对应图像中含有食品的概率、食品的位置区域、各位置区域的食品类别置信度的基础的检测头；

用于根据对应图像中含有食品的概率、食品的位置区域、各位置区域的食品类别置信度得到各位置区域中的感兴趣区域以及对感兴趣区域进行食品分类和位置偏差估计以检测感兴趣区域的食品类别置信度和位置区域偏差的聚焦的检测头；

用于根据基础的检测头得到的食品的位置区域、各位置区域的食品类别置信度的基础的检测头以及聚焦的检测头得到的感兴趣区域的食品类别置信度和位置区域偏差确定食品检测结果的输出单元，所述食品检测结果包括最终得到的食品的位置区域和各位置区域的食品类别置信度。

9.一种食品检测系统的训练方法，其特征在于，包括：

获取训练集，其中包括用于训练的多张图像以及每个图像对应的标签，标签指示对应图像中的各个位置区域、图像中是否含有食品、各个位置区域的食品类别；

利用该训练集对权利要求1-7任一项所述的食品检测系统进行训练，其中，训练时根据食品检测系统对图像样本的输出以及对应标签确定的总损失更新特征提取器和检测头的参数，其中，所述总损失与图像中含有食品的概率对应的损失、食品的位置区域对应的损失、各位置区域的食品类别置信度对应的损失相关。

10.一种食品检测系统的训练方法，其特征在于，包括：

获取训练集，其中包括多个样本图像以及每个样本图像对应的标签，标签指示样本图像中食品的位置区域和各个位置区域对应的食品类别；

利用该训练集对权利要求8所述的食品检测系统进行训练，其中，训练时根据食品检测系统对图像样本的输出以及对应标签确定的总损失更新特征提取器和检测头的参数，所述总损失与样本图像中含有食品的概率对应的损失、食品的位置区域对应的损失、各位置区域的食品类别置信度对应的损失、感兴趣区域的食品类别置信度对应的损失和位置区域偏差对应的损失得到的总损失更新特征提取器和检测头的参数。

11.一种食品检测方法，其特征在于，包括：

获取待检测的图像，利用权利要求9或者10的训练方法训练得到的食品检测系统对待检测的图像进行食品检测，确定其中的食品的位置区域和各位置区域的食品类别置信度。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序可被处理器执行以实现权利要求9至11中任一项所述方法的步骤。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储可执行指令；

所述一个或多个处理器被配置为经由执行所述可执行指令以实现权利要求9至11中任一项所述方法的步骤。