CN112364905A

CN112364905A - 一种基于注意力机制SENet的Fater R-CNN食物分类和GL值识别方法

Info

Publication number: CN112364905A
Application number: CN202011204115.4A
Authority: CN
Inventors: 刘瑞军; 王俊; 章博华; 张伦
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-12

Abstract

本申请公开了一种基于注意力机制SENet的Faster R‑CNN食物分类和GL值识别方法。所述方法将获取用户上传至服务器的包含参照物的照片，将食物图片通过基于注意力机制SENet的Faster R‑CNN算法，进行食物检测和识别。注意力机制使特征提取网络能使用全局信息，而不受限于局部小视野信息，同时有效避免由于网络深度增加所引起的梯度消失和退化问题。将食物类别和位置，及参照物位置输入到训练好的线性回归模型中，预测出食物体积。根据食物的类别、升糖指数(Glycemic index,GI)，计算出食物的升糖负荷(Glycemic load,GL)值，判断食物的可食用类别，生成食物可食用建议。最后将结果反馈给用户。

Description

一种基于注意力机制SENet的Fater R-CNN食物分类和GL值识别方法

技术领域

本申请涉及食品安全领域，图像识别领域，特别是涉及GL值计算方法。具体的是一种用餐中膳食摄入导致的人体血糖负荷值变化的预测方法。主要针对糖尿病患者这一人群提供血糖负荷参考，建立和改善饮食结构，形成饮食便捷的良性循环。

背景技术

现有技术介绍

糖尿病患者想要测量血糖需先用温水和中性肥皂洗净双手，反复揉搓需要采血的手指，直至血运丰富；用采血笔紧挨指腹，按动弹簧开关，针刺指腹；打开血糖仪开关，取一条试纸插入机内，即可得到血糖值。但这过程不仅非常繁琐，同时局限性也非常高。况且糖尿病患者无须每餐餐后都精准测量其血糖值，对于每餐的食物准确把握其升糖负荷指数，判断食物是否适合自己食用，是否会过分增加身体糖分负荷即可。升糖指数(Glycemicindex，GI)是衡量食物摄入后血糖升高程度的一项指标，具体是指含50克碳水化合物的食物与50克葡萄糖在2小时内升高人体血糖水平的百分比，因此数值都是用％来表示。糖尿病患者在考虑食物的GI值的时候，还要考虑食物的升糖负荷(Glycemic load，GL)值，两者结合使用，可反映特定食品的一般食用量中所含可利用糖的数量，能更好地预测食用后对血糖的影响。

对于食物的识别，目前常用的特征提取技术有尺度不变特征变换(SIFT)、定向梯度直方图(HOG)、Gabor滤波、MR8滤波器和局部二值模式(LBP)等。为了提高食品分类的识别率，通过融合不同的特征向量，开发更复杂的特征描述符。F.Kong等人提出了一种被称为多视角食物识别的技术，即从不同视角拍摄照片，解决了使用单一图像时出现的遮挡和视野受限的问题，通过最近邻分类器(KNN)用于食品分类。与传统机器学习方法相比，卷积神经网络(convolutional neural network，CNN)能够从图像中自动提取表达能力更强的特征，减少识别时间，提高分类和识别的准确率。2014年，H.Kagaya等人发表了一篇基于深度学习的食品识别论文，他们把卷积神经网络(CNN)应用于饮食监测的任务。得出传统方法(SVM)的准确率约为50-60％，而CNN的精度则优于10％；A.Meyers等人提出在ImageNet数据集上应用预先训练好的GoogLeNet执行食物识别；Takumi Ege等人利用Faster-R CNN框架对食物进行识别，取得了较好的识别效果。

目前国内、国外缺少针对糖尿病患者的将食物识别与GL值估算相结合的方法，为解决上述问题，在本申请中提出将食物识别与GL值相结合，对糖尿病人日常饮食中糖分的获取提供直接参考。减轻患者对于饮食的心理负担，让患者对于日常摄入没有后顾之忧。现有的食物识别中，一般采用CNN进行目标检测与食物分类，但是在光线昏暗等复杂环境中，很难提取到有效的特征或者提取到的特征不够突出，从而影响分类的精度。本专利采用基于注意力机制的Faster R-CNN来进行食物识别和食物分类。常见的CNN处理过程中，受限于局部小视野信息，而使用注意力机制使特征提取网络能使用全局信息；ResNet中的残差块的使用令网络中上一层残差块的信息可以顺利进入到下一个残差块中，避免因为网络深度增加，而导致的梯度消失和退化。

发明内容

本发明的目的是提供一种基于注意力机制SENet的Fater R-CNN网络进行目标检测并进行食物分类和食物升糖负荷(Glycemic load，GL)值计算的方法，用于解决在背景技术中所述的问题。

第一步，制作食物识别和分类的数据集：在图片集Food-101和图片集FooDD上制作神经网络需要的VOC格式的xml文件。这些xml文件包含了图片中食物的边框标注，食物的类别标注和参照物边框标注。

第二步，制作计算食物体积的数据集：在图片集Food-101和图片集FooDD上制作适用于计算食物体积的VOC格式的数据集。这些xml文件中包含参照物的体积和食物的体积。

第三步，将VOC格式的xml文件转换为神经网络需要的txt文件。

第四步，用户需要通过移动设备获取食物的主视图和俯视图。例如，用户通过Android手机、iPhone或者其他终端拍照获取食物照片。在用户端将图片尺寸调整到600*1000像素大小。之后就是将照片上传到本发明中的服务器进行处理。服务器获得用户上传的图片后，进行食物识别和分类，并将食物类别信息、GL值以及食物可食用指示灯信息附于食物主视图中反馈给用户。<图1>讲述了用户和服务器之间的信息的传送过程。

第五步，服务器获得用户上传的图片后，先检查用户上传的图片尺寸是否符合600*1000像素的限制。如果不符合，那么对图像进行调整，限制短边等于600像素，长边等于1000像素。

第六步，服务器使用Faster R-CNN进行食物识别和分类。Faster R-CNN可以使用常见的卷积神经网络(Convolutional Neural Networks，CNN)进行特征提取。例如AlexNet，Inception，ResNet，VGG16等都是常见的卷积神经网络。本发明使用包含注意力机制SENet的ResNet进行特征提取。ResNet有两个基本的结构：Conv Block和IdentityBlock。残差网络的设计可以有效避免网络因为深度增加而产生学习效率变低和无法提高准确率的问题。在本发明中向Identity Block添加注意力机制SENet。<图7>介绍了含有注意力机制的Faster R-CNN结构。<图6>为<图7>中进行特征提取的包含注意力机制SENet的ResNet网络结构。该卷积神经网络包含了<图3>介绍的Conv Block和<图5>介绍的SEIdentity Block。<图4>为Identity Block的结构。注意力机制使特征提取网络能使用全局信息，而不受限于局部小视野信息。最后输出一个共用特征层。ResNet中的残差块的使用令网络中上一层残差块的信息可以顺利进入到下一个残差块中，可以有效避免由于网络深度增加所引起的梯度消失和退化问题。

第7步，计算食物的体积。将第6步识别出来的食物的位置和种类，和识别参照物的位置当作计算食物体积的线性回归模型的输入。线性回归模型计算出食物的体积。

第8步，根据食物的类别、密度、GI值、每百克碳水化合物含量数值表和食物的体积，计算出食物的GL值。根据食物GL值数值表判断食物为高、中、低GL食物，生成食物可食用指示灯。<图2>讲述了服务器处理食物图像的流程图。

第9步，服务器将食物类别和GL值以及食物可食用指示灯信息附于食物主视图返回给用户。用户接收到服务器发来的信息后显示信息。

附图说明

本专利将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是本发明实施提供的用户和服务器之间数据传送的流程图。

图2是本发明实施提供的服务器处理食物图像，并计算食物GL值的流程图。

图3是本发明实施提供的ResNet中重要的组成结构Conv Block。

图4是本发明实施提供的ResNet中重要的组成结构Identity Block。

图5是本发明实施提供的基于注意力机制的Identity Block结构。

图6是本发明实施提供的基于注意力机制的ResNet结构。

图7是本发明实施提供的含有注意力机制的Faster R-CNN结构。

图8是本发明实验提供的Faster R-CNN中获取精确RPN的过程。

图9是本发明实验提供的客户端返回结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实例，对本发明进行进一步详细说明。具体的实例仅仅用于解释说明，并不用于限定本发明。

图1与图2是根据本申请实施例的一种基于注意力机制SENet的Faster R-CNN和线性回归方程的食物分类和GL值识别方法流程示意图。参见图1与图2可知，本申请实施例提供的基于注意力机制SENet的Faster R-CNN和线性回归方程的食物分类和GL值识别方法及系统可以包括：

步骤S1：用户端通过手机拍摄含有参照物(如手指)食物照片并上传至服务器。

步骤S2：服务器获取含有食物的图片后，通过基于注意力机制SENet的Faster R-CNN，实现对食物的目标检测和食物分类。

步骤S3：服务器端通过线性回归计算食物的体积和GL值。

步骤S4：根据服务器返回的食物种类和GL数值，反馈给用户推荐信息。

本发明使用labelImg软件制作食物识别和分类的数据集和制作计算食物体积的数据集。图片经过标注后，labelImg会自动生成图片集Food-101和图片集FooDD中每一个图片对应的xml文件。xml文件中的filename对应该文件的名称，path为该文件所在的路径，object为标注出来的食物或者参照物，每一个参照物都有相对应的坐标。经过对数据集的逐份的仔细标注，用于食物识别和分类的数据集就标注成功。

图片集Food-101和图片集FooDD中有部分图片不符合计算食物体积的数据集标准。缺少参照物的图片需要删除，包含过多的背景信息的图片需要裁减。经过预处理之后的图片使用labelImg软件进行标注。标注方法类似于制作食物识别和分类的数据集。经过标注之后，需要在每张图片对应的xml文件中的食物和参照物的<object>部分添加对应的体积<volume>。体积的单位为立方厘米(cm3)。

S1、如图1所示，用户端和服务器端建立服务。用户端负责上传含有食物的图片和接收服务器反馈的信息。用户端设备包括但不限于Android设备、iPhone和iPad。服务器端可以使用Java、PHP和Python进行开发。服务器和用户端使用HTTP协议或者TCP协议进行通信。

S2、基于注意力机制SENet改进Faster R-CNN，更好的对食物进行目标检测与分类。服务器在接收到用户发送来的图片之后，首先对图片进行压缩体积。将图片压缩为原先尺寸的二分之一。以1200*2000的图片为例，图片经过压缩后为600*1000。随后，将压缩后的图片送入ResNet网络进行特征提取。ResNet有两个基本的结构：Conv Block和IdentityBlock。其中Identity Block被改为含有注意力机制的SEIdentity Block。<图3>介绍的Conv Block。<图4>为Identity Block的结构。<图5>介绍的SEIdentity Block。<图6>介绍的ResNet网络。Faster R-CNN的特征提取网络包含了前四次的长宽压缩，最后一次的压缩在ROI中。

服务器在获取feature map之后用9x4的卷积用于预测feature map中每个点上每一个先验框的变化情况；9x1的卷积用于判断feature map上每一个网格点上每一个预测框内部是否包含物体。实现这段功能在<图8>的第2步RPN。对应的伪代码为：

获取到图片Region Proposal Network(RPN)后，需要对proposal进行调整，即对应<图8>中的3.Bounding Box Regression操作。假设生成的proposal的四维坐标为(P_x，P_y，P_w，P_h)，真实的食物或者标记物的四维坐标为(G_x，G_y，G_w，G_h)。那么需要的回归操作如下：

平移(Δx，Δy)，Δx＝P_wd_x(P)，Δy＝P_hd_y(P)，

尺度缩放(S_w，S_h)，S_w＝exp(d_w(P))，S_h＝exp(d_h(P))

定义：Φ(A)为对应anchor的feature map组成的特征向量，W₊是要学习的参数，d_*(A)是得到的预测值，*表示x，y，w，h。预测d_*(A)与真实值t_*的损失函数为：

函数优化的目标为：

对proposal进行调整就是让预测的值与真实值非常接近，即，

Proposal层负责综合物体和其对应的边框的偏移量获取proposals，同时也删除过小和超出边界的proposals。最后调整后的边框对应<图8>第4步操作。

接下来需要进行RoI pooling操作。然后再对每个建议框再进行ResNet原有的第五次压缩。压缩完后进行一个平均池化，再进行一个Flatten，最后分别进行一个num_classes的全连接和(num_classes-1)x4全连接。

num_classes的全连接用于对最后获得的框进行分类，(num_classes-1)x4全连接用于对相应的建议框进行调整。

Faster R-CNN的损失函数为：

当Anchor[i]是正样本时，

当Anchor[i]是负样本时，

在本专利中满足以下条件的Anchor是正样本：

与Ground Truth Box的IOU(Intersection-Over-Union)的重叠区域最大的Anchor；与Ground Truth Box的IOU的重叠区域＞0.7；

在本专利中满足以下条件的Anchor是负样本：

与Ground Truth Box的IOU的重叠区域＜0.3；

既不属于正样本又不属于负样本的Anchor不参与训练。

S3、在识别到食物和参照物之后，需要进行食物体积计算。用户在选择拍照的时候不会固定在同一个角度拍照，所以为了减小误差，需要对照片按照参照物的大小进行等比例放大或缩小。例如，当固定参照物大小为(300*300)像素时，用户拍照的照片大小为(1920*1080)像素，参照物的大小为(600*600)像素，那么需要缩小照片为(960*540)像素。当食物的选取的像素数量为x时，食物的真实体积为y。

使用线性回归(linear regression)来计算食物的体积：

f(x)＝ax³+bx²+cx+d

f(x)中的a，b，c，d随机初始化。

估计食物体积的线性回归的损失函数：

计算食物质量，GL值，生成可食用指数返回给用户。

食物质量公式：

m＝ρ×v (1)

食物的GL公式：

GI值为食物特定GI信息，ρ为食物密度，V为食物体积，即为经过计算得到的f(x)，gAvCHO为食物每百克所含碳水化合物的质量。

S4、依据公式(1)(2)得出食物质量，计算食物质量，GL值。判定食物可食用系数，生成食物可食用指导。当GL＜＝10时，食物可判定为低GL食物，反馈给用户的信息为：可以食用；当11＜GL＜19时，食物可判定为中GL食物，反馈给用户的信息为：建议少食。当GL＞＝20时，食物可判定为高GL食物，反馈给用户的信息为：建议忍住不吃。

根据模型计算出的食物GL值。服务器通过互联网将推荐信息反馈给用户。例如，巧克力是高GI值的食物，一大块巧克力的GL值非常高，这时候服务器识别到大块巧克力之后就会向用户发送忍着别吃，不推荐食用的建议。本发明实验预计反馈回客户端结果如<图9>所示。

Claims

1.一种基于注意力机制SENet的Fater R-CNN食物分类和GL值识别方法，

其特征在于，包括如下所述内容：

步骤1，制作食物识别和分类的数据集：在图片集Food-101和图片集FooDD上制作神经网络需要的VOC格式的xml文件。这些xml文件包含了图片中食物的边框标注，食物的类别标注和参照物边框标注。

步骤2，制作计算食物体积的数据集：在图片集Food-101和图片集FooDD上制作适用于计算食物体积的VOC格式的数据集。这些xml文件中包含参照物的体积和食物的体积。

步骤3，处理步骤1和步骤2中的数据集：将步骤1处理后的不同食物类别的图像文件放在/classification/JPEGImages文件夹中；将步骤1中生成的含有标注信息的xml文件放在/classification/Annotations文件夹中；在/classification/ImageSets/Main文件夹中新建train.txt、trainval.txt、val.txt和test.txt文件。这四个文件分别对应训练集、训练和验证集、验证集、测试集。将步骤2处理后的不同食物的图像放在/volume/JPEGImages文件夹中；将步骤2中生成的含有标注信息的xml文件放在/volume/Annotations文件夹中；在/volume/ImageSets/Main文件夹中新建train.txt、trainval.txt、val.txt和test.txt文件。这四个文件分别对应训练集、训练和验证集、验证集、测试集。

步骤4，训练食物检测和分类网络：将步骤1中制作并经过步骤3处理过的数据集当作基于注意力机制SENet的Fater R-CNN的输入数据。根据观察到的训练过程中的损失函数的变化曲线来判断神经网络是否已经收敛；如果收敛，则停止训练；否则，继续训练。

步骤5，训练食物体积计算的网络：将步骤2中制作并经过步骤3处理过的数据集当作线性回归方程的输入数据。根据观察到的训练过程中的损失函数的变化曲线来判断线性回归模型是否已经收敛；如果收敛，则停止训练；否则，继续训练。

步骤6，将步骤4和步骤5中训练好的神经网络及线性回归模型进行整合。将步骤4识别出食物种类和边框信息，连同识别出参照物的边框一起送入步骤5中训练好的线性回归方程中进行食物体积计算。

步骤7，将步骤6识别的食物类别和GL值以及食物可食用指示灯信息附于食物主视图返回给用户。用户接收到服务器发来的信息后显示信息。