CN113920325A

CN113920325A - 一种基于红外图像特征点减少物体识别图像量的方法

Info

Publication number: CN113920325A
Application number: CN202111516052.0A
Authority: CN
Inventors: 张元本; 陈名国
Original assignee: Guangzhou Weilin Software Co ltd
Current assignee: Guangzhou Weilin Software Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113920325B

Abstract

本发明公开了一种基于红外图像特征点减少物体识别图像量的方法，采用摄像头组对开、闭智能箱柜的行为进行视频采集；通过多帧的红外图像形成红外图像队列，并基于红外图像队列，在低干扰或干净环境形成二值红外图像，高干扰或遮挡环境形成灰度红外图像；用图像梯度算子提取红外图像的边缘，构造用户行为的运动轨迹数组；基于红外图像帧与帧特征点群的匹配，构造用户行为的运动轨迹数组；根据运动状态函数和运动方向一致性函数来进行用户行为的判定；从每一个已经完成判定的用户行为队列中选择最佳的红外图像；根据红外图像和可见光图像的对应关系，进行目标检测和识别；该基于红外图像特征点减少物体识别图像量的方法能够降低服务器计算量。

Description

一种基于红外图像特征点减少物体识别图像量的方法

技术领域

本发明涉及智能家居，智能箱柜的图像处理技术领域，具体涉及一种基于红外图像特征点减少物体识别图像量的方法。

背景技术

目前智能箱柜的工作原理：通过内置或外置的图像采集装置，对箱柜内人的操作行为开、或关智能箱柜门的前后，分别采集智能箱柜内部的彩色图像，然后基于彩色图像，采用各种机器学习或深度学习的方法进行不同食材的种类识别、和基于物体或人手的移动对人的行为进行判定物体是取还是放。

对食材或物体的识别、人体动作的判定主要通过把视频数据传输会云端，利用云端强大的算力和云服务器、云平台的数据库去解决，或借助嵌入式AI设备和物联网实现数据的预处理。

相关专利：

CN201810780334.3 一种冰箱智能识别和管理系统

CN201821297676.1 一种冰箱动态识别装置

CN201910919624.6 食材管理的方法及装置、冷藏设备

CN201911089592.8 一种基于深度学习的智能冰箱存取动作识别方法

在上述相关技术的实施过程中，会存在如下的问题：内置图像采集装置采集视频的时间是用户打开智能箱柜到用户关闭智能箱柜，而外置的图像采集装置会根据红外感应人体开始采集视频，这端采集视频的时间短着几秒，长着十几秒，随后把采集到的视频传回服务器进行分析时，服务器会把每一秒的视频解析成多帧，然后对每一帧的图像进行图像识别和动作判定。按照目前一般图像采集装置的帧率在20帧左右，一个动作行为产生的数据会达到上百张图像，这其中起到对物体的识别和人的动作的判定的图像只占非常少的一部分。且当用户量多的时候，每个短时间会产生非常惊人的数据量，传统面对这个高并发和庞大计算量的场景，都是使用分布式云端或嵌入式端去解决，但同时也产生大量的成本。

发明内容

针对现有技术中的不足，本发明的目的是提供一种降低服务器计算量，节约成本的基于红外图像特征点减少物体识别图像量的方法。

本发明解决其技术问题所采用的技术方案是：

一种基于红外图像特征点减少物体识别图像量的方法，其特征在于：

采用摄像头组对开、闭智能箱柜的行为进行视频采集，获取多帧的RBG图像和红外图像；

通过多帧的红外图像形成红外图像队列，并基于红外图像队列，低干扰或干净环境形成二值红外图像，高干扰或遮挡环境形成灰度红外图像；

在低干扰或干净环境下，用图像梯度算子提取红外图像的边缘，获取红外图像的三个极值点坐标，构造用户行为的运动轨迹数组；

在多帧的红外图像运动下，各自比较三个极值的变化方向，根据运动状态函数和运动方向一致性函数来进行用户行为的判定；

在高干扰或遮挡环境下，构建红外图像其尺度金字塔，采用Fast算法获取特征点，基于BRIEF算法描述特征子，根据帧与帧之间特征的匹配获得用户行为的运动轨迹数组；

在多帧的红外图像运动下，比较50%以上的特征点的运动方向，根据运动状态函数和运动方向一致性函数来进行用户行为的判定；

从每一个已经完成判定的用户行为队列中选择最佳的红外图像；

根据红外图像和可见光图像的对应关系，把最佳的可见光图像传入目标识别模型，进行目标检测和识别。

进一步的，所述的摄像头组包括有RGB摄像头和红外摄像头。

进一步的，所述的红外图像队列通过各自的时间戳进行排序，二值红外图像的形成方法为：对红外图像队列进行灰度化，对灰度化的红外图像进行图像二值化。

进一步的，在低干扰或干净环境下，用图像梯度算子提取红外图像的边缘的方法为：

使用Scharr算子获取红外二值图像的边缘，使用Scharr算子对X和Y方向进行求导，求红外二值化图像的X和Y方向的梯度，把图像每一个像素求到的图像X和Y方向的梯度，取绝对值相加，获得图像的梯度，图像的梯度反应在红外图像上就是图像的边缘。

进一步的，红外图像的三个极值点坐标分别是最左边，最上边、最右边的值的纵坐标。

进一步的，在高干扰或遮挡环境下，构造用户行为的运动轨迹数组的方法为：

根据每张红外图像构建其尺度金字塔；

在不同尺度的红外图像上采用Fast算法检测特征点；

得到特征点后，采用BRIEF算法来计算一个特征点的描述子，给特征点添加选择不变性；

根据每一帧红外图像得到的特征点描述子特有的2进制串表示，通过汉明距离进行快速的帧与帧之间快速的特征点的匹配，便于找到下一帧红外图像相同的特征点。

进一步的，根据运动状态函数来进行用户行为判定的方法为：

当运动状态函数满足动作的出、入情况时，可作为用户行为的开始的判定，当运动状态函数满足动作停止条件时，该最后一帧代表该动作行为的结束，以动作开始红外图像的时间戳到动作结束红外图像的时间戳对应的帧为该行为进行分析。

在低干扰或干净环境下，记录红外图像队列的每一个帧三个极值的纵坐标，每一帧的运动数组和前一帧运动数组对应的坐标进行比对，形成运动轨迹；

当当前帧运动轨迹的三个极值坐标点中存在有两个坐标点产生的方向是一致，且与上一帧运动方向一致时，可确定用户手部运动的方向，根据用户手部运动的方向判定用户行为。

在高干扰或遮挡环境下，当后一帧图像的特征点群和前一帧图像的特征点群相比，存在50%以上的特征点运动方向一致时，可确定用户手部运动的方向，根据用户手部运动的方向判定用户行为。

进一步的，在动作判定的过程中存在行为开始和行为结束判断，具体为：

从用户动作为取的角度，在低干扰或干净环境下，从无法判断行为状态到三个极值数组存在两个数组变动一致可以对动作进行判定，在高干扰或遮挡环境下，存在50%以上的特征点运动方向一致时可以对动作进行判定，方向一致性数字的值开始计数，当方向一致性数字的值大于阈值时，且红外图像上找不到人体热源时，判断为取的动作，表示该行为已经结束。

在高干扰或遮挡环境下，动作判定的过程中行为结束判定有个附加条件，当后一帧图像的特征点群和前一帧图像的特征点群相比，存在80%以上的特征点不移动时，或红外图像存在非常少的特征点，造成无法匹配或匹配率过低时，表示该动作已经结束，完成一个动作的判别。

进一步的，最佳的红外图像的选择方法为：

在低干扰或干净环境下，通过最小化三个极值点与红外图像尺度的关系，来获得最佳红外图像的时间戳，选择每一个行为分别左角点、上角点、右角点的纵坐标与红外图像二分之一高相差最小的三张红外图像供于后端的目标识别使用；

在任何环境中，总最佳红外图像选择公式为

其中i表示红外图像对应的帧数图像的时间戳，h为红外图像的高，

为最佳的红外图像。

原理说明：

1.用RGB摄像头结合近红外摄像头对开、闭智能箱柜的行为进行视频采集；RGB摄像头和近红外摄像头会分别产生可见光图像和红外图像，将RGB摄像头和红外摄像头同步，使其可见光图像和红外图像是一一对应的；

2.把红外图像形成红外图像队列，高干扰或遮挡环境只对红外图像队列灰度化，而低干扰或干净环境还要二值化，形成二值图像，减少不必要的干扰信息；

3.在低干扰或干净环境，对红外二值图像使用Scharr算子获取红外二值图像的边缘，求图像边缘三个角点值，分别是最左边，最上边、最右边的值，用于构造用户行为的运动数组；

在高干扰或遮挡环境，采用ROB的Fast算法找到灰度化的红外图像特征点位置，BRIEF特征描述算法描述其特征点，形成红外图像特征点群，用于构造用户行为的运动群数组；

4.在低干扰或干净环境，在多帧红外图像运动下，各自比较三个极值的变化方向，当运动状态函数满足动作的出、入情况时，可作为用户行为的开始的判定，当运动状态函数满足动作停止条件时，该最后一帧代表该动作行为的结束，以动作开始红外图像的时间戳到动作结束红外图像的时间戳对应的帧为该行为进行分析；

把多帧三个极值点坐标值偏移做比较，当三个极值点存在两个极值点运动一致时，通过运动状态函数来确定运动的状态，然后借助运动方向一致性函数，通过多帧时间戳、判定阈值来确定运动的一致性，根据规则：三个极值点都停止运动来作为动作放的停止条件或动作取的开始条件；

在高干扰或遮挡环境，采用ROB算法求出的特征群为动作判定地条件时，通过FAST算法找到红外图像的多个特征点群后，对特征点群进行过滤，保留最稳定的特征点，对红外图像队列中每帧红外图像的特征点群进行匹配，保留匹配后的特征点作为运动状态函数和运动方向一致性函数的统计点。其中单帧运动状态函数扩展为50%以上的特征点都存在相同方向的移动为准，根据特征点群确认运动的方向，动作的结束以特征点群存在不移动或特征点匹配量少时，结束动作的判定；

5.根据最佳红外图像选择公式从红外图像队列中选择最佳的最佳红外图像；

在高干扰或遮挡环境，红外图像选择依据总最佳红外图像选择公式，不同之处在于极值的坐标是在所有特征点群中去取选择，在该动作的所有图像的所有特征点群中选择特征点最大的左角点、上角点、右角点等点的坐标。

可选地，最佳红外图像的选取：根据特征点匹配率最高的红外图像作为基图像，再根据基图像所在的索引帧数按高斯分布选择；

6.根据红外图像和可见光图像一一对应关系，获得最佳的可见光图像，将检测图像，发送至服务器，令服务器进行目标识别，确定食材存取结果，并存储食材存取结果。

本发明的有益效果是：

通过对红外图像简单的边缘分析或特征点之间的匹配，找到每张红外图像对应的特征点，对特征点进行运动轨迹分析，从而确认运动目标的运动方向，选择该运动方向中代表性的红外图像，基于红外图像和可见光图像的对应关系，获取最佳的可见光图像，极大的减少了物体检测和识别时需要的图像，简化了物品检测过程，减少了智能箱柜服务器的计算量，避免了食材录入过程占用过多的计算资源，提高了鲁棒性，此外，仅将少量关键的待检测图像发送至服务器，提高了数据传输效率，特别适合于高并发或带宽拮据的使用场景，从而提高了食材录入效率、准确率，提升了用户体验，同时，降低了智能箱柜成本。

附图说明

图1 为本发明的流程示意图

图2 为本发明实施例中第i帧红外图像经灰度化后的示意图

图3 为本发明实施例中第i+1帧红外图像经灰度化后的示意图

图4 为本发明实施例中第i+2帧红外图像经灰度化后的示意图

图5 为本发明实施例中第i+3帧红外图像经灰度化后的示意图

图6 为本发明实施例中采用Fast算法的示意图

图7 为本发明实施例中第i帧红外图像经Fast算法提取特征点的示意图

图8 为本发明实施例中第i+1帧红外图像经Fast算法提取特征点的示意图

图9 为本发明实施例中第i帧与第i+1帧红外图像特征点匹配示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例

参阅图1所示，一种基于红外图像特征点减少物体识别图像量的方法，该生成方法包括以下步骤：

步骤1：使用RGB摄像头结合近红外摄像头对开、闭智能箱柜的行为进行视频采集。

具体的，当传感器检测到智能箱柜打开后，其设置在智能箱柜上的RGB摄像头和红外摄像头开始启动，该智能箱柜最优选为冰箱；

其中，RGB摄像头采集的是人打开智能箱柜的所有行为，而红外摄像头采集的是检测范围内所有的热源，并对热源的移动进行追踪。

RGB摄像头为正常的摄像头，采集到是可见光图像，经过FFmpeg多媒体框架的解析，得到会是RGB的图像。红外摄像头是利用红外热成像技术，利用红外探测器和光学镜片接收物体红外辐射的能量，再把能量分布到红外探测器的光敏元件上，形成红外热成像图像。在该实例中，人体就是热源，通过调节摄像头的焦距和范围，让其只采集到人的手部，其表面的温度会比人手中的物体或拍摄环境的其他物体的温度高，从而会形成一帧帧的人手部的红外图像。

在本实例中，为了使RGB摄像头和红外摄像头同步，RGB摄像头和红外摄像头采集的速率是相同的，RGB摄像头的每一帧的时间戳和图像和红外摄像头的每一帧的时间戳和图像都是对应的。当然RGB摄像头和红外摄像头的采集的速率可以不同，只要两者之间能够形成一一对应就行，如RGB摄像头的采集FPS为30帧，红外摄像头的采集FPS为15帧，红外摄像头的第一帧对应RGB摄像头的第2帧，以此类举例。

需要说明的是，本实例只是类举了一个含有RGB摄像头和红外摄像头的摄像头模组放置到智能箱柜上的情况。现实或在其他实例中，会有多个相同功能的摄像头模组，不同功能的摄像头或多个RGB摄像头和单个乃至多个红外摄像头的随机结合的情况，而且摄像头模组放置的区域会根据项目或用户的需求多种多样，例如可能放置到智能箱柜内或左边、右边、下面、门架等情况，便于多角度、多层次，从不同智能箱柜层、分离或整合图像进行目标识别和分析。

步骤2：根据设备环境采集的不同，对图像预处理不一样，低干扰或干净环境，多帧红外图像形成红外图像队列，对红外图像队列灰度化，然后图像二值化，形成二值红外图像，高干扰或遮挡环境，对红外图像队列灰度化。

具体的，根据设备的放置环境和运作环境，可分为低干扰或干净环境和高干扰或遮挡环境，其中低干扰或干净环境指的是正常的工作环境，如室内、周围没有其他热源干扰的环境，而高干扰或遮挡环境一般在于企业级别或多人的工作环境中，室外，甚至乃周边热源较多的环境。

具体的，通过设备源获得视频源多帧的可见光图像和红外图像，通过各自时间戳的排序，形成可见光图像队列和红外图像队列。对红外图像队列进行灰度化，红外原始数据是没有三通道，只有一个通道就是映射后的温度数据，图像灰度化后去掉一些不必要地干扰。

可选的，图像灰度化后，可通过一些特征点的检测如Harris角点或边缘检测、边缘特征、图像灰度的信息量去判定干净环境和遮挡环境，采用何种方式，并不在本发明限制的范围。

进一步的，对灰度化的红外图像进行图像二值化，就是对将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。图像的二值化有利于图像的进一步处理，使图像变得简单，而且数据量减小，能凸显出感兴趣的目标的轮廓。

步骤3：根据环境和应用场景的不同，采用两个不同方式采集用户行为的运动轨迹数组。

设备在低干扰或干净环境，用图像梯度算子提取红外图像的边缘，获取红外图像的三个极值点坐标，构造用户行为的运动轨迹数组。

具体的，对红外二值化图像使用Scharr算子获取红外二值图像的边缘，Scharr算子跟Sobel算子一样快速，但更加稳定，精确，使用前不需要对图像进行高斯滤波。

进一步的，使用Scharr算子对X和Y方向进行求导，求图像X和Y方向的梯度，

其中Gx和Gy分别是水平变化和竖直方向的算子

把图像每一个像素求到的图像X和Y方向的梯度，取绝对值相加，获得图像的梯度，图像的梯度反应在红外图像上就是图像的边缘。

如图像2-5所示，图上显示的是第i帧到i+3帧红外图像经灰度化后的图像，为了便于分析和显示，没有使用灰度化后的二值图像。

根据图像的边缘，求图像三个极值点坐标，分别是最左边，最上边、最右边的值的纵坐标。如图5所示，通过每一帧红外图像三个极值，可以构造成用户手部的运动数组

其中,

表示第i帧红外图像的运动数组，

表示第i帧红外图像边缘最左端的纵坐标，

表示第i帧红外图像边缘最顶端的纵坐标，

表示第i帧红外图像边缘最右端的纵坐标。

设备在干扰或遮挡环境，会存在较多的热源或某些时候遮挡住热源，为了丰富图片的信息量和采集图像的精度，采用ORB(Oriented FAST and Rotated BRIEF)算法对红外图像进行特征点选取和对特征子进行描述，获得每张红外图像的特征点。

步骤B1：根据每张红外图像构建其尺度金字塔。

具体的，对红外队列的每一帧的红外图像先构建尺度金字塔，金字塔共n层，每层仅有一幅图像，第s层的尺寸为

第s层图像大小：

其中 Fator为缩放因子，s为金字塔的层数，H和W分别是红外图像的高和宽；

步骤B2：在不同尺度的红外图像上采用Fast（features from acceleratedsegment test）算法检测特征点。

具体的，基于特征点周围的图像灰度值，检测候选特征点周围一圈的像素值，如果候选点周围领域内有足够多的像素点与该候选点的灰度值差别够大，则认为该候选点为一个特征点。

其中I(x)为圆周上任意一点的灰度，I(p)为圆心的灰度，εd为灰度值差得阈值，如果N大于给定阈值，一般为周围圆圈点的四分之三，则认为p是一个特征点。

本实例中采用了加速的方法，如图6所示，如果测试了候选点周围每隔90度角的4个点，应该至少有3个和候选点的灰度值差足够大，否则则不用再计算其他点，直接认为该候选点不是特征点，也就是像素1和9的像素是否和特征点相同，如果相同再检测5和13，如果都不满足，那不可能是一个角点。

步骤B3：得到特征点后，采用BRIEF（Binary Robust Independent ElementaryFeatures）算法来计算一个特征点的描述子，给特征点添加选择不变性。

在每个特征点的领域，选择n对像素点pi、qi，然后比较每个点对灰度值大小，如果

则生成二进制串中的1，否则为0，所有点对比较，会生成长度为n的二进制，本实例中n的取值取128。

进一步的，给特征点添加旋转不变性，给特征点加上旋转角度，保证图像旋转时，计算得到的描述子一样，类似以关键点为圆心，以关键点和取点区域的质心的连线为x轴建立2维坐标

其中上面为质心的计算公式，x,y分别为取点区域的坐标，通过积分图公式计算出M₀₀，M₁₀,M₀₁，c为质心的坐标，θ为旋转的角度。

步骤B4：根据每一帧红外图像得到的特征点描述子特有的2进制串表示，通过汉明距离进行快速的帧与帧之间快速的特征点的匹配，便于找到下一帧红外图像相同的特征点。

具体的，将当前帧待检测图像的所有特征像素点的特征描述子，和前一帧待检测图像的所有特征像素点的特征描述子进行对比，从当前帧待检测图像的所有特征像素点中，筛选出相似度达到预设的相似度阈值的多个特征像素点，作为当前帧待检测图像的特征点

为第i帧红外图像众多特征点的集合，在本实例中只选取了特征点在图像位置的纵坐标进行后续的分析。

步骤4：在低干扰或干净环境，在多帧红外图像运动下，各自比较三个极值的变化方向，当运动状态函数满足动作的出、入情况时，可作为用户行为的开始的判定，当运动状态函数满足动作停止条件时，该最后一帧代表该动作行为的结束，以动作开始红外图像的时间戳到动作结束红外图像的时间戳对应的帧为该行为进行分析。

具体的，记录红外图像队列的每一个帧三个极值的纵坐标，每一帧的运动数组和前一帧运动数组对应的坐标进行比对，形成运动轨迹。

当当前帧运动轨迹的三个极值坐标点中存在有两个坐标点产生的方向是一致，且与上一帧运动方向（单帧运动状态函数）一致时，可确定用户手部运动的方向。

设置单帧运动状态函数和运动方向一致性函数

其中Sⁱ为单帧运动状态函数，

分别表示后一帧的红外图像三个极值的纵坐标和前一帧红外图像三个极值的纵坐标，k为同方向性的个数，n表示红外图像队列所有的帧数，这是一个不定时的变量，会随着用户打开或关闭智能箱柜不停的采集，M为方向一致性函数的数字值，本身有着一定的阈值，

为方向一致性函数。

需要说明的是，M 运动方向一致性的阈值是个超参数，可根据需求设定。

进一步的，S为单帧单极值点表现为同方向性时的状态计数函数，每对极值都会存在三种可能的方向，向上、向下、不移动，当三对极值中至少存在两个极值的方向一致时，k值会为2，当存在三个方向一致时，k值为3，这时会记录下当前的运动状态S，用户的动作是取、还是放、还是不确定，如果三个极值的运动方向满足不了条件时，k值会为1，当前的运动状态S会为不确定，当前帧的信息会不作为运动状态函数的统计中。

进一步的，比较前一帧运动状态S^i-1和当前帧的运动状态Sⁱ，当两者的运动状态一致时或前一帧运动状态S^i-1运动状态不确定时，运动方向一致性函数赋值加1或为1，当两者的运动状态不一致时，分两种情况考虑，前一帧运动状态S^i-1是否和当前帧的运动状态Sⁱ相反，相反时运动方向一致性函数赋值会减1，不相反时运动方向一致性函数赋值为0。累计所有的帧数，形成一个方向一致性数值。

具体的，实例说明：假定极值差大于0时动作是放，小于0时动作是取，等于0时是无意义动作，而又计算得到

，

，

，那么就可以判定存在两个极值的方向一致，k值会为2，且极值差又大于0，该帧的运动状态为放，把该i帧的运动状态 Sⁱ和前一帧的运动状态S^i-1比对，若前一帧的运动状态S^i-1 的运动状态也是放，其M 运动方向一致性会在原来的数值上加1，若前一帧的运动状态S^i-1 的运动状态是取，其M运动方向一致性会在原来的数值上减1,若前一帧的运动状态S^i-1的运动状态不确定，其M运动方向一致性会加1，统计出所有帧的运动趋势，跟阈值进行对比，从而确认用户的动作。

需要说明的是，在动作判定的过程中是存在行为开始和行为结束判断的。

从用户动作为放的角度，当存在有人体热源时，才开始红外图像采集，进而统计运动状态函数和运动方向一致性函数，而M大于阈值，且无法判断该帧的运动状态时，表示该行为已经结束。

从用户动作为取的角度，从无法判断行为状态到三个极值数组存在两个数组变动一致可以对动作进行判定，方向一致性M开始计数，当M大于阈值时，且红外图像上找不到人体热源时，也就是

时，判断为取的动作，表示该行为已经结束。

在高干扰或遮挡环境，通过步骤B1-B4,采用ORB算法获取红外图像特征点群

，经过特征点的匹配去过滤下一张图像的特征点，通过基于每张红外图像上对应特征点群的坐标，计算对应特征点群的运动方向，判定用户行为的方向,参阅图7-9所示。

需要说明的是，为了便于分析和显示，图7-9红外图像采用的是无遮挡、无干扰环境下的红外图像进行特征点的提取，实际工程中，红外图像的显示是充满遮挡的、到处都是干扰。

具体地，比较当前帧红外图像特征点群

和前一帧红外图像对应特征点群

坐标的差值，该的运算过程同本实例上述三个极值点的运动状态函数和运动方向一致性函数的计算，只不过通过ORB算法的出来的特征点会比较多，这里面的k的取值，为总特征点数量的50%，当50%的特征点满足运动状态函数时，通过i帧的运动状态Sⁱ和前一帧的运动状态S^i-1的对比，获得每一个动作行为的运动方向。

在判别方向和动作行为的开始上与上述三极值是一致的，不同的是，动作判定的过程中行为结束判定，当后一帧图像的特征点群和前一帧图像的特征点群相比，存在80%的特征点不移动时，或红外图像存在非常少的特征点，造成无法匹配或匹配率过低时，表示该动作已经结束，完成一个动作的判别。

步骤5：从每一个已经完成判定的用户行为队列中选择取最佳的红外图像。

具体地，在低干扰或干净环境，通过最小化三个极值点与红外图像尺度的关系，来获得最佳红外图像的时间戳，为了提供检测的精度，本实例选择了每一个行为分别左角点、上角点、右角点的纵坐标与红外图像二分之一高相差最小的三张红外图像供于后端的目标识别使用。

最佳红外图像选择公式为

为最佳的红外图像。

需要说明的是，在高干扰或遮挡环境，最佳红外图像选择依据上述总最佳红外图像选择公式，不同之处在于极值的坐标是在所有特征点群中去取选择，在该动作的所有图像的所有特征点群的特征点中选择最大的左角点、上角点、右角点等点的坐标。

可选地，为了丰富物体的特征，图像的选择上，还可以采用隔帧原则。统计用户行为动作从开始到用户行为动作结束所有的帧数，根据采样帧数的大小丢弃部分帧。

进一步地，如实例，当采样的帧率为15帧时，一个行为动作其保存的帧数为13帧，首先丢弃前两帧和后两帧的红外图像，采用隔空采样的原则，选择2，4，6，8，10，11帧，或者以中间帧为基础，进行帧数衰减选取，该选择的概率选择一维高斯分布，则中间帧周围的帧被选择地概率较大，

其中

为方差，该实例为零，

为均值，该实例中为中间帧数；

需要说明地是，图像的选择可以有多种方式，具体根据项目的需求和云服务器的算力去设置，这里不一一例举。

可选地，高干扰或遮挡环境，对于图像的选择上，也存在多种选择，可以选择特征点匹配率最高的红外图像作为基图像，再根据基图像所在的索引帧数按高斯分布进行选择，也可以根据统计的总帧数，隔帧选择，具体根据项目的数据集而定。

步骤6：根据红外图像和可见光图像的对应关系，把最佳的可见光图像传入目标识别模型，进行目标检测和识别。

具体地，红外图像和可见光图像是一一对应关系，把该三张或几张红外图像对应的可见光图像传递到检测模型进行物体检测和识别。检测模型可采用机器学习和深度学习，机器学习和深度学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习可使用的分类算法包括决策树、朴素贝叶斯分类、支持向量机、随机森林等、深度学习可使用目前主流地YOLO系列目标检测模型、MaskRNN系列全景分割模型。

深度学习神经网络地原理是通过将训练图像送入模型中，进行特征提取，经卷积层的处理后输出图片特征，并将特征向量与标签输入到多分类器中，通过梯度下降法不断反复更新网络权值和偏置，以使得网络分类准确率达到最高。同时，利用训练图像的预测物体标签和标准物体标签对模型验证，得到适合物体分类的模型。

需要说明地是，采用何种目标识别模型，并不在本发明限制的范围。

再根据图像识别结果获取待放入或取出食材的相关信息，记录到相关数据库中。

本发明的上述实施例并不是对本发明保护范围的限定，本发明的实施方式不限于此，凡此种种根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，对本发明上述结构做出的其它多种形式的修改、替换或变更，均应落在本发明的保护范围之内。

Claims

1.一种基于红外图像特征点减少物体识别图像量的方法，其特征在于：

2.根据权利要求1所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于：所述的摄像头组包括有RGB摄像头和红外摄像头。

3.根据权利要求1所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，所述的红外图像队列通过各自的时间戳进行排序，二值红外图像的形成方法为：对红外图像队列进行灰度化，对灰度化的红外图像进行图像二值化。

4.根据权利要求1所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，在低干扰或干净环境下，用图像梯度算子提取红外图像的边缘的方法为：

5.根据权利要求4所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于：红外图像的三个极值点坐标分别是最左边，最上边、最右边的值的纵坐标。

6.根据权利要求1所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，在高干扰或遮挡环境下，构造用户行为的运动轨迹数组的方法为：

根据每张红外图像构建其尺度金字塔；

在不同尺度的红外图像上采用Fast算法检测特征点；

7.根据权利要求5或6所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，根据运动状态函数和运动方向一致性函数来进行用户行为判定的方法为：

当运动状态函数满足动作的出、入情况时，可作为用户行为的开始的判定，当运动状态函数满足动作停止条件时，该多帧红外图像的最后一帧代表该动作行为的结束，以动作开始红外图像的时间戳到动作结束红外图像的时间戳对应的帧为该行为进行分析。

8.根据权利要求7所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，根据运动状态函数和运动方向一致性函数来进行用户行为判定的方法为：

当当前帧运动轨迹的三个极值坐标点中存在有两个坐标点产生的方向是一致，且与上一帧运动方向一致时，可确定用户手部运动的方向，根据用户手部运动的方向判定用户行为；

9.根据权利要求8所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，在动作判定的过程中存在行为开始和行为结束判断，具体为：

从用户动作为放的角度，当存在有人体热源时，开始红外图像采集，进而统计运动状态函数和运动方向一致性函数，而方向一致性数字的值大于阈值，且无法判断该帧的运动状态时，表示该行为已经结束；

从用户动作为取的角度，在低干扰或干净环境下，从无法判断行为状态到三个极值数组存在两个数组变动一致开始对动作进行判定，在高干扰或遮挡环境下，存在50%以上的特征点运动方向一致时开始对动作进行判定，方向一致性数字的值开始计数，当方向一致性数字的值大于阈值时，且红外图像上找不到人体热源时，判断为取的动作，表示该行为已经结束；

在高干扰或遮挡环境下，动作判定的过程中行为结束判定有个附加条件，当后一帧图像的特征点群和前一帧图像的特征点群相比，存在80%的特征点不移动时，或红外图像存在非常少的特征点，造成无法匹配或匹配率过低时，表示该动作已经结束，完成一个动作的判别。

10.根据权利要求1所述的基于红外图像特征点减少物体识别图像量的方法，其特征在于，最佳的红外图像的选择方法为：