CN112508109B

CN112508109B - 一种图像识别模型的训练方法及装置

Info

Publication number: CN112508109B
Application number: CN202011456074.8A
Authority: CN
Inventors: 彭忠清
Original assignee: Ruijie Networks Co Ltd
Current assignee: Ruijie Networks Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-05-19
Anticipated expiration: 2040-12-10
Also published as: CN112508109A

Abstract

本申请涉及人工智能技术领域，尤其涉及一种图像识别模型的训练方法及装置，获取图像采集设备采集到的各待识别图像；分别针对所述各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得所述待识别对象的位置信息；将所述各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中，其中，对象标签为基于待识别图像中包含的待识别对象的图像名称确定的；基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型，这样，通过已训练的坐标检测模型对待识别图像进行标准，能够提高图像标注的效率，进而提高图像识别模型的训练效率。

Description

一种图像识别模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像识别模型的训练方法及装置。

背景技术

近年来，随着移动支付的普及，越来越多的无人的机械零售货柜被设置在人流量大的地区，例如，车站、写字楼、商场等，参阅图1所示，为现有技术中机械零售货柜的示意图，但是，机械零售货柜存在占地大、售卖商品种类受限的问题，因此，如何能够减小零售货柜的占地面积，且能够扩大售卖的商品种类的范围，成为了一个亟待解决的问题。

随着人工智能(Artificial Intelligence，AI)技术的发展，为了解决上述问题，许多厂家推出了采用人工智能的计算机视觉技术来实现商品自动识别的AI智能货柜，参阅图2所示，为现有技术中AI智能货柜的示意图，AI智能货柜是基于图像识别模型来完成对商品的识别的，但是，在训练现有技术中的图像识别模型时，需要通过人工对采集到的图像样本进行标注，因此，现有技术中这种模型训练方式的耗时非常长，且图像识别模型的训练效率不高。

发明内容

本申请实施例提供一种图像识别模型的训练方法及装置，以减少图像识别模型的训练耗时，并提高效率。

本申请实施例提供的具体技术方案如下：

一种图像识别模型的训练方法，包括：

获取图像采集设备采集到的各待识别图像，其中，每张待识别图像中包含有待识别对象；

分别针对所述各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得所述待识别对象的位置信息；

将所述各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中，其中，所述对象标签为基于待识别图像中包含的待识别对象的图像名称确定的；

基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型，其中，所述图像识别模型用于识别待识别图像中包含的待识别对象的名称信息。

可选的，获取图像采集设备采集到的各待识别图像之后，进一步包括：

分别针对所述各待识别图像，基于已训练的动作识别模型，以任意一张待识别图像为输入参数，对该待识别图像中包含的人体动作进行特征提取，获得该待识别图像的动作特征，并计算所述动作特征与所述动作识别模型中的标准动作的动作特征之间的特征相似度；

若确定所述各待识别图像中，所述特征相似度大于等于预设的特征相似度阈值的待识别图像的数量超过预设数量阈值，则删除所述特征相似度小于所述特征相似度阈值的待识别图像，并保留所述特征相似度大于等于所述特征相似度阈值的待识别图像；

若确定连续预设数张待识别图像的特征相似度小于预设的特征相似度阈值，则生成采集失败指令，并将所述采集失败指令发送给终端进行提示。

可选的，分别针对所述各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数之前，进一步包括：

分别计算所述各待识别图像中包含的像素点的数量；

分别针对所述各待识别图像，若确定任意一张待识别图像中包含的像素点的数量大于预设像素点数量阈值，则确定该待识别图像满足预设的清晰度条件；

从所述各待识别图像中保留满足清晰度条件的各待识别图像。

可选的，基于所述训练样本集训练图像识别模型，具体包括：

分别针对所述训练样本集中的各待识别图像，将任意一张待识别图像输入至初始的图像识别模型中，识别该待识别图像中包含的待识别对象，并对所述待识别对象进行特征提取，获得所述待识别对象的图像特征，根据所述图像特征，确定所述待识别对象的名称信息，若确定所述名称信息与所述对象标签不相同，则调整所述初始的图像识别模型的参数信息。

可选的，对所述待识别对象进行特征提取，获得所述待识别对象的图像特征，具体包括：

对所述待识别对象的外观信息进行特征提取，获得外观特征；

对所述待识别对象的颜色信息进行特征提取，获得颜色特征；

对所述待识别对象中包含的文字信息进行特征提取，获得文字特征；

对所述待识别对象的亮度信息进行特征提取，获得亮度特征；

将所述外观特征、所述颜色特征、所述文字特征和所述亮度特征进行特征合并，获得待识别对象的图像特征。

可选的，基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型之后，进一步包括：

分别针对所述各待识别图像，将任意一张待识别图像输入至训练完成的图像识别模型中，确定该待识别图像中包含的待识别对象的名称信息；

根据所述各待识别图像的名称信息，确定所述图像识别模型的准确率；

若确定所述准确率大于预设的准确率阈值，则确定所述图像识别模型训练成功。

可选的，根据所述各待识别图像的名称信息，确定所述图像识别模型的准确率，具体包括：

分别针对所述各待识别图像，若确定任意一张待识别图像的名称信息与预先标注的名称信息相同，则确定该待识别图像的识别结果为正确，若确定该待识别图像的名称信息与预先标注的名称信息不同，则确定该待识别图像的识别结果为错误；

计算所述各待识别图像中，识别结果为正确的待识别图像的数量；

根据所述识别结果为正确的待识别图像的数量与所述各待识别图像的数量之间的比值，确定所述图像识别模型的准确率。

一种图像识别模型的训练装置，包括：

获取模块，用于获取图像采集设备采集到的各待识别图像，其中，每张待识别图像中包含有待识别对象；

标注模块，用于分别针对所述各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得所述待识别对象的位置信息；

添加模块，用于将所述各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中，其中，所述对象标签为基于待识别图像中包含的待识别对象的图像名称确定的；

训练模块，用于基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型，其中，所述图像识别模型用于识别待识别图像中包含的待识别对象的名称信息。

特征提取模块，用于分别针对所述各待识别图像，基于已训练的动作识别模型，以任意一张待识别图像为输入参数，对该待识别图像中包含的人体动作进行特征提取，获得该待识别图像的动作特征，并计算所述动作特征与所述动作识别模型中的标准动作的动作特征之间的特征相似度；

第一确定模块，用于若确定所述各待识别图像中，所述特征相似度大于等于预设的特征相似度阈值的待识别图像的数量超过预设数量阈值，则删除所述特征相似度小于所述特征相似度阈值的待识别图像，并保留所述特征相似度大于等于所述特征相似度阈值的待识别图像；

提示模块，用于若确定连续预设数张待识别图像的特征相似度小于预设的特征相似度阈值，则生成采集失败指令，并将所述采集失败指令发送给终端进行提示。

计算模块，用于分别计算所述各待识别图像中包含的像素点的数量；

第二确定模块，用于分别针对所述各待识别图像，若确定任意一张待识别图像中包含的像素点的数量大于预设像素点数量阈值，则确定该待识别图像满足预设的清晰度条件；

选择模块，用于从所述各待识别图像中保留满足清晰度条件的各待识别图像。

可选的，基于所述训练样本集训练图像识别模型时，训练模块具体用于：

可选的，对所述待识别对象进行特征提取，获得所述待识别对象的图像特征时，训练模块具体用于：

识别模块，用于分别针对所述各待识别图像，将任意一张待识别图像输入至训练完成的图像识别模型中，确定该待识别图像中包含的待识别对象的名称信息；

第三确定模块，用于根据所述各待识别图像的名称信息，确定所述图像识别模型的准确率；

校验模块，用于若确定所述准确率大于预设的准确率阈值，则确定所述图像识别模型训练成功。

可选的，第三确定模块具体用于：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述图像识别模型的训练方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像识别模型的训练方法的步骤。

本申请实施例中，获取图像采集设备采集到的各待识别图像，分别针对各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得待识别对象的位置信息，将各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中，基于训练样本集训练图像识别模型，并获得能够识别出待识别图像中包含的待识别对象的名称信息的图像识别模型，这样，在训练图像识别模型时，通过坐标检测模型对待识别图像中包含的待识别对象的坐标进行识别，从而能够自动获得待识别对象的位置信息，相比于现有技术中通过人工对待识别图像中包含的待识别对象的位置信息进行标注来说，减少了对待识别对象的位置信息标注的工作耗时和人工成本，从而能够减少图像识别模型训练的耗时，提高图像识别模型训练的效率。

附图说明

图1为现有技术中机械零售货柜的示意图；

图2为现有技术中AI智能货柜的示意图；

图3为本申请实施例中一种图像识别模型的训练方法的流程图；

图4为本申请实施例中生成动作检测模型方法的流程图；

图5为本申请实施例中的一种对待识别图像标注的方法的流程图；

图6为本申请实施例中一种图像识别模型的测试方法的流程图；

图7为本申请实施例中一种图像识别模型的训练方法的另一流程图；

图8为本申请实施例中图像识别模型的训练装置的结构示意图；

图9为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，随着移动支付的普及、新零售的兴起以及中国人工成本逐年增加，越来越多的无人的机械零售货柜被设置在人流量大的地区，例如，车站、写字楼、商场、旅游景区和市场等，机械零售货柜用于售卖零食和饮料，但是，由于机械零售货柜存在占地大、成本高、容量小、售卖商品种类受限的问题，因此，如何能够减小零售货柜的占地面积，且能够扩大售卖的商品种类的范围，成为了一个亟待解决的问题。

随着AI技术的发展，为了解决传统的机械零售货柜存在的占地大、成本高、容量少和售卖品类等有限问题，许多厂家推出了采用人工智能的计算机视觉技术来实现商品自动识别的AI智能货柜。

AI智能货柜由顶部的显示屏、内置的工控机、摄像头和冰柜组成，通过在货柜内的指定位置部署一些摄像头和传感器设备，当有人进行沟通时，通过多个角度的摄像头拍摄购物者拿去的商品，然后采用人工智能的计算机视觉技术对购物过程中的图像数据进行识别，最终识别出购物者所购买的商品类型和数量，然后自动调用微信或者支付宝进行结算的一整套系统。

因此，AI智能货柜是基于图像识别模型来完成对商品的识别的，但是，在训练现有技术中的图像识别模型时，需要通过人工对采集到的图像样本进行标注，因此，现有技术中这种模型训练方式的耗时非常长，且图像识别模型的训练效率不高。

为了解决上述问题，本申请实施例中提供了一种图像识别模型的训练方法，获取图像采集设备采集到的各待识别图像，分别针对各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得待识别对象的位置信息，将各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中，基于训练样本集训练图像识别模型，并获得能够识别出待识别图像中包含的待识别对象的名称信息的图像识别模型，这样，基于已训练的坐标检测模型确定待识别对象的位置信息，能够将现有技术中的人工确定位置信息的方式转换为自动方式，并且，还能够提高对待识别对象的位置信息标注的准确率，减少标注的工作耗时，从而提高对图像识别模型训练的效率。

基于上述实施例，参阅图3所示，为本申请实施例中一种图像识别模型的训练方法的流程图，具体包括：

步骤300：获取图像采集设备采集到的各待识别图像。

其中，每张待识别图像中包含有待识别对象。

本申请实施例中，当需要进行数据采集时，采集人员将AI智能柜从运营模式切换为采集模式，进而就能够启动图像采集设备来采集图像，图像采集设备将采集到的各待识别图像发送给后台服务器。

需要说明的，本申请实施例中的图像采集设备可以是设置在AI智能柜上的，后台服务器可以是直接设置在AI智能柜上的，也可以是设置在AI智能柜子之外的设备上的。

进一步地，在获取到图像采集设备采集到的各待识别图像之后，为了能够保证获得的待识别图像为有效图像，因此，还可以对待识别图像中所包含的人体动作进行识别，并判断待识别图像中包含的人体动作是否为标准动作，若待识别图中包含的人体动作为标准动作，则该待识别图像为有效图像，具体包括：

S1：分别针对各待识别图像，基于已训练的动作识别模型，以任意一张待识别图像为输入参数，对该待识别图像中包含的人体动作进行特征提取，获得该待识别图像的动作特征，并计算动作特征与动作识别模型中的标准动作的动作特征之间的特征相似度。

具体地，首先，训练动作识别模型。相关工作人员将采集过程拆解为各个采集动作之后，首先对相关工作人员实施的采集动作进行拍照，获得各采集动作对应的图像。然后，根据预设的图像变换方式，对各采集动作对应的图像进行图像变换，衍生获得采集动作的大量图像，并将衍生获得的采集动作的大量的图像添加至图像训练样本集，并基于深度学习算法和图像训练样本集训练动作识别模型，获得能够识别人体动作的动作识别模型。

其中，图像变换工具例如可以为开源的计算机视觉(Open Source ComputerVision Library，OpenCV)库。图像变换方式例如可以为放大、缩小、变换位置、变换背景等，本申请实施例中对此并不进行限制。

然后，基于已训练的动作识别模型，以任意一张待识别图像为输入参数，对该待识别图像中所包含的人体动作进行特征提取，获得该待识别图像中包含的人体动作对应的动作特征，读取动作识别模型中包含的标准动作的动作特征，并计算标准动作的动作特征与待识别图像中的人体动作的动作特征之间的特征相似度。最后，动作识别模型输出各待识别图像对应的特征相似度。

S2：若确定各待识别图像中，特征相似度大于等于预设的特征相似度阈值的待识别图像的数量超过预设数量阈值，则删除特征相似度小于特征相似度阈值的待识别图像，并保留特征相似度大于等于特征相似度阈值的待识别图像。

本申请实施例中，分别针对各待识别图像，判断任意一张待识别图像对应的特征相似度是否大于等于预设的特征相似度阈值。若确定该待识别图像对应的特征相似度大于等于预设的特征相似度阈值，则确定该待识别图像中检测到的人体动作与当前提示的标准动作一致。若确定该待识别图像对应的特征相似度小于预设的特征相似度阈值，则确定该待识别图像中检测到的人体动作与当前提示的标准动作不一致。

并且，在获得每一张待识别图像中检测到的人体动作是否与标准动作一致的结果之后，判断特征相似度大于等于预设的特征相似度阈值的待识别图像的数量是否超过预设的数量阈值，若确定超过数量阈值，则保留特征相似度大于等于特征相似度阈值的待识别图像，将小于特征相似度阈值的待识别图像删除。

例如，假设预设的数量阈值为7，共有10张待识别图像，第1、2、3、4、5、7、9和10张待识别图像对应的特征相似度大于预设的特征相似度阈值，第6和8张待识别图像对应的特征相似度小于预设的特征相似度阈值，则此时共有8张待识别图像是有效的，已经超过了预设的数量阈值。因此，保留第1、2、3、4、5、7、9和10张待识别图像，并将第6和8张待识别图像删除。

需要说明的是，本申请实施例中，在对待识别图像中的人体动作进行识别之前，首先需要相关工作人员对待识别对象的待识别图像采集过程进行深入研究的分析，将采集过程拆解为一个个能够使得普通的相关工作人员都可以执行的标准动作，并基于这些标准动作来训练动作识别模型。因此，在对待识别图像中的人体动作进行识别时，是将待识别图像中的人体动作与动作识别模型中的标准动作进行比对进而确定的，并且，当第一个标准动作检测通过之后，则继续对第二个标准动作进行检测，直至在动作识别模型中包含的各标准动作均检测完成。

例如，假设第一个标准动作为正握商品，若待识别图像中包含的人体动作也为正握商品时，则确定检测通过，并连续采集该动作，然后，会自动切换为第二个标准动作。

S3：若确定连续预设数张待识别图像的特征相似度小于预设的特征相似度阈值，则生成采集失败指令，并将采集失败指令发送给终端进行提示。

本申请实施例中，分别判断各待识别图像对应的特征相似度是否大于等于预设的特征相似度阈值，若确定超过预设数量阈值的待识别图像的特征相似度小于预设的特征相似度阈值，则这些超过预设数量阈值的待识别图像为连续的待识别图像，则确定采集失败，并生成采集失败指令，将采集失败指令发送给终端进行提示，以使用户能够重新采集。

例如，假设预设的数量阈值为3，共有10张待识别图像，且第3-6张待识别图像中，待识别图像对应的特征相似度小于预设的特征相似度阈值，则确定采集失败，并生成采集失败指令。

需要说明的是，在对各待识别图像进行坐标检测时，是基于保留的待识别图像实现的，并且，本申请实施例中对采集待识别图像的工具可称为采集工具，采集工具是用于帮助采集人员快速的按照规范的完成商品的图像数据采集，采集工具内置在AI智能柜中，当需要进行数据采集时，采集人员将AI智能柜从运营模式切换成采集模式，即可启动该采集工具。

进一步地，本申请实施例中，为了获得更加有效的待识别图像，图像采集设备在每一次采集到待识别图像之后，都将采集到的待识别图像上传至后台服务器，进而后台服务器基于已训练的动作识别模型，对待识别图像中包含的人体动作进行检测，若确定检测到的人体动作与当前提示的标准动作一致，则生成采集指令，并将采集指令发送给图像采集设备，以使图像采集设备根据采集指令继续进行图像采集，当提示的标准动作采集并检测完成之后，会自动化切换成第二个提示的标准动作，并开始采集，直至所有的标准动作均采集完成。

若确定检测到的人体动作与当前提示的标准动作不一致，则终止当前动作的采集工作，并重新发起该人体动作的数据采集。这样，能够保证采集到的每一张待识别图像都是有效的，进而根据有效的待识别图像对图像识别模型进行训练，能够提高模型训练的准确度，也就是说，首先将数据采集拆解成一个个商品拿取的标准动作，并在AI智能柜的屏幕上提示采集人员，采集人员根据提示在AI智能柜上采集商品的待识别图像，并在采集过程中会对采集人员的动作进行检测，当检测采集人员的动作不规范时，会提示采集人员，并要求采集人员重新按照规范采集当前这个动作的商品的图像。

例如，以采集250ML的听装可乐的待识别图像为例，首先将AI智能柜的运营模式切换为采集模式，此时，AI智能柜的屏幕上会提示采集人员，用手正握商品，那么采集人员就需要按照屏幕上提示的标准动作，将可乐从AI智能柜中拿进拿出，并通过AI智能柜中内置的四个摄像头拍摄采集人员拿进拿出可乐的待识别图像，并且，此时后台服务器会通过AI智能柜的摄像头来检测采集人员拿取可乐的人体动作是否为正握商品，如果确定该人体动作为正握商品，则确定该人体动作检测通过，并连续采集该人体动作1分钟，在采集完成之后，AI智能柜会自动化切换成第二个用两个手指夹住可乐的标准动作，并在AI智能柜的屏幕上提示采集人员，在采集该动作的过程中，如果检测到采集人员的人体动作为手握商品，此时会终止当前这个人体动作的图像采集，并且在屏幕上提示采集人员，然后重新进行该人体动作的采集工作。

需要说明的是，由于AI智能柜采用的人工智能的计算机视觉技术，该技术的本质是通过对待识别图像进行分析，从而识别出待识别图像中所包含的待识别对象，该技术存在周边图像环境影响的情况，通过将图像采集设备安装在AI智能柜中，这样就保障了生成环境跟运营环境一致，排除了环境对计算机视觉的影响，能够提高在训练图像识别模型时的准确度。

步骤310：分别针对各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得待识别对象的位置信息。

本申请实施例中，在获得各待识别图像之后，分别针对各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，对该待识别图像进行物体检测，若确定检测到待识别图像中包含有物体，即待识别对象，则通过矩形框对待识别对象进行标注，并根据预设的坐标系，识别出待识别对象在该待识别图像中的坐标，获得待识别对象的位置信息。

例如，假设待识别对象为商品，待识别图像为商品的照片，则分别针对各张商品的照片，执行以下操作：基于已训练的坐标检测模型，以任意一张商品的照片为输入参数，对照片中包含的商品进行识别，通过一个矩形框将商品标注出来，并获得商品在照片中的位置坐标，进而就能够将商品的位置标记出来，并生成一个包含有商品的位置信息的标注文件。

其中，位置信息表征矩形框的左上角、右上角、左下角和右下角相对于照片左上角原点的x、y轴坐标值。

进一步地，本申请实施例中，为了保证采集到的待识别图像是有效的，因此，对各待识别图像进行坐标检测之前，先对待识别图像的清晰度进行检测，将不满足清晰度条件的待识别图像删除，具体包括：

S1：分别计算各待识别图像中包含的像素点的数量。

本申请实施例中，读取各待识别图像，并分别计算各待识别图像中包含的像素点的数量。

例如，假设待识别图像为商品的照片，则读取每一张待标注的商品的照片，并对读取的商品的照片进行校验，计算商品的照片中所包含的像素点的数量。

S2：分别针对各待识别图像，若确定任意一张待识别图像中包含的像素点的数量大于预设像素点数量阈值，则确定该待识别图像满足预设的清晰度条件。

本申请实施例中，分别针对各待识别图像，判断任意一张待识别图像中包含的像素点的数量是否大于预设的像素点数量阈值，若确定该待识别图像的像素点的数量大于预设的像素点数量阈值，则确定该待识别图像满足预设的清晰度要求，若确定该待识别图像的像素点的数量小于等于预设的像素点数量阈值，则确定该待识别图像不满足预设的清晰度要求。

例如，假设预设的像素点数量阈值为606*470，若确定某一待识别图像中包含的像素点数量为600*400，则确定该待识别图像不满足预设的清晰度要求。

S3：从各待识别图像中保留满足清晰度条件的各待识别图像。

本申请实施例中，将各待识别图像中满足清晰度条件的各待识别图像保留，并删除不满足清晰度条件的各待识别图像。

进一步地，为了保证待识别图像的有效性，在对待识别图像的清晰度进行校验之后，还会对待识别图像中是否包含有商品进行检验，具体地，基于已训练的物体检测模型，分别以各待识别图像为输入参数，检测任意一张待识别图像中是否包含有商品，并将未包含有商品的待识别图像删除，仅保留满足清晰度条件，且包含有商品的待识别图像。

步骤320：将所述各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中。

其中，对象标签为基于待识别图像中包含的待识别对象的图像名称确定的。

本申请实施例中，建立训练样本集，并将各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中。

其中，预设的对象标签表征待识别图像中包含的待识别对象的名称。

例如，假设待识别图像为包含有可乐的图像，那么，待识别图像中包含的待识别对象的预设的对象标签为“可乐”。

步骤330：基于训练样本集训练图像识别模型，并获得训练完成的图像识别模型。

其中，图像识别模型用于识别待识别图像中包含的待识别对象的名称信息。

本申请实施例中，在获得训练样本集之后，基于获得的训练样本集来训练图像识别模型，并获得能够识别出待识别图像所包含的待识别对象的名称信息的图像识别模型。

下面对本申请实施例中基于训练样本集训练图像识别模型的步骤进行详细阐述，具体包括：

分别针对训练样本集中的各待识别图像，将任意一张待识别图像输入至初始的图像识别模型中，识别该待识别图像中包含的待识别对象，并对待识别对象进行特征提取，获得待识别对象的图像特征，根据图像特征，确定待识别对象的名称信息，若确定名称信息与对象标签不相同，则调整初始的图像识别模型的参数信息。

本申请实施例中，首先，将任意一张待识别图像输入至初始的图像识别模型中，通过外接矩形框，标注出待识别对象在待识别图像中的位置，并截取外接矩形框对应的图像，从而识别该待识别图像中包含的待识别对象。

然后，对截取获得的包含有待识别对象的图像进行特征提取，从而能够获得待识别对象的图像特征，下面对本申请实施例中对待识别对象进行特征提取，获得待识别对象的图像特征的步骤进行详细阐述，具体包括：

S1：对待识别对象的外观信息进行特征提取，获得外观特征。

S2：对待识别对象的颜色信息进行特征提取，获得颜色特征。

S3：对待识别对象中包含的文字信息进行特征提取，获得文字特征。

S4：对待识别对象的亮度信息进行特征提取，获得亮度特征。

S5：将外观特征、颜色特征、文字特征和亮度特征进行特征合并，获得待识别对象的图像特征。

然后，根据图像特征确定该待识别图像中包含的待识别对象的名称信息。

最后，将识别获得的名称信息与对象标签进行比对，判断识别获得的名称信息是否与预先标注的对象标签相同，若确定名称信息与预先标注的对象标签相同，则确定该初始的图像识别模型的识别结果是正确的，无需对初始的图像识别模型的参数进行调整，若确定名称信息与预先标注的对象标签不相同，则确定该初始的图像识别模型的识别结果不正确，则需要对初始的图像识别模型的参数进行调整，从而实现对初始的图像识别模型进行训练的过程。

需要说明的是，在基于训练样本集训练图像识别模型时，需要将训练样本集中的每一张待识别图像均输入至初始的图像识别模型中，从而训练初始的图像识别模型，直至训练样本集中的所有待识别图像均识别完成，则停止训练，获得训练完成的图像识别模型。

进一步地，在训练获得图像识别模型之后，为了保证训练获得的图像识别模型的准确度，还可以对训练获得的图像识别模型进行准确度验证，对训练平台训练图像识别模型进行自动测试，当图像识别模型对该待识别图像的识别的准确性大于预设的阈值时，则判断该图像识别模型是合格的模型，并将图像识别模型提供给AI智能柜的商家进行运营，具体包括：

S1：分别针对各待识别图像，将任意一张待识别图像输入至训练完成的图像识别模型中，确定该待识别图像中包含的待识别对象的名称信息。

本申请实施例中，分别针对各待识别图像，将任意一张待识别图像输入至训练完成的图像识别模型中，从而确定该待识别图像中包含的待识别对象的名称信息。

S2：根据各待识别图像的名称信息，确定图像识别模型的识别准确率。

具体地，执行步骤S2时，具体包括：

A1：分别针对各待识别图像，若确定任意一张待识别图像的名称信息与预先标注的名称信息相同，则确定该待识别图像的识别结果为正确，若确定该待识别图像的名称信息与预先标注的名称信息不同，则确定该待识别图像的识别结果为错误。

本申请实施例中，首先，训练人员会预先设置待识别对象的真实的名称信息和图像识别图像的准确率阈值，并将该待识别对象用于训练的训练样本集中的待识别图像和图像识别模型导入测试平台，然后，测试平台自动加载图像识别模型，分别针对各待识别图像，判断任意一张待识别图像的名称信息与预先标注的名称信息是否相同，若确定待识别图像的名称信息与预先标注的名称信息相同，则确定该待识别图像的识别结果为正确，若确定该待识别图像的名称信息与预先标注的名称信息不相同，则确定该待识别图像的识别结果为错误。

例如，假设待识别图像的预先标注的名称信息为可乐，识别出的名称信息也为可乐，则确定该待识别图像的识别结果为正确。

A2：计算各待识别图像中，识别结果为正确的待识别图像的数量。

本申请实施例中，统计各待识别图像中识别结果为正确的待识别图像的数量，并且，统计各待识别图像中识别结果为错误的待识别图像的数量。

A3：根据识别结果为正确的待识别图像的数量与各待识别图像的数量之间的比值，确定图像识别模型的准确率。

本申请实施例中，将识别结果为正确的待识别图像的数量除以各待识别图像的数量，确定识别结果为正确的待识别图像的数量与各待识别图像的数量之间的比值，并将确定出的比值作为图像识别模型的识别准确率。

S3：若确定识别准确率大于预设的准确率阈值，则确定图像识别模型训练成功。

本申请实施例中，判断计算出的图像识别模型的准确率是否大于预设的准确率阈值，若确定准确率大于预设的准确率阈值，则确定图像识别模型训练成功，进而就能够将训练完成的图像识别模型以及AI智能售货柜提供给商家进行运营，若确定准确率小于或等于预设的准确率阈值，则确定图像识别模型训练失败，则需要重新进行图像采集、数据标注、图像识别模型训练、图像识别模型测试等步骤，最终训练出符合预期效果的图像识别模型。

本申请实施例中，提供一种低成本的图像识别模型的训练方法，旨在解决人工智能的计算机视觉领域的图像识别模型训练过程中遇到的对应采集人员要求高、耗时时间长、成本高的问题，从而实现低成本高效率地训练出图像识别模型，通过在AI智能柜的图像识别模型训练流程映入，可缩短图像识别模型的训练时间，可将时间跨度从改造前的1周左右时间缩短到1天时间，人工投入从改造前6日降低到改造后的20分钟。

并且，采集人员从需要经过专门培训的人员降低到没有任何配置的人员都可以进行图像数据采集，降低了图像数据采集对于人员的要求，减少了图像识别模型训练的人工投入、缩短了待识别图像的采集周期、大幅降低了图像识别模型训练的成本。

基于上述实施例，参阅图4所示，为本申请实施例中生成动作检测模型方法的流程图，具体包括：

步骤400：将采集到的图像通过预设的图像变换方式衍生出大量的图像。

本申请实施例中，当相关人员将采集过程拆解成一个个采集的人体动作之后，先对人体动作进行采集，然后通过预设的图像变换工具以拍好的动作照片，比如放大、缩小、变换位置、变换背景等方式衍生出采集动作的大量照片。

步骤410：基于深度学习算法，将大量的图像和对应的动作标签添加至训练样本集中，并基于训练样本集对动作识别模型进行训练。

步骤420：生成能够识别出人体动作的动作识别模型。

本申请实施例中，基于训练样本集对动作识别模型进行训练，并生成能够识别出人体动作的动作识别模型。

步骤430：将动作识别模型部署到AI智能柜中。

本申请实施例中，将训练完成的动作识别模型部署到AI智能柜中，AI智能柜就具备对人体动作进行识别的能力。

步骤440：调用AI智能柜的摄像头进行拍摄，获得待识别图像。

步骤450：基于已训练的动作识别模型，对待识别图像中包含的人体动作进行识别。

步骤460：判断待识别图像中包含的人体动作与当前提示的标准动作是否一致，若是，则继续执行步骤440，若否，则执行步骤470。

本申请实施例中，基于已训练的动作识别模型，以待识别图像为输入参数，对待识别图像中包含的人体动作进行特征提取，获得待识别图像的动作特征，并计算动作特征与动作识别模型中的标准动作的动作特征之间的特征相似度，并判断特征相似度是否大于预设的特征相似度阈值，若确定特征相似度是否大于预设的特征相似度阈值，则继续确定采集到的人体动作跟当前提示的标准动作一致，并继续进行数据采集，若确定特征相似度是否小于等于预设的特征相似度阈值，则确定采集到的人体动作跟当前提示的标准动作不一致，则终止当前该动作的数据采集工作，并重新发起该采集动作的数据采集。

步骤470：终止当前拍摄，并生成采集失败指令，将采集失败指令发送给终端进行提示。

现有技术中，在进行包含有商品的待识别图像的采集时，需要模拟用户购物过程中的拿去商品的手势，这就意味着需要模拟正常和非正常的拿去商品的手势，并且模拟地越全面，基于这些待识别图像训练出来的图像识别模型的准确度越高，因此，这就要求采集人员需要经过专门的培训之后才能进行图像采集工作，为了尽量多模拟购物者购物时拿取商品的行为，对于采集人员要求很高，目前一般只有经过培训的人员才能完成该工作。

并且，现有技术中需要将商品寄送到厂家以后，专业的采集人员才能够进行图像采集工作，但是，由于需要商家将商品实物发货到厂家，按照目前最快的同城物流来计算，最快也需要1天时间，普遍在3天左右，如果商家是在国外，那么寄送时间会更长，为了解决上述问题，本申请实施例中提供了一种动作采集的方法，不需要经过专业的培训之后的采集人员来实现动作采集，普通的采集人员也可以实现动作采集，降低了人员要求。

另外，由于人工智能的计算机视觉是基于物体的图像进行分析，从而实现对商品的识别，为了降低周边环境对识别的准确度的影响，需要在数据采集阶段尽量能够接近真实使用环境，这就意味着需要在真实运营的AI智能柜中采集商品的图像数据，而现有技术中的方式由于需要专业的采集人员来采集图像，因此，需要将AI智能柜送至厂家进行模型训练，而厂家无法模拟出真实的使用环境，因此，通过本申请实施例中的方法，无需专业的采集人员就能够完成图像采集工作，可以将AI智能柜设置在真实使用环境中，并采集到真实使用环境的图像，能够降低周边环境对识别的准确度。

基于上述实施例，参阅图5所示，为本申请实施例中的一种对待识别图像标注的方法的流程图，具体包括：

步骤500：读取需要进行标注的待识别图像。

步骤510：对待识别图像的清晰度进行校验，并判断待识别图像中是否包含有待识别对象，若是，则执行步骤520，若否，则执行步骤540。

本申请实施例中，在对待识别图像的清晰度进行校验时，计算待识别图像中包含的像素点的数量，若确定待识别图像中包含的像素点的数量大于预设像素点数量阈值，则确定该待识别图像满足预设的清晰度条件。

步骤520：基于已训练的坐标检测模型，以待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得待识别对象的位置信息。

本申请实施例中，将所有采集的待识别图像标注完成后，会保留下符合要求的待识别图像和标注文件，然后由采集人员将标注好的各待识别图像和对应的标注文件导入AI训练平台进行通过深度学习训练出图像识别模型。

其中，对所有采集的待识别图像进行标注，指的是确定出待识别图像中包含的待识别对象在该待识别图像中的位置信息。

步骤530：将位置信息生成标注文件。

步骤540：删除该待识别图像。

现有技术中，一台AI智能柜最少有4个以上的摄像头，按照一个摄像头1s采集2张照片，按照采集20分钟计时，预计9600张照片，按照一个人一天标注2000张照片计算，预计需要5天，因此现有技术中这种人工标注的方式的效率不高，且容易出现错误，为了解决上述问题，本申请实施例中采用坐标检测模型来对待识别图像进行标注，无需任何人工，可在10分钟以内完成任何一种商品的待识别图像的标注工作，减少了图像标注的工作耗时和人工成本。

基于上述实施例，参阅图6所示，为本申请实施例中一种图像识别模型的测试方法的流程图，具体包括：

步骤600：预先设定图像识别模型的准确率阈值和待识别对象的真实的名称信息。

步骤610：分别针对各待识别图像，将任意一张待识别图像输入至训练完成的图像识别模型中，确定该待识别图像中包含的待识别对象的名称信息。

步骤620：判断待识别图像的名称信息与预先标注的名称信息是否相同，若是，则执行步骤630，若否，则执行步骤640。

步骤630：识别正确计数器。

步骤640：识别失败计数器。

需要说明的是，循环执行步骤610-640，直至所有的待识别图像均执行完成，则执行步骤650。

步骤650：根据识别结果为正确的待识别图像的数量与各待识别图像的数量之间的比值，确定图像识别模型的准确率。

步骤660：判断准确率大于预设的准确率阈值，若是，则执行步骤670，若否，则执行步骤680。

步骤670：确定图像识别模型训练成功。

步骤680：确定图像识别模型训练失败。

现有技术中，当图像识别模型训练完成之后，需要将该图像识别模型部署到一台AI智能柜中，然后人工去模拟购物过程，通过对比每次购物过程中商品识别的准确性来判断图像识别模型的识别准确率，预计需要1日的测试时间，并且，由于测试需要人工模拟购物流程来进行测试，在测试过程中还需要模拟多种商品组合、异常情况等各个方面进行测试，因此，现有技术中这种模型测试方法效率不高、耗时时间长，且测试成本高，为了解决上述问题，本申请实施例中，无需任何人工，就能够在30分钟内自动完成图像识别模型的准确性测试并输出结果，从而省去了图像识别模型人工测试的工序，节省了成本。

基于上述实施例，下面采用一个具体的例子来阐述本申请实施例中的图像识别模型训练方法，假设待识别图像为商品的图像，参阅图7所示，为本申请实施例中一种图像识别模型的训练方法的另一流程图，具体包括：

步骤700：将采集工具设置在AI智能柜中。

本申请实施例中，采集工具用于帮助商家的运营人员快速地按照预先设定的规则来完成商品的图像采集，采集工具中包含有图像采集过程中拆解成一个个能够让普通的商家的运营人员都可以执行的动作，采集工具具备对采集动作的识别能力。

因此，将采集工具预先安装至AI智能柜中，需要采集商品的图像时，由商家的运营人员将AI智能柜中的采集工具打开。

步骤710：商家的运营人员按照AI智能柜的屏幕上提示的标准动作和步骤，完成商品的图像数据采集。

本申请实施例中，商家的运营人员将需要采集的商品的属性信息输入至AI智能柜中，并按照AI智能柜屏幕上提示的标准动作和步骤完成该商品的图像采集。

其中，属性信息中至少包括商品的名称信息、商品标识、商品重量信息等，本申请实施例中对此并不进行限制，可以根据业务的需要进行调整。

步骤720：将获取到的商品的图像上传至后台服务器。

本申请实施例中，当商品的图像采集完成之后，将商品的图像和商品的属性信息上传至后台服务器。

步骤730：判断商品的图像中，有效的图像的数量是否大于预设的数量阈值，若是，则执行步骤740，若否，则重新执行步骤710。

本申请实施例中，后台服务器将采集到的商品的图像进行自动标注，确定出商品的各图像的位置信息，在对商品的各图像标注完成之后，判断该商品有效的图像的数量是否大于预设的数量阈值，若确定该商品有效的图像数量大于预设的数量阈值，则训练图像识别模型，若确定该商品有效的图像数量小于预设的数量阈值，则返回步骤710，继续采集该商品的图像，直至该商品的有效图像数量大于预设的数量阈值。

步骤740：将商品的图像、对应的位置信息和标注添加至训练样本集，并基于训练样本集，训练图像识别模型。

本申请实施例中，标注工具自动将标注好的商品的图像自动上传AI训练平台，由AI训练平台通过深度学习算法训练出图像识别模型，并将训练好的图像识别模型和标注好的商品的图像自动发送给测试工具。

步骤750：测试工具对AI模型的识别准确性进行测试。

本申请实施例中，测试工具先将图像识别模型进行加载，然后通过对将该商品标注通过的图像进行识别，然后根据图像识别模型的识别结果和商品的真实信息进行比对，从而判断AI模型对商品识别的准确率。

步骤760：判断准确率是否大于等于预设的准确率阈值，若是，则执行步骤770，若否，则执行步骤710。

本申请实施例中，如果图像识别模型对商品的识别准确率大于预设的阈值，则认为图像识别模型训练成功，否则从重新执行步骤710的流程。

步骤770：存储训练好的图像识别模型，并提供给商家的运营人员更新到AI智能柜进行运营。

本申请实施例中，如果图像识别模型已经训练成功，系统会将训练好的图像识别模型进行存储，并且提供给商家下载，由商家升级到需要售卖该商品的AI智能柜中。

本申请实施例中，经过对现有的AI智能柜的AI模型训练流程采用以上技术方案改造后，时间跨度从改造前的1周左右时间缩短到1天时间，人工投入从改造前6人日降低到改造后的20分钟；采集人员从需要经过专门培训的人员降低到没有任何配置的人员都可以进行图像数据采集；降低了图像数据采集对于人员的要求、减少了AI模型训练的人工投入、缩短了商品图像数据采集周期、大幅降低了AI模型训练的成本。

基于同一发明构思，本申请实施例中还提供了一种图像识别模型的训练装置，该图像识别模型的训练装置例如可以是前述实施例中的后台服务器，该图像识别模型的训练装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图8所示，本申请实施例中图像识别模型的训练装置的结构示意图，具体包括：

获取模块800，用于获取图像采集设备采集到的各待识别图像，其中，每张待识别图像中包含有待识别对象；

标注模块801，用于分别针对所述各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数，识别出待识别对象在该待识别图像中的坐标，获得所述待识别对象的位置信息；

添加模块802，用于将所述各待识别图像、对应的位置信息和预设的对象标签添加至训练样本集中，其中，所述对象标签为基于待识别图像中包含的待识别对象的图像名称确定的；

训练模块803，用于基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型，其中，所述图像识别模型用于识别待识别图像中包含的待识别对象的名称信息。

特征提取模块804，用于分别针对所述各待识别图像，基于已训练的动作识别模型，以任意一张待识别图像为输入参数，对该待识别图像中包含的人体动作进行特征提取，获得该待识别图像的动作特征，并计算所述动作特征与所述动作识别模型中的标准动作的动作特征之间的特征相似度；

第一确定模块805，用于若确定所述各待识别图像中，所述特征相似度大于等于预设的特征相似度阈值的待识别图像的数量超过预设数量阈值，则删除所述特征相似度小于所述特征相似度阈值的待识别图像，并保留所述特征相似度大于等于所述特征相似度阈值的待识别图像；

提示模块806，用于若确定连续预设数张待识别图像的特征相似度小于预设的特征相似度阈值，则生成采集失败指令，并将所述采集失败指令发送给终端进行提示。

计算模块807，用于分别计算所述各待识别图像中包含的像素点的数量；

第二确定模块808，用于分别针对所述各待识别图像，若确定任意一张待识别图像中包含的像素点的数量大于预设像素点数量阈值，则确定该待识别图像满足预设的清晰度条件；

选择模块809，用于从所述各待识别图像中保留满足清晰度条件的各待识别图像。

可选的，基于所述训练样本集训练图像识别模型时，训练模块803具体用于：

可选的，对所述待识别对象进行特征提取，获得所述待识别对象的图像特征时，训练模块803具体用于：

识别模块810，用于分别针对所述各待识别图像，将任意一张待识别图像输入至训练完成的图像识别模型中，确定该待识别图像中包含的待识别对象的名称信息；

第三确定模块811，用于根据所述各待识别图像的名称信息，确定所述图像识别模型的准确率；

校验模块812，用于若确定所述准确率大于预设的准确率阈值，则确定所述图像识别模型训练成功。

可选的，第三确定模块811具体用于：

基于上述实施例，参阅图9所示为本申请实施例中电子设备的结构示意图。

本申请实施例提供了一种电子设备，该电子设备可以包括处理器910(CenterProcessing Unit，CPU)、存储器920、输入设备930和输出设备940等，输入设备930可以包括键盘、鼠标、触摸屏等，输出设备940可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器920可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器910提供存储器920中存储的程序指令和数据。在本申请实施例中，存储器920可以用于存储本申请实施例中任一种图像识别模型的训练方法的程序。

处理器910通过调用存储器920存储的程序指令，处理器910用于按照获得的程序指令执行本申请实施例中任一种图像识别模型的训练方法。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的图像识别模型的训练方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

若确定连续预设数张待识别图像的特征相似度小于预设的特征相似度阈值，则生成采集失败指令，并将所述采集失败指令发送给终端进行提示；

基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型，其中，所述图像识别模型用于识别待识别图像中包含的待识别对象的名称信息，所述图像识别模型的识别准确率大于预设的阈值。

2.如权利要求1所述的方法，其特征在于，分别针对所述各待识别图像，基于已训练的坐标检测模型，以任意一张待识别图像为输入参数之前，进一步包括：

分别计算所述各待识别图像中包含的像素点的数量；

3.如权利要求1所述的方法，其特征在于，基于所述训练样本集训练图像识别模型，具体包括：

4.如权利要求3所述的方法，其特征在于，对所述待识别对象进行特征提取，获得所述待识别对象的图像特征，具体包括：

5.如权利要求1-4任一项所述的方法，其特征在于，基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型之后，进一步包括：

6.如权利要求5所述的方法，其特征在于，根据所述各待识别图像的名称信息，确定所述图像识别模型的准确率，具体包括：

7.一种图像识别模型的训练装置，其特征在于，包括：

提示模块，用于若确定连续预设数张待识别图像的特征相似度小于预设的特征相似度阈值，则生成采集失败指令，并将所述采集失败指令发送给终端进行提示

训练模块，用于基于所述训练样本集训练图像识别模型，并获得训练完成的图像识别模型，其中，所述图像识别模型用于识别待识别图像中包含的待识别对象的名称信息，所述图像识别模型的识别准确率大于预设的阈值。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。