CN113869211B

CN113869211B - 图像自动标注和标注质量自动评价方法及系统

Info

Publication number: CN113869211B
Application number: CN202111145155.0A
Authority: CN
Inventors: 庞明锋; 李攀星; 庞楼阳
Original assignee: Hangzhou Fortune Ark Technology Co ltd
Current assignee: Hangzhou Fortune Ark Technology Co ltd
Filing date: 2021-09-28
Publication date: 2024-07-02
Anticipated expiration: 2041-09-28

Abstract

本发明公开了一种图像自动标注和标注质量自动评价方法及系统，其中方法包括：从拿取商品的视频帧图像中提取有效帧，并在有效帧中裁剪出商品拿取区域图像；将有效帧的原始图像和裁剪图像输入到目标检测模型中，得到对两张图像的目标检测结果；根据目标检测结果计算原始图像和裁剪图像中的两个标注框框选的内容为物体的概率均值以及两个框选区域的交并比；根据交并比修正原始图像中的标注框；模糊检测和分类识别模型对修正后的标注框框选的区域进行模糊检测和物体分类识别，得到模糊检测和物体分类识别结果；标注质量评价模型以概率均值、交并比和模糊检测和分类识别结果为输入，对图像标注质量进行评价。本发明实现了对商品图像的自动化标注。

Description

图像自动标注和标注质量自动评价方法及系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种图像自动标注和标注质量自动评价方法及系统。

背景技术

无人售货柜的无人售货方法为：拍摄消费者拿取商品的图像，预先训练好的商品识别模型从所拍摄的商品图像中识别出消费者拿取的商品种类及数量，然后根据识别到的商品种类、数量进行计费结算。但商品识别模型的训练需要大量的标注图像作为训练样本。目前，对于商品图像的商品类别标注主要采用以下两种方法：

一、全人工标注

人工对历史采集的商品图像进行商品类别标注。但人工标注的准确性很大程度上依赖于标注人员的标注经验，不同的标注人员对于图像内容的理解往往存在差异，标注准确性不高。最为关键的是，为保证商品识别模型的识别准确度，需要大量的训练样本做支撑，作为训练样本的商品图像数据量可能达到几个TB，如此庞大的数据量若全部需要进行人工标注，相当费时费力，也很容易出错，标注结果的准确性也难以得到有效保证。

二、半监督自动标注

使用半监督标注方法对商品图像进行自动标注后，再通过人工检验方式对机器标注后的商品图像进行准确性核验，人为过滤掉机器标注不准确的商品图像。这种半监督标注方法虽一定程度上缓解了人工标注压力，但现有的半监督标注方法的标注精度不高，后续还是需要人工逐帧对机器标注的质量进行核验，并未根本性解决人工标注效率低下，准确性不高的问题。

发明内容

本发明以提高无人售货柜商品图像的图像标注质量，并提高图像标注效率为目的，提供了一种图像自动标注和标注质量自动评价方法和系统。

为达此目的，本发明采用以下技术方案：

提供一种图像自动标注和标注质量自动评价方法，包括：

步骤S1，从采集的消费者从无人售货柜拿取商品的连续视频帧图像中提取出待进行图像标注的有效帧，并在所述有效帧中裁剪出指定大小的商品拿取区域图像，得到裁剪图像；

步骤S2，将所述有效帧的原始图像以及所述裁剪图像分别输入到预先训练的第一目标检测模型和第二目标检测模型中，所述第一目标检测模型输出关联所述原始图像的第一目标检测结果，所述第二目标检测模型输出关联所述裁剪图像的第二目标检测结果；

步骤S3，根据所述第一目标检测结果和所述第二目标检测结果计算所述第一目标检测模型和所述第二目标检测模型分别在所述原始图像中和所述裁剪图像中框选出的标注框中的内容为物体的概率的概率均值P_mean，以及计算所述第一目标检测模型和所述第二目标检测模型分别在所述原始图像和所述裁剪图像中框选出的区域面积的交并比P_IOU；

步骤S4，根据所述交并比P_IOU对所述原始图像的标注框进行修正，并以修正后的所述标注框所框选的区域为裁切对象，从所述有效帧的所述原始图像中裁切出待进行图像标注的商品区域图像；

步骤S5，将所述商品区域图像输入到预先训练的模糊检测和分类识别模型中，模型输出所述商品区域图像中的物体为对应所属商品类别的类别概率P_class、为图像背景的概率P_bg以及图像模糊的概率P_blur；

步骤S6，将所述步骤S3计算的所述交并比P_IOU、所述概率均值P_mean、以及所述步骤S5 计算的关联所述商品区域图像的所述类别概率P_class、背景概率P_bg、图像模糊概率P_blur输入到预先训练好的标注质量评价模型中，模型输出对所述有效帧的图像标注的质量评价结果。

作为本发明的一种优选方案，所述步骤S1中，从连续视频帧图像中提取出所述有效帧的方法包括：

步骤S11a，将连续两帧的所述视频帧图像从RGB图像转换为灰度图像，并利用帧间差分法得到当前帧和当前帧的上一帧所述视频帧图像之间的差分图像，记为D(x，y)；

步骤S12a，对图像D(x，y)进行腐蚀和膨胀处理，去除所述图像D(x，y)中的噪声，得到图像D(x，y)′；

步骤S13a，在所述图像D(x，y)′中以外接矩形方式框选出运动变化区域；

步骤S14a，计算每个所述运动变化区域的区域面积，并过滤掉区域面积异常的所述运动变化区域；

步骤S15a，判断经过滤保留的所述图像D(x，y)′中的所述运动变化区域的数量是否大于预设的数量阈值，

若是，则判定所述当前帧为所述有效帧；

若否，则判定所述当前帧为非所述有效帧。

作为本发明的一种优选方案，所述数量阈值为4。

作为本发明的一种优选方案，从所述有效帧中裁剪出所述裁剪图像的方法包括：

步骤S11b，计算经过滤保留的每个所述运动变化区域的外接矩形的中心位点坐标，记为 (x_i，y_i)，x_i、y_i分别表示第i个所述运动变化区域的所述中心位点的横轴坐标和纵轴坐标；

步骤S12b，对框选每个所述运动变化区域的所有所述外接矩形的中心位点坐标进行求和平均计算，得到裁剪区域的中心位点坐标，记为(x_center，y_center)；

步骤S13b，在所述有效帧中以坐标(x_center，y_center)为所述裁剪图像的中心位置，裁剪出指定大小的所述裁剪图像。

作为本发明的一种优选方案，所述步骤S2中，采取多分辨率的目标检测结果融合，将所述有效帧从原始1280*720分辨率调整为746*448分辨率大小后输入到所述第一目标检测模型中；

将所述裁剪图像的分辨率调整为704*704输入到所述第二目标检测模型中。

作为本发明的一种优选方案，所述均值概率P_mean通过以下公式(1)计算而得：

公式(1)中，P_join0表示所述第一目标检测模型判定在所述原始图像中框选出的内容为物体的概率；

P_join1表示所述第一目标检测模型判定在所述裁剪图像中框选出的内容为物体的概率；

P_join0通过以下公式(2)计算而得：

P_join0＝P_class0×P_obj0 公式(2)

公式(2)中，P_class0表示所述第一目标检测模型在所述原始图像中框选出的内容为对应物体类别的概率；

P_obj0表示所述第一目标检测模型对所述原始图像的目标检测结果的第一置信度；

P_join1通过以下公式(3)计算而得：

P_join1＝P_class1×P_obj1 公式(3)

公式(3)中，P_class1表示所述目标检测模型在所述裁剪图像中框选出的内容为对应物体类别的概率；

P_obj1表示所述第二目标检测模型对所述裁剪图像的目标检测结果的第二置信度。

作为本发明的一种优选方案，所述步骤S4中，根据所述交并比P_IOU对所述原始图像的标注框进行修正的方法为：

判断所述交并比P_IOU是否小于0.7，

若是，则以所述概率P_join0、所述概率P_join1中概率大者对应的标注框为修正后的标注框；

若否，则通过以下公式(4)重新计算标注框以对所述原始图像的标注框进行修正：

公式(4)中，x表示重新计算的标注框的中心位点在所述原始图像中的横轴坐标；

x₀表示未修正前的所述原始图像中的第一标注框的中心位点的横轴坐标；

x₁表示所述裁剪图像中的第二标注框的中心位点的坐标转换到原始图像坐标系下的横轴坐标；

y表示重新计算的标注框的中心位点在所述原始图像中的纵轴坐标；

y₀表示未修正前的所述原始图像中的第一标注框的中心位点在所述原始图像中的纵轴坐标；

y₁表示所述裁剪图像中的第二标注框的中心位点的坐标转换到所述原始图像的坐标系下的纵轴坐标；

w表示重新计算的标注框在所述原始图像中的宽度；

w₀表示未修正前的所述原始图像中的第一标注框的宽度；

w₁表示所述裁剪图像中的第二标注框的宽度；

h表示重新计算的标注框在所述原始图像中的高度；

h₀表示未修正前的所述原始图像中的第一标注框的宽度；

h₁表示所述裁剪图像中的第二标注框的高度。

作为本发明的一种优选方案，所述步骤S5中，将裁切得到的所述商品区域图像调整为 256*256分辨率大小后输入给所述模糊检测和分类识别模型。

作为本发明的一种优选方案，训练所述目标检测模型的方法包括：

步骤S21，将零售商品分为10大类，分别为瓶装、长条状袋子、薄片袋子、正方形袋子、真空包装、长条状盒子、正方形盒子、罐装、桶装和水果包装，并获取每类商品的至少500 张商品图像，每张商品图像的原始分辨率为1280*720；

步骤S22，使用labelImg图像标注工具采用矩形框框选方式在每张所述商品图像中人为框选出商品所在区域并标注出商品类别标签；

步骤S23，以标注框的中心位点为裁剪图像的中心，从每张所述商品图像中裁剪出分辨率为704*704的所述裁剪图像；

步骤S24，将至少5000张原始分辨率为1280*720的每张所述商品图像缩放为746*448 分辨率，并将至少5000张分辨率为746*448的所述商品图像以及从每张原始的所述商品图像中以标注框为中心裁剪下来的分辨率为704*704的至少5000张所述裁剪图像分别输入到 YOLO-v4神经网络中进行训练，得到所述第一目标检测模型和第二目标检测模型。

作为本发明的一种优选方案，所述步骤S5中的所述模糊检测和分类识别模型通过以下方法步骤训练而得：

步骤S51，将人为标注为模糊、清晰的至少各1000张商品图像输入到改进的并联型resnet50神经网络中，通过所述并联型resnet50神经网络中的第一训练支路，训练成形模糊清晰二分类模型；

使用手机对待标注的商品按照正、背、左、右分别以摄像头与商品成正视垂直成90度、俯视成60度、俯视成30度，进行拍照，并对商品特殊商标部分拍摄3张，共计15张图像。对图像进行大小缩放至320×320分辨率大小，并沿着中心、左上、左下、右上、右下以256*256 的大小进行裁剪，并对裁剪之后的进行水平翻转、以60度、30度进行旋转，加入随机噪声、颜色扰动和随机加入噪声。这种都是常用的图像数据增强的方式，这里就不进行展开介绍。之后从增强的数据中随机抽取1000张图像，并加入1000张干扰图像输入到所述并联型 resnet50神经网络中，通过所述并联型resnet50神经网络中的第二训练支路，训练形成类别分类+干扰模型；

步骤S52，将所述模糊清晰二分类模型和所述类别分类+干扰模型融合为所述模糊检测和分类识别模型。

作为本发明的一种优选方案，所述并联型resnet50神经网络包括所述第一训练支路和所述第二训练支路共用的特征提取层以及以所述特征提取层的输出为输入的模糊检测层和商品分类识别层，

所述特征提取层包括依序级联的卷积层conv1、conv2_x、conv3_x和conv4_x，所述模糊检测层和所述商品分类识别层包括依序级联的卷积层conv5_x、平均池化层averagepool 和逻辑回归softmax层；所述特征提取层中的所述卷积层conv4_x的输出作为所述模糊检测层和所述商品分类识别层中的所述卷积层conv5的输入。

本发明还提供了一种图像自动标注和标注质量自动评价系统，可实现所述的图像自动标注和标注质量自动评价方法，所述系统包括：

有效帧提取模块，用于从采集的消费者从无人售货柜拿取商品的视频帧图像中提取出待进行图像标注的有效帧；

图像裁剪模块，连接所述有效帧提取模块，用于在所述有效帧中裁剪出指定大小的商品拿取区域图像，得到裁剪图像；

图像输入模块，分别连接所述有效帧提取模块和所述图像裁剪模块，用于将所述有效帧的原始图像和所述裁剪图像输入到目标检测模块中进行目标商品区域检测；

所述目标检测模块，连接所述图像输入模块，用于通过预先训练的目标检测模型对输入的所述有效帧的所述原始图像和所述裁剪图像进行目标商品区域检测，得到关联所述原始图像的第一目标检测结果和关联所述裁剪图像的第二目标检测结果；

概率均值计算模块，连接所述目标检测模块，用于根据所述第一目标检测结果和所述第二目标检测结果计算所述目标检测模型在所述原始图像中和所述裁剪图像中框选出的标注框中的内容为物体的概率均值P_mean；

交并比计算模块，连接所述目标检测模块，用于根据所述第一目标检测结果和所述第二目标检测结果计算所述目标检测模型在所述原始图像和所述裁剪图像中框选出的区域面积的交并比P_IOU；

标注框修正模块，连接所述交并比计算模块，用于根据所述交并比P_IOU对所述原始图像中的标注框进行修正；

图像裁切模块，分别连接所述标注框修正模块和所述有效帧提取模块，用于以修正后的标注框所框选的区域为裁切对象，从所述有效帧的所述原始图像中裁切出待进行图像标注的商品区域图像；

模糊检测和分类识别模块，连接所述图像裁切模块，用于将所述商品区域图像输入到预先训练的模糊检测和分类识别模型中，模型输出所述商品区域图像中的物体为对应所属商品类别的类别概率P_class、为图像背景的概率P_bg以及图像模糊的概率P_blur；

标注质量评价模块，分别连接所述概率均值计算模块、所述交并比计算模块和所述模糊检测和分类识别模块，用于以所计算的关联所述商品区域图像的所述交并比P_IOU、所述概率均值P_mean以及所计算的所述类别概率P_class、所述概率P_bg以及图像模糊的所述概率P_blur为预先训练标注质量评价模型的输入，通过所述标注质量评价模型输出对所述有效帧的图像标注的质量评价结果。

本发明具有以下有益效果：

1、本发明通过YOLO-v4神经网络训练目标检测模型，并对具有不同分辨率的有效帧的原始图像以及从原始图像中裁剪的裁剪图像分别进行目标检测，并根据目标检测模型输出的关联原始图像的第一目标检测结果和关联裁剪图像的第二目标检测结果计算在原始图像中以第一标注框框选的内容为物体的概率P_join0以及在裁剪图像中以第二标注框框选出的内容为物体的概率P_join1，并计算第一标注框和第二标注框所框选的区域面积的交并比P_IOU，并根据交并比P_IOU以及概率P_join0、概率P_join1对第一标注框的尺寸进行修正，提高了目标检测模型的目标检测精度。

2、本发明以改进的并联型resnet50神经网络训练模糊检测和分类识别模型，对修正的标注框在有效帧的原始图像中框选出的商品区域图像进行模糊检测及商品分类识别，提升了模糊检测和商品分类识别的精度。另外，采用并联型resnet50神经网络中的第一训练支路训练模糊清晰二分类模型，采用并联型resnet50神经网络中的第二训练支路训练类别分类+干扰模型，第一训练支路和第二训练支路共用相同的特征提取层，有利于提升模糊检测和分类识别模型的训练速度。

3、本发明还以关联商品区域图像的交并比P_IOU、概率均值P_mean、类别概率P_class、背景概率P_bg、图像模糊概率P_blur为预先训练的标注质量评价模型的输入，提升了标注质量评价模型对标注质量评价的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的图像自动标注和标注质量自动评价方法的实现原理框图；

图2是提取有效帧的原理框图；

图3是获取不同分辨率图像的模型输入数据的原理框图；

图4是本发明实施例改进的resnet50神经网络的网络结构示意图；

图5是本发明实施例提供的图像自动标注和标注质量自动评价方法的实现步骤图；

图6是现有的目标检测模型对消费者从无人售货柜拿取商品的视频帧图像进行目标商品检测的示意图；

图7是本发明实施例从连续视频帧图像中提取出有效帧的方法步骤图；

图8是从有效帧中裁剪出裁剪图像的方法步骤图；

图9是本发明一实施例训练目标检测模型的方法步骤图；

图10是本发明一实施例训练模糊检测和分类识别模型的方法步骤图；

图11是本发明一实施例提供的图像自动标注和标注质量自动评价系统的结构示意图；

图12是本发明一实施例构建的多层感知机模型的结构示意图；

图13是多层感知机模型中的每个神经元的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明的描述中，除非另有明确的规定和限定，若出现术语“连接”等指示部件之间的连接关系，该术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

图1示出了本发明一实施例提供的图像自动标注和标注质量自动评价方法的实现原理框图。首先需要说明的是，图1中示出的“自动标注模型”包括目标检测模型、模糊检测和分类识别模型以及标注质量评价模型。消费者从无人售货柜拿取商品的视频帧图像输入到目标检测模型中，目标检测模型以矩形标注框的形式在视频帧图像中框选出疑似商品拿取区域。然后模糊检测和分类识别模型对目标检测模型框选出的疑似商品拿取区域进行商品分类标签标注以及图像模糊度检测。标注质量评价模型则根据模糊检测和分类识别模型的输出对标注质量进行评价。

图6示出了现有的目标检测模型对消费者从无人售货柜拿取商品的视频帧图像进行目标商品检测的示意图。由图6可以看出，受图像背景或人体运动等因素干扰，现有的目标检测模型框选出的疑似商品拿取区域可能为图像背景或过于模糊。另外，目标检测模型框选疑似商品拿取区域的标注框可能过小或过大，标注框若不够精细精准，将直接影响后续的商品类别标注准确度，所以为了确保商品类别标注的精度，首先需要解决标注框的标注精度问题。

本发明实施例提供的图像自动标注和标注质量自动评价方法通过步骤S1-步骤S4首先解决现有的目标检测模型框选疑似商品拿取区域不够精准的问题。如图5所示，本发明实施例提供的图像自动标注和标注质量自动评价方法，包括：

步骤S1，从采集的消费者从无人售货柜拿取商品的连续视频帧图像中提取出待进行商品标注的有效帧，并在有效帧中裁剪出指定大小的商品拿取区域图像，得到裁剪图像；比如消费者站在无人售货柜前还未打开无人售货柜门，因为消费者此时并未拿取商品无法进行计价结算，所以此时采集的视频帧图像是无效的，并不具备商品类别标注的价值。所在在标注商品类别前，我们首先需要从连续视频帧图像中提取出有效帧，如图2和图7所示，本实施例提取有效帧的方法包括：

步骤S11a，将连续两帧的视频帧图像从RGB图像转换为灰度图像，并利用帧间差分法得到当前帧与当前帧的上一视频帧图像之间的差分图像(两帧相减，求得图像对应位置像素值差的绝对值)，记为D(x，y)，差分图像D(x，y)的获得可通过以下公式(1)表达：

公式(1)中，I(t)表示当前t时刻的视频帧图像(当前帧图像)；

I(t-1)表示t-1时刻的视频帧图像(当前帧的上一视频帧图像)；

T表示像素值差的绝对值阈值，本实施例中，T＝128；

D(x，y)＝1表示图像前景；

D(x，y)＝0表示图像背景；

步骤S12a，对图像D(x，y)进行腐蚀和膨胀处理，去除图像D(x，y)中的噪声，得到图像 D(x，y)′；

步骤S13a，在图像D(x，y)′中以外接矩形方式框选出运动变化区域；以外接矩形方式框选出运动变化区域的现有方法有许多，所以框选运动变化区域的具体方法在此不作阐述；

步骤S14a，计算每个运动变化区域的区域面积，并过滤掉区域面积异常的运动变化区域；判断区域面积是否异常的方法举例为：

若运动变化区域的区域面积大于所采集的视频帧图像整体面积的50％或者小于1％，则判定运动变化区域的区域面积异常。

步骤S15a，判断经过滤保留的图像D(x，y)′中的运动变化区域的数量是否大于预设的数量阈值(优选为4，我们发现，经过滤保留的运动变化区域的数量大于等于4时，将当前帧判定为有效帧的准确率较高，所以将该数量阈值确定为4)，

若是，则判定当前帧为有效帧。

若否，则判定当前帧为非有效帧。

提取出有效帧后，本发明还通过在有效帧中裁剪出指定大小的商品拿取区域图像，以将有效帧中的商品拿取区域图像放大，并采用多模型融合的方法，将具有不同分辨率的有效帧和从有效帧中裁剪的裁剪图像同时作为自动标注模型的输入，以提高商品类别标注的精度。

具体地，从有效帧中裁剪出指定大小的商品拿取区域图像的方法如图8所示，包括：

步骤S11b，计算经过滤保留的每个运动变化区域的外接矩形的中心位点坐标，记为 (x_i，y_i)，x_i、y_i分别表示第i个运动变化区域的中心位点的横轴坐标和纵轴坐标；

步骤S12b，对框选每个运动变化区域的所有外接矩形的中心位点坐标进行求和平均计算，得到裁剪区域的中心位点坐标，记为(x_center，y_center)；比如过滤后保留的运动变化区域数量有5个，这5个运动变化区域的外接矩形的中心位点作为分别表示为(x₀，y₀)、(x₁，y₁)、(x₂，y₂)、 (x₃，y₃)、(x₄，y₄)，则

步骤S13b，在有效帧中以坐标(x_center，y_center)为裁剪图像的中心位置，裁剪出指定大小的裁剪图像。

为了提高商品类别标注的速度，在将有效帧输入到自动标注模型中进行商品类别标注前，本发明优选将有效帧从原始1280*720分辨率调整为746*448分辨率大小。

本发明优选将从有效帧中裁剪出的裁剪图像的分辨率确定为704*704。从有效帧中裁剪出704*704分辨率的裁剪图像是对有效帧中的运动变化区域进行了局部放大处理，从而使检测模型更加专注于有效的区域，有利于提高后续的商品类别标注精度。

请继续参照图5，为解决现有的目标检测模型框选疑似商品拿取区域不够精准的问题，本发明实施例提供的图像自动标注和标注质量自动评价方法还包括：

步骤S2，将有效帧的原始图像(优选为746*448分辨率大小的原始图像)以及裁剪的 704*704大小图像分别输入到预先训练的第一目标检测模型和第二目标检测模型中，第一目标检测模型输出关联原始图像的第一目标检测结果，第二目标检测模型输出关联裁剪图像的第二目标检测结果，第一目标检测结果和第二目标检测结果分别表示为 (x₀，y₀，w₀，h₀，label₀，P_class0，P_obj0)、(x₁，y₁，w₁，h₁，label₁，P_class1，P_obj1)，

(x₀，y₀)表示目标检测模型在原始图像中框选出的第一标注框的中心位点在XY轴坐标系下的坐标；

w₀表示第一标注框的宽度；

h₀表示第一标注框的高度；

label₀表示对第一标注框所框选的区域的物体分类标签；

P_class0表示第一标注框所框选的区域为对应物体类别的概率；

P_obj0表示第一标注框所框选的内容的第一置信度；

(x₁，y₁)表示目标检测模型在裁剪图像中框选出的第二标注框的中心位点的坐标转换到原始图像的XY轴坐标系下的坐标；

w₁表示第二标注框的宽度；

h₁表示第二标注框的高度；

label₁表示对第二标注框所框选的区域的物体分类标签；

P_class1表示第二标注框所框选的区域为对应物体种类的类别概率；

P_obj1表示第二标注框所框选的内容的第二置信度；

步骤S3，计算类别概率P_class0与第一置信度P_obj0的乘积作为判定第一标注框所框选的区域为物体的概率P_join0，计算类别概率P_class1与第二置信度P_obj1的乘积作为判定第二标注框所框选的区域为物体的概率P_join1，然后对概率P_join0和概率P_join1进行求和平均，得到最终判定第一标注框或第二标注框所框选的内容为物体的概率均值P_mean，

以及计算第一标注框和第二标注框所框选的区域面积的交并比P_IOU，交并比P_IOU通过以下公式(2)计算而得：

公式(2)中的S₀表示第一标注框框选的区域面积，S₀＝w₀*h₀；

S₁表示第二标注框框选的区域面积，S₁＝w₁*h₁。

步骤S4，根据交并比对原始图像的标注框进行修正，并根据修正后的标注框在有效帧中裁切出待标注的指定大小的商品区域图像；

本发明修正原始图像的标注框的方法具体为：

判断交并比是否小于0.7，

若是，则以概率、概率中概率大者对应的标注框为修正后的标注框；比如，概率对应第一标注框，概率对应第二标注框，若第一标注框和第二标注框框选的区域面积的交并比小于0.7时，概率大于概率，则不对第一标注框进行修正，直接将第一标注框框选的区域内容作为后续的商品类别标注对象；而若第一标注框和第二标注框框选的区域面积的交并比小于0.7时，概率小于或等于概率，则以第二标注框作为对第一标注框修正后的标注框在原始图像的对应位置处框选出作为后续的商品类别标注对象的疑似商品拿取区域；

若否，则通过以下公式（3）重新计算标注框以对原始图像的标注框进行修正：

公式（4）中，表示重新计算的标注框的中心位点在原始图像中的横轴坐标；

表示未修正前的原始图像中的第一标注框的中心位点在原始图像中的横轴坐标；

表示裁剪图像中的第二标注框的中心位点的坐标转换到原始图像坐标系下的横轴坐标；

表示重新计算的标注框的中心位点在原始图像中的纵轴坐标；

表示未修正前的原始图像中的第一标注框的中心位点在所述原始图像中的纵轴坐标；

表示所述裁剪图像中的第二标注框的中心位点的坐标转换到原始图像的坐标系下的纵轴坐标；

表示重新计算的标注框在原始图像中的宽度；

表示未修正前的原始图像中的第一标注框的宽度；

表示裁剪图像中的第二标注框的宽度；

表示重新计算的标注框在原始图像中的高度；

表示未修正前的原始图像中的第一标注框的宽度；

表示裁剪图像中的第二标注框的高度。

为了进一步提升后续的商品类别自动标注速度，步骤S4中，将裁切出的商品区域图像尺寸调整为256*256分辨率大小后输入给模糊检测和分类识别模型进行进一步的模糊检测和商品分类识别标记。

步骤S5，将商品区域图像输入到预先训练的模糊检测和分类识别模型中，模型输出对商品区域图像判定的商品所属分类的类别概率P_class、为图像背景的概率P_bg以及图像模糊的概率P_blur；

步骤S6，将步骤S3计算的交并比P_IOU、概率均值P_mean，以及步骤S5计算的类别概率P_class、背景概率P_bg、图像模糊概率P_blur输入到预先训练的标注质量评价模型中，模型输出对有效帧的商品类别标注质量评价结果。

标注质量评价模型根据输入数据输出标注质量评价结果的过程可通过以下公式(5)表示：

(N₀，N₁，N₂)＝f(M₁，M₂，M_s，M₄，M₅) 公式(5)

公式(5)中，M₁，M₂，M₃，M₄，M₅分别表示作为模型输入数据的交并比P_IOU、概率均值P_mean、类别概率P_class、背景概率P_bg、图像模糊概率P_blur；

N₀，N₁，N₂分别表示标注质量评价模型对模糊检测和分类识别模型作出的图像标注结果的 “优”“中”“差”的质量评价等级。

以下对本发明训练目标检测模型的方法进行简要阐述：

如图9所示，本发明训练目标检测模型的方法包括：

步骤S22，使用labelImg图像标注工具采用矩形框框选方式在每张商品图像中人为框选出商品所在区域并标注出商品类别标签；

步骤S23，以标注框的中心位点为裁剪图像的中心，从每张商品图像中裁剪出分辨率为 704*704的裁剪图像；

步骤S24，将至少5000张原始分辨率为1280*720的每张商品图像缩放为746*448分辨率，并将至少5000张分辨率为746*448的商品图像以及从每张原始的商品图像中裁剪下来的分辨率为704*704的至少5000张裁剪图像分别输入到YOLO-v4神经网络中进行模型训练，得到第一目标检测模型和第二目标检测模型。本发明采用YOLO-v4神经网络训练目标检测模型是因为当下基于darknet的YOLO-v4对于目标检测的准确度非常理想，且YOLO-v4的可定制化程度很高，内置数据增强技术可以最大限度地利用训练数据集获得高精度的目标检测模型。

以下是目标检测模型训练的参数配置：

【第一目标检测配置参数】

classes＝1；

batch＝64,subdivisions＝16；

width＝746,height＝448；

max_batches＝3000；

learning_rate＝0.001,steps＝2400,2700,scales＝0.1,0.1；

[yolo]层的classes＝1,filters＝18；

开启数据增强mosaic＝1。

【第二目标检测配置参数】

classes＝1；

batch＝64,subdivisions＝16；

width＝704,height＝704；

max_batches＝3000；

learning_rate＝0.001,steps＝2400,2700,scales＝0.1,0.1；

[yolo]层的classes＝1,filters＝18；

开启数据增强mosaic＝1。

在模型训练中，优选将分辨率为1280*720的商品图像调整为746*448分辨率后作为第一目标检测模型的训练样本，将商品图像从1280*720调整为746*448，是为了降低商品图像的分辨率，以提高模型的处理速度。从原始的商品图像中裁剪出704*704的裁剪图像同样作为第二目标检测模型的训练样本，裁剪出704*704的裁剪图像可以起到局部放大图像区域的效果，使模型更加注重有效区域。这样使用第一和第二目标检测模型融合，可以进一步提高目标检测模型的检测精度。

以下对本发明训练模糊检测和分类识别模型的方法进行简要阐述：

如图10所示，本发明训练模糊检测和分类识别模型的方法包括：

步骤S51，将人为标注为模糊、清晰的至少各1000张商品图像输入到改进的并联型resnet50神经网络中，通过并联型resnet50神经网络中的第一训练支路，训练成形模糊检测模型；

使用手机对待标注的商品按照正、背、左、右分别以摄像头与商品成正视垂直成90度、俯视成60度、俯视成30度，进行拍照，并对商品特殊商标部分拍设3张，共计15张图像。对图像进行大小缩放至320×320分辨率大小，并沿着中心、左上、左下、右上、右下以256*256 的大小进行裁剪，并对裁剪之后的进行水平翻转、以60度、30度进行旋转，加入随机噪声、颜色扰动和随机加入噪声。这种都是常用的图像数据增强的方式，这里就不进行展开介绍。之后从增强的数据中随机抽取1000张图像，并加入1000张干扰图像输入到所述并联型 resnet50神经网络中，通过所述并联型resnet50神经网络中的第二训练支路，训练形成类别分类+干扰模型；

步骤S52，将模糊检测模型和分类识别模型融合为模糊检测和分类识别模型。

图4示出了本发明改进的并联型resnet50神经网络的网络结构。如图4所示，并联型 resnet50神经网络包括第一训练支路和第二训练支路共用的特征提取层以及以该特征提取层的输出为输入的模糊检测层和商品分类识别层，

特征提取层包括依序级联的卷积层conv1、conv2_x、conv3_x和conv4_x，模糊检测层和商品分类识别层包括依序级联的卷积层conv5_x、平均池化层averagepool和逻辑回归 softmax层，卷积层conv4_x的输出作为模糊检测层和商品分类识别层中的卷积层conv5_x 的输入。

以下对本发明利用并联型resnet50训练模糊检测和分类识别模型的过程进行简要阐述：

使用resnet50神经网络预先在500个sku商品类别下训练模糊检测和分类识别初始模型，训练参数为：

优化器选择SGD，损失函数采用的交叉熵损失，初始化学习率为0.1，递减衰减系数为 0.1，训练之后保存训练模型。

将传统的resnet50神经网络修改为并联型resnet50，修改后的并联型resnet50神经网络的结构如上如图4所示。

数据准备：获取人为标注为模糊、清晰的1000张商品图像(消费者拿取商品的图像)，图像是否模糊、清晰以肉眼可见清晰可见为区分度。获取待标注的商品图像以及获取干扰商品分类识别的1000张干扰图像(干扰图像选取的是经常被误认为是物体的背景图像)，获取方法是：使用手机进行拍照，拍照方式按照饮料、袋装、盒装分别进行阐述说明。

假设放置待标注商品的桌面为XY轴，垂直桌面为Z轴，向上为Z轴正方向。将待标注的饮料类放置在XY平面，分别沿XY轴的正负四个方向，以与Z轴正方向成90度、30度、60 度进行拍摄，再分别对饮料的顶部和底部进行分别拍照，之后对饮料商品的主要特征部位(比如商标所在部位)进行拍照1-3张。

如果是袋装商品主要是将袋装的正反两面放置在XY平面中，分别沿XY轴的正负四个方向，以与Z轴正方向成90度、30度、60度进行分别拍照，之后对袋装商品的主要商标部位进行拍照1-3张。

如果是待标注的盒装商品，分别对其六个平面平面进行拍照，假设每个平面都是XY平面，垂直XY平面向上为Z轴正方向，分别沿XY轴的正负四个方向，以与Z轴正方向成90度、 30度、60度进行拍摄。

然后对手机拍摄的图像进行增强处理，方法为将每一张商品图像缩放至320×320分辨率大小，并以320×320图像的中心位点、左上顶点、左下顶点、右上顶点、右下顶点为裁剪图像的中心以256*256的分辨率大小进行裁剪，之后对裁剪的图像进行图像旋转，旋转以45度、 90度、135度、180度、225度、270度进行旋转，再进行图像水平翻转、然后以均值为0.2 和方差为0.3添加高斯随机噪声，然后再对图像饱和度和锐度进行0-0.3比例的随机增强、对亮度和对比度进行0.1-0.2比例的随机增强。

之后从中增强后的图像中随机取出1000张，缩放至256*256大小的图像。将待标注的 1000张和1000张背景干扰数据输入到所述并联型resnet50神经网络中，通过所述并联型 resnet50神经网络中的第二训练支路，训练形成类别分类+干扰模型。

模糊清晰二分类模型训练：使用图4中所示的第一训练支路，以1000张模糊的商品图像和1000张清晰的商品图像为训练样本，训练形成模糊清晰二分类模型。

类别分类+干扰模型训练：使用图4中所示的第二训练支路，以1000张待标注的商品图像和1000张背景干扰图像为训练样本，并加载模糊清晰二分类模型训练时的权重文件，训练形成类别分类+干扰模型。

其中训练参数：优化器选择SGD，损失函数采用的是交叉熵损失，初始化学习率为0.1，递减衰减系数为0.1，训练之后保存模糊清晰二分类模型和类别分类+干扰模型。

最后将模糊清晰二分类模型和类别分类+干扰模型融合为模糊检测和分类识别模型。

以下对本发明提供的标注质量评价模型评价标注质量的方法进行简要阐述：

质量评价模型是通过构建多层感知机模型来实现的。多层感知机模型通过模拟生物神经元的方式，将特征值输入到输入层中，在隐含层和输出层的每个节点都计算一次线性变换，之后并使用激活函数，提高其非线性的拟合能力，从而提升其分类的准确性。

图12示出了本发明实施例构建的多层感知机模型的结构示意图。图13示出了多层感知机模型中的每个神经元的结构示意图。如图12所示，多层感知机模型分为输入层、隐含层、输出层。图13中的M_i为输入的值，e_i为对应输入值的权重，b为偏置，f(·)为Sigmoid激活函数，网络任意一个神经元的表达函数如下：

N＝f(u)

其中，M_i为输入数据，e_i为对应输入值的权重，f(u)为Sigmoid激活函数。在输出层有三个神经元，分别对应标注质量评价的“优”“中”“差”，之后经过softmax函数计算其相应的评价值。

训练多层感知机模型使用的数据是历史样本库中的优、中、差各500个，一共1500个进行模型训练。

其中输入的数据为[M₁，M₂，M₃，M₄，M₅]，M₁，M₂，M₃，M₄，M₅分别表示作为模型输入数据的交并比P_IOU、概率均值P_mean、类别概率P_class、背景概率P_bg、图像模糊概率P_blur。

输出结果为[N₀，N₁，N₂]，其中N₀为对应的标注评价质量为“优”的值；N₁为对应的标注评价质量为“中”的值；N₂为对应的标注评价质量为“差”的值。然后判断N₀、N₁、N₂中的最大值是否为N₂，若是，则直接将机器标注的该有效帧舍弃，

若N₀、N₁、N₂中的最大值为N₀且N₀＞0.8，则判定机器的图像标注质量为“优”，并将当前有效帧直接保存；

若N₀、N₁、N₂中的最大值为N₀且N₀≤0.8或N₀、N₁、N₂中的最大值为N₁时，判定机器的图像标注质量为“中”，需要人工对当前有效帧的标注情况进行核验。

本发明还提供了一种图像自动标注和标注质量自动评价系统，可实现上述的图像自动标注和标注质量自动评价方法，如图11所示，该系统包括：

图像裁剪模块，连接有效帧提取模块，用于在有效帧中裁剪出指定大小的商品拿取区域图像，得到裁剪图像；

图像输入模块，分别连接有效帧提取模块和图像裁剪模块，用于将有效帧的原始图像和裁剪图像输入到目标检测模块中进行目标商品区域检测；

目标检测模块，连接图像输入模块，用于通过预先训练好的第一和第二目标检测模型对输入的有效帧的原始图像和裁剪图像进行目标商品区域检测，得到关联原始图像的第一目标检测结果和关联裁剪图像的第二目标检测结果；

概率均值计算模块，连接目标检测模块，用于根据第一目标检测结果和第二目标检测结果计算目标检测模型在原始图像中和裁剪图像中框选出的标注框中的内容为物体的概率均值P_mean；

交并比计算模块，连接目标检测模块，用于根据第一目标检测结果和第二目标检测结果计算目标检测模型在原始图像和裁剪图像中框选出的区域面积的交并比P_IOU；

标注框修正模块，连接交并比计算模块，用于根据交并比P_IOU对原始图像中的标注框进行修正；

图像裁切模块，分别连接标注框修正模块和有效帧提取模块，用于以修正后的标注框所框选的区域为裁切对象，从有效帧的原始图像中裁切出待进行图像标注的商品区域图像；

模糊检测和分类识别模块，连接图像裁切模块，用于将商品区域图像输入到预先训练的模糊检测和分类识别模型中，模型输出商品区域图像中的物体为对应所属商品类别的类别概率P_class、为图像背景的概率P_bg以及图像模糊的概率P_blur；

标注质量评价模块，分别连接概率均值计算模块、交并比计算模块和模糊检测和分类识别模块，用于以所计算的关联商品区域图像的交并比P_IOU、概率均值P_mean以及所计算的类别概率P_class、背景概率P_bg以及图像模糊的概率P_blur为预先训练标注质量评价模型的输入，通过标注质量评价模型输出对有效帧的图像标注(标注内容为商品区域图像中的物体为所属商品类别的类别标签，为所述商品类别的类别概率P_class，为图像背景的概率P_bg以及图像模糊的概率P_blur)的质量评价结果。

综上，本发明通过YOLO-v4神经网络训练目标检测模型，并对具有不同分辨率的有效帧的原始图像以及从原始图像中裁剪的裁剪图像分别进行目标检测，并根据目标检测模型输出的关联原始图像的第一目标检测结果和关联裁剪图像的第二目标检测结果计算在原始图像中以第一标注框框选的内容为物体的概率P_join0以及在裁剪图像中以第二标注框框选出的内容为物体的概率P_join1，并计算第一标注框和第二标注框所框选的区域面积的交并比P_IOU，并根据交并比P_IOU以及概率P_join0、概率P_join1对第一标注框的尺寸进行修正，提高了目标检测模型的目标检测精度。

本发明以改进的并联型resnet50神经网络训练模糊检测和分类识别模型，对修正的标注框在有效帧的原始图像中框选出的商品区域图像进行模糊检测及商品分类识别，提升了模糊检测和商品分类识别的精度。另外，采用并联型resnet50神经网络的第一训练支路训练模糊清晰二分类模型，采用并联型resnet50神经网路中的第二训练支路训练类别分类+干扰模型，第一训练支路和第二训练支路共用相同的特征提取层，有利于提升模糊检测和分类识别模型的训练速度。

本发明还以关联商品区域图像的交并比P_IOU、概率均值P_mean、类别概率P_class、背景概率 P_bg、图像模糊概率P_blur为预先训练的标注质量评价模型的输入，提升了标注质量评价模型对标注质量评价的准确度。

本发明提供的图像自动标注和标注质量自动评价方法大幅降低了人工标注商品图像数据的工作量，而且大幅提升了图像标注质量和标注效率。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白，还可以对本发明做各种修改、等同替换、变化等等。但是，这些变换只要未背离本发明的精神，都应在本发明的保护范围之内。另外，本申请说明书和权利要求书所使用的一些术语并不是限制，仅仅是为了便于描述。

Claims

1.一种图像自动标注和标注质量自动评价方法，其特征在于，包括：

步骤S6，将所述步骤S3计算的所述交并比P_IOU、所述概率均值P_mean、以及所述步骤S5计算的关联所述商品区域图像的所述类别概率P_class、背景概率P_bg、图像模糊概率P_blur输入到预先训练好的标注质量评价模型中，模型输出对所述有效帧的图像标注的质量评价结果；

所述步骤S4中，根据所述交并比P_IOU对所述原始图像的标注框进行修正的方法为：

判断所述交并比P_IoU是否小于0.7，

w表示重新计算的标注框在所述原始图像中的宽度；

w₀表示未修正前的所述原始图像中的第一标注框的宽度；

w₁表示所述裁剪图像中的第二标注框的宽度；

h表示重新计算的标注框在所述原始图像中的高度；

h₀表示未修正前的所述原始图像中的第一标注框的宽度；

h₁表示所述裁剪图像中的第二标注框的高度；

所述步骤S5中的所述模糊检测和分类识别模型通过以下方法步骤训练而得：

使用手机对待标注的商品按照正、背、左、右分别以摄像头与商品成正视垂直成90度、俯视成60度、俯视成30度，进行拍照，并对商品特殊商标部分拍摄3张，共计15张图像，对图像进行大小缩放至320×320分辨率大小，并沿着中心、左上、左下、右上、右下以256*256的大小进行裁剪，并对裁剪之后的进行水平翻转、以60度、30度进行旋转，加入随机噪声、颜色扰动，之后从增强的数据中随机抽取1000张图像，并加入1000张干扰图像输入到所述并联型resnet50神经网络中，通过所述并联型resnet50神经网络中的第二训练支路，训练形成类别分类+干扰模型；

步骤S52，将所述模糊清晰二分类模型和所述类别分类+干扰模型融合为所述模糊检测和分类识别模型；

所述并联型resnet50神经网络包括所述第一训练支路和所述第二训练支路共用的特征提取层以及以所述特征提取层的输出为输入的模糊检测层和商品分类识别层，

所述特征提取层包括依序级联的卷积层conv1、conv2_x、conv3_x和conv4_x，所述模糊检测层和所述商品分类识别层包括依序级联的卷积层conv5_x、平均池化层average pool和逻辑回归softmax层；所述特征提取层中的所述卷积层conv4_x的输出作为所述模糊检测层和所述商品分类识别层中的所述卷积层conv_5的输入。

2.根据权利要求1所述的图像自动标注和标注质量自动评价方法，其特征在于，所述步骤S1中，从连续视频帧图像中提取出所述有效帧的方法包括：

步骤S11a，将连续两帧的所述视频帧图像从RGB图像转换为灰度图像，并利用帧间差分法得到当前帧和当前帧的上一帧所述视频帧图像之间的差分图像，记为D(x,y)；

步骤S12a，对图像D(x,y)进行腐蚀和膨胀处理，去除所述图像D(x,y)中的噪声，得到图像D(x,y)^′；

步骤S13a，在所述图像D(x,y)^′中以外接矩形方式框选出运动变化区域；

步骤S15a，判断经过滤保留的所述图像D(x,y)^′中的所述运动变化区域的数量是否大于预设的数量阈值，

若是，则判定所述当前帧为所述有效帧；

若否，则判定所述当前帧为非所述有效帧。

3.根据权利要求2所述的图像自动标注和标注质量自动评价方法，其特征在于，所述数量阈值为4。

4.根据权利要求1所述的图像自动标注和标注质量自动评价方法，其特征在于，从所述有效帧中裁剪出所述裁剪图像的方法包括：

步骤S11b，计算经过滤保留的每个运动变化区域的外接矩形的中心位点坐标，记为(x_i,y_i)，x_i、y_i分别表示第i个所述运动变化区域的所述中心位点的横轴坐标和纵轴坐标；

步骤S12b，对框选每个所述运动变化区域的所有所述外接矩形的中心位点坐标进行求和平均计算，得到裁剪区域的中心位点坐标，记为(x_center,y_center)；

步骤S13b，在所述有效帧中以坐标(x_center,y_center)为所述裁剪图像的中心位置，裁剪出指定大小的所述裁剪图像。

5.根据权利要求1所述的图像自动标注和标注质量自动评价方法，其特征在于，所述步骤S2中，采取多分辨率的目标检测结果融合，将所述有效帧从原始1280*720分辨率调整为746*448分辨率大小后输入到所述第一目标检测模型中；

6.根据权利要求1所述的图像自动标注和标注质量自动评价方法，其特征在于，所述概率均值P_mean通过以下公式(1)计算而得：

P_join1表示所述第二目标检测模型判定在所述裁剪图像中框选出的内容为物体的概率；

P_join0通过以下公式(2)计算而得：

P_join0＝P_class0×P_obj0 公式(2)

P_join1通过以下公式(3)计算而得：

P_join1＝P_class1×P_obj1 公式(3)

7.根据权利要求1所述的图像自动标注和标注质量自动评价方法，其特征在于，所述步骤S5中，将裁切得到的所述商品区域图像调整为256*256分辨率大小后输入给所述模糊检测和分类识别模型。

8.根据权利要求1所述的图像自动标注和标注质量自动评价方法，其特征在于，训练所述目标检测模型的方法包括：

步骤S21，将零售商品分为10大类，分别为瓶装、长条状袋子、薄片袋子、正方形袋子、真空包装、长条状盒子、正方形盒子、罐装、桶装和水果包装，并获取每类商品的至少500张商品图像，每张商品图像的原始分辨率为1280*720；

步骤S24，将至少5000张原始分辨率为1280*720的每张所述商品图像缩放为746*448分辨率，并将至少5000张分辨率为746*448的所述商品图像以及从每张原始的所述商品图像中以标注框为中心裁剪下来的分辨率为704*704的至少5000张所述裁剪图像分别输入到YOLO-v4神经网络中进行训练，得到所述第一目标检测模型和第二目标检测模型。

9.一种图像自动标注和标注质量自动评价系统，可实现如权利要求1-8任意一项所述的图像自动标注和标注质量自动评价方法，其特征在于，所述系统包括：