CN112446404A

CN112446404A - 一种基于主动学习的在线图像样本标注系统、标注方法及其应用

Info

Publication number: CN112446404A
Application number: CN201910831633.XA
Authority: CN
Inventors: 秦迎梅; 门聪; 韩春晓; 卢梅丽; 车艳秋
Original assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Current assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2021-03-05

Abstract

本发明公开了一种基于主动学习的在线图像样本标注系统、标注方法及其应用，所述标注方法包括以下步骤：标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别和预测分数进行展示；抽取未标注图片时，基于主动学习算法优先抽取重要样本到数据库，然后通过标注平台前端进行展现给标注者；标注者在标注平台前端中挑选预测错误的样本进行标注，得到标注结果，并反馈到数据库；平台后端定时对数据库内的数据进行抽取，自动反馈给机器学习模型进行训练。提高机器学习模型的准确度。本发明通过主动学习方法优先标注最重要的样本，把正确和错误的样本反馈给机器学习模型，使模型能够自适应的不断提升预测准确率。

Description

一种基于主动学习的在线图像样本标注系统、标注方法及其应用

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于主动学习的在线图像样本标注系统及其标注方法。

背景技术

近年来，深度学习方法在图像识别的应用中越来越普遍，但是深度学习方法的准确率依赖于大数据，因此催生了很多数据标注产业，但是对于一个在线的模型来说，数据标注的流程很复杂，首先要从在线系统后台获取数据，然后分发给数据标注者，标注好后再反馈，中间可能还需要对标注错误进行修正，最后才能加入新数据对模型进行重新训练。整个流程很长，对样本的重要程度也未做区分，这影响了模型的适应性。

发明内容

本发明的目的是针对现有技术中存在的利用数据标注识别图像流程长且适应性差的问题，而提供一种基于主动学习的在线图像样本标注系统。

本发明的另一个目的是提供在线图像样本标注系统的标注方法，通过重要样本不断优化机器学习模型，提高其预测准确率。

本发明的另一个目的是提供所述在线图像样本标注方法在垃圾分类中的应用，提高自动识别分类的正确率。

为实现本发明的目的所采用的技术方案是：

一种基于主动学习的在线图像样本标注系统，包括标注平台和搭建在标注平台中的机器学习模型，其中所述标注平台包括标注平台后端、标注平台前端和标注平台管理者前端，其中：

所述标注平台后端中包括存储有图片信息和标注者信息的数据库，其中所述图片信息包括图片、图片路径、图片标注、图片标注者、所述机器学习模型预测得到的图片预测类别和预测分数；所述标注者信息包括总标注数量、标注正确率；

所述标注平台前端用于展示图片、机器学习模型预测得到的图片预测类别、机器学习模型预测得到的预测分数(预测值)和供标注者选择的标注下拉菜单；

所述标注平台管理者前端用于展示整体标注情况，比如标注者与标注图片的对应信息，每个标注者标注了哪些图片及其具体标注信息，标注者可对标注质量进行抽查。平台管理者基于每个标注者的标注数量和质量定期对薪酬进行结算。

在上述技术方案中，所述标注平台前端为web标注平台前端，可利用bootstrap前端技术搭建。

在上述技术方案中，所述标注平台后端为web标注平台后端，数据库为PostgreSQL数据库，web标注平台后端利用python django框架搭建，把数据关系通过django中的model类映射到PostgreSQL数据库。

在上述技术方案中，所述web标注平台后端部署于阿里云。

在上述技术方案中，所述机器学习模型为ResNet，DenseNet或NasNet模型。

本发明的另一方面，所述基于主动学习的在线图像样本标注系统在垃圾分类中的应用。

本发明的另一方面，一种基于主动学习的在线图像样本标注方法，包括以下步骤：

步骤1，标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别(总共10个分类)和预测分数(0-1之间)进行展示；

抽取未标注图片时，基于主动学习算法优先抽取重要样本到数据库，然后通过标注平台前端进行展现给标注者，

步骤2，标注者在标注平台前端中挑选预测错误的样本(当前机器学习模型对图片进行预测类别时发生错误)进行标注，得到标注结果，并反馈到数据库；

步骤3，平台后端定时对数据库内的具有标注结果的图片进行抽取，自动反馈给机器学习模型进行训练。提高机器学习模型的准确度。

在上述技术方案中，所述步骤2中所述主动学习算法通过信息熵计算查询重要样本，信息熵计算公式为：H(x)＝-∑P(xi)log(P(xi))(i＝1,2,..n)，其中：H(x)为信息熵，P(xi)为给定机器学习模型对各图片预测类别的预测概率(相加为1)，n＝10，选取信息熵H(x)大于1的样本为重要样本，进行优先标注。

在上述技术方案中，给定机器学习模型为基于InceptionV3通过大量图片样本学习得到的模型。

在上述技术方案中，所述步骤2中重要样本展现给专家进行标记，然后利用专家标记信息训练当前机器学习模型。

本发明的另一方面，所述基于主动学习的在线图像样本标注方法在垃圾分类中的应用。

与现有技术相比，本发明的有益效果是：

1.通过主动学习方法优先标注最重要的样本，把正确和错误的样本反馈给机器学习模型，使模型能够自适应的不断提升预测准确率，并且可以对标注者、标注质量进行有效的平台化管理。

2.本发明有效提升了机器学习系统的效率，建立了在线的高效标注平台。

附图说明

图1为标注平台前端信息图。

图2为标注平台管理者前端信息图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

所述标注平台后端为web标注平台后端，数据库为PostgreSQL数据库，web标注平台后端利用python django框架搭建，把数据关系通过django中的model类映射到PostgreSQL数据库。web标注平台后端可部署于阿里云等，可以基于http协议访问平台。

所述标注平台前端为web标注平台前端，可利用bootstrap前端技术搭建，标注者可通过普通web浏览器登录后访问。

实施例2

一种基于主动学习的在线图像样本标注方法，包括以下步骤：

步骤2，标注者在标注平台前端中挑选预测错误的样本进行标注，得到标注结果，并反馈到数据库；

作为优选方式，所述机器学习模型为ResNet，DenseNet或NasNet模型。

作为优选方式，所述步骤2中所述主动学习算法通过信息熵计算查询重要样本(最有用的未标记样本)，信息熵计算公式为：H(x)＝-∑P(xi)log(P(xi))(i＝1,2,..n)，其中：H(x)为信息熵，P(xi)为给定机器学习模型对各图片预测类别的预测概率(相加为1)，n＝10，选取信息熵H(x)大于1的样本为重要样本，进行优先标注。给定机器学习模型可采用基于InceptionV3通过大量图片样本学习得到的模型。

作为优选方式，所述步骤2中重要样本展现给专家进行标记，然后利用专家标记信息训练当前机器学习模型(样本训练分类模型)以进一步提高模型的精确度。

实施例3

实施例1所述的标注系统和实施例2所述的标注方法在垃圾分类中的应用。

建立web标注平台，机器学习模型针对数据库中的垃圾图片进行预测，预测每一图片的图片预测类别(垃圾类型)和预测分数，基于主动学习算法优先抽取重要样本到web标注平台后端的数据库，并显示在web标注平台前端，标注者在web标注平台前端对垃圾图片进行标注，并将信息反馈到数据库，web标注平台后端定时抽取数据库中的数据训练所述机器学习模型。

通过重要样本的持续训练，机器学习模型可提高预测精准度，准确判断垃圾图片中的垃圾类型。

标注平台前端的信息如图1所示，预测分数为0-1之间，预测类别包括不可回收、塑料瓶子、易拉罐、纸张纸盒、玻璃、其他塑料金属等，标注下拉菜单中包括正确、为空、不可回收、塑料瓶子、易拉罐、纸张纸盒、玻璃、其他塑料金属等。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于主动学习的在线图像样本标注系统，其特征在于，包括标注平台和搭建在标注平台中的机器学习模型，其中所述标注平台包括标注平台后端、标注平台前端和标注平台管理者前端，其中：

所述标注平台前端用于展示图片、机器学习模型预测得到的图片预测类别、机器学习模型预测得到的预测分数和供标注者选择的标注下拉菜单；

所述标注平台管理者前端用于展示整体标注情况。

2.如权利要求1所述的基于主动学习的在线图像样本标注系统，其特征在于，所述标注平台前端为web标注平台前端，可利用bootstrap前端技术搭建。

3.如权利要求1所述的基于主动学习的在线图像样本标注系统，其特征在于，所述标注平台后端为web标注平台后端，数据库为PostgreSQL数据库，web标注平台后端利用pythondjango框架搭建，把数据关系通过django中的model类映射到PostgreSQL数据库。

4.如权利要求1所述的基于主动学习的在线图像样本标注系统，其特征在于，所述机器学习模型为ResNet，DenseNet或NasNet模型。

5.如权利要求1所述的基于主动学习的在线图像样本标注系统在垃圾分类中的应用。

6.一种基于主动学习的在线图像样本标注方法，其特征在于，包括以下步骤：

步骤1，标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别和预测分数进行展示；

抽取未标注图片时，基于主动学习算法优先抽取重要样本到数据库，然后通过标注平台前端进行展现给标注者；

步骤3，平台后端定时对数据库内的具有标注结果的图片进行抽取，自动反馈给机器学习模型进行训练。

7.如权利要求6所述的基于主动学习的在线图像样本标注方法，其特征在于，所述步骤2中所述主动学习算法通过信息熵计算查询重要样本，信息熵计算公式为：H(x)＝-∑P(xi)log(P(xi))(i＝1,2,..n)，其中：H(x)为信息熵，P(xi)为给定机器学习模型对各图片预测类别的预测概率(相加为1)，n＝10，选取信息熵H(x)大于1的样本为重要样本，进行优先标注。

8.如权利要求7所述的基于主动学习的在线图像样本标注方法，其特征在于，所述给定机器学习模型为基于InceptionV3通过大量图片样本学习得到的模型。

9.如权利要求6所述的基于主动学习的在线图像样本标注方法，其特征在于，所述步骤2中重要样本展现给专家进行标记，然后利用专家标记信息训练当前机器学习模型。

10.如权利要求6所述的基于主动学习的在线图像样本标注方法在垃圾分类中的应用。