CN112446404A - 一种基于主动学习的在线图像样本标注系统、标注方法及其应用 - Google Patents
一种基于主动学习的在线图像样本标注系统、标注方法及其应用 Download PDFInfo
- Publication number
- CN112446404A CN112446404A CN201910831633.XA CN201910831633A CN112446404A CN 112446404 A CN112446404 A CN 112446404A CN 201910831633 A CN201910831633 A CN 201910831633A CN 112446404 A CN112446404 A CN 112446404A
- Authority
- CN
- China
- Prior art keywords
- platform
- annotation
- labeling
- machine learning
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 59
- 238000010801 machine learning Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 11
- 239000003550 marker Substances 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 150000002739 metals Chemical class 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于主动学习的在线图像样本标注系统、标注方法及其应用,所述标注方法包括以下步骤:标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别和预测分数进行展示;抽取未标注图片时,基于主动学习算法优先抽取重要样本到数据库,然后通过标注平台前端进行展现给标注者;标注者在标注平台前端中挑选预测错误的样本进行标注,得到标注结果,并反馈到数据库;平台后端定时对数据库内的数据进行抽取,自动反馈给机器学习模型进行训练。提高机器学习模型的准确度。本发明通过主动学习方法优先标注最重要的样本,把正确和错误的样本反馈给机器学习模型,使模型能够自适应的不断提升预测准确率。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于主动学习的在线图像样本标注系统及其标注方法。
背景技术
近年来,深度学习方法在图像识别的应用中越来越普遍,但是深度学习方法的准确率依赖于大数据,因此催生了很多数据标注产业,但是对于一个在线的模型来说,数据标注的流程很复杂,首先要从在线系统后台获取数据,然后分发给数据标注者,标注好后再反馈,中间可能还需要对标注错误进行修正,最后才能加入新数据对模型进行重新训练。整个流程很长,对样本的重要程度也未做区分,这影响了模型的适应性。
发明内容
本发明的目的是针对现有技术中存在的利用数据标注识别图像流程长且适应性差的问题,而提供一种基于主动学习的在线图像样本标注系统。
本发明的另一个目的是提供在线图像样本标注系统的标注方法,通过重要样本不断优化机器学习模型,提高其预测准确率。
本发明的另一个目的是提供所述在线图像样本标注方法在垃圾分类中的应用,提高自动识别分类的正确率。
为实现本发明的目的所采用的技术方案是:
一种基于主动学习的在线图像样本标注系统,包括标注平台和搭建在标注平台中的机器学习模型,其中所述标注平台包括标注平台后端、标注平台前端和标注平台管理者前端,其中:
所述标注平台后端中包括存储有图片信息和标注者信息的数据库,其中所述图片信息包括图片、图片路径、图片标注、图片标注者、所述机器学习模型预测得到的图片预测类别和预测分数;所述标注者信息包括总标注数量、标注正确率;
所述标注平台前端用于展示图片、机器学习模型预测得到的图片预测类别、机器学习模型预测得到的预测分数(预测值)和供标注者选择的标注下拉菜单;
所述标注平台管理者前端用于展示整体标注情况,比如标注者与标注图片的对应信息,每个标注者标注了哪些图片及其具体标注信息,标注者可对标注质量进行抽查。平台管理者基于每个标注者的标注数量和质量定期对薪酬进行结算。
在上述技术方案中,所述标注平台前端为web标注平台前端,可利用bootstrap前端技术搭建。
在上述技术方案中,所述标注平台后端为web标注平台后端,数据库为PostgreSQL数据库,web标注平台后端利用python django框架搭建,把数据关系通过django中的model类映射到PostgreSQL数据库。
在上述技术方案中,所述web标注平台后端部署于阿里云。
在上述技术方案中,所述机器学习模型为ResNet,DenseNet或NasNet模型。
本发明的另一方面,所述基于主动学习的在线图像样本标注系统在垃圾分类中的应用。
本发明的另一方面,一种基于主动学习的在线图像样本标注方法,包括以下步骤:
步骤1,标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别(总共10个分类)和预测分数(0-1之间)进行展示;
抽取未标注图片时,基于主动学习算法优先抽取重要样本到数据库,然后通过标注平台前端进行展现给标注者,
步骤2,标注者在标注平台前端中挑选预测错误的样本(当前机器学习模型对图片进行预测类别时发生错误)进行标注,得到标注结果,并反馈到数据库;
步骤3,平台后端定时对数据库内的具有标注结果的图片进行抽取,自动反馈给机器学习模型进行训练。提高机器学习模型的准确度。
在上述技术方案中,所述机器学习模型为ResNet,DenseNet或NasNet模型。
在上述技术方案中,所述步骤2中所述主动学习算法通过信息熵计算查询重要样本,信息熵计算公式为:H(x)=-∑P(xi)log(P(xi))(i=1,2,..n),其中:H(x)为信息熵,P(xi)为给定机器学习模型对各图片预测类别的预测概率(相加为1),n=10,选取信息熵H(x)大于1的样本为重要样本,进行优先标注。
在上述技术方案中,给定机器学习模型为基于InceptionV3通过大量图片样本学习得到的模型。
在上述技术方案中,所述步骤2中重要样本展现给专家进行标记,然后利用专家标记信息训练当前机器学习模型。
本发明的另一方面,所述基于主动学习的在线图像样本标注方法在垃圾分类中的应用。
与现有技术相比,本发明的有益效果是:
1.通过主动学习方法优先标注最重要的样本,把正确和错误的样本反馈给机器学习模型,使模型能够自适应的不断提升预测准确率,并且可以对标注者、标注质量进行有效的平台化管理。
2.本发明有效提升了机器学习系统的效率,建立了在线的高效标注平台。
附图说明
图1为标注平台前端信息图。
图2为标注平台管理者前端信息图。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于主动学习的在线图像样本标注系统,包括标注平台和搭建在标注平台中的机器学习模型,其中所述标注平台包括标注平台后端、标注平台前端和标注平台管理者前端,其中:
所述标注平台后端中包括存储有图片信息和标注者信息的数据库,其中所述图片信息包括图片、图片路径、图片标注、图片标注者、所述机器学习模型预测得到的图片预测类别和预测分数;所述标注者信息包括总标注数量、标注正确率;
所述标注平台前端用于展示图片、机器学习模型预测得到的图片预测类别、机器学习模型预测得到的预测分数(预测值)和供标注者选择的标注下拉菜单;
所述标注平台管理者前端用于展示整体标注情况,比如标注者与标注图片的对应信息,每个标注者标注了哪些图片及其具体标注信息,标注者可对标注质量进行抽查。平台管理者基于每个标注者的标注数量和质量定期对薪酬进行结算。
所述标注平台后端为web标注平台后端,数据库为PostgreSQL数据库,web标注平台后端利用python django框架搭建,把数据关系通过django中的model类映射到PostgreSQL数据库。web标注平台后端可部署于阿里云等,可以基于http协议访问平台。
所述标注平台前端为web标注平台前端,可利用bootstrap前端技术搭建,标注者可通过普通web浏览器登录后访问。
实施例2
一种基于主动学习的在线图像样本标注方法,包括以下步骤:
步骤1,标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别(总共10个分类)和预测分数(0-1之间)进行展示;
抽取未标注图片时,基于主动学习算法优先抽取重要样本到数据库,然后通过标注平台前端进行展现给标注者,
步骤2,标注者在标注平台前端中挑选预测错误的样本进行标注,得到标注结果,并反馈到数据库;
步骤3,平台后端定时对数据库内的具有标注结果的图片进行抽取,自动反馈给机器学习模型进行训练。提高机器学习模型的准确度。
作为优选方式,所述机器学习模型为ResNet,DenseNet或NasNet模型。
作为优选方式,所述步骤2中所述主动学习算法通过信息熵计算查询重要样本(最有用的未标记样本),信息熵计算公式为:H(x)=-∑P(xi)log(P(xi))(i=1,2,..n),其中:H(x)为信息熵,P(xi)为给定机器学习模型对各图片预测类别的预测概率(相加为1),n=10,选取信息熵H(x)大于1的样本为重要样本,进行优先标注。给定机器学习模型可采用基于InceptionV3通过大量图片样本学习得到的模型。
作为优选方式,所述步骤2中重要样本展现给专家进行标记,然后利用专家标记信息训练当前机器学习模型(样本训练分类模型)以进一步提高模型的精确度。
实施例3
实施例1所述的标注系统和实施例2所述的标注方法在垃圾分类中的应用。
建立web标注平台,机器学习模型针对数据库中的垃圾图片进行预测,预测每一图片的图片预测类别(垃圾类型)和预测分数,基于主动学习算法优先抽取重要样本到web标注平台后端的数据库,并显示在web标注平台前端,标注者在web标注平台前端对垃圾图片进行标注,并将信息反馈到数据库,web标注平台后端定时抽取数据库中的数据训练所述机器学习模型。
通过重要样本的持续训练,机器学习模型可提高预测精准度,准确判断垃圾图片中的垃圾类型。
标注平台前端的信息如图1所示,预测分数为0-1之间,预测类别包括不可回收、塑料瓶子、易拉罐、纸张纸盒、玻璃、其他塑料金属等,标注下拉菜单中包括正确、为空、不可回收、塑料瓶子、易拉罐、纸张纸盒、玻璃、其他塑料金属等。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于主动学习的在线图像样本标注系统,其特征在于,包括标注平台和搭建在标注平台中的机器学习模型,其中所述标注平台包括标注平台后端、标注平台前端和标注平台管理者前端,其中:
所述标注平台后端中包括存储有图片信息和标注者信息的数据库,其中所述图片信息包括图片、图片路径、图片标注、图片标注者、所述机器学习模型预测得到的图片预测类别和预测分数;所述标注者信息包括总标注数量、标注正确率;
所述标注平台前端用于展示图片、机器学习模型预测得到的图片预测类别、机器学习模型预测得到的预测分数和供标注者选择的标注下拉菜单;
所述标注平台管理者前端用于展示整体标注情况。
2.如权利要求1所述的基于主动学习的在线图像样本标注系统,其特征在于,所述标注平台前端为web标注平台前端,可利用bootstrap前端技术搭建。
3.如权利要求1所述的基于主动学习的在线图像样本标注系统,其特征在于,所述标注平台后端为web标注平台后端,数据库为PostgreSQL数据库,web标注平台后端利用pythondjango框架搭建,把数据关系通过django中的model类映射到PostgreSQL数据库。
4.如权利要求1所述的基于主动学习的在线图像样本标注系统,其特征在于,所述机器学习模型为ResNet,DenseNet或NasNet模型。
5.如权利要求1所述的基于主动学习的在线图像样本标注系统在垃圾分类中的应用。
6.一种基于主动学习的在线图像样本标注方法,其特征在于,包括以下步骤:
步骤1,标注平台前端从标注平台后端抽取未标注图片、以及当前机器学习模型对图片进行处理得到的预测类别和预测分数进行展示;
抽取未标注图片时,基于主动学习算法优先抽取重要样本到数据库,然后通过标注平台前端进行展现给标注者;
步骤2,标注者在标注平台前端中挑选预测错误的样本进行标注,得到标注结果,并反馈到数据库;
步骤3,平台后端定时对数据库内的具有标注结果的图片进行抽取,自动反馈给机器学习模型进行训练。
7.如权利要求6所述的基于主动学习的在线图像样本标注方法,其特征在于,所述步骤2中所述主动学习算法通过信息熵计算查询重要样本,信息熵计算公式为:H(x)=-∑P(xi)log(P(xi))(i=1,2,..n),其中:H(x)为信息熵,P(xi)为给定机器学习模型对各图片预测类别的预测概率(相加为1),n=10,选取信息熵H(x)大于1的样本为重要样本,进行优先标注。
8.如权利要求7所述的基于主动学习的在线图像样本标注方法,其特征在于,所述给定机器学习模型为基于InceptionV3通过大量图片样本学习得到的模型。
9.如权利要求6所述的基于主动学习的在线图像样本标注方法,其特征在于,所述步骤2中重要样本展现给专家进行标记,然后利用专家标记信息训练当前机器学习模型。
10.如权利要求6所述的基于主动学习的在线图像样本标注方法在垃圾分类中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831633.XA CN112446404A (zh) | 2019-09-04 | 2019-09-04 | 一种基于主动学习的在线图像样本标注系统、标注方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831633.XA CN112446404A (zh) | 2019-09-04 | 2019-09-04 | 一种基于主动学习的在线图像样本标注系统、标注方法及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446404A true CN112446404A (zh) | 2021-03-05 |
Family
ID=74734943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910831633.XA Pending CN112446404A (zh) | 2019-09-04 | 2019-09-04 | 一种基于主动学习的在线图像样本标注系统、标注方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446404A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344216A (zh) * | 2021-06-17 | 2021-09-03 | 上海商汤科技开发有限公司 | 数据标注方法和平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160162802A1 (en) * | 2014-12-07 | 2016-06-09 | Microsoft Technology Licensing, Llc. | Active Machine Learning |
CN108875769A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
CN109271602A (zh) * | 2018-09-05 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 深度学习模型发布方法及装置 |
-
2019
- 2019-09-04 CN CN201910831633.XA patent/CN112446404A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160162802A1 (en) * | 2014-12-07 | 2016-06-09 | Microsoft Technology Licensing, Llc. | Active Machine Learning |
CN108875769A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
CN109271602A (zh) * | 2018-09-05 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 深度学习模型发布方法及装置 |
Non-Patent Citations (1)
Title |
---|
聂嘉贺 等: "基于主动学习的文本分类系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344216A (zh) * | 2021-06-17 | 2021-09-03 | 上海商汤科技开发有限公司 | 数据标注方法和平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8082151B2 (en) | System and method of generating responses to text-based messages | |
US11010768B2 (en) | Character-based attribute value extraction system | |
WO2021208696A1 (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
CN109918489A (zh) | 一种多策略融合的知识问答方法和系统 | |
CN109858626B (zh) | 一种知识库构建方法及装置 | |
CN111144079A (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
WO2023178802A1 (zh) | 命名实体识别方法、装置、设备和计算机可读存储介质 | |
CN112308059A (zh) | 用于电子商务的商品信息翻译方法、系统和可读存储介质 | |
CN111414950B (zh) | 基于标注者专业度管理的矿石图片标注方法和系统 | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
CN111737949B (zh) | 题目内容提取方法、装置、可读存储介质及计算机设备 | |
CN111539417B (zh) | 一种基于深度神经网络的文本识别训练优化方法 | |
CN112446404A (zh) | 一种基于主动学习的在线图像样本标注系统、标注方法及其应用 | |
CN110321549A (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN113240562A (zh) | 一种基于nlp的产学研项目推荐匹配方法与系统 | |
CN112488222A (zh) | 一种众包数据标注方法、系统、服务器及存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN115761772A (zh) | 一种医疗化验单的结构化识别方法、系统及存储介质 | |
CN112579784B (zh) | 一种基于深度强化学习的云边协同文档分类系统及方法 | |
CN110532394A (zh) | 订单备注文本的处理方法及系统 | |
CN114970502A (zh) | 一种应用于数字政府的文本纠错方法 | |
CN113592512A (zh) | 一种线上商品身份唯一性识别确认系统 | |
CN112035646A (zh) | 关键内容提取方法 | |
US20220253728A1 (en) | Method and System for Determining and Reclassifying Valuable Words | |
CN115658911A (zh) | 一种食品安全标准关联知识图谱构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210305 |
|
RJ01 | Rejection of invention patent application after publication |