CN110647985A - 一种基于人工智能模型库的众包数据标注方法 - Google Patents

一种基于人工智能模型库的众包数据标注方法 Download PDF

Info

Publication number
CN110647985A
CN110647985A CN201910709962.7A CN201910709962A CN110647985A CN 110647985 A CN110647985 A CN 110647985A CN 201910709962 A CN201910709962 A CN 201910709962A CN 110647985 A CN110647985 A CN 110647985A
Authority
CN
China
Prior art keywords
data
model
platform
training
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910709962.7A
Other languages
English (en)
Inventor
张桦
沈菲
吴以凡
戴国骏
杨铭凯
苟若芸
项雷雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910709962.7A priority Critical patent/CN110647985A/zh
Publication of CN110647985A publication Critical patent/CN110647985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于人工智能模型库的众包数据辅助标注方法。本发明包括上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分数据进行标注,选取相应的预训练模型进行训练得到初步的模型,用该模型对未标注数据进行预标注;基于最优化算法采用众包的方式对标注过的数据进行分发从而进行二次标注;将二次标注的数据存储于算法库中,使算法库中的算法进行增量学习;对算法库中的模型进行优化并通过数据转换的语言实现自动化数据操作。通过本发明公开的基于人工智能深度学习算法库的半自动标注和众包的数据标注方法,可以解决当前标注数量大,人工标注数据慢标注质量不稳定,数据标注成本高的问题。

Description

一种基于人工智能模型库的众包数据标注方法
技术领域
本发明涉及到数据标注领域,大数据领域以及人工智能领域,具体地说,是一种基于人工智能模型库的众包数据标注方法。
背景技术
如今人工智能(AI)与大数据产业炙手可热,以深度学习为代表的算法在诸多领域被逐渐应用。而一个算法模型需要大量的标注好的数据去训练机器从而达到“智能”的目的,因此高质量的数据集对算法至关重要。然而目前数据标注量大,人工标注慢,标注质量不稳定,所耗费时间长,成本高。如何快速高效地产生高质量的标注数据是亟待解决的问题。
发明内容
本发明的目的是针对现有数据标注技术中的不足,提供一种基于人工智能模型库的众包数据标注方法满足各类人群的需求,针对标注数量大,人工标注效率和成本以及标注正确率的问题,结合众包以及深度学习算法模型的优势提高标注的质量。
本发明中涉及到的人群包括待标注数据的需求方;数据平台的管理者;平台数据的标注者以及改进旧模型提供新模型的开发人员。
为实现上述目的,本发明采取的技术方案具体如下:
上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分待标注的数据进行标注,选取相应的预训练模型进行训练得到初步模型,用该初步模型对其余未标注数据进行预标注;
平台管理人员采用基于最优化算法同时采用众包的方式对预标注的数据进行分发,从而对数据进行二次标注;
平台管理人员用二次标注的数据对算法库中的模型进行训练,使算法库中的模型进行增量学习;
对于算法库中的算法模型,专家以及平台外的开发人员可以对其进行改进,也可以提供新的模型;
对于平台中标注过后的图片,放入模型进行训练的之前需要转换成模型需要的数据格式,本方法提供一种数据转换语言从而实现自动化数据操作,平台根据相应的权限,提供接口以便数据需求方下载标注后的数据;
对于需求方:上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分待标注的数据进行标注,选取相应的预训练模型进行训练得到初步模型,用该初步模型对其余未标注数据进行预标注;
在实施案例中包括:将需要标注的数据上传到平台,从后台的算法库中选取所需的模型,包括卷积神经网络CNN、YOLO3、LSTM 和U-Net等模型,本平台提供高配置的服务器,支持用户在平台上训练数据;
选取所需的模型,根据要求安装所需的环境在本地进行训练;
选取所需的模型,提供相应接口在外部平台上训练;
其中,提供的高配置的服务器在实验室内部运行,平台提供接口供需求方远程访问;
其中,安装环境在本地进行训练包括:选择一个代理如GPU(cuda) 或者NIVIDIADocker安装,进行环境配置运行。
其中,提供相应链接在外部平台上训练包括:提供接口跳转该网站,用户在该网站上进行注册登录使用该网站提供的资源在该网站上对数据进行训练。
平台管理人员采用最优化算法基于众包的方式对预标注的数据进行分发,对数据进行二次标注;包括:采用规则和已知样本的方式对错误标注进行反复标注,同时在众包的机制中加入用户激励机制,以达到提高数据标注质量的要求
相关的专家以及平台外的开发人员可以对其进行改进,也可以提供新的模型
在实施案例中包括,平台以外的开发人员注册登录平台,平台根据开发人员权限提供接口,开发人员访问后台算法库,对算法库中模型进行修改,并且提供新研究出的数据库
开发人员需要验证上传的模型的性能,需要标注完成的数据进行训练,可以使用平台的开源数据集,也可提交申请,平台管理人员与数据需求方协商,提供需求方标注完的数据。
采用数据转换语言自动化数据操作包括合并数据集,图像的增强以及将数据保存成各种格式。
本发明有益效果如下:
通过本发明公开的基于人工智能深度学习算法库的半自动标注和众包的数据标注方法,可以解决当前人工标注数据慢,数据标注成本高的问题。
附图说明
图1是本发明流程示意图
具体实施方式
参照图1,一种基于人工智能模型库的众包数据标注方法所述的方法包括以下步骤:
上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分数据进行标注,选取相应的预训练模型进行训练得到初步的模型,用该模型对未标注数据进行预标注;
上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分数据进行标注,选取相应的预训练模型进行训练得到初步的模型,用该模型对未标注数据进行预标注;
平台管理人员用二次标注的数据对算法库中的模型进行训练,使算法库中的算法进行增量学习;
相关的专家以及平台外的开发人员可以对其进行改进,也可以提供新的模型;
对于需求方,上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分数据进行标注,选取相应的预训练模型进行训练得到初步的模型,用该模型对未标注数据进行预标注包括:
将需要标注的数据上传到平台,首先对少量数据进行分发进行标注并且从后台的算法库中选取所需的模型有卷积神经网络CNN, YOLO3,LSTM和U-Net等神经网络模型,用标注完的少量数据对模型进行训练得到一代模型。
其中选取模型包括:
选取相应的模型,本平台提供高配置的服务器,支持用户在平台上训练数据。其中,提供的高配置的服务器在实验室内部运行,平台提供接口供需求方远程访问
选取相应的模型,根据要求安装所需的环境在本地进行训练。其中,安装环境在本地进行训练包括:选择一个代理如GPU(cuda)或者NIVIDIA Docker安装,进行环境配置运行。
选取相应的模型,提供相应接口在外部平台上训练。提供相应链接在外部平台上训练包括:提供接口跳该网站,用户在该网站上进行注册登录使用该网站提供的资源在该网站上对数据进行训练。
平台管理人员采用基于最优化算法采用众包的方式对预标注的数据进行分发,对数据进行二次标注,标注人员采用规则和已知样本的方式对错误标注进行反复标注,同时在众包的机制中加入用户激励机制,以达到提高数据标注质量的要求
在该实施例中人工进行的二次标注只负责对自动标注的对错进行判断和修改,例如遗漏和错误的情况,在该过程中人工标注只属于辅助标注,用以提高标注的精确度。
在该实施实例中的最优化算法用于任务分配,将用户的任务完成类型和可信度作为参数,实现任务的自动分配。
在该实施例中所用到的最优化算法是蚁群算法,算法流程如下:
假设蚂蚁的数量为m,城市的数量n,城市i与j之间的距离为dij (i,j=1,2,3...,n),t时刻城市i与城市j连接路径上的信息浓度为τij(t)。初始时刻,各城市之间路径的信息素浓度相同,τij(t)=τ0。蚂蚁k (k=1,2,3...,m)根据各个城市连接路径上的信息素浓度决定其下一各访问城市,则t时刻蚂蚁k从城市i转移到城市j的概率:
Figure RE-GDA0002272448090000051
ηij(t)=1/dij为启发函数,α为信息素重要程度因子,β为启发函数的重要程度因子。而释放信息素的同时信息素也会挥发,每次循环过后,城市路径上的信息素会实时更新的更新公式入下ρ(0<ρ<1)表示信息的挥发程度:
平台管理人员用二次标注的数据对算法库中的模型进行训练,使算法库中的算法进行增量学习,采用新学习到的数据对模型进行重新训练;
相关的专家以及平台外的开发人员可以对其进行改进,也可以提供新的模型;
该实施例中包括,平台以外的开发人员注册登录平台,平台根据开发人员权限提供接口,开发人员访问后台算法库,对算法库中模型进行修改,并且提供新研究出的数据库
开发人员需要验证上传的模型的性能,需要标注完成的数据进行训练,可以使用平台的开源数据集,也可提交申请,平台管理人员与数据需求方协商,提供需求方标注完的数据。

Claims (8)

1.一种基于人工智能模型库的众包数据标注方法,其特征在于包括上传待标注的数据,提供所需的预训练模型,采用众包的方式对上传的部分数据进行标注,选取相应的预训练模型进行训练得到初步的模型,用该模型对未标注数据进行预标注;其中涉及到的人群包括待标注数据的需求方;平台的管理者;平台数据的标注者以及改进旧模型提供新模型的开发人员;
平台的管理者采用基于最优化算法,同时采用众包的方式对预标注的数据进行分发,对数据进行二次标注;
平台的管理者用二次标注的数据对算法库中的模型进行训练,使算法库中的算法进行增量学习;
对于平台算法库中的算法模型,专家以及平台开发人员可以对其进行改进,也可以提供新的模型;
对于平台中标注过后的图片,放入模型进行训练之前需要转换成模型需要的数据格式,平台根据相应的权限,提供接口以便数据需求方下载标注后的数据。
2.根据权利要求1所述的一种基于人工智能模型库的众包数据标注方法,其特征在于数据需求方将需要标注的数据上传到平台,从平台算法库中选取所需的模型,所需的模型包括卷积神经网络CNN、YOLO3、LSTM和U-Net模型,其中包括了识别人脸、车辆和水果的预训练模型;
选取所需的模型,本平台提供高配置的服务器,在服务器上对模型进行训练;或根据要求安装所需的环境在本地进行训练,通过平台实时检测训练的状态;或提供相应接口在外部平台上训练。
3.根据权利要求2所述的一种基于人工智能模型库的众包数据标注方法,其特征在于采用最优化算法基于众包的方式对标注过的数据进行分发和对标注过的数据进行二次标注包括:
申请标注的标注者根据规则和已知样本的方式对错误标注进行反复标注,平台通过最优化算法对参与标注的人员自动分发标注任务。
4.根据权利要求3所述的一种基于人工智能模型库的众包数据标注方法,其特征在于所述的二次标注完成的数据,作为新的训练样本加入到平台算法库的所选模型中,让模型在当前新的样本里进行训练和进行增量学习。
5.根据权利要求4所述的一种基于人工智能模型库的众包数据标注方法,其特征在于所述的数据格式的转换包括合并数据集,增强图像以及将数据保存成各种格式。
6.根据权利要求5所述的一种基于人工智能模型库的众包数据标注方法,其特征在于提供的高配置的服务器在实验室内部运行,平台提供接口供需求方远程访问。
7.根据权利要求6所述的一种基于人工智能模型库的众包数据标注方法,其特征在于所述的安装所需的环境在本地进行训练包括:选择所需环境如GPU和NIVIDIA Docker在本地安装,进行环境配置运行。
8.根据权利要求7所述的一种基于人工智能模型库的众包数据标注方法,其特征在于提供相应接口在外部平台上训练,提供接口跳转训练网站在该网站上对数据进行训练。
CN201910709962.7A 2019-08-02 2019-08-02 一种基于人工智能模型库的众包数据标注方法 Pending CN110647985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910709962.7A CN110647985A (zh) 2019-08-02 2019-08-02 一种基于人工智能模型库的众包数据标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910709962.7A CN110647985A (zh) 2019-08-02 2019-08-02 一种基于人工智能模型库的众包数据标注方法

Publications (1)

Publication Number Publication Date
CN110647985A true CN110647985A (zh) 2020-01-03

Family

ID=68990014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910709962.7A Pending CN110647985A (zh) 2019-08-02 2019-08-02 一种基于人工智能模型库的众包数据标注方法

Country Status (1)

Country Link
CN (1) CN110647985A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539309A (zh) * 2020-04-21 2020-08-14 广州云从鼎望科技有限公司 一种基于ocr的数据处理方法、系统、平台、设备及介质
CN111582388A (zh) * 2020-05-11 2020-08-25 广州中科智巡科技有限公司 一种图像数据快速标注的方法及系统
CN111881106A (zh) * 2020-07-30 2020-11-03 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN112070777A (zh) * 2020-11-10 2020-12-11 中南大学湘雅医院 一种基于增量学习的多场景下的危及器官分割方法及设备
CN112560976A (zh) * 2020-12-23 2021-03-26 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN112667308A (zh) * 2020-12-16 2021-04-16 浙江大华技术股份有限公司 特征信息的处理方法、装置和特征信息的处理系统
CN113297902A (zh) * 2021-04-14 2021-08-24 中国科学院计算机网络信息中心 一种基于众包模式在线标注遥感影像生成样本数据集的方法和装置
CN115270821A (zh) * 2022-06-08 2022-11-01 甲骨易(北京)语言科技股份有限公司 一种机器翻译模型众包增量学习方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN106846399A (zh) * 2017-01-16 2017-06-13 浙江大学 一种获取图像的视觉重心的方法及装置
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107704631A (zh) * 2017-10-30 2018-02-16 西华大学 一种基于众包的音乐标注原子库的构建方法
CN107958317A (zh) * 2016-10-17 2018-04-24 腾讯科技(深圳)有限公司 一种众包项目中选取众包参与人的方法和装置
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN109241513A (zh) * 2018-08-27 2019-01-18 上海宝尊电子商务有限公司 一种基于大数据众包模式数据标注的方法及装置
CN109446783A (zh) * 2018-11-16 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于机器众包的图像识别高效样本采集方法及系统
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台系统及众包数据标注方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106489149A (zh) * 2016-06-29 2017-03-08 深圳狗尾草智能科技有限公司 一种基于数据挖掘和众包的数据标注方法及系统
CN107958317A (zh) * 2016-10-17 2018-04-24 腾讯科技(深圳)有限公司 一种众包项目中选取众包参与人的方法和装置
CN106846399A (zh) * 2017-01-16 2017-06-13 浙江大学 一种获取图像的视觉重心的方法及装置
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107704631A (zh) * 2017-10-30 2018-02-16 西华大学 一种基于众包的音乐标注原子库的构建方法
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN108881446A (zh) * 2018-06-22 2018-11-23 深源恒际科技有限公司 一种基于深度学习的人工智能平台系统
CN109241513A (zh) * 2018-08-27 2019-01-18 上海宝尊电子商务有限公司 一种基于大数据众包模式数据标注的方法及装置
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台系统及众包数据标注方法
CN109446783A (zh) * 2018-11-16 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于机器众包的图像识别高效样本采集方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539309A (zh) * 2020-04-21 2020-08-14 广州云从鼎望科技有限公司 一种基于ocr的数据处理方法、系统、平台、设备及介质
CN111582388A (zh) * 2020-05-11 2020-08-25 广州中科智巡科技有限公司 一种图像数据快速标注的方法及系统
CN111881106A (zh) * 2020-07-30 2020-11-03 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN111881106B (zh) * 2020-07-30 2024-03-29 北京智能工场科技有限公司 基于ai检验的数据标注和处理方法
CN112070777A (zh) * 2020-11-10 2020-12-11 中南大学湘雅医院 一种基于增量学习的多场景下的危及器官分割方法及设备
CN112667308A (zh) * 2020-12-16 2021-04-16 浙江大华技术股份有限公司 特征信息的处理方法、装置和特征信息的处理系统
CN112667308B (zh) * 2020-12-16 2022-09-20 浙江大华技术股份有限公司 特征信息的处理方法、装置和特征信息的处理系统
CN112560976A (zh) * 2020-12-23 2021-03-26 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备和存储介质
CN113297902A (zh) * 2021-04-14 2021-08-24 中国科学院计算机网络信息中心 一种基于众包模式在线标注遥感影像生成样本数据集的方法和装置
CN113297902B (zh) * 2021-04-14 2023-08-08 中国科学院计算机网络信息中心 一种基于众包模式在线标注遥感影像生成样本数据集的方法和装置
CN115270821A (zh) * 2022-06-08 2022-11-01 甲骨易(北京)语言科技股份有限公司 一种机器翻译模型众包增量学习方法

Similar Documents

Publication Publication Date Title
CN110647985A (zh) 一种基于人工智能模型库的众包数据标注方法
CN109564505B (zh) 人工智能引擎、系统及机器可读存储设备
Veeckman et al. The city as living labortory: A playground for the innovative development of smart city applications
CN109919302B (zh) 一种用于图像的神经网络的训练方法及装置
Rajesh Traditional courses into online moving strategy
Hackler et al. Building a Lean culture
JP7360655B2 (ja) 議論支援装置および議論支援装置用のプログラム
Claros et al. Social Media Learning: An approach for composition of multimedia interactive object in a collaborative learning environment
Givoni et al. The use of state-of-the-art transport models by policymakers–beauty in simplicity?
Smith et al. Evaluating clusters: Where theory collides with practice
Kordon Applied artificial intelligence-based systems as competitive advantage
Boeker et al. Teaching Good Biomedical Ontology Design.
Chen et al. Software architecture design of animation studies platform using structure-behavior coalescence method
Clark et al. Roadmap to success: Your first simulation model
Thomson How should we manage knowledge ecosystems? Using adaptive knowledge management
Mkrttchian et al. Use triple H-AVATAR technology for research in online multi-cloud platform lab
Xiao et al. Streaming Traffic Flow Prediction Based on Continuous Reinforcement Learning
Byers Multi‐level alignment model: transforming face‐to‐face into e‐instructional programs
Yong et al. Students' perception of non-placement work-integrated learning in chemical engineering: Work-related skills towards the post-pandemic future
Reátegui et al. Customized IoT devices for the architectural education future in connectivity for smart cities
Jacques et al. Computational Thinking: The Bridge Between the Engineering Design Process and Project-Based Learning
Molenaar et al. On the nature of links between requirements and architectures: case studies on user story utilization in agile development
Sibilla Buildings-as-Energy-Service: A Tool Kit for re-thinking about a new generation of buildings as components of a future energy infrastructure
Liu Examining the Impact of Assistive Technology on the Talent Development Path in AI-Driven Vocational Education
Alizadeh Ashrafi Improving the Hardware Modelling Framework in the Case Company

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103

RJ01 Rejection of invention patent application after publication