CN111369005A - 众包标记系统 - Google Patents

众包标记系统 Download PDF

Info

Publication number
CN111369005A
CN111369005A CN201811654837.2A CN201811654837A CN111369005A CN 111369005 A CN111369005 A CN 111369005A CN 201811654837 A CN201811654837 A CN 201811654837A CN 111369005 A CN111369005 A CN 111369005A
Authority
CN
China
Prior art keywords
marking
module
samples
user
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811654837.2A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Binlan Technology Co ltd
Original Assignee
Hangzhou Binlan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Binlan Technology Co ltd filed Critical Hangzhou Binlan Technology Co ltd
Priority to CN201811654837.2A priority Critical patent/CN111369005A/zh
Publication of CN111369005A publication Critical patent/CN111369005A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种众包标记系统,将少量标记的数据集发布,选择模型,训练之后,在通过主动学习技术,模型对每个数据样本的置信度都是不相同的,比较确信的样本在输出进行标记的成本太高,这一类样本模型应该是比较确信的,只需要输出置信度较低的样本,派发系统会将这些筛选出的样本派发给用户标记,在标记完成后会自动统计分析出结果文件。本发明解决了标记数据集缺少、完全人工标注需要耗费大量的时间和人力成本、标记数据集利用率不高,只需要用户将数据集上传,进行少量的步骤就足以完成。

Description

众包标记系统
技术领域
本发明涉及人工智能领域,特别是人工智能模型训练阶段.
背景技术
随着技术的发展,计算机的计算能力日益提高,人工智能技术得到飞速的发展,但是与之对应的问题出现了,模型的训练需要大量的数据,经过标记的数据更加少了,请大量的人工去标记在人力和时间成本上都是比较高的。为此,我们提出了一种众包标记系统。
发明内容
本发明的主要目的提供一种基于主动学习技术的众包标记系统,可以有效解决背景技术中的问题。
为实现上述目的,本发明的采取的技术方案为:
一个众包标记系统,包括:数据集发布模块,建模模块,模型自动训练模块,主动学习筛选样本模块,用户派发模块,标记结果统计并生成文件模块。
数据集发布模块,用户需要将待标记的数据机发布到平台,进行初期的修改解压等操作,以便于后续的模型筛选功能顺利进行。
建模模块,提供一个在线建模的功能,可以根据自己的需求建立模型,也可以使用我们提供的基础模型。
模型自动训练模块,在选定的数据集下,提交模型,我们会自动使用该数据集对模型进行训练,来得到模型的输出。
主动学习筛选样本模块,通过主动学习技术,对模型的输出进行筛选,将模型不确定的样本挑选出来,这样就避免了所有样本都需要标记的需求,通过标记少量样本来提升模型的置信度。
用户派发模块,将筛选出来的不够置信度阈值的样本派发给多个用户,同一个样本会派发给3-10个用户,这样避免了随意标签的问题,单个用户一次只能标记少于50个样本,我们也会记录用户的标记历史,如果存在恶意标记行为,进行结果降权以及派发量减少。
标记结果统计并生成文件模块,在所有流程完成后,我们会自动将标记的结果统计并生成文件。
与现有的场景相比,本发明具有如下的有益效果:
1.高度的自动化,只需要进行几步点击就可以进行众包标记的流程
2.人力和时间成本的节省,筛选出来的样本只会是数据集中的少部分,单个用户只需要标记少量的样本。
3.标记结果的可靠性,一个样本会派发给多个用户,进行统计投票,记录用户的标记历史。
4.利用率提高,标记结果文件的生成后其他所有用户都可以随时访问到该数据集以及文件进行自己的模型训练。
附图说明
下面结合附图对本发明进一步说明。
图1为众包标记系统的原理图;
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1所示,一种众包标记系统,包括:数据集发布模块1、建模模块2、模型自动训练模块3、主动学习筛选样本模块4、用户派发模块5、标记结果统计并生成文件模块6,其中数据句发布模块包括数据集发布、预览、编辑用于数据集预处理,建模模块2用于建立筛选样本的模型,模型自动训练模块用于选择模型后自动用已标记的数据进行训练并进行置信度输出,主动学习筛选样本模块4用于将上一步模型输出的置信度进行筛选评估出需要被标记的样本,用户派发模块5将被筛选出来的样本有选择性的派发给用户,一个样本会派发给多个用户,标记结果统计并生成文件模块6用于将最终的结果统计分析,最终以一个文件进行输出。
以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (4)

1.一种众包标记系统,其主要特征在于,包括:主动学习筛选样本模块,用户派发模块,标记结果统计并生成文件模块。
2.主动学习筛选样本模块,用于分析模型训练结果的输出,通过主动学习技术,筛选出置信度达不到阈值的样本。
3.用户派发模块,用于将不确定的样本派发给用户标记。
4.标记结果统计并生成文件模块,用于分析结果,并生成标记文件。
CN201811654837.2A 2018-12-26 2018-12-26 众包标记系统 Pending CN111369005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811654837.2A CN111369005A (zh) 2018-12-26 2018-12-26 众包标记系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811654837.2A CN111369005A (zh) 2018-12-26 2018-12-26 众包标记系统

Publications (1)

Publication Number Publication Date
CN111369005A true CN111369005A (zh) 2020-07-03

Family

ID=71212237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811654837.2A Pending CN111369005A (zh) 2018-12-26 2018-12-26 众包标记系统

Country Status (1)

Country Link
CN (1) CN111369005A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967450A (zh) * 2020-10-21 2020-11-20 宁波均联智行科技有限公司 自动驾驶模型用样本获取方法、训练方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967450A (zh) * 2020-10-21 2020-11-20 宁波均联智行科技有限公司 自动驾驶模型用样本获取方法、训练方法、装置及系统
CN111967450B (zh) * 2020-10-21 2021-02-26 宁波均联智行科技股份有限公司 自动驾驶模型用样本获取方法、训练方法、装置及系统

Similar Documents

Publication Publication Date Title
CN110581898B (zh) 基于5g和边缘计算的物联网数据终端系统
CN109271493B (zh) 一种语言文本处理方法、装置和存储介质
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109376844A (zh) 基于云平台和模型推荐的神经网络自动训练方法和装置
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN111523324B (zh) 命名实体识别模型的训练方法及装置
CN103440243B (zh) 一种教学资源推荐方法及其装置
CN101556553A (zh) 基于需求变更的缺陷预测方法和系统
CN110223675A (zh) 用于语音识别的训练文本数据的筛选方法及系统
CN107562836A (zh) 基于主题模型和机器学习的回答者推荐方法
CN110489749B (zh) 一种智能办公自动化系统的业务流程优化方法
CN107609147A (zh) 一种从日志流中自动提取特征的方法和系统
CN109582796A (zh) 企业舆情事件网络的生成方法、装置、设备及存储介质
CN113778871A (zh) Mock测试方法、装置、设备及存储介质
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN110209802A (zh) 一种提取摘要文本的方法及装置
CN111008706B (zh) 一种自动标注、训练、预测海量数据的处理方法
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
Ren et al. Deep learning and integrated learning for predicting student's withdrawal behavior in MOOC
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN106484913A (zh) 一种目标图片确定的方法以及服务器
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
CN111369005A (zh) 众包标记系统
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN103810365A (zh) 一种基于水电仿真培训系统自动评分的方法

Legal Events

Date Code Title Description
DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Li Junxiang

Document name: Notification of Acceptance of Patent Application

PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination