CN111507480B - 标注方法、装置、设备及存储介质 - Google Patents
标注方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111507480B CN111507480B CN202010298513.0A CN202010298513A CN111507480B CN 111507480 B CN111507480 B CN 111507480B CN 202010298513 A CN202010298513 A CN 202010298513A CN 111507480 B CN111507480 B CN 111507480B
- Authority
- CN
- China
- Prior art keywords
- labeling
- training data
- result
- training
- labeling result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/101—Collaborative creation, e.g. joint development of products or services
Abstract
本发明公开了一种标注方法、装置、设备及存储介质,该方法包括:根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型,将训练数据集中的未标注的第二训练数据输入算法预标注模型中,获取第二标注结果,获取用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的第三标注结果,获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果,将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行第一个步骤,直至训练数据集中的所有训练数据均已被标注。该标注方法标注效率及标注质量均较高。
Description
技术领域
本发明实施例涉及人工智能处理技术领域,尤其涉及一种标注方法、装置、设备及存储介质。
背景技术
大量的训练数据是进行机器学习的前提,训练数据的质量决定了模型的上限。而训练数据产生离不开数据标注,数据标注作为机器学习工程中重要的一环,是构建机器学习训练任务的基础。
目前,通过众包平台将训练数据进行拆分,标注人员将拆分后的训练数据子集下载到本地,在本地通过工具标注完成后再上传至众包平台。
但是,上述过程中,由于标注人员可能并不具备相关的领域知识,导致标注质量无法保证。
发明内容
本发明提供一种标注方法、装置、设备及存储介质,以解决目前的标注方法导致标注质量低的技术问题。
第一方面,本发明实施例提供一种标注方法,包括:
根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型;
将训练数据集中的未标注的第二训练数据输入所述算法预标注模型中,获取第二标注结果;
获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果;
获取专家根据所述第三标注结果以及对应的第二训练数据,对所述第三标注结果进行审核后的第四标注结果;
将所述第四标注结果作为新的第一标注结果,将所述第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至所述训练数据集中的所有训练数据均已被标注。
第二方面,本发明实施例提供一种标注装置,包括:
训练模块,用于根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型;
第一获取模块,用于将训练数据集中的未标注的第二训练数据输入所述算法预标注模型中,获取第二标注结果;
第二获取模块,用于获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果;
第三获取模块,用于获取专家根据所述第三标注结果以及对应的第二训练数据,对所述第三标注结果进行审核后的第四标注结果;
返回执行模块,用于将所述第四标注结果作为新的第一标注结果,将所述第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至所述训练数据集中的所有训练数据均已被标注。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面提供的标注方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的标注方法。
本发明实施例提供一种标注方法、装置、设备及存储介质,该方法包括:根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型,将训练数据集中的未标注的第二训练数据输入算法预标注模型中,获取第二标注结果,获取用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的第三标注结果,获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果,将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至训练数据集中的所有训练数据均已被标注。其具有以下技术效果:第一、不断迭代的算法预标注模型越来越精确,输出的第二标注结果的质量会越来越高,因而,用户实际的标注和修改工作也就越来越少,用户标注工作的效率也就越来越高,从而,提高了标注效率;第二、该方法综合了算法预标注模型、用户标注和专家标注的优点,针对每个标注任务,通过算法预标注、用户修正、专家审核三阶段流转协作完成,从而,确保标注质量较高。
附图说明
图1为本发明一实施例提供的标注方法的流程示意图;
图2A为本发明另一实施例提供的标注方法的一种流程示意图;
图2B为本发明另一实施例提供的标注方法的另一种流程示意图;
图3为确定训练数据子集与用户的映射关系的示意图;
图4为本发明一实施例提供的标注装置的结构示意图;
图5为本发明另一实施例提供的标注装置的结构示意图;
图6为本发明一实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明一实施例提供的标注方法的流程示意图。本实施例适用于对机器学习训练中的训练数据进行标注的场景中。该标注方法可以由标注装置来执行,该标注装置可以由软件和/或硬件的方式实现,该标注装置可以集成于计算机设备中。如图1所示,本实施例提供的标注方法包括如下步骤:
步骤101:根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型。
具体地,本实施例中的标注指的是标明训练数据中是否包括目标物体。基于不同的机器学习训练场景,这里的目标物体不同,例如,在人脸检测领域,目标物体为人脸,在智能驾驶领域,目标物体可以为交通信号灯、交通指示牌等。标注结果可以为表示训练数据中有目标数据的肯定结果和训练数据中没有目标数据的否定结果。
本实施例中将以下三种标注方式进行了结合:
第一种:算法预标注。算法预标注是一种通过已有的算法模型对数据进行标注,或通过迁移学习的方式,先高质量标注一小部分数据,通过该小部分数据训练出算法模型,再通过该算法模型对余下的数据进行自动标注。算法预标注的特点是效率很高,但是质量无法保证。
第二种:用户标注。用户标注是不具备领域知识的用户根据标注需求和标准手动进行标注。由于一般用户数量比较多,所以标注效率较高,而用户不具备相关的领域知识,所以标志质量无法保证。
第三种:专家标注是具备领域知识的专家进行标注,专家非常明确标注的需求和标准,并能严格按照需求和标志执行,但是专家数量非常有限,所以专家标注效率较低但是标注质量很高。
表1示出了上述三种标注方式的效率及质量。
效率 | 质量 | |
算法预标注 | 非常高 | 低 |
用户标注 | 中 | 中 |
专家标注 | 低 | 高 |
本实施例中综合算法预标注、用户标注和专家标注的优点,针对每个标注任务,通过算法预标注、用户修正、专家审核三阶段流转协作完成,结合交互式的错误反馈机制迭代来提升标注效率的同时,确保标注质量。
根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的过程,为一个完整的机器学习训练过程。需要说明的是,本实施例中的机器学习训练方法也包括深度学习训练方法,相对应地,训练出的算法预标注模型为深度神经网络模型。
可选地,在步骤101中,根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,得到算法预标注模型的过程如下所示:将第一训练数据输入初始算法预标注模型中,获取输出结果;根据输出结果以及第一训练数据对应的第一标注结果,确定损失函数;当损失函数大于预设阈值时,调整初始算法预标注模型的模型参数,确定更新后的算法预标注模型,将更新后的初始算法预标注模型作为初始算法预标注模型,返回执行将第一训练数据输入初始算法预标注模型中,获取输出结果的步骤,直至损失函数小于或者等于预设阈值,将损失函数小于或者等于阈值时的算法预标注模型确定为算法预标注模型。
本实施例中,初始的第一训练数据为从训练数据集中取出的一部分训练数据,经过专家高质量标注后形成对应的第一标注结果。基于这些第一训练数据以及对应的第一标注结果,按照上述训练过程,可以确定出一个算法预标注模型。之后的第一标注结果为步骤104中,专家审核后的第四标注结果,第一训练数据为对应的第二训练数据。
步骤102:将训练数据集中的未标注的第二训练数据输入算法预标注模型中,获取第二标注结果。
步骤103:获取用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的第三标注结果。
步骤104:获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果。
具体地,训练数据集中的训练数据的类型包括以下至少一种:图像数据、视频数据、语音数据以及文字数据。因此,本实施例提供的标注方法涵盖了当前机器学习训练数据的标注场景,具有通用性。采用本实施例提供的标注方法,可以为当前监督学习型机器学习模型训练提供数据支撑。
在确定出算法预标注模型之后,将训练数据集中未标注的第二训练数据输入该算法预标注模型中,可以得到该算法预标注模型输出的第二标注结果。由于步骤102中基于算法预标注模型得到的标注结果质量不高,所以,需要用户对算法预标注模型输出的标注结果进行修正。在步骤103中,接收用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的第三标注结果。更具体地,可以是接收用户从用户设备中输入的对第二标注结果进行修正后的第三标注结果,这里的用户设备可以是用户的计算机、终端设备等。需要说明的是,在算法预标注模型输出的标注结果正确的情况中,同一个第二训练数据的第三标注结果与第二标注结果相同;在算法预标注模型输出的标注结果错误的情况中,同一个第二训练数据的第三标注结果与第二标注结果不同。
由于用户标注的质量还不够高,所以,需要专家对用户修正后的第三标注结果进行审核。在步骤104中,获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果。更具体地,可以是接收专家从专家设备中输入的对第三标注结果进行审核后的第四标注结果,这里的专家设备可以是专家的计算机、终端设备等。需要说明的是,在用户修正的第三标注结果正确的情况中,同一个第二训练数据的第四标注结果与第三标注结果相同;在用户修正的第三标注结果错误的情况中,同一个第二训练数据的第四标注结果与第三标注结果不同。
步骤105:将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至训练数据集中的所有训练数据均已被标注。
具体地,在得到专家审核的第四标注结果后,为了提高后续标注的质量及效率,将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行步骤101,训练出新的算法预标注模型。之后,继续执行步骤102-步骤105。直至训练数据集中的所有训练数据均已被标注。最终,将专家审核后的第四标注结果作为对应训练数据的最终的标注结果,完成对训练数据集的标注。
本实施例提供的标注方法中,由于根据第一训练数据以及对应的第一标注结果不断对算法预标注模型进行迭代训练,所以算法预标注模型越来越精确,输出的第二标注结果的质量会越来越高。对于用户而言,他们得到的第二标注结果的质量越来越高,因而,用户实际的标注和修改工作也就越来越少,用户标注工作的效率也就越来越高。专家用户对用户标注的数据进行检查纠错提交,那么一个标注任务就最终被完成。对于专家提交的已审核的训练数据及标注结果会定时汇入算法预标注模型的训练数据中,这样训练数据的数据量越来越大,最终使得算法预标注模型输出标注结果的质量越来越高。
进一步地,本实施例中,在步骤103之前,可以将第二标注结果以及对应的第二训练数据分配给用户。进一步地,为了提高标注效率及标注质量,可以采用交叉冗余分配的方式将第二训练数据分配给多个用户。具体实现方式将在下文进行详细描述。
在分配第二训练数据之前,可以将第二训练数据设置为只读模式,该技术特征具有以下技术效果:第一、避免了由于用户或专家将训练数据下载到本地,而增加训练数据的管理难度及容易造成敏感训练数据的泄露的问题;第二、将第二训练数据设置为只读模式,可以让用户或者专家通过在线方式(由于第二训练数据无法下载,用户或专家也就无法离线进行标注)进行修正或审核,可以实现对用户及专家进行溯源;第三、用户或者专家通过在线方式进行修正或审核,每完成一个或者一批预设数量(具体可以根据实际需求设置)的第二训练数据的修正或者审核,标注装置可以获取到用户对第二标注结果修正后的第三标注结果,或者,获取到专家对第三标注结果审核后的第四标注结果,从而,可以使得标注任务的管理人员直观查看到每个用户及专家的工作进度,同时,还可以根据专家的审核结果,直观查看到每个用户的标注质量。
本实施例中的算法预标注模型是一个高度可扩展的模型,针对不同类型训练数据都可以得到算法预标注模型,这使得本实施例提供的标注方法具有可扩展性。
本实施例提供的标注方法,由于整个流程完全是训练数据驱动的,所以三阶段的标注流程可以根据实际需求进行取舍,适用于多种不同的场景。例如,针对一个全新领域的数据集的标注工作,在冷启动阶段通常没有合适的预标注算法,那么可以采用用户和专家合作标注的方式。再比如,在特定领域的数据集上,已有高精度的算法预标注模型,但是我们需要一批黄金数据,此时可以采用算法预标注模型以及专家标注的方式来完成。
本实施例提供的标注方法,包括:根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型,将训练数据集中的未标注的第二训练数据输入算法预标注模型中,获取第二标注结果,获取用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的第三标注结果,获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果,将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至训练数据集中的所有训练数据均已被标注。其具有以下技术效果:第一、不断迭代的算法预标注模型越来越精确,输出的第二标注结果的质量会越来越高,因而,用户实际的标注和修改工作也就越来越少,用户标注工作的效率也就越来越高,从而,提高了标注效率;第二、该方法综合了算法预标注模型、用户标注和专家标注的优点,针对每个标注任务,通过算法预标注、用户修正、专家审核三阶段流转协作完成,从而,确保标注质量较高。
图2A为本发明另一实施例提供的标注方法的一种流程示意图。如图2A所示,本实施例在图1所示实施例及各种可选的方案的基础上,对标注方法包括的其他步骤作一详细说明。如图2A所示,本实施例提供的标注方法包括如下步骤:
步骤201:将训练数据集中的训练数据划分为多个训练数据子集。
其中,训练数据子集的数量小于用户的数量。
步骤202:按照预设的分配原则,确定训练数据子集与用户的映射关系。
其中,分配原则包括:每个用户映射多个不同的训练数据子集,并且,每个训练数据子集在所有用户映射的所有训练数据子集中存在多个冗余。
图3为确定训练数据子集与用户的映射关系的示意图。先将训练数据集中的训练数据划分为多个训练数据子集。示例性地,如图3所示,将训练数据集划分为训练数据子集1、训练数据子集2、训练数据子集3以及训练数据子集4。训练数据子集的数量小于用户的数量。之后,按照预设的分配原则:每个用户映射多个不同的训练数据子集,并且,每个训练数据子集在所有用户映射的所有训练数据子集中存在多个冗余,确定训练数据子集与用户的映射关系。如图3所示,假设有6个用户:用户A、用户B、用户C、用户D、用户E以及用户F。每个用户映射多个不同的训练数据子集,并且,每个训练数据子集在整个分配体系(即,所有用户映射的所有训练数据子集)中有3份冗余。最终确定出的训练数据子集与用户的映射关系为:用户A-(训练数据子集1,训练数据子集2),用户B-(训练数据子集1,训练数据子集3),用户C-(训练数据子集1,训练数据子集4),用户D-(训练数据子集2,训练数据子集3),用户E-(训练数据子集3,训练数据子集4),用户F-(训练数据子集2,训练数据子集4)。
冗余分配的目的是可以对不同用户的标注结果进行综合评价取得一个最佳标注结果,从而整体提升标注质量;每个用户分配不同的多个子集的目的在于尽量减少个别人为因素对标注结果的影响。
步骤203:根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型。
步骤204:将训练数据集中的未标注的第二训练数据输入算法预标注模型中,获取第二标注结果。
步骤203与步骤101、步骤204与步骤102的实现过程和技术原理类似,此处不再赘述。
步骤205:确定第二标注结果对应的第二训练数据所属的目标数据子集。
步骤206:根据映射关系以及目标数据子集,将第二标注结果及对应的第二训练数据,分配给相应的多个用户。
具体地,在步骤205及步骤206中,需要将第二标注结果对应的第二训练数据分配给相应的用户。由于步骤201及步骤202为一种交叉冗余的映射关系,所以第二标注结果及对应的第二训练数据会对应多个用户。将第二标注结果及对应的第二训练数据分配给相应的多个用户。
可选地,在步骤206之前,还可以包括如下步骤:将第二标注结果对应的第二训练数据设置为只读模式,以实现多用户在线协同标注。在实现对超大数据量进行标注的基础上,还可以避免训练数据泄露,实现对用户及专家的溯源,以及,实现直观查看每个用户及专家的工作进度及查看每个用户的标注质量。
步骤207:获取多个用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的标注结果。
步骤208:若多个用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的标注结果不同,则将用户标注的最多的标注结果作为第三标注结果。
由于在步骤206中,将第二标注结果及对应的第二训练数据分配给了相应的多个用户,因此,在步骤207及步骤208中,若多个用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的标注结果不同,则采用少数服从多数的原则,将用户标注的最多的标注结果作为第三标注结果。
步骤208中实现了对不同用户的标注结果进行综合评价,取得一个最佳标注结果,从而整体提升标注质量。
步骤209:获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果。
步骤210:将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至训练数据集中的所有训练数据均已被标注。
步骤209与步骤104、步骤210与步骤105的实现过程和技术原理类似,此处不再赘述。
图2B为本发明另一实施例提供的标注方法的另一种流程示意图。如图2B所示,本实施例提供的标注方法,先将训练集中的训练数据经过任务分配,确定出训练数据子集与用户的映射关系。再经过算法预标注模型、用户标注以及专家审核这三阶段标注,其中,将专家审核后的数据作为算法预标注模型的新的训练数据,对算法预标注模型进行迭代训练。从而,循环往复提高标注效率及标注质量。直至所有训练数据集中的所有训练数据都标注完成。最终,将专家审核后的第四标注结果作为对应训练数据的最终的标注结果,完成对训练数据集的标注。
本实施例提供的标注方法,通过冗余交叉任务分配方式,从而可以实现以下技术效果:冗余分配的目的是可以对不同用户的标注结果进行综合评价取得一个最佳标注结果,从而整体提升标注质量;每个用户分配不同的多个子集的目的在于尽量减少个别人为因素对标注结果的影响。
图4为本发明一实施例提供的标注装置的结构示意图。如图4所示,本实施例提供的标注装置包括如下模块:训练模块41、第一获取模块42、第二获取模块43、第三获取模块44以及返回执行模块45。
训练模块41,用于根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型。
可选地,训练模块41具体用于:将第一训练数据输入初始算法预标注模型中,获取输出结果;根据输出结果以及第一训练数据对应的第一标注结果,确定损失函数;当损失函数大于预设阈值时,调整初始算法预标注模型的模型参数,确定更新后的算法预标注模型,将更新后的初始算法预标注模型作为初始算法预标注模型,返回执行将第一训练数据输入初始算法预标注模型中,获取输出结果的步骤,直至损失函数小于或者等于预设阈值,将损失函数小于或者等于阈值时的算法预标注模型确定为算法预标注模型。
第一获取模块42,用于将训练数据集中的未标注的第二训练数据输入算法预标注模型中,获取第二标注结果。
可选地,训练数据集中的训练数据的类型包括以下至少一种:图像数据、视频数据、语音数据以及文字数据。
第二获取模块43,用于获取用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的第三标注结果。
第三获取模块44,用于获取专家根据第三标注结果以及对应的第二训练数据,对第三标注结果进行审核后的第四标注结果。
返回执行模块45,用于将第四标注结果作为新的第一标注结果,将第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至训练数据集中的所有训练数据均已被标注。
本发明实施例所提供的标注装置可执行本发明图1所示实施例及各种可选的方式所提供的标注方法,具备执行方法相应的功能模块和有益效果。
图5为本发明另一实施例提供的标注装置的结构示意图。本实施例在图4所示实施例及各种可选方案的基础上,对标注装置包括的其他模块的实现方式作一详细描述。如图5所示,本实施例提供的标注装置还包括:划分模块51、第一确定模块52、第二确定模块53以及分配模块54。
划分模块51,用于将训练数据集中的训练数据划分为多个训练数据子集。
其中,训练数据子集的数量小于用户的数量。
第一确定模块52,用于按照预设的分配原则,确定训练数据子集与用户的映射关系。
其中,分配原则包括:每个用户映射多个不同的训练数据子集,并且,每个训练数据子集在所有用户映射的所有训练数据子集中存在多个冗余。
第二确定模块53,用于确定第二标注结果对应的第二训练数据所属的目标数据子集。
分配模块54,用于根据映射关系以及目标数据子集,将第二标注结果及对应的第二训练数据,分配给相应的多个用户。
相对应地,第二获取模块43具体用于:获取多个用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的标注结果;若多个用户根据第二标注结果以及对应的第二训练数据,对第二标注结果进行修正后的标注结果不同,则将用户标注的最多的标注结果作为第三标注结果。
可选地,该装置还包括设置模块,用于将第二标注结果对应的第二训练数据设置为只读模式。
本发明实施例所提供的标注装置可执行本发明图2A及图2B所示实施例及各种可选的方式所提供的标注方法,具备执行方法相应的功能模块和有益效果。
图6为本发明一实施例提供的计算机设备的结构示意图。如图6所示,该计算机设备包括处理器60和存储器61。该计算机设备中处理器60的数量可以是一个或多个,图6中以一个处理器60为例;该计算机设备的处理器60和存储器61可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的标注方法对应的程序指令以及模块(例如,标注装置中的训练模块41、第一获取模块42、第二获取模块43、第三获取模块44以及返回执行模块45)。处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的标注方法。
存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实施例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种标注方法,该方法包括:
根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型;
将训练数据集中的未标注的第二训练数据输入所述算法预标注模型中,获取第二标注结果;
获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果;
获取专家根据所述第三标注结果以及对应的第二训练数据,对所述第三标注结果进行审核后的第四标注结果;
将所述第四标注结果作为新的第一标注结果,将所述第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至所述训练数据集中的所有训练数据均已被标注。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的标注方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,车辆,或者网络设备等)执行本发明各个实施例所述的标注方法。
值得注意的是,上述标注装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种标注方法,其特征在于,包括:
根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型;
将训练数据集中的未标注的第二训练数据输入所述算法预标注模型中,获取第二标注结果;
获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果;
获取专家根据所述第三标注结果以及对应的第二训练数据,对所述第三标注结果进行审核后的第四标注结果;
将所述第四标注结果作为新的第一标注结果,将所述第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至所述训练数据集中的所有训练数据均已被标注。
2.根据权利要求1所述的方法,其特征在于,所述获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果之前,所述方法还包括:
将所述训练数据集中的训练数据划分为多个训练数据子集;其中,所述训练数据子集的数量小于用户的数量;
按照预设的分配原则,确定所述训练数据子集与用户的映射关系;其中,所述分配原则包括:每个用户映射多个不同的训练数据子集,并且,每个所述训练数据子集在所有用户映射的所有训练数据子集中存在多个冗余。
3.根据权利要求2所述的方法,其特征在于,所述将训练数据集中的未标注的第二训练数据输入所述算法预标注模型中,获取第二标注结果之后,所述获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果之前,所述方法还包括:
确定所述第二标注结果对应的第二训练数据所属的目标数据子集;
根据所述映射关系以及所述目标数据子集,将所述第二标注结果及对应的第二训练数据,分配给相应的多个用户;
相对应地,所述获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果,包括:
获取所述多个用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的标注结果;
若多个用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的标注结果不同,则将用户标注的最多的标注结果作为所述第三标注结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述映射关系以及所述目标数据子集,将所述第二标注结果及对应的第二训练数据,分配给相应的多个用户之前,所述方法还包括:
将所述第二标注结果对应的第二训练数据设置为只读模式。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型,包括:
将所述第一训练数据输入初始算法预标注模型中,获取输出结果;
根据所述输出结果以及所述第一训练数据对应的第一标注结果,确定损失函数;
当所述损失函数大于预设阈值时,调整所述初始算法预标注模型的模型参数,确定更新后的算法预标注模型,将所述更新后的初始算法预标注模型作为所述初始算法预标注模型,返回执行将所述第一训练数据输入初始算法预标注模型中,获取输出结果的步骤,直至所述损失函数小于或者等于所述预设阈值,将所述损失函数小于或者等于所述阈值时的算法预标注模型确定为所述算法预标注模型。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述训练数据集中的训练数据的类型包括以下至少一种:图像数据、视频数据、语音数据以及文字数据。
7.一种标注装置,其特征在于,包括:
训练模块,用于根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型;
第一获取模块,用于将训练数据集中的未标注的第二训练数据输入所述算法预标注模型中,获取第二标注结果;
第二获取模块,用于获取用户根据所述第二标注结果以及对应的第二训练数据,对所述第二标注结果进行修正后的第三标注结果;
第三获取模块,用于获取专家根据所述第三标注结果以及对应的第二训练数据,对所述第三标注结果进行审核后的第四标注结果;
返回执行模块,用于将所述第四标注结果作为新的第一标注结果,将所述第四标注结果对应的第二训练数据作为新的第一训练数据,返回执行根据专家标注的第一训练数据以及对应的第一标注结果,采用机器学习训练方法,训练得到算法预标注模型的步骤,直至所述训练数据集中的所有训练数据均已被标注。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
划分模块,用于将所述训练数据集中的训练数据划分为多个训练数据子集;其中,所述训练数据子集的数量小于用户的数量;
第一确定模块,用于按照预设的分配原则,确定所述训练数据子集与用户的映射关系;其中,所述分配原则包括:每个用户映射多个不同的训练数据子集,并且,每个所述训练数据子集在所有用户映射的所有训练数据子集中存在多个冗余。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的标注方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298513.0A CN111507480B (zh) | 2020-04-16 | 2020-04-16 | 标注方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298513.0A CN111507480B (zh) | 2020-04-16 | 2020-04-16 | 标注方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507480A CN111507480A (zh) | 2020-08-07 |
CN111507480B true CN111507480B (zh) | 2023-06-20 |
Family
ID=71874406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010298513.0A Active CN111507480B (zh) | 2020-04-16 | 2020-04-16 | 标注方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507480B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069293B (zh) * | 2020-09-14 | 2024-04-19 | 上海明略人工智能(集团)有限公司 | 一种数据标注方法、装置、电子设备和计算机可读介质 |
CN112328822B (zh) * | 2020-10-15 | 2024-04-02 | 深圳市优必选科技股份有限公司 | 图片预标注方法、装置及终端设备 |
CN113299373A (zh) * | 2021-05-17 | 2021-08-24 | 深圳市智影医疗科技有限公司 | 图像标注方法、装置、电子设备及计算机可读存储介质 |
CN114219971A (zh) * | 2021-12-13 | 2022-03-22 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、设备以及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710894A (zh) * | 2018-04-17 | 2018-10-26 | 中国科学院软件研究所 | 一种基于聚类代表点的主动学习标注方法和装置 |
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN110866564A (zh) * | 2019-11-22 | 2020-03-06 | 上海携程国际旅行社有限公司 | 多重半监督图像的季节分类方法、系统、电子设备和介质 |
CN110929807A (zh) * | 2019-12-06 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、图像分类方法及装置 |
CN110929875A (zh) * | 2019-10-12 | 2020-03-27 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的智能语言学习方法、系统、装置及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387430B2 (en) * | 2015-02-26 | 2019-08-20 | International Business Machines Corporation | Geometry-directed active question selection for question answering systems |
-
2020
- 2020-04-16 CN CN202010298513.0A patent/CN111507480B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710894A (zh) * | 2018-04-17 | 2018-10-26 | 中国科学院软件研究所 | 一种基于聚类代表点的主动学习标注方法和装置 |
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN110929875A (zh) * | 2019-10-12 | 2020-03-27 | 平安国际智慧城市科技股份有限公司 | 基于机器学习的智能语言学习方法、系统、装置及介质 |
CN110866564A (zh) * | 2019-11-22 | 2020-03-06 | 上海携程国际旅行社有限公司 | 多重半监督图像的季节分类方法、系统、电子设备和介质 |
CN110929807A (zh) * | 2019-12-06 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 图像分类模型的训练方法、图像分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111507480A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507480B (zh) | 标注方法、装置、设备及存储介质 | |
WO2020024442A1 (zh) | 资源分配方法、装置、计算机设备及计算机可读存储介质 | |
CN110766438B (zh) | 一种通过人工智能对电网用户的用户行为进行分析的方法 | |
CN111311107A (zh) | 基于用户关系的风险评估方法、装置和计算机设备 | |
US20220004547A1 (en) | Method, apparatus, system, device, and storage medium for answering knowledge questions | |
CN108428114A (zh) | 项目的信息处理方法及装置、存储介质、电子装置 | |
CN107404541A (zh) | 一种对等网络传输邻居节点选择的方法及系统 | |
CN112465032A (zh) | 训练数据标注任务的分配方法及装置、计算设备 | |
CN105407162A (zh) | 一种基于SLA服务等级的云计算Web应用资源负载均衡算法 | |
CN107506362B (zh) | 基于用户群优化的图像分类仿脑存储方法 | |
CN107122786A (zh) | 一种众包学习方法及装置 | |
CN114777792A (zh) | 路径规划方法、装置、计算机可读介质及电子设备 | |
CN115240048A (zh) | 面向图像分类的深度学习的算子定位融合方法及装置 | |
CN112990478A (zh) | 联邦学习数据处理系统 | |
CN106648839A (zh) | 数据处理的方法和装置 | |
CN1976353A (zh) | 恢复和调试失败的网络可访问服务构建的方法和系统 | |
CN112819157B (zh) | 神经网络训练的方法及装置、智能行驶控制的方法及装置 | |
CN117035065A (zh) | 模型评估的方法及相关装置 | |
CN112733863A (zh) | 一种图像特征提取方法、装置、设备及存储介质 | |
CN115563069B (zh) | 基于人工智能的数据共享处理方法、系统及云平台 | |
CN114492849B (zh) | 一种基于联邦学习的模型更新方法及装置 | |
CN110321824A (zh) | 基于神经网络的绑扎判定方法及装置 | |
CN106484893A (zh) | 机型批量整改中的差异数据查找方法及装置 | |
CN111985901B (zh) | 一种电信行业的营销产品配置方法、装置、设备和存储介质 | |
Le et al. | Ratsac-random tree sampling for maximum consensus estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |