CN115329843A - 标注处理方法、装置、设备以及存储介质 - Google Patents
标注处理方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN115329843A CN115329843A CN202210853304.7A CN202210853304A CN115329843A CN 115329843 A CN115329843 A CN 115329843A CN 202210853304 A CN202210853304 A CN 202210853304A CN 115329843 A CN115329843 A CN 115329843A
- Authority
- CN
- China
- Prior art keywords
- sample
- labeled
- labeling
- determining
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000012795 verification Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract description 31
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
Abstract
本公开提供了一种标注处理方法、装置、设备以及存储介质。涉及样本标注、样本质检等人工智能领域。具体实现方案为:确定待标注样本;获取目标模型基于待标注样本输出的第一标注结果;获取第一标注平台基于待标注样本输出的第二标注结果;对比第一标注结果与第二标注结果之间的差异;基于差异从待标注样本中确定出第一标注样本,第一标注样本是需要验证的样本。根据本公开的技术方案,能提高样本标注的效率,提升样本标注的质检质量。
Description
技术领域
本公开涉及样本标注、样本质检等人工智能领域,具体涉及一种标注处理方法、装置、设备以及存储介质。
背景技术
人工智能应用落地过程中,数据标注的质量决定了人工智能的落地的好坏。对于一个新的标注任务,常规的操作流程包括设计标注文档、收集数据、送标数据、人工标注、随机质检、返回标注数据等。一个完整的操作流程往往需要很多的人力、标注周期也很长。一般为了加快标注效率,会考虑增加人力,多线并行处理。然而,每个标注人员对于标注规则的理解是有偏差的,所以标注结果难免会有轻微的不同,当待标注的数据量增大时,标注的质量也会随之下降,而随机质检对于样本的标注质量无法有效掌控。
发明内容
本公开提供了一种标注处理方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种标注处理方法,包括:
确定待标注样本;
获取目标模型基于待标注样本输出的第一标注结果;
获取第一标注平台基于待标注样本输出的第二标注结果;
对比第一标注结果与第二标注结果之间的差异;
基于该差异从待标注样本中确定出第一标注样本,该第一标注样本是需要验证的样本。
根据本公开的第二方面,提供了一种标注处理装置,包括:
第一确定模块,用于确定待标注样本;
第一获取模块,用于获取目标模型基于待标注样本输出的第一标注结果;
第二获取模块,用于获取第一标注平台基于待标注样本输出的第二标注结果;
对比模块,用于对比第一标注结果与第二标注结果之间的差异;
第二确定模块,用于基于该差异从待标注样本中确定出第一标注样本,该第一标注样本是需要验证的样本。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行上述第一方面所提供的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行上述第一方面所提供的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述第一方面所提供的方法。
本公开实施例,能提高样本标注的效率,提升样本标注的质检质量。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的标注处理方法的流程示意图;
图2是根据本公开实施例提供的样本质检的流程示意图;
图3是根据本公开另一实施例的标注处理方法的流程示意图;
图4是根据本公开实施例提供的样本标注的总体流程示意图;
图5是根据本公开一实施例的标注处理装置的结构示意图;
图6是根据本公开另一实施例的标注处理装置的结构示意图;
图7为本公开实施例提供的标注处理的场景示意图;
图8是用来实现本公开实施例的标注处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语"包括"和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本公开实施例提供一种标注处理方法,图1是根据本公开实施例的标注处理方法的流程示意图,该标注处理方法可以应用于标注处理装置。该标注处理装置位于电子设备,该电子设备可以是标注处理系统的一部分,也可以独立于标注处理系统但能与标注处理系统通信连接。该电子设备包括但不限于固定设备和/或移动设备。例如,固定设备包括但不限于服务器,服务器可以是云服务器或普通服务器。例如,移动设备包括但不限于:手机、平板电脑、车载终端中的一项或是多项终端。在一些可能的实现方式中,该标注处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,该标注处理方法包括:
S101,确定待标注样本;
S102,获取目标模型基于待标注样本输出的第一标注结果;
S103,获取第一标注平台基于待标注样本输出的第二标注结果;
S104,对比第一标注结果与第二标注结果之间的差异;
S105,基于该差异从待标注样本中确定出第一标注样本,该第一标注样本是需要验证的样本。
本公开实施例中,待标注样本是需要进行标注的样本,可以理解为待送标的数据样本。比如,待标注样本可以是待标注的图像。又比如,待标注样本可以是待标注的文本。再比如,待标注样本可以是待标注的视频。以上仅为示例性说明,不作为对待标注样本包括的内容的全部可能的类型的限定,只是这里不做穷举。
在一些实施方式中,确定待标注样本,包括:将接收到的所有样本,确定为待标注样本。在一些实施方式中,确定待标注样本,包括:先将接收到的所有样本划分成多个数据集,再将其中一个数据集中的样本确定为待标注样本。这里,可根据样本类型、样本采集时间等因素划分数据集。本公开不对待标注样本的确定方式进行限定。
本公开实施例中,目标模型是用于对待标注样本进行自动标注的模型。这里,目标模型是已经训练好的模型。本公开不对目标模型的生成方式进行限定。本公开不对目标模型的个数以及种类进行限定。
本公开实施例中,第一标注平台是用于对待标注样本进行标注的平台。这里,第一标注平台可以是智能标注平台,也可以是人工标注平台。
本公开实施例中,第一标注样本是需要验证标注结果的样本。具体地,第一标注样本是需要进一步核实第一标注结果和第二标注结果的正确性的样本。
这里,验证可以由第二标注平台来完成,具体可以由质检人员通过第二标注平台完成验证,也可以由第二标注平台自动完成验证。在由第二标注平台自动完成时,第二标注平台是具有自动质检功能的平台。
需要说明的是,本公开不对S102和S103的执行顺序进行限定。S102可在S103之前执行,S102也可在S103之后执行,S102还可与S103同时执行。
本公开实施例所述的技术方案,确定待标注样本;获取目标模型基于待标注样本输出的第一标注结果;获取第一标注平台基于待标注样本输出的第二标注结果;对比第一标注结果与第二标注结果之间的差异;基于该差异从待标注样本中确定出第一标注样本,该第一标注样本是需要验证的样本;如此,相对于传统的随机抽查质检方式而言,能够自动定位出需要重点关注的样本,节省了质检时间,同时也极大地保证了标注质量。另外,相对于采用人工方式样本而言,能够快速完成对大量样本的标注,不仅节省了人工成本,还提高了样本标注的效率。
在一些实施例中,基于差异从待标注样本中确定出第一标注样本,包括:将待标注样本中差异高于第一阈值的样本,确定为第一标注样本。
这里,差异是指同一个待标注样本对应的第一标注结果与第二标注结果之间的差异。
这里,第一阈值可根据用户需求如精度需求或速度需求进行设定或调整。
需要说明的是,不同批次的待标注样本,可对应有不同的第一阈值。针对同一批次的待标注样本,标注类型不同,对应的第一阈值可以不同。示例性的,对于第一批次的10000个待标注样本,若进行行人标注,则将第一阈值设置为x1;若进行车辆标注,则将第一阈值设置为x2;若进行建筑物标注,则将第一阈值设置为x3;若进行植物标注,则将第一阈值设置为x4。
举例来说,M个待标注样本中,若存在N个待标注样本的差异高于第一阈值,则将差异高于第一阈值的N个待标注样本均确定为第一标注样本,N小于等于M,且均为正整数。
如此,能够自动定位出需要验证的样本标注结果,不仅节省了质检时间,提高了质检效率,还能避免因质检员水平参差不齐而导致的质检失误的情况发生。
在一些实施例中,将待标注样本中差异高于第一阈值的样本,确定为第一标注样本,包括:从差异包括的多个对比参数中确定出至少一个对比参数;将待标注样本中至少一个对比参数对应的差异大于第一阈值的样本,确定为第一标注样本。
本公开实施例中,差异可包括多类对比参数的差异。对比参数的种类包括但不限于:准确率(可记为Acc)、精确率(可记为Pre)、召回率(可记为Recall)、单类别平均准确率(可记为AP)、多类别平均准确率(可记为mAP)、3d误差(可记为3d-err)等。
这里,对比参数可根据用户需求进行设定或调整。
在一些实施方式中,从差异包括的多个对比参数中确定出至少一个对比参数,包括:根据配置信息从P个对比参数中确定出Q个对比参数。这里,配置信息用于指定需要对比的参数。Q小于等于P,P和Q均为正整数。如此,能够根据配置信息确定对比参数,有助于满足质检的定制化和多样化需求。
在一些实施方式中,从差异包括的多个对比参数中确定出至少一个对比参数,包括:根据标注类别从P个对比参数中确定出K个对比参数。这里,K小于等于P,P和K均为正整数。如此,能够确定出与标注类别相关性强的对比参数,有助于提高质检质量。
如此,基于至少一个对比参数的差异确定第一标注结果,不仅有助于提高质检速度;还能够更有针对性地确定出与待标注样本相适应的对比参数,有助于提高质检质量。
在一些实施例中,该标注处理方法还可包括:获取待标注样本的标注规则;基于标注规则从算法库中确定出目标算法;将目标算法对应的模型确定为待标注样本对应的目标模型。
本公开实施例中,标注规则是预先设定的规则,用于指示标注类别、标注方式等内容。这里,标注类别包括但不限于检测、分类等。这里,标注包括但不限于标注框标注、文字标注等。本公开实施例不对标注规则的数量进行限定。本公开实施例不对标注规则的来源进行限定。
本公开实施例中,算法库中包括多个算法,每个算法均可用于对待标注样本进行标注。示例性的,算法1用于对行人进行标注,算法2用于对车辆进行标注,算法3用于对建筑物进行标注,算法4用于对植物进行标注,算法5用于对路标进行标注。若标注规则为对车辆进行标注,则将算法2确定为目标算法。若算法2对应有模型1、模型2和模型3,则可将模型1、模型2和模型3中任一模型确定为目标模型。若标注规则为对行人进行标注,则将算法1确定为目标算法。若算法1对应有模型4和模型5,则可将模型4和模型5中任一模型确定为目标模型。
如此,能够确定出与待标注样本相适应的目标模型,有助于提高标注效率和准确率,从而有助于节省质检时间,提高质检效率。
图2示出了样本质检的流程示意图,如图2所示,该流程包括:为待标注样本确定标注规则;基于标注规则选择目标算法并确定目标模型;基于标注规则选择第一标注平台,第一标注平台基于标注规则对待标注样本进行标注;对比目标模型输出的第一标注结果和第一标注平台输出的第二标注结果,得到需要重点关注的第一标注样本。
应理解,图2所示的示意图仅仅是示例性而不是限制性的,并且其是可扩展的,本领域技术人员可以基于图2的例子进行各种显而易见的变化和/或替换,得到的技术方案仍属于本公开实施例的公开范围。
在一些实施例中,该标注处理方法还可包括:向第二标注平台发送第一标注样本;获取第二标注平台返回的第一标注样本的验证结果;基于验证结果对第一标注样本进行更新处理,得到更新后的第一标注样本。
这里,第二标注平台用于对第一标注样本进行验证的平台。
这里,第二标注平台可以是智能质检平台。示例性的,第二标注平台自动对第一待标注样本进行标注,得到第三标注结果,将第三标注结果作为第一标注样本的正确标注结果。又示例性,将第三标注结果分别与第一标注结果和第二标注结果进行对比,若与第一标注结果和第二标注结果中任一标注结果的相似度大于相似度阈值,则将第三标注结果作为第一标注样本的正确标注结果。或者,若与第一标注结果和第二标注结果的差异均高于第一阈值,则保留该第一标注样本,以便由人工进行核验。
这里,第二标注平台可展示第一标注样本对应的第一标注结果和第二标注结果,接收质检人员基于第一标注结果和第二标注结果输入的核验信息,进而能够确定出第一标注样本的正确标注结果。
如此,能够有针对性地对第一标注样本进行验证,逐渐缩小第一标注样本的数量,不仅提高了质检效率,还提高了质检质量。
在一些实施例中,该标注处理方法还可包括:基于验证结果,确定目标模型的标注准确率;在标注准确率低于第二阈值的情况下,输出针对目标模型的告警信息。
这里,第二阈值可根据用户需求如速度需求或精度需求进行设定或调整。
这里,告警信息用于提示目标模型增强标注准确率。比如,可通过语音形式输出告警信息。又比如,可通过触发警报器的形式输出告警信息。再比如,通过向终端发送消息的形式输出告警信息。本公开不对告警信息的表示形式进行限定。
举例来说,若待标注样本的个数为M,第一标注样本的个数为S,验证结果为H个样本的标注结果与目标模型的标注结果相同或相近,H小于等于S,则目标模型的准确率可以表示为:(M-(S-H))/M。
如此,通过输出针对目标模型的告警信息,有助于不断优化目标模型,从而有助于进一步提高质检效率。
在一些实施例中,该标注处理方法还可包括:基于验证结果生成训练样本;通知目标模型基于训练样本调整目标模型的参数。
这里,训练样本至少包括:目标模型标注失误的待标注样本,以及该标注失误的待标注样本所对应的正确标注结果。
这里,通知方式包括但不限于:采用网络进行通知、采用数据线进行通知。本公开实施例不对通知方式进行限定。
如此,能够为目标模型提供训练样本,有助于对目标模型提供针对性的优化方案,从而有助于提高质检系统的质检效率和质量。
本公开实施例提供一种标注处理方法,图3是根据本公开实施例的标注处理方法的流程示意图,如图3所示,该标注处理方法包括:
S301,确定待标注样本;
S302,获取目标模型基于待标注样本输出的第一标注结果;
S303,获取第一标注平台基于待标注样本输出的第二标注结果;
S304,对比第一标注结果与第二标注结果之间的差异;
S305:基于差异从待标注样本中确定出第二标注样本,第二标注样本是差异低于第三阈值的样本。
这里,S301可参照S101的描述理解,S302可参照S102的描述理解,S303可参照S103的描述理解,S304可参照S104的描述理解,在此不再赘述。
这里,第三阈值可根据用户需求如速度需求或精度需求进行设定或调整。
这里,第三阈值越小,第二标注样本的可信度越大。
需要说明的是,本公开不对S302和S303的执行顺序进行限定。S302可在S303之前执行,S302也可在S303之后执行,S302还可与S303同时执行。
如此,能快速确定出第二标注样本,从而有助于将第二标注样本快速投产使用,有助于提高整个项目的推进速度。
图4示出了样本标注的总体流程示意图,如图4所示,该流程包括:
S401:初始化算法库和标注平台库;
这里,算法库包括多个算法。标注平台库包括多个标注平台,至少包括第一标注平台和第二标注平台。
S402:获取待标注数据集;
S403:选择标注方案,然后进入S404a和S404b;
这里,不同标注数据集可对应有不同的标注方案(也可称为标注规则)。
比如,分类任务需定义清楚标注哪些类别,如标注车辆、路标、建筑物等。
再比如,检测任务需输出类别的同时加上二维标注框。
S404a:选择标注方案对应的目标模型,然后执行S405a;
S404b:选择标注方案对应的第一标注平台,然后执行S405b;
S405a:数据进入目标模型,然后进入S406;
S405b:数据进入第一标注平台,然后进入S406;
S406:结果一致性是否大于预设阈值,如果是,执行S408;如果否,执行S407;
这里,结果一致性是指目标模型输出的第一标注结果与第一标注平台输出的第二标注结果的一致性。
S407:判断标注是否有误,如果否,执行步骤S408;如果是,将正确标注结果发送至S405a和S405b;
S408:返回标注结果。
如此,给出了一种基于目标模型的第一标注结果与第一标注平台的第二标注样本结果之间的差异,自动定位需要重点关注的标注样本的质检方案。相对于随机抽查质检方式,该方案最大的优点在于:可以自动定位出需要重点关注的样本标注结果,节省了质检时间,同时也极大地保证了标注质量。由于提高了标注样本的标注和质检质量,可以避免对标注好的样本进行二次返修甚至多次返修,有效保障项目的开发进度。
本公开提供的标注处理方法,可以用于高速、交管、网联等场景下检测、分类等项目的样本标注中。
本公开实施例提供了一种标注处理装置,如图5所示,该标注处理装置可以包括:第一确定模块501,用于确定待标注样本;第一获取模块502,用于获取目标模型基于待标注样本输出的第一标注结果;第二获取模块503,用于获取第一标注平台基于待标注样本输出的第二标注结果;对比模块504,用于对比第一标注结果与第二标注结果之间的差异;第二确定模块505,用于基于差异从待标注样本中确定出第一标注样本,第一标注样本是需要验证的样本。
在一些实施例中,该第二确定模块505包括:确定子模块,用于将待标注样本中差异高于第一阈值的样本,确定为第一标注样本。
在一些实施例中,该确定子模块,用于:从差异包括的多个对比参数中确定出至少一个对比参数;将待标注样本中至少一个对比参数对应的差异大于第一阈值的样本,确定为第一标注样本。
在一些实施例中,如图6所示,该标注处理装置还可以包括:第三获取模块506,用于获取待标注样本的标注规则;第三确定模块507,用于基于标注规则从算法库中确定出目标算法,将目标算法对应的模型确定为待标注样本对应的目标模型。
在一些实施例中,如图6所示,该标注处理装置还可以包括:发送模块508,用于向第二标注平台发送第一标注样本;第四获取模块509,用于获取第二标注平台返回的第一标注样本的验证结果;更新模块510,用于基于验证结果对第一标注样本进行更新处理,得到更新后的第一标注样本。
在一些实施例中,如图6所示,该标注处理装置还可以包括:第四确定模块511,用于基于验证结果,确定目标模型的标注准确率;输出模块512,用于在标注准确率低于第二阈值的情况下,输出针对目标模型的告警信息。
在一些实施例中,如图6所示,该标注处理装置还可以包括:生成模块513,用于基于验证结果生成训练样本;通知模块514,用于通知目标模型基于训练样本调整目标模型的参数。
在一些实施例中,如图6所示,该标注处理装置还可以包括:第五确定模块515,用于基于差异从待标注样本中确定出第二标注样本,第二标注样本是差异低于第三阈值的样本。
本领域技术人员应当理解,本公开实施例的标注处理装置中各处理模块的功能,可参照前述的标注处理方法的相关描述而理解,本公开实施例的标注处理装置中各处理模块,可通过实现本公开实施例所述的功能的模拟电路而实现,也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。
本公开实施例的标注处理装置,能提高样本标注的效率,提升标注质检的效率和质量。
本公开实施例还提供了一种标注处理的应用场景示意图,如图7所示,电子设备如云服务器负责接收各终端发送的标注任务,还负责确定待标注样本,将待标注样本发送至目标模型,获取目标模型基于待标注样本输出的第一标注结果;将待标注样本发送至第一标注平台,获取第一标注平台基于待标注样本输出的第二标注结果;对比第一标注结果与第二标注结果之间的差异;基于该差异从待标注样本中确定出第一标注样本,该第一标注样本是需要验证的样本。电子设备还用于将第一标注样本发送至第二标注平台,以由第二标注平台对第一标注样本进行验证。电子设备还用于向终端返回标注结果。这样,不仅提高了标注质量,提高了标注效率;还缩短了标注周期,节省了人力成本。另外,还提升了质检的效率和质量。
本公开不对车辆、终端设备和电子设备的个数进行限定,实际应用中可包括多个车辆、多个终端设备、多个电子设备。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(Read-OnlyMemory,ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RandomAccess Memory,RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output,I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如标注处理方法。例如,在一些实施例中,标注处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的标注处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行标注处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用标准产品(Application-Specific Standard Products,ASSP)、芯片上系统的系统(System on Chip,SOC)、负载可编程逻辑设备(Complex Programmable Logic Device,CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(Cathode Ray Tube,CRT)或者液晶显示器(Liquid Crystal Display,LCD)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种标注处理方法,包括:
确定待标注样本;
获取目标模型基于所述待标注样本输出的第一标注结果;
获取第一标注平台基于所述待标注样本输出的第二标注结果;
对比所述第一标注结果与所述第二标注结果之间的差异;
基于所述差异从所述待标注样本中确定出第一标注样本,所述第一标注样本是需要验证的样本。
2.根据权利要求1所述的方法,其中,所述基于所述差异从所述待标注样本中确定出第一标注样本,包括:
将所述待标注样本中所述差异高于第一阈值的样本,确定为所述第一标注样本。
3.根据权利要求2所述的方法,其中,所述将所述待标注样本中所述差异高于第一阈值的样本,确定为所述第一标注样本,包括:
从所述差异包括的多个对比参数中确定出至少一个对比参数;
将所述待标注样本中所述至少一个对比参数对应的差异大于所述第一阈值的样本,确定为所述第一标注样本。
4.根据权利要求1所述的方法,还包括:
获取所述待标注样本的标注规则;
基于所述标注规则从算法库中确定出目标算法;
将所述目标算法对应的模型确定为所述待标注样本对应的目标模型。
5.根据权利要求1所述的方法,还包括:
向第二标注平台发送所述第一标注样本;
获取所述第二标注平台返回的所述第一标注样本的验证结果;
基于所述验证结果对所述第一标注样本进行更新处理,得到更新后的所述第一标注样本。
6.根据权利要求5所述的方法,还包括:
基于所述验证结果,确定所述目标模型的标注准确率;
在所述标注准确率低于第二阈值的情况下,输出针对所述目标模型的告警信息。
7.根据权利要求5所述的方法,还包括:
基于所述验证结果生成训练样本;
通知所述目标模型基于所述训练样本调整所述目标模型的参数。
8.根据权利要求1所述的方法,还包括:
基于所述差异从所述待标注样本中确定出第二标注样本,所述第二标注样本是所述差异低于第三阈值的样本。
9.一种标注处理装置,包括:
第一确定模块,用于确定待标注样本;
第一获取模块,用于获取目标模型基于所述待标注样本输出的第一标注结果;
第二获取模块,用于获取第一标注平台基于所述待标注样本输出的第二标注结果;
对比模块,用于对比所述第一标注结果与所述第二标注结果之间的差异;
第二确定模块,用于基于所述差异从所述待标注样本中确定出第一标注样本,所述第一标注样本是需要验证的样本。
10.根据权利要求9所述的装置,其中,所述第二确定模块包括:
确定子模块,用于将所述待标注样本中所述差异高于第一阈值的样本,确定为所述第一标注样本。
11.根据权利要求10所述的装置,其中,所述确定子模块,用于:
从所述差异包括的多个对比参数中确定出至少一个对比参数;
将所述待标注样本中所述至少一个对比参数对应的差异大于所述第一阈值的样本,确定为所述第一标注样本。
12.根据权利要求9所述的装置,还包括:
第三获取模块,用于获取所述待标注样本的标注规则;
第三确定模块,用于基于所述标注规则从算法库中确定出目标算法,将所述目标算法对应的模型确定为所述待标注样本对应的目标模型。
13.根据权利要求9所述的装置,还包括:
发送模块,用于向第二标注平台发送所述第一标注样本;
第四获取模块,用于获取所述第二标注平台返回的所述第一标注样本的验证结果;
更新模块,用于基于所述验证结果对所述第一标注样本进行更新处理,得到更新后的所述第一标注样本。
14.根据权利要求13所述的装置,还包括:
第四确定模块,用于基于所述验证结果,确定所述目标模型的标注准确率;
输出模块,用于在所述标注准确率低于第二阈值的情况下,输出针对所述目标模型的告警信息。
15.根据权利要求13所述的装置,还包括:
生成模块,用于基于所述验证结果生成训练样本;
通知模块,用于通知所述目标模型基于所述训练样本调整所述目标模型的参数。
16.根据权利要求9所述的装置,还包括:
第五确定模块,用于基于所述差异从所述待标注样本中确定出第二标注样本,所述第二标注样本是所述差异低于第三阈值的样本。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853304.7A CN115329843A (zh) | 2022-07-08 | 2022-07-08 | 标注处理方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210853304.7A CN115329843A (zh) | 2022-07-08 | 2022-07-08 | 标注处理方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329843A true CN115329843A (zh) | 2022-11-11 |
Family
ID=83917408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210853304.7A Pending CN115329843A (zh) | 2022-07-08 | 2022-07-08 | 标注处理方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329843A (zh) |
-
2022
- 2022-07-08 CN CN202210853304.7A patent/CN115329843A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115880536B (zh) | 数据处理方法、训练方法、目标对象检测方法及装置 | |
CN113377890B (zh) | 一种地图质检方法、装置、电子设备及存储介质 | |
CN112560862A (zh) | 文本识别方法、装置及电子设备 | |
CN114881129A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN113205041A (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN113378969A (zh) | 一种目标检测结果的融合方法、装置、设备及介质 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN116245193A (zh) | 目标检测模型的训练方法、装置、电子设备及介质 | |
CN116151240A (zh) | 关系抽取模型训练方法及装置、电子设备和存储介质 | |
CN113849581A (zh) | 告警信息的处理方法、装置、设备和存储介质 | |
CN113723607A (zh) | 时空数据处理模型的训练方法、装置、设备及存储介质 | |
CN115329843A (zh) | 标注处理方法、装置、设备以及存储介质 | |
CN113535876B (zh) | 处理地图数据的方法、装置、电子设备和介质 | |
CN114445682A (zh) | 训练模型的方法、装置、电子设备、存储介质及产品 | |
CN114187488A (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN113869317A (zh) | 车牌识别方法、装置、电子设备和存储介质 | |
CN114429631A (zh) | 三维对象检测方法、装置、设备以及存储介质 | |
CN113887394A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN113627526A (zh) | 车辆标识的识别方法、装置、电子设备和介质 | |
CN113554062A (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN113887414A (zh) | 目标检测方法、装置、电子设备和存储介质 | |
CN113447013A (zh) | 施工道路识别方法、装置、设备、存储介质和程序产品 | |
CN112712002A (zh) | 基于cgan的环境监控方法、装置、系统及存储介质 | |
CN113886745B (zh) | 页面图片测试方法、装置及电子设备 | |
CN113836291B (zh) | 数据处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |