CN114219501A - 样本标注资源分配方法、装置及应用 - Google Patents

样本标注资源分配方法、装置及应用 Download PDF

Info

Publication number
CN114219501A
CN114219501A CN202210159601.1A CN202210159601A CN114219501A CN 114219501 A CN114219501 A CN 114219501A CN 202210159601 A CN202210159601 A CN 202210159601A CN 114219501 A CN114219501 A CN 114219501A
Authority
CN
China
Prior art keywords
auditing
marking
sample
annotation
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210159601.1A
Other languages
English (en)
Other versions
CN114219501B (zh
Inventor
陈定
杨毓光
吴卫东
薛奋飞
谢卫民
陈嵩珂
裘洁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hengtai Technology Co ltd
Original Assignee
Hangzhou Hengtai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hengtai Technology Co ltd filed Critical Hangzhou Hengtai Technology Co ltd
Priority to CN202210159601.1A priority Critical patent/CN114219501B/zh
Publication of CN114219501A publication Critical patent/CN114219501A/zh
Application granted granted Critical
Publication of CN114219501B publication Critical patent/CN114219501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提出了一种样本标注资源分配方法、装置及应用,其中方法通过将不同类型的风控规则采用不同分类区提取关键词,基于关键词自动获取字段下输入数据以及对输入数据的处理方式,从而得到分类结果。通过本发明,能够基于多种类的风控规则自动进行样本标注资源分配,替代了现有的人为甄别方式,因此准确率和效率更高。

Description

样本标注资源分配方法、装置及应用
技术领域
本申请涉及数据标注领域,特别是涉及样本标注资源分配方法、装置及应用。
背景技术
伴随着网上金融业务的迅速发展,相关交易量迅速增长的同时,异常交易也出现得越来越多。异常交易不仅给用户自身造成巨大损失的,并且严重破坏金融秩序,伤害金融机构信誉,在社会造成了极坏的影响。
目前人工智能快速发展,异常交易的识别已从人工识别逐渐转换为了模型自动识别,而模型识别中数据标注是一项基础但重要程度高的工作。标注准确性会直接影响模型的识别精度。传统的标注任务分派策略只是将标注任务分配给单个标注员,一旦出现标注结果的大量误判现象,会对后续模型训练带来负面影响。
虽然现有技术中也出现将同一标注任务分配给多个标注员,并通过审核员对最终的标注结果进行审核的手段,但该手段在实际应用中会产生问题:首先是额外分配审核员会产生用人成本;其次,目前同一标注任务分配的标注员数量是人为设定的,若人数设置过多,则相当于额外增加了几倍的标注量,那么标注的效率势必会下降;若人数设置过少,意味着配合标注效率提高,那么审核效率势必也要提高,否则会产生审核任务堆积情况,而提高审核效率会增加额外的计算成本(如安排多个审核员)。
换言之,对同一标注项目的标注人数的选择会直接影响审核效率以及审核成本,而现有技术中都采样人为设定标注员数量的方式,因此针对如何根据审核效率来动态调整同一标注项目的标注人数,目前尚未得到有效解决方案。
发明内容
本申请实施例提供了一种样本标注资源分配方法、装置及应用,能够解决现有技术中如何对标注资源进行分配的问题,本方案根据标注效率也快,则审核队列中的标注结果积压越多的特性,通过控制审核节点中审核资源闲置程度来动态调整每一交易样本的标注人数,从而在提高标注准确率和提高审核效率之间达到动态平衡。
第一方面,本申请实施例提供了一种样本标注资源分配方法,所述方法包括:获取样本集以及标注员列表;预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
在其中一些实施例中,“根据审核资源闲置程度调整标注人数”包括:预设审核忙碌条件以及审核空闲条件,当审核资源闲置程度满足审核忙碌条件,增加标注人数,并根据增加的标注人数增设标注员对剩余交易样本进行标注;当审核闲置程度满足审核空闲条件,减少标注人数,并根据减少的标注人数精简标注员对剩余交易样本进行标注。
在其中一些实施例中,计算所有未审核的标注结果的时间间隔总和以及待审核数量;计算审核数量与历史审核间隔的乘积与时间间隔总和的差值作为审核资源闲置程度。
在其中一些实施例中,遍历计算所有时间间隔与历史审核间隔的差值,若差值小于第一阈值,记录为审核资源忙碌,若差值大于第二阈值,记录为审核资源空闲;根据所有未审核的标注结果对应的审核资源忙碌和审核资源空闲的计数比值作为审核资源闲置程度。
在其中一些实施例中,“获取标注员列表包括”:获取预计完成时间相接近的多个标注员生成标注员列表。
在其中一些实施例中,标注员列表记录预计完成时间总差值小于阈值的多个标注员,其中,预计完成时间总差值表征为:根据标注员的标注速度以及当前任务数,得到每个标注员对交易样本进行标注的预计完成时间,对所有预计完成时间进行排序,计算每两个预计完成时间的差值,将差值小于阈值的最大差值作为总差值。
在其中一些实施例中,若标注员的当前任务数达到任务饱和量,则将标注员从排序列表中剔除。
在其中一些实施例中,在审核节点中自动获取每个标注结果中特征词在标注样本中的位置信息,通过比较位置信息的相似性确定标注结果是否正确。
第二方面,本申请实施例提供了一种样本标注资源分配装置,包括:获取模块,用于获取样本集以及标注员列表;标注模块,用于预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;时间记录模块,用于记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;计算模块,用于将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;标注人数调整模块,用于根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
第三方面,本申请实施例提供了一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据第一方面所述的样本标注资源分配方法。
本发明的主要贡献和创新点如下:
本方案对交易样本进行多人标注和自动审核,通过案件标注结束点确定审核开始时间,由相邻审核开始时间的差值计算审核资源闲置率,若审核资源一直闲置,说明标注速度过慢,就减少多人标注的数量,从而提高标注整体速率,如果闲置率很低,说明标注速度过快,则增加多人标注的人数,从而提高对标注结果的准确性。基于本发明,能够实现在给定的审核资源以及标注总人数的情况下,通过调节每个任务分配情况从而动态调节标注资源以及审核资源避免任一资源长时间忙碌或空闲。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例一的样本标注资源分配方法的流程图。
图2是根据本申请实施例二的样本标注资源分配装置的结构框图。
图3是根据本申请实施例三的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
本方案可用于生成训练模型所需的样本集以及测试集。在生成已标注样本的过程中,为避免标注员凭经验标注导致大量误判,使得标注数据大面积污染的情况,本方案通过将每个交易样本分配给多个标注员从而提高标注结果的准确性。具体地,在审核节点中审核多个标注结果是否一致,若一致,则说明标注结果正确,该标注结果可加入样本集或测试集。在实现标注的过程中申请人发现对同一样本分配的标注员数量会直接导致审核效率,即:标注人数越多,意味着实际标注任务呈倍数增长,那么任务的总标注效率会低,会导致审核资源长时间闲置;而标注人数越少,意味着任务的总标注效率高,那么会出现审核节点的队列中未审核的标注结果大量堆积的情况。因此本方案所要实现的目的是在给定的审核资源以及标注总人数的情况下,通过调节每个任务分配情况从而动态调节标注资源以及审核资源避免任一资源长时间忙碌或空闲。
图1是根据本申请第一实施例的样本标注资源分配方法的主要步骤流程图。
为实现该目的,如图1所示,样本标注资源分配方法包括如下的步骤S101至步骤S105:
步骤101、获取样本集以及标注员列表。
本步骤中,样本集是指交易样本集合,其中包含了异常交易样本和/或正常交易样本,可从历史数据库中获取。
标注员列表是指记录标注员的表格,在本方案的场景下,标注员列表中记载多个标注员信息,通过在标注员列表中指定标注员可实现对标注任务的分配。
需要说明的是,在实际操作中样本集与标注员列表记录的可以是经过预处理后的数据。例如,获取样本集可以包括:先选取原始样本集,并对原始样本集划分样本类型,并根据每一样本类型的历史标注正确率来剔除正确率高的样本,以剩下的样本生成样本集。也就是说,通过该方法能够只对易标注错误的样本类型对应的交易样本进行多人标注,从而减少了由于多人标注对标注资源的浪费。
另外,获取标注员列表可以包括:先获取标注员名单中每一标注员的考勤状态,如“到岗”“缺勤”,根据考勤状态过滤得到到岗的所有标注员并生成标注员集合。
针对上述步骤101,本方案对样本集中存储的交易样本进行标注,在筛选交易样本时可以根据实际所需先进行预处理来剔除不符合要求的交易样本,从而提高标注效率,同样的,参与多人分配的标注员也可以根据考勤状态等信息进行过滤,对后续的标注处理起到优化作用。
步骤102、预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果。
在本步骤中,标注人数是指标注同一交易样本的标注者数量,标注人数至少为2,还可以是3、5、8、10等等,结合本方案的多人标注场景可知,标注人数越多,则实际需标注样本呈倍数增加,那么标注效率会大幅降低。为了解决这一现象,本步骤先预设标注人数,并基于标注人数选取标注员进行标注,得到与标注人数对应的标注结果。
示例性地,若预设标注人数为5,则从标注员列表中选择5名标注人员对某一交易样本进行标注,得到五个标注结果。若预设标注人数为2,则从标注员列表中选择两名标注人员对某一交易样本进行标注,得到两个标注结果。
针对上述步骤S102,本方案对同一交易样本分配多个标注员的方式从而提高最终标注结果的准确性,避免错误的标注结果干扰模型训练。
步骤103、记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间。
在本步骤中,取最晚时刻的目的是在该时刻下所有标注员的标注结果都已完成,即:目的是使获取到的标注结果数量与实际分配的标注员数量相等。
值得说明的是,本步骤中记录审核开始时间目的是预判审核资源是否会闲置。具体地,在单线程下审核节点需要完成先前任务的审核,才能进行下一任务审核,也就是说假设审核节点的当前任务数量大于0,那么待审核的标注结果会在审核列表中进行排队,并以进入审核排队列表的时间作为审核开始时间。本方案能在标注结果尚在队列阶段就对审核资源的闲置程度进行计算,并根据当前限制程度调节标注人数进而改变之后的标注结果进入审核队列的时间点,实现了审核资源与标注资源动态平衡的目的。
具体地,在本方案中“预判”是指:在预知审核资源即将空闲或者即将忙碌的结果下,能够调整后续进入审核队列的标注结果时间,从而避免审核资源真的出现空闲或者忙碌状态,故“预判”能够实现对资源的有效分配。且值得一提的是,本方案巧妙之处在于:标注资源、审核资源的动态平衡可以通过调整对同一交易样本的标注人数来实现。
需要补充的是,本方案所提升的标注资源闲置程度与审核资源闲置程度动态平衡的能力。故在本方案中每个标注员所标注的样本时间以及审核节点的审核效率都是不变的。
具体而言,以100个样本,五个标注人数为例,在标注阶段实际需标注的任务数为100*5,而审核阶段需要审核的数量是100,假设所有标注结果审核完成时间为M,
一种情况下:改为以两个标注人数进行标注,在标注阶段实际需标注的任务数为100*2,可见在标注效率不变的情况下,完成所有样本标注所需时间大大减少,意味着已完成标注却待审核的交易样本会在审核队列中产生堆积。正常情况下为了让审核节点尽快消化堆积样本,会在标注端停止标注,那么就造成了标注资源空闲。而本方案目的在于当预判审核资源将忙碌时,增大标注人数,也就是让更多标注人员对同一样本进行标注,避免标注资源浪费。
另一种情况下,改为以十个标注人数进行标注,诚然标注结果的准确性会更高,但在每个人的标注效率不变的情况下,完成所有样本所需时间大幅增加,意味着在审核节点会出现资源空闲情况。为了避免出现审核资源空闲,本方案在预判审核资源将空闲时,减少标注人数,虽然牺牲了样本结果的标注正确率,但避免了审核资源的空闲。
步骤104、将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度。
步骤105、根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
结合本方案的其中一实施例:在审核节点中自动获取每个标注结果中特征词在标注样本中的位置信息,通过比较位置信息的相似性确定标注结果是否正确。
在该实施例中,通过自动根据特征值的位置信息替代了原有的人工审核,从而提高了审核效率以及降低了用工成本。而自动审核的一大弊端在于:模型只能通过“聚类”方式将出现次数最多的特征值位置作为正确标注结果,当只有两个标注结果且结果不一致时,模型只能判断出两个标注结果不同,并不能确定哪个标注标注结果是正确的。即,当每个样本的标注人数太少时,模型无法自动判断出正确的标注结果。
结合该实施例可以看到,本方案是通过控制标注人数从而在审核资源、标注资源、标注正确率之间进行动态调节:在审核资源忙碌的情况下,为避免标注资源空闲,增加标注人数对同一样本进行标注,从而提高审核结果的正确性;在审核资源空闲的情况下,为避免审核资源空闲,减少标注人数对同一样本进行标注,从而在牺牲审核结果的正确性的情况下避免审核资源浪费。可见采用动态调节标注人数的方式能够很好的在审核资源以及审核结果的正确性上进行调节。
针对上述步骤S103-S105,本方案记录标注结果进入审核节点的审核开始时间从而预判审核节点在接下来的时间内处于空闲状态还是忙碌状态,并在标注人数上进行调整,从而维持审核节点正常审核状态使得审核节点在空闲状态/忙碌状态尚未发生的情况下便做出了及时调整。
在一种实施例中,“根据审核资源闲置程度调整标注人数”包括:预设审核忙碌条件以及审核空闲条件,当审核资源闲置程度满足审核忙碌条件,增加标注人数,并根据增加的标注人数增设标注员对剩余交易样本进行标注;当审核闲置程度满足审核空闲条件,减少标注人数,并根据减少的标注人数精简标注员对剩余交易样本进行标注。
在本实施例中,审核忙碌条件、审核空闲条件可以通过实际所需进行设定。举例而非限制,审核忙碌条件可以是根据审核队列中的标注结果数量以及当前审核速度预判消化审核队列中的标注结果需要2h以上,则符合审核忙碌条件。审核空闲条件可以是当前审核数量为0,且每次审核结束后审核资源空闲时间超过2min。
另外,本方案还提出了两种确定审核资源闲置程度的具体方案:
一种情况下,审核资源闲置程度可以表征为:所有未审核的标注结果的时间间隔总和以及待审核数量与历史审核乘积的差值。
具体地,该审核资源闲置程度采用以下方式计算:
计算所有未审核的标注结果的时间间隔总和以及待审核数量;计算审核数量与历史审核间隔的乘积与时间间隔总和的差值作为审核资源闲置程度。
示例性地,标注结果的标注完成时间分别为:①17:18,②17:20,③17:25,④17:50,⑤18:26,则时间间隔依次为:2min,5min,25min,36min,时间间隔为2+5+25+36=68min(或者时间间隔总和可以以18:26-17:18计算得到68min)。表示的含义为:若不计审核所需时间,那么审核节点从获取到最早标注完成时间到获取到最晚标注完成时间需要68min。假设历史审核间隔为10分钟审核一标注结果,那么审核数量与历史审核间隔为5*10=50min,计算乘积图时间间隔总和的差值为50min-68min=-18min。而18min表示按照当前标注结果进入审核节点的速度,审核资源会有18分钟的空闲。
另一情况下,审核资源闲置程度可以表征为:审核资源忙碌计数与审核资源空闲计数的比值。
具体地,该审核资源闲置程度采用以下方式计算:
遍历计算所有时间间隔与历史审核间隔的差值,若差值小于第一阈值,记录为审核资源忙碌,若差值大于第二阈值,记录为审核资源空闲;根据所有未审核的标注结果对应的审核资源忙碌和审核资源空闲的计数比值作为审核资源闲置程度。
示例性地,标注结果的标注完成时间分别为:①17:18,②17:20,③17:25,④17:50,⑤18:26。假设假设历史审核间隔为10分钟审核一标注结果,那么审核节点审核①17:18的过程中,②17:20、③17:25会在审核列表中排队,于17:35时刻审核完成上一标注结果后,审核节点会出现空闲,于18:00时刻审核完成上一标注结果后,审核节点会出现空闲,即审核资源有两次会出现忙碌,记为2;两次出现空闲,记为2,则计数比值为2:2=1。
在一种实施例中,“获取标注员列表包括”:获取预计完成时间相接近的多个标注员生成标注员列表。
结合步骤S103可知,当同一标注任务分配给多个标注员时,选择最晚标注的标注员的完成时间作为标注结果进入审核节点的审核开始时间,也就是说,若多个标注员的标注完成时间差异较大,则审核开始时间会受到最晚完成的标注员的时间影响,从而影响审核节点的资源闲置程度。因此在该实施例中,通过获取对同一交易样本的预计完成时间相接近的多个标注员从而提高标注任务的总体效率。
此外,针对获取预计完成时间相接近的多个标注员,还可以通过以下方式实现:
标注员列表记录预计完成时间总差值小于阈值的多个标注员,其中,预计完成时间总差值表征为:根据标注员的标注速度以及当前任务数,得到每个标注员对交易样本进行标注的预计完成时间,对所有预计完成时间进行排序,计算每两个预计完成时间的差值,将差值小于阈值的最大差值作为总差值。
具体而言,标注速度*当前任务数表示标注员处理已分配交易样本所需时间,再结合当前时刻可知每个标注员处理完所有已分配交易样本的具体时刻即为预计完成时间,对预计完成时间进行升序或者降序,假设排序后预计完成时间对应的标注员依次为标注员A、标注员B、标注员C、标注员D,计算两两之间的差值,得到3+2+1=6个数据,在6个数据中,取小于阈值且最大的数作为总差值,目的是在不超过阈值的情况下,能够获取更多标注员生成标注员列表。
值得说明的是,在本方案中计算两两之间时间差值指的是除标注员A、B之间,标注员B、C之间,标注员C、D之间差值,还需计算标注员A、C之间,标注员A、D之间,标注员A、D之间,标注员B、D之间差值。假设以标注员B、D之间差值作为总差值,则本例中预计完成时间相接近的多个标注员为:B、C、D。
在该实施例中,还可以通过先剔除任务数达到饱和量的标注,再进行排序,从而避免选择的多个标注员虽然预计完成时间接近,但都在超过期望完成时间内完成的极端情况。具体地,若标注员的当前任务数达到任务饱和量,则将标注员从排序列表中剔除。
综上,针对上述步骤101-步骤105,本方案对交易样本进行多人标注和自动审核,通过案件标注结束点确定审核开始时间,由相邻审核开始时间的差值计算审核资源闲置率,若审核资源一直闲置,说明标注速度过慢,就减少多人标注的数量,从而提高标注整体速率,如果闲置率很低,说明标注速度过快,则增加多人标注的人数,从而提高对标注结果的准确性。基于本发明,能够实现在给定的审核资源以及标注总人数的情况下,通过调节每个任务分配情况从而动态调节标注资源以及审核资源避免任一资源长时间忙碌或空闲。
实施例二
本申请还提出了一种样本标注资源分配装置,如图2所示,包括:
获取模块201,用于获取样本集以及标注员列表。
标注模块202,用于预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果。
时间记录模块203,用于记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间。
计算模块204,用于将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度。
标注人数调整模块205,用于根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
实施例三
本实施例还提供了一种电子装置,参考图3,包括存储器304和处理器302,该存储器304中存储有计算机程序,该处理器302被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器302可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制,存储器304可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器304可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器304可在数据处理装置的内部或外部。在特定实施例中,存储器304是非易失性(Non-Volatile)存储器。在特定实施例中,存储器304包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器304(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器302所执行的可能的计算机程序指令。
处理器302通过读取并执行存储器304中存储的计算机程序指令,以实现上述实施例中的任意一种样本标注资源分配方法。
可选地,上述电子装置还可以包括传输设备306以及输入输出设备308,其中,该传输设备306和上述处理器302连接,该输入输出设备308和上述处理器302连接。
传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备306可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备308用于输入或输出信息。在本实施例中,输入的信息可以是待标注的交易样本等,输出的信息可以是分类结果等。
可选地,在本实施例中,上述处理器302可以被设置为通过计算机程序执行以下步骤:
S101、获取样本集以及标注员列表。
S102、预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果。
S103、记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间。
S104、将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度。
S105、根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种样本标注资源分配方法,其特征在于,包括以下步骤:
获取样本集以及标注员列表;
预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;
记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;
将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;
根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
2.根据权利要求1所述的样本标注资源分配方法,其特征在于,“根据审核资源闲置程度调整标注人数”包括:预设审核忙碌条件以及审核空闲条件,当审核资源闲置程度满足审核忙碌条件,增加标注人数,并根据增加的标注人数增设标注员对剩余交易样本进行标注;当审核闲置程度满足审核空闲条件,减少标注人数,并根据减少的标注人数精简标注员对剩余交易样本进行标注。
3.根据权利要求1所述的样本标注资源分配方法,其特征在于,计算所有未审核的标注结果的时间间隔总和以及待审核数量;计算审核数量与历史审核间隔的乘积与时间间隔总和的差值作为审核资源闲置程度。
4.根据权利要求1所述的样本标注资源分配方法,其特征在于,遍历计算所有时间间隔与历史审核间隔的差值,若差值小于第一阈值,记录为审核资源忙碌,若差值大于第二阈值,记录为审核资源空闲;根据所有未审核的标注结果对应的审核资源忙碌和审核资源空闲的计数比值作为审核资源闲置程度。
5.根据权利要求1所述的样本标注资源分配方法,其特征在于,“获取标注员列表包括”:
获取预计完成时间相接近的多个标注员生成标注员列表。
6.根据权利要求1所述的样本标注资源分配方法,其特征在于,标注员列表记录预计完成时间总差值小于阈值的多个标注员,其中,预计完成时间总差值表征为:根据标注员的标注速度以及当前任务数,得到每个标注员对交易样本进行标注的预计完成时间,对所有预计完成时间进行排序,计算每两个预计完成时间的差值,将差值小于阈值的最大差值作为总差值。
7.根据权利要求6所述的样本标注资源分配方法,其特征在于,若标注员的当前任务数达到任务饱和量,则将标注员从排序列表中剔除。
8.根据权利要求1所述的样本标注资源分配方法,其特征在于,在审核节点中自动获取每个标注结果中特征词在标注样本中的位置信息,通过比较位置信息的相似性确定标注结果是否正确。
9.一种样本标注资源分配装置,其特征在于,包括:
获取模块,用于获取样本集以及标注员列表;
标注模块,用于预设标注人数,针对样本集中的任一交易样本,从标注员列表中选择数量为预设标注人数的多个标注员生成标注员集合,并分配给标注员集合中每一标注员进行标注,得到标注结果;
时间记录模块,用于记录所有标注员对交易样本的标注完成时间,取最晚时刻的标注完成时间作为标注结果进入审核节点的审核开始时间;
计算模块,用于将每相邻两个审核开始时间之间的时间间隔与历史审核间隔进行计算,得到审核资源闲置程度;
标注人数调整模块,用于根据审核资源闲置程度调整标注人数,并基于调整后的标注人数重为剩余交易样本生成标注员集合。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至8任一项所述的样本标注资源分配方法。
CN202210159601.1A 2022-02-22 2022-02-22 样本标注资源分配方法、装置及应用 Active CN114219501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210159601.1A CN114219501B (zh) 2022-02-22 2022-02-22 样本标注资源分配方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159601.1A CN114219501B (zh) 2022-02-22 2022-02-22 样本标注资源分配方法、装置及应用

Publications (2)

Publication Number Publication Date
CN114219501A true CN114219501A (zh) 2022-03-22
CN114219501B CN114219501B (zh) 2022-06-28

Family

ID=80709207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159601.1A Active CN114219501B (zh) 2022-02-22 2022-02-22 样本标注资源分配方法、装置及应用

Country Status (1)

Country Link
CN (1) CN114219501B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155513A1 (zh) * 2015-04-02 2016-10-06 王文平 一种鞋业模组化柔性生产线
CN108932724A (zh) * 2018-05-31 2018-12-04 杭州晓图科技有限公司 一种基于多人协同图像标注的系统自动审核方法
CN109213107A (zh) * 2018-10-24 2019-01-15 厦门盈趣科技股份有限公司 一种产线作业管控方法
CN109375601A (zh) * 2018-11-13 2019-02-22 华中科技大学 基于数据驱动建模与仿真优化的流水线规划方法及设备
CN109697537A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 数据审核的方法和装置
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110222791A (zh) * 2019-06-20 2019-09-10 杭州睿琪软件有限公司 样本标注信息的审核方法及装置
CN110865654A (zh) * 2019-12-06 2020-03-06 河南送变电建设有限公司 一种电网无人机巡检缺陷处理方法
CN111144749A (zh) * 2019-12-26 2020-05-12 智洋创新科技股份有限公司 电网图像智能标注众包平台及工作方法
CN112486107A (zh) * 2019-09-12 2021-03-12 威保控股股份有限公司 多工序流程式产品生产排程方法
CN112860416A (zh) * 2021-04-25 2021-05-28 城云科技(中国)有限公司 标注任务分派策略方法、装置
CN112906349A (zh) * 2021-03-30 2021-06-04 苏州大学 一种数据标注的方法、系统、设备及可读存储介质
WO2021169208A1 (zh) * 2020-02-25 2021-09-02 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
CN113345598A (zh) * 2021-07-21 2021-09-03 深圳市知酷信息技术有限公司 基于数据分析的区域疫情监测预警系统
CN113785251A (zh) * 2019-05-08 2021-12-10 三菱电机株式会社 工序管理装置、工序管理方法、工序管理程序及机器学习装置
CN113971087A (zh) * 2020-07-23 2022-01-25 同方威视技术股份有限公司 任务分配方法、装置、系统及计算机存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155513A1 (zh) * 2015-04-02 2016-10-06 王文平 一种鞋业模组化柔性生产线
CN109697537A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 数据审核的方法和装置
CN108932724A (zh) * 2018-05-31 2018-12-04 杭州晓图科技有限公司 一种基于多人协同图像标注的系统自动审核方法
CN109213107A (zh) * 2018-10-24 2019-01-15 厦门盈趣科技股份有限公司 一种产线作业管控方法
CN109375601A (zh) * 2018-11-13 2019-02-22 华中科技大学 基于数据驱动建模与仿真优化的流水线规划方法及设备
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN113785251A (zh) * 2019-05-08 2021-12-10 三菱电机株式会社 工序管理装置、工序管理方法、工序管理程序及机器学习装置
CN110222791A (zh) * 2019-06-20 2019-09-10 杭州睿琪软件有限公司 样本标注信息的审核方法及装置
CN112486107A (zh) * 2019-09-12 2021-03-12 威保控股股份有限公司 多工序流程式产品生产排程方法
CN110865654A (zh) * 2019-12-06 2020-03-06 河南送变电建设有限公司 一种电网无人机巡检缺陷处理方法
CN111144749A (zh) * 2019-12-26 2020-05-12 智洋创新科技股份有限公司 电网图像智能标注众包平台及工作方法
WO2021169208A1 (zh) * 2020-02-25 2021-09-02 平安科技(深圳)有限公司 一种文本审核方法、装置、计算机设备及可读存储介质
CN113971087A (zh) * 2020-07-23 2022-01-25 同方威视技术股份有限公司 任务分配方法、装置、系统及计算机存储介质
CN112906349A (zh) * 2021-03-30 2021-06-04 苏州大学 一种数据标注的方法、系统、设备及可读存储介质
CN112860416A (zh) * 2021-04-25 2021-05-28 城云科技(中国)有限公司 标注任务分派策略方法、装置
CN113345598A (zh) * 2021-07-21 2021-09-03 深圳市知酷信息技术有限公司 基于数据分析的区域疫情监测预警系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YINGLONG XIA: "Self-Adaptive Evidence Propagation on Manycore Processors", 《IEEE XPLORE 》 *
都丽婷等: "基于条件随机域的临床文本去识别研究", 《中国卫生信息管理杂志》 *

Also Published As

Publication number Publication date
CN114219501B (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
US11272059B2 (en) Exclusive agent pool allocation method, electronic device, and computer readable storage medium
CN102053859B (zh) 批量数据处理的方法与装置
WO2019144516A1 (zh) 坐席分配方法、电子装置及计算机可读存储介质
CN106919957A (zh) 处理数据的方法及装置
US7904689B1 (en) Just in time storage allocation analysis systems and methods
CN110609830A (zh) 基于审核策略的决策引擎系统
CN109033173B (zh) 一种用于生成多维指标数据的数据处理方法及装置
CN109993417A (zh) 一种业务状态标识添加方法、装置及存储介质
CN111061948A (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN114219501B (zh) 样本标注资源分配方法、装置及应用
CN114064204A (zh) 一种微服务环境下基于业务预测动态扩容的方法
CN108600961A (zh) 用户相似度的获得方法和装置、设备、存储介质
CN107092599B (zh) 一种用于为用户提供知识信息的方法与设备
US11983766B2 (en) Debt management capability assessment system and method of analyzing debt management capability information using the same
CN107491927A (zh) 一种工作时间的分配方法和装置
CN111353420B (zh) 一种优先人脸识别数据库的优化方法及装置
CN112148316B (zh) 一种信息处理方法及信息处理装置
CN109145059A (zh) 用于数据统计的数据处理方法、服务器及存储介质
KR102195958B1 (ko) 인공지능 학습데이터 생성을 위한 다중할당 방식의 크라우드소싱 기반 프로젝트에서의 신뢰도에 기초한 작업자별 최대 작업 제한 건수 적용 방법
CN115309744A (zh) 数据聚合的方法、装置、设备和存储介质
CN117764459B (zh) 一种基于数据智能分析处理的企业管理系统及方法
CN112597223B (zh) 一种一致性数据采集方法和系统
CN109376306B (zh) 一种基于标签全景图的服务推荐方法及系统
CN117195036A (zh) 一种电厂数据智能处理方法及系统
CN109063043B (zh) 一种数据处理方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant