CN110232060A - 一种标注数据的审核方法及装置 - Google Patents

一种标注数据的审核方法及装置 Download PDF

Info

Publication number
CN110232060A
CN110232060A CN201910458920.0A CN201910458920A CN110232060A CN 110232060 A CN110232060 A CN 110232060A CN 201910458920 A CN201910458920 A CN 201910458920A CN 110232060 A CN110232060 A CN 110232060A
Authority
CN
China
Prior art keywords
labeled data
confidence value
data
mark
labeler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910458920.0A
Other languages
English (en)
Other versions
CN110232060B (zh
Inventor
陈天伦
张孝磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201910458920.0A priority Critical patent/CN110232060B/zh
Publication of CN110232060A publication Critical patent/CN110232060A/zh
Application granted granted Critical
Publication of CN110232060B publication Critical patent/CN110232060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Automatic Analysis And Handling Materials Therefor (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种标注数据的审核方法及装置,涉及数据处理技术领域,主要目的在于提高标注数据的审核效率;主要技术方案包括:获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;基于标注数据的置信度值辅助标注数据的人工审核过程。

Description

一种标注数据的审核方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种标注数据的审核方法及装置。
背景技术
随着大数据时代的来临,众多行业的数据量成几何级数的增长。为了更好的对海量数据进行利用,通常对数据进行标注,以便使数据可以更好的驱动生产、经营、生活等各种活动。在数据应用于机器学习以及数据挖掘等场景下时,为了使已标注的标注数据更好更准确,通常需要对已标注好的标注数据进行审核。
目前,通常采用人工审核方式对已标注好的标注数据进行审核。在人工审核时,审核员需要逐个对标注数据进行人工审核,且全部的标注数据均要逐个被审核才能完成整个人工审核过程。可见,这种人工审核方式完全依赖于审核员的主动识别来完成审核,标注数据的审核量巨大,审核效率较低。
发明内容
有鉴于此,本发明提出了一种标注数据的审核方法及装置,主要目的在于提高标注数据的审核效率。
第一方面,本发明提供了一种标注数据的审核方法,该方法包括:
获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
基于标注数据的置信度值辅助标注数据的人工审核过程。
第二方面,本发明提供了一种标注数据的审核装置,该装置包括:
获取单元,用于获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
辅助单元,用于基于标注数据的置信度值辅助标注数据的人工审核过程。
第三方面,本发明提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中任意一项所述的标注数据的审核方法。
第四方面,本发明提供了一种存储管理设备,包括:存储器,用于存储程序;处理器,耦合至所述存储器,用于运行所述程序以执行第一方面中任意一项所述的标注数据的审核方法。
借由上述技术方案,本发明提供的标注数据的审核方法及装置,首先获取未审核的标注数据集中的各标注数据的置信度值,然后基于标注数据的置信度值辅助标注数据的人工审核过程。由于置信度值与相应标注数据的标注的正确概率相关,在标注数据的人工审核过程中,标注数据的置信度值可以辅助确定最值得审核的标注数据,审核员可以对标注数据进行有针对性的审核。因此,本发明提供的方案可以提高标注数据的审核效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的一种标注数据的审核方法的流程图;
图2示出了本发明另一个实施例提供的一种标注数据的审核方法的流程图;
图3示出了本发明一个实施例提供的一种可视化界面的示意图;
图4示出了本发明另一个实施例提供的一种可视化界面的示意图;
图5示出了本发明又一个实施例提供的一种可视化界面的示意图;
图6示出了本发明一个实施例提供的一种标注数据的审核装置的结构示意图;
图7示出了本发明另一个实施例提供的一种标注数据的审核装置的结构示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供了一种标注数据的审核方法,该方法主要包括:
101、获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关。
在实际应用中,未审核的标注数据集中会有大量的标注数据,这些标注数据是由至少一个标注者通过标注原始未标注数据而得,这里所述的原始未标注数据可以包括但不限于文本数据、图像数据、语音数据和视频数据中的至少一种或多种。
具体的,基于不同的标注数据集的维护方法和不同的审核要求,未审核的标注数据集至少存在如下几种:
第一种,未审核的标注数据集中包括设定数量的标注数据,标注数据集中的标注数据的数量随着标注数据的人工审核过程而减少。
第二种,未审核的标注数据集中包括设定数量的标注数据,标注数据集中的标注数据的数量随着标注数据的人工审核过程中,通过指定的接口获取至少一个标注者相应的新的标注数据补充到标注数据集中,从而维持未审核的标注数据集中的标注数据的数量不变。
第三种,未审核的标注数据集中的标注数据的数量不做限定,其对应于特定的至少一个标注者,特定的标注者在设定的时间段内的标注数据均收集到未审核的标注数据中。
第四种,未审核的标注数据集中的标注数据的数量不做限定,其对应于特定的至少一个标注者,在标注数据的人工审核过程中,通过指定的接口获取特定的标注者相应的新的标注数据补充到标注数据集中,从而使得新的标注数据也可以及时得到人工审核。
本发明实施例中所涉及的置信度值与相应标注数据的标注的正确概率相关,也就是标注数据的置信度值可以反映标注数据的正确与否,审核员可以根据标注数据的置信度值选择出值得审核的标注数据,并对选择出的标注数据进行审核,从而使得标注数据的审核更有针对性。标注数据的置信度值的获取方法至少可以包括如下几种:
第一种,从指定接口获取未审核的标注数据集中的各标注数据的置信度值。这里所述的指定接口连接于用于计算标注数据的置信度值的计算平台。在存在置信度值获取需求时,直接通过指定接口获取即可,由于置信度值是直接通过指定接口获取的,因此可以快速的得到标注数据的置信度值。
第二种,获取设定数量的已审核标注数据的审核结果数据,基于审核结果数据确定未审核的标注数据集中的各标注数据的置信度值。
具体的,设定数量的已审核标注数据的审核结果数据至少可以通过如下四种途径获取:一是,从存储有已审核标注数据的数据库中确定设定数量的已审核标注数据,并提取确定的已审核标注数据的审核结果数据。这里所述的确定的已审核标注数据可以为与未审核标注数据相同或相关或相似的数据,其中可以基于语义相似的原则判断已审核标注数据是否与未审核标注数据相同或相似或相关。二是,通过网络爬虫从特定的网络平台上获取与未审核标注数据属于同一类型标注任务的已审核标注数据,从获取的已审核标注数据中确定设定数量的已审核标注数据,并提取确定的已审核标注数据的审核结果数据。这里所述的确定的已审核标注数据可以为与未审核标注数据相同或相关或相似的数据,其中可以基于语义相似的原则判断已审核标注数据是否与未审核标注数据相同或相似或相关。需要说明的是,标注任务类型可以基于原始数据的型式(比如,原始数据型式为文字数据、视频数据)或原始数据所属行业有关。三是,从未审核的标注数据集中提取一定数量的标注数据推送给审核员审核,收集审核员针对这些被推送标注数据的审核结果数据。这里的所述的一定数量为预设的数量,比如100个,或所述的一定数量为标注数据集中标注数据总量的百分比,比如,标注数据总量为1000,则一定数量为1000与10%的乘积。四是,在未审核的标注数据集中的各标注数据需要基于标注数据集中的已审核标注数据的审核结果进行更新时,则设定数量的已审核标注数据的审核结果数据包括:从数据库或网络平台上获取的已审核标注数据的审核结果数据和收集的审核员审核标注数据集中的标注数据的审核结果数据。此种途径可以对未审核的标注数据的置信度值进行优化,使得置信度值更能反映出相应的标注数据的标注的正确概率。
具体的,审核结果数据包括如下信息:待确定置信度值的标注数据的标注者的历史标注行为信息,和/或,待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息。
具体的,基于审核结果数据确定未审核的标注数据集中的各标注数据的置信度值的方法至少包括如下几种:
方法一、基于待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值;其中,历史标注行为信息包括如下内容:待确定置信度值的标注数据的标注者,在设定数量的已审核标注数据中标注正确的标注数据的数量以及标注错误的标注数据的数量。
方法二、基于待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息包括的内容,以及待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值。
具体的,标注者针对待确定置信度值的标注行为信息包括如下内容中的一个或多个:标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点和待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数。
具体的,待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容中的一个或多个:标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
方法三、基于待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;其中,待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容:标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
方法四、方法二与方法三相结合,确定待确定置信度值的标注数据的置信度值。
102、基于标注数据的置信度值辅助标注数据的人工审核过程。
在实际应用中,根据标注数据的置信度值辅助标注数据的人工审核过程至少可以达到如下效果:一是,根据标注数据的置信度值确定最值得审核的标注数据,审核员对这些标注数据进行有针对性的审核。这里所述的最值得审核的标注数据为标注的正确概率较低的标注数据;二是,在审核员审核标注数据完成时,基于标注数据相应的置信度值复核审核员的审核结果是否正确,从而提高标注数据审核正确的概率。
具体的,基于标注数据的置信度值辅助标注数据的人工审核过程至少包括如下几种方法:
第一种,以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值。
具体的,此种方式所涉及的可视化形式,为预设的可视化窗口对应展示待审核的标注数据和待审核的标注数据对应的置信度值。审核员可以基于该可视化展示,基于置信度值选取最可能出现标注错误的标注数据进行审核。可选的,在展示时,基于各未审核的标注数据的置信度值,对各未审核的标注数据进行排序,依据排序进行展示,以便审核员可以根据该展示排序快速的选取出当前展示中最值得审核的标注数据。
第二种,将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
具体的,标注数据的人工审核结果包括审核通过和审核不通过,审核通过说明标注数据标注正确,审核不通过则说明标注数据标注错误。不通的人工审核结果对应不同的置信度值区间。在标注数据被审核完成时,将标注数据的人工审核结果对应的置信度值区间与标注数据对应的置信度值进行比较,以验证和复核审核员的审核结果。当判断出人工审核结果对应的置信度值区间内不包括标注数据相应的置信度值时,说明审核员审核标注数据时审核出错的概率较高,则输出表示审核结果可能错误的提示信息,以提示审核员重新审核该标注数据,从而提高审核效果。当判断出人工审核结果对应的置信度值区间内包括标注数据相应的置信度值时,说明审核员审核标注数据时审核正确,则该标注数据审核完毕。
第三种,将上述的两种结合,也就是,先以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值。然后,在审核员审核完标注数据时,将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
第四种,基于各未审核的标注数据的置信度值,对各未审核的标注数据进行排序,依据所述排序辅助标注数据的人工审核过程。
具体的,依据该排序依次向审核员推送标注数据集中当前最值得审核的标注数据。
本发明实施例提供的标注数据的审核方法,首先获取未审核的标注数据集中的各标注数据的置信度值,然后基于标注数据的置信度值辅助标注数据的人工审核过程。由于置信度值与相应标注数据的标注的正确概率相关,在标注数据的人工审核过程中,标注数据的置信度值可以辅助确定最值得审核的标注数据,审核员可以对标注数据进行有针对性的审核。因此,本发明实施例提供的方案可以提高标注数据的审核效率。
进一步的,根据图1所示的方法,本发明的另一个实施例还提供了一种标注数据的审核方法,如图2所示,所述方法主要包括:
201、获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关。
具体的,本步骤中所涉及的标注数据集的形式以及标注数据集中个标注数据的置信度值获取方法基本与上述步骤101中的详解相同,因此这里将不再赘述。下面对步骤101的详解中标注数据的置信值获取方法中的第二种“获取设定数量的已审核标注数据的审核结果数据,基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值”进行说明:基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值的具体步骤为:针对每一个待确定置信度值的标注数据,基于所述审核结果数据包括的信息确定该标注数据的置信度值。需要说明的是,审核结果数据包括如下信息:待确定置信度值的标注数据的标注者的历史标注行为信息,和/或,待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息。因此根据审核结果数据包括的信息不同,基于审核结果数据包括的信息确定各标注数据的置信度值的实现方式至少包括如下几种:
第一种,基于待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值;其中,历史标注行为信息包括如下内容:待确定置信度值的标注数据的标注者,在设定数量的已审核标注数据中标注正确的标注数据的数量以及标注错误的标注数据的数量。
具体的,基于待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值的方法包括如下两种:
1、通过公式(1)计算待确定置信度值的标注数据的置信度值。
其中,Mj表征第j个待确定置信度值的标注数据的置信度值;Ai表征第j个待确定置信度值的标注数据的标注者i在已审核标注数据中标注正确的标注数据的数量;Bi表征第j个待确定置信度值的标注数据的标注者i在已审核标注数据中标注错误的标注数据的数量;a表征大于0的常数;b表征大于0的常数。
具体的,通过公式(1)计算得到的标注数据的置信度值是与标注者历史行为相关,也就是说,同一标注者标注的标注数据具有相同的置信度值。在利用此种方式得到的置信度值辅助标注数据的人工审核过程时,可以判断哪些标注者的标注数据最值得审核,实现对同一个标注者的标注数据进行集中审核。采用公式(1)计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。
具体的,公式(1)中的常数a和b的具体取值可以具体业务要求确定。示例性的,a和b均取值为1。确定常数a和b,且常数a和b均大于0的目的是为了避免出现A和/或B=0,导致无法确定置信度值的情况发生。
下面以一个实施例对公式(1)进行说明:示例性的,待确定置信度值的标注数据1的标注者1,在设定数量“1000”的已审核标注数据中标注正确的标注数据的数量为“900”以及标注错误的标注数据的数量“100”,常数a和b均取值为1,则基于公式(1)确定待确定置信度值的标注数据1的置信度值为:
2、通过公式(2)计算待确定置信度值的标注数据的置信度值。
其中,Mj表征第j个待确定置信度值的标注数据的置信度值;Ai表征第j个待确定置信度值的标注数据的标注者i在已审核标注数据中标注正确的标注数据的数量;Bi表征第j个待确定置信度值的标注数据的标注者i在已审核标注数据中标注错误的标注数据的数量;e表征大于0的常数;f表征大于0的常数;g表征大于0的常数。
具体的,通过公式(2)计算得到的标注数据的置信度值也是与标注者历史行为相关,也就是说,同一标注者标注的标注数据具有相同的置信度值。在利用此种方式得到的置信度值辅助标注数据的人工审核过程时,可以判断哪些标注者的标注数据最值得审核,实现对同一个标注者的标注数据进行集中审核。采用公式(2)计算得到的置信度值,标注数据的置信度值越小则说明标注数据的标注正确概率越高。
具体的,公式(1)中的常数e、f和g的具体取值可以具体业务要求确定。示例性的,e、f和g均取值为1。确定常数e、f和g,且常数e、f和g均大于0的目的是为了避免出现A=0和/或B=0,导致无法确定置信度值的情况发生。
下面以一个实施例对公式(2)进行说明:示例性的,待确定置信度值的标注数据2的标注者2,在设定数量“1000”的已审核标注数据中标注正确的标注数据的数量为“900”以及标注错误的标注数据的数量“100”,常数a和b均取值为1,则基于公式(2)确定待确定置信度值的标注数据2的置信度值为:
第二种,基于待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息包括的内容,以及待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值;其中,标注者针对待确定置信度值的标注行为信息包括如下内容中的一个或多个:标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点和待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数;待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容中的一个或多个:标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
具体的,由于待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息包括的内容的不同,以及待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容的不同,因此基于待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息包括的内容,以及待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值的方法包括如下几种:
1、基于标注者标注待确定置信度值的标注数据的标注时长以及标注者的已审核标注数据中标注正确的标注数据的平均标注时长,通过公式(3)计算所述待确定置信度值的标注数据的置信度值;
其中,Mj表征第j个待确定置信度值的标注数据的置信度值;Tij表征第j个待确定置信度值的标注数据的标注者i标注第j个待确定置信度值的标注数据的标注时长;Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;n表征大于或等于1的常数。
具体的,采用公式(3)计算出的置信度越小说明标注者标注的标注数据所耗费的时长越短,说明标注者并未付出其正常标注的时长,标注者出现敷衍标注的行为的概率越高,从而标注数据出现标注错误的概率越高。采用公式(3)计算出的置信度越大说明标注者标注标注数据所耗费的时长越长,说明标注者付出其正常标注所耗费时长或付出了超过其正常标注所耗费时长,标注者出现认真标注的行为的概率越高,从而标注数据出现标注错误的概率越低。因此采用公式(3)计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。
具体的,公式(3)中的常数n的具体取值可以具体业务要求确定。示例性的,n取值为1。
下面以一个实施例对公式(3)进行说明:示例性的,待确定置信度值的标注数据3的标注者3,标注者3标注标注数据3的标注时长为“5分钟”,标注者3的已审核标注数据中标注正确的标注数据的平均标注时长为“4分钟”,n取值为1。则基于公式(3)确定待确定置信度值的标注数据3的置信度值为:
2、基于标注者标注待确定置信度值的标注数据的标注时间点,以及标注者的已审核标注数据中标注错误的标注数据对应的出错时间段,通过公式(4)计算所述待确定置信度值的标注数据的置信度值;
其中,Mj表征第j个待确定置信度值的标注数据的置信度值;tij表征第j个待确定置信度值的标注数据的标注者i标注第j个待确定置信度值的标注数据的标注时间点;[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1。
具体的,采用公式(4)计算出的置信度值小说明标注者是在其标注错误率较高的时间段内进行标注得到标注数据的,因此在这个时间段内标注得到的标注数据出现标注错误的概率较高。采用公式(4)计算出的置信度值大说明标注者不是在其标注错误率较高的时间段内进行标注得到标注数据的,因此得到的标注数据出现标注错误的概率较低。因此采用公式(4)计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。
具体的,公式(4)中的m1和m2的具体取值可以具体业务要求确定。需要说明的是,为了区分标注数据的正确概率,则设定时m2大于m1。示例性的,m2取值1,m1取值0.95。
下面以一个实施例对公式(4)进行说明:示例性的,待确定置信度值的标注数据4的标注者4,标注者4标注标注数据4的标注时间点为“13:00”,标注者4的已审核标注数据中标注错误的标注数据对应的出错时间段为“[12:00,14:00]”,m2取值1,m1取值0.95,则基于公式(3)确定待确定置信度值的标注数据4的置信度值为:
M4=0.9513:00∈[12:00,14:00]
3、基于待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数,以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过公式(5)计算所述待确定置信度值的标注数据的置信度值;
其中,Mj表征第j个待确定置信度值的标注数据的置信度值;Pij表征第j个待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2。
具体的,标注者在进行标注时,随着标注的进行,标注者在标注一定数量的标注数据时,其会产生标注疲劳,从而导致标注错误的标注数据。而标注疲劳度可以使用标注错误的标注数据之间的平均出现间隔数来表征。通过标注数据之间的间隔数便可以反映出标注数据的标注正确的概率。采用公式(5)计算出的置信度值小说明标注者是在其标注疲劳度较低进行标注得到标注数据的,因此得到的标注数据出现标注错误的概率较高。采用公式(5)计算出的置信度值大说明标注者是在其标注疲劳度较高时进行标注得到标注数据的,因此得到的标注数据出现标注错误的概率较低。因此采用公式(5)计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。
具体的,公式(5)中的k1和k2的具体取值可以具体业务要求确定。需要说明的是,为了区分标注数据的正确概率,则设定时k1大于k2。示例性的,k1取值1,k2取值0.9。
下面以一个实施例对公式(5)进行说明:示例性的,待确定置信度值的标注数据5的标注者5,标注数据5与其标注者5标注错误的上一个的标注数据之间的间隔数为“5”;标注者5的已审核标注数据中标注错误的标注数据之间的平均出现间隔数“100”,k1取值1,k2取值0.9。则基于公式(5)确定待确定置信度值的标注数据4的置信度值为:
4、公式(3)、公式(4)和公式(5)中的任意两个或多个可以基于业务要求相结合,采用公式(3)、公式(4)和公式(5)中的任意两个或多个相结合的方式,计算待确定置信度值的标注数据的置信度值。
在公式(3)和公式(4)相结合时,计算待确定置信度值的标注数据的置信度值时,采用如下公式:
采用该公式计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。该公式中变量的表征请详见上述的公式(3)和公式(4)。ω1和ω2均为预设的权重,具体取值可以基于具体的业务确定。
在公式(3)和公式(5)相结合时,计算待确定置信度值的标注数据的置信度值时,采用如下公式:
采用该公式计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。该公式中变量的表征请详见上述的公式(3)和公式(5)。ω3和ω4均为预设的权重,具体取值可以基于具体的业务确定。
在公式(4)和公式(5)相结合时,计算待确定置信度值的标注数据的置信度值时,采用如下公式:
采用该公式计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。该公式中变量的表征请详见上述的公式(4)和公式(5)。ω5和ω6均为预设的权重,具体取值可以基于具体的业务确定。
在公式(3)和公式(4)和公式(5)相结合时,计算待确定置信度值的标注数据的置信度值时,采用如下公式:
采用该公式计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。该公式中变量的表征请详见上述的公式(3)、公式(4)和公式(5)。ω7、ω8和ω9均为预设的权重,具体取值可以基于具体的业务确定。
5、基于标注者标注待确定置信度值的标注数据的标注时间点、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过公式(6)计算所述待确定置信度值的标注数据的置信度值;
其中,Mj表征第j个待确定置信度值的标注数据的置信度值;tij表征第j个述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1、k2、m1和m2均表征常数,且k1大于k2,m2大于m1。
具体的,采用公式(6)计算出的置信度值反映出了标注者标注得到标注数据时,标注数据的时间位置,该时间位置可以反应出标注者标注得到标注数据的疲劳度,因此采用公式(6)计算出的置信度值可以真实反映出标注数据的标注的正确概率。
具体的,采用公式(6)计算出的置信度值越小说明标注者是在其标注疲劳度较低进行标注得到标注数据的,因此得到的标注数据出现标注错误的概率较高。采用公式(6)计算出的置信度值越大说明标注者是在其标注疲劳度较高时进行标注得到标注数据的,因此得到的标注数据出现标注错误的概率较低。因此采用公式(6)计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。
6、公式(3)、公式(4)、公式(5)和公式(6)中的任意两个或多个可以基于业务要求相结合,采用公式(3)、公式(4)和公式(5)中的任意两个或多个相结合的方式,计算待确定置信度值的标注数据的置信度值。
示例性的,在公式(3)和公式(6)相结合时,计算待确定置信度值的标注数据的置信度值时,采用如下公式:
采用该公式计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。该公式中变量的表征请详见上述的公式(3)和公式(6)。ω10和ω11均为预设的权重,具体取值可以基于具体的业务确定。
7、基于标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数、标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量,通过公式(7)计算所述待确定置信度值的标注数据的置信度值;
其中,Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2;所述Ei表征标注者i的已审核标注数据中标注正确的标注数据的数量;所述Fi表征标注者i的已审核标注数据的总量;所述α表征第一权重;所述β表征第二权重;所述γ表征第三权重。
上述的1-7中所述的基于待确定置信度值的标注数据的标注者针对待确定置信度值的标注数据的标注行为信息包括的内容,以及待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值的方法,计算得到的标注数据的置信度值不仅与标注者历史行为相关,而且与标注者针对标注数据的标注行为有关。同一标注者标注的标注数据可能具有不同的置信度值。在利用此种方式得到的置信度值辅助标注数据的人工审核过程时,可以判断当前哪些标注数据最值得审核,从而使得标注数据的审核更有针对性。
第三种、基于待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算待确定置信度值的标注数据的置信度值;其中,待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容:标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
具体的,将标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量之间的比值,确定为待确定置信度值的标注数据的置信度值。得到的标注数据的置信度值是与标注者历史行为相关,也就是说,同一标注者标注的标注数据具有相同的置信度值。在利用此种方式得到的置信度值辅助标注数据的人工审核过程时,可以判断哪些标注者的标注数据最值得审核,实现对同一个标注者的标注数据进行集中审核。标注数据的置信度值越大则说明标注数据的标注正确概率越高。
需要说明的是,将标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量之间的比值,确定为待确定置信度值的标注数据的置信度值的方法可以与上述的公式(3)、公式(4)、公式(5)和公式(6)中的任意一个或多个可以基于业务要求相结合,计算待确定置信度值的标注数据的置信度值。
示例性的,在与公式(3)相结合时,计算待确定置信度值的标注数据的置信度值时,采用如下公式:
采用该公式计算得到的置信度值,标注数据的置信度值越大则说明标注数据的标注正确概率越高。该公式中变量的表征请详见上述的公式(3)和公式(7)。ω13和ω14均为预设的权重,具体取值可以基于具体的业务确定。
202、从未审核的标注数据集中选取置信度值不大于预设第一阈值的标注数据;将选取的标注数据通过相应接口传送给设定的标注人员进行重新标注。
具体的,从未审核的标注数据集中选取置信度值不大于预设第一阈值的标注数据,这些选取的标注数据出现标注错误的概率极大,为了减少审核员的工作量,这部分标注数据将不参加审核,直接将选取的标注数据通过相应接口传送给设定的标注人员进行重新标注。这里所述的设定的标注人员为这些标注数据原有的标注者,或,系统认定标注正确概率较高的标注者。
203、从未审核的标注数据集中选取置信度值不小于预设第二阈值的标注数据;确定选取的标注数据无需人工审核。
具体的,从未审核的标注数据集中选取置信度值不大于预设第二阈值的标注数据,这些选取的标注数据出现标注正确的概率极大,为了减少审核员的工作量,这部分标注数据将不参加审核,确定选取的标注数据无需人工审核,直接标注为审核通过即可。
另外,需要说明的是,第一阈值和第二阈值不同,置信度值位于第一阈值和第二阈值之间的标注数据确定为待审核的标注数据。
204、基于标注数据的置信度值辅助标注数据的人工审核过程。
具体的,基于标注数据的置信度值辅助标注数据的人工审核过程至少包括如下几种方法:
第一种,以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值。
在实际应用中,以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值的具体步骤包括:对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度值;在对应展示的待审核的标识数据的标识和待审核的标注数据对应的置信度值被选中时,以可视化窗口同时展示待审核的标识数据以及所述待审核的标识数据对应的原始未标注数据供人工审核。
具体的,通过预设的可视化界面,对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度值,通过该界面展示,审核员可以通过置信度值选取需要审核的标注数据。如图3所示,为对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度值的可视化界面。从图3中可以看出,该可视化界面中包括有待审核的标识数据的标识和待审核的标注数据对应的置信度值。另外了为了使审核员了解到标注数据的详细信息,该可视化界面中还可以包括标注数据的标注人员、标注用时、标注数据审核提交时间、审核状态以及触发审核的审核按钮。
具体的,在对应展示的待审核的标识数据的标识和待审核的标注数据对应的置信度值被选中时,会跳转到可视化窗口“审核窗口”,以可视化窗口同时展示待审核的标识数据以及待审核的标识数据对应的原始未标注数据供人工审核。审核员可以通过比对原始未标注数据和标注数据来审核标注数据是否正确。
在原始未标注数据为文本数据时,如图4所示,以可视化窗口同时展示待审核的标识数据(图4中40区域为标注数据)以及待审核的标识数据对应的原始未标注数据(图4中41区域内为原始未标注数据)供人工审核。在审核员审核完毕后,审核员可以基于自己的审核结果点选,图4中的不通过按钮或通过按钮。
在原始未标注数据为视频数据时,以一个可视化窗口展示待审核的标注数据,以另一个可视化窗口播放待审核的标识数据对应的视频数据。
在原始未标注数据为音频数据时,以可视化窗口展示待审核的标注数据,在标注数据展示的同时播放音频数据。当然为了方便审核员审核,在窗口上还可以部署音频播放按钮,审核员可以基于音频播放按钮决定音频数据的播放时机和次数。
第二种,将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
具体的,将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息的具体步骤包括:判断标注数据的人工审核结果对应的置信度值区间内是否包括所述标注数据相应的置信度值;不同的人工审核结果对应不同的置信度值区间;当判断出人工审核结果对应的置信度值区间内不包括标注数据相应的置信度值时,输出表示审核结果可能错误的提示信息。
具体的,人工审核结果包括审核通过和审核不通过。示例性的,审核通过对应的置信度值区间为[70,80],审核不通过对应的置信度值区间为[30,40]。判断标注数据1的人工审核结果对应的置信度值区间[30,40]内不包括标注数据1相应的置信度值75,则说明该标注数据的审核可能错误,则输出表示审核结果可能错误的提示信息。
具体的,表示审核结果可能错误的提示信息,具体的形式可以基于业务要求确定,比如可以包括但不限于文字提示、语音提示或弹窗提示。如图5所示的,图5中的50即为表示审核结果可能错误的提示信息。当审核员查看到该提示信息时,即可了接到其对标注数据的审核存在问题,则会重新对标注数据进行审核,从而提高标注数据的审核的正确概率。
第三种、所述基于标注数据的置信度值辅助标注数据的人工审核过程包括如下步骤:基于各未审核的标注数据的置信度值,对各未审核的标注数据进行排序,依据所述排序辅助标注数据的人工审核过程。
具体的,标注数据的排序可以表征出标注的正确概率,因此在辅助标注数据的人工审核过程中,按照标注的正确概率由低到高的顺序向审核员推送标注数据。这种方式,若标注数据集中的标注数据不会新增,则当标注数据集中的被审核的标注数据的数量达到预设的阈值,且标注正确的标注数据的数量与被审核的标注数据的数量的比值达到预设的比值,则说明标注数据集中的标注数据均认定为审核通过,从而减少审核的工作量。
205、当又新获取到预设数量的已审核标注数据的审核结果数据时,基于原有的审核结果数据和新获取的审核结果数据,更新各未审核的标注数据的置信度值,并基于更新后的置信度值辅助标注数据的人工审核过程。
具体的,新获取到预设数量的已审核标注数据的审核结果数据为标注数据集中被审核之后产生的审核结果数据。基于原有的审核结果数据和新获取的审核结果数据,更新各未审核的标注数据的置信度值的目的是对未审核的标注数据的置信度值进行优化,使得置信度值更能反映出相应的标注数据的标注的正确概率。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种标注数据的审核装置,如图6所示,所述装置包括:
获取单元31,用于获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
辅助单元32,用于基于标注数据的置信度值辅助标注数据的人工审核过程。
本发明实施例提供的标注数据的审核装置,首先获取未审核的标注数据集中的各标注数据的置信度值,然后基于标注数据的置信度值辅助标注数据的人工审核过程。由于置信度值与相应标注数据的标注的正确概率相关,在标注数据的人工审核过程中,标注数据的置信度值可以辅助确定最值得审核的标注数据,审核员可以对标注数据进行有针对性的审核。因此,本发明实施例提供的方案可以提高标注数据的审核效率。
可选的,如图7所示,所述辅助单元32包括:
展示模块321,用于以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值;
和/或,
提示模块322,用于将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
可选的,如图7所示,所述展示模块321包括:
第一展示子模块3211,用于对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度值;
第二展示子模块3212,用于在对应展示的待审核的标识数据的标识和待审核的标注数据对应的置信度值被选中时,以可视化窗口同时展示待审核的标识数据以及所述待审核的标识数据对应的原始未标注数据供人工审核。
可选的,如图7所示,所述提示模块322包括:
判断子模块3221,用于判断标注数据的人工审核结果对应的置信度值区间内是否包括所述标注数据相应的置信度值;不同的人工审核结果对应不同的置信度值区间;
提示子模块3222,用于当所述判断子模块3221判断出人工审核结果对应的置信度值区间内不包括所述标注数据相应的置信度值时,输出表示审核结果可能错误的提示信息。
可选的,如图7所示,所述获取单元31包括:
第一获取模块311,用于从指定接口获取未审核的标注数据集中的各标注数据的置信度值。
可选的,如图7所示,所述获取单元31包括:
第二获取模块312,用于获取设定数量的已审核标注数据的审核结果数据,基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值。
可选的,如图7所示,所述第二获取模块312,用于确定针对每一个待确定置信度值的标注数据,基于所述审核结果数据包括的信息确定该标注数据的置信度值;其中,所述审核结果数据包括如下信息:所述待确定置信度值的标注数据的标注者的历史标注行为信息,和/或,所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息。
可选的,如图7所示,所述第二获取模块312包括:
第一计算子模块3121,用于基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;其中,所述历史标注行为信息包括如下内容:所述待确定置信度值的标注数据的标注者,在设定数量的已审核标注数据中标注正确的标注数据的数量以及标注错误的标注数据的数量。
可选的,如图7所示,所述第一计算子模块3121,用于通过公式(1)计算所述待确定置信度值的标注数据的置信度值;
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Ai表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注正确的标注数据的数量;所述Bi表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注错误的标注数据的数量;所述a表征大于0的常数;所述b表征大于0的常数。
可选的,如图7所示,所述第一计算子模块3121,用于通过公式(2)计算所述待确定置信度值的标注数据的置信度值;
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Ai表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注正确的标注数据的数量;所述Bi表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注错误的标注数据的数量;所述e表征大于0的常数;所述f表征大于0的常数;所述g表征大于0的常数。
可选的,如图7所示,所述第二获取模块312包括:
第二计算子模块3122,用于基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;其中,
所述标注者针对所述待确定置信度值的标注行为信息包括如下内容中的一个或多个:标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度的标注数据的标注时间点和待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数;
所述待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容中的一个或多个:标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
可选的,如图7所示,所述第二计算子模块3122,用于基于标注者标注待确定置信度值的标注数据的标注时长以及标注者的已审核标注数据中标注正确的标注数据的平均标注时长,通过公式(3)计算所述待确定置信度值的标注数据的置信度值;
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数。
可选的,如图7所示,所述第二计算子模块3122,用于基于标注者标注待确定置信度值的标注数据的标注时间点,以及标注者的已审核标注数据中标注错误的标注数据对应的出错时间段,通过公式(4)计算所述待确定置信度值的标注数据的置信度值;
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1。
可选的,如图7所示,所述第二计算子模块3121,用于基于待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数,以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过公式(5)计算所述待确定置信度值的标注数据的置信度值;
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2。
可选的,如图7所示,所述第二计算子模块3122,用于基于标注者标注待确定置信度值的标注数据的标注时间点、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过公式(6)计算所述待确定置信度值的标注数据的置信度值;
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1、k2、m1和m2均表征常数,且k1大于k2,m2大于m1。
可选的,如图7所示,所述第二计算子模块3122,用于基于标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数、标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量,通过公式(7)计算所述待确定置信度值的标注数据的置信度值;
所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2;所述Ei表征标注者i的已审核标注数据中标注正确的标注数据的数量;所述Fi表征标注者i的已审核标注数据的总量;所述α表征第一权重;所述β表征第二权重;所述γ表征第三权重。
可选的,如图7所示,所述第二获取模块312包括:
第三计算子模块3123,用于基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;
其中,所述待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容:标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
可选的,如图7所示,所述第三计算子模块3123,用于将标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量之间的比值,确定为所述待确定置信度值的标注数据的置信度值。
可选的,如图7所示,所述辅助单元32包括:
排序模块323,用于基于各未审核的标注数据的置信度值,对各未审核的标注数据进行排序;
辅助模块324,用于依据所述排序辅助标注数据的人工审核过程。
可选的,如图7所示,该装置还包括:
更新单元33,用于当又新获取到预设数量的已审核标注数据的审核结果数据时,基于原有的审核结果数据和新获取的审核结果数据,更新各未审核的标注数据的置信度值,并基于更新后的置信度值辅助标注数据的人工审核过程。
可选的,如图7所示,该装置还包括:
传送单元34,用于从未审核的标注数据集中选取置信度值不大于预设第一阈值的标注数据;将选取的标注数据通过相应接口传送给设定的标注人员进行重新标注。
可选的,如图7所示,该装置还包括:
确定单元35,用于从未审核的标注数据集中选取置信度值不小于预设第二阈值的标注数据;确定选取的标注数据无需人工审核。
本发明实施例提供的装置中,各个功能模块运行过程中所采用的方法详解可以参见图1、图2方法实施例的对应方法详解,在此不再赘述。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的标注数据的审核方法。
进一步的,依据上述实施例,本发明的另一个实施例还提供了一种存储管理设备,所述存储管理设备包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行上述中任意一项所述的标注数据的审核方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本发明实施例公开了:
A1、一种标注数据的审核方法,包括:
获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
基于标注数据的置信度值辅助标注数据的人工审核过程。
A2、根据A1所述的方法,所述基于标注数据的置信度值辅助标注数据的人工审核过程包括:
以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值;
和/或,
将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
A3、根据A2所述的方法,所述以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值,包括:
对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度值;
在对应展示的待审核的标识数据的标识和待审核的标注数据对应的置信度值被选中时,以可视化窗口同时展示待审核的标识数据以及所述待审核的标识数据对应的原始未标注数据供人工审核。
A4、根据A2所述的方法,所述将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息,包括:
判断标注数据的人工审核结果对应的置信度值区间内是否包括所述标注数据相应的置信度值;不同的人工审核结果对应不同的置信度值区间;
当判断出人工审核结果对应的置信度值区间内不包括所述标注数据相应的置信度值时,输出表示审核结果可能错误的提示信息。
A5、根据A1所述的方法,所述获取未审核的标注数据集中的各标注数据的置信度值,包括:
从指定接口获取未审核的标注数据集中的各标注数据的置信度值。
A6、根据A1所述的方法,所述获取未审核的标注数据集中的各标注数据的置信度值,包括:
获取设定数量的已审核标注数据的审核结果数据,基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值。
A7、根据A6所述的方法,所述基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值,包括:
针对每一个待确定置信度值的标注数据,基于所述审核结果数据包括的信息确定该标注数据的置信度值;
其中,所述审核结果数据包括如下信息:所述待确定置信度值的标注数据的标注者的历史标注行为信息,和/或,所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息。
A8、根据A7所述的方法,所述基于所述审核结果数据包括的信息确定该标注数据的置信度值,包括:
基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;
其中,所述历史标注行为信息包括如下内容:所述待确定置信度值的标注数据的标注者,在设定数量的已审核标注数据中标注正确的标注数据的数量以及标注错误的标注数据的数量。
A9、根据A8所述的方法,所述基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
通过第一公式计算所述待确定置信度的标注数据的置信度值;
所述第一公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Ai表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注正确的标注数据的数量;所述Bi表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注错误的标注数据的数量;所述a表征大于0的常数;所述b表征大于0的常数。
A10、根据A8所述的方法,所述基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
通过第二公式计算所述待确定置信度值的标注数据的置信度值;
所述第二公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Ai表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注正确的标注数据的数量;所述Bi表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注错误的标注数据的数量;所述e表征大于0的常数;所述f表征大于0的常数;所述g表征大于0的常数。
A11、根据A7所述的方法,所述基于所述审核结果数据包括的信息确定该标注数据的置信度值,包括:
基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;其中,
所述标注者针对所述待确定置信度值的标注行为信息包括如下内容中的一个或多个:标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点和待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数;
所述待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容中的一个或多个:标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
A12、根据A11所述的方法,所述基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
基于标注者标注待确定置信度值的标注数据的标注时长以及标注者的已审核标注数据中标注正确的标注数据的平均标注时长,通过第三公式计算所述待确定置信度值的标注数据的置信度值;
所述第三公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数。
A13、根据A11所述的方法,所述基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
基于标注者标注待确定置信度值的标注数据的标注时间点,以及标注者的已审核标注数据中标注错误的标注数据对应的出错时间段,通过第四公式计算所述待确定置信度值的标注数据的置信度值;
所述第四公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1。
A14、根据A11所述的方法,所述基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
基于待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数,以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过第五公式计算所述待确定置信度值的标注数据的置信度值;
所述第五公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2。
A15、根据A11所述的方法,所述基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
基于标注者标注待确定置信度值的标注数据的标注时间点、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过第六公式计算所述待确定置信度值的标注数据的置信度值;
所述第六公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1、k2、m1和m2均表征常数,且k1大于k2,m2大于m1。
A16、根据A11所述的方法,所述基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
基于标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度的标注数据的标注时间点、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数、标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量,通过第七公式计算所述待确定置信度值的标注数据的置信度值;
所述第七公式为:
所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2;所述Ei表征标注者i的已审核标注数据中标注正确的标注数据的数量;所述Fi表征标注者i的已审核标注数据的总量;所述α表征第一权重;所述β表征第二权重;所述γ表征第三权重。
A17、根据A7所述的方法,所述基于所述审核结果数据包括的信息确定该标注数据的置信度值,包括:
基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;
其中,所述待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容:标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
A18、根据A17所述的方法,所述基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值,包括:
将标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量之间的比值,确定为所述待确定置信度值的标注数据的置信度值。
A19、根据A1-A18中任一所述的方法,所述基于标注数据的置信度值辅助标注数据的人工审核过程,包括:
基于各未审核的标注数据的置信度值,对各未审核的标注数据进行排序,依据所述排序辅助标注数据的人工审核过程。
A20、根据A1-A18中任一所述的方法,该方法还包括:
当又新获取到预设数量的已审核标注数据的审核结果数据时,基于原有的审核结果数据和新获取的审核结果数据,更新各未审核的标注数据的置信度值,并基于更新后的置信度值辅助标注数据的人工审核过程。
A21、根据A1-A18中任一所述的方法,该方法还包括:
从未审核的标注数据集中选取置信度值不大于预设第一阈值的标注数据;
将选取的标注数据通过相应接口传送给设定的标注人员进行重新标注。
A22、根据A1-A18中任一所述的方法,该方法还包括:
从未审核的标注数据集中选取置信度值不小于预设第二阈值的标注数据;
确定选取的标注数据无需人工审核。
B1、一种标注数据的审核装置,包括:
获取单元,用于获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
辅助单元,用于基于标注数据的置信度值辅助标注数据的人工审核过程。
B2、根据B1所述的装置,所述辅助单元包括:
展示模块,用于以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值;
和/或,
提示模块,用于将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
B3、根据B2所述的装置,所述展示模块包括:
第一展示子模块,用于对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度值;
第二展示子模块,用于在对应展示的待审核的标识数据的标识和待审核的标注数据对应的置信度值被选中时,以可视化窗口同时展示待审核的标识数据以及所述待审核的标识数据对应的原始未标注数据供人工审核。
B4、根据B2所述的装置,所述提示模块包括:
判断子模块,用于判断标注数据的人工审核结果对应的置信度值区间内是否包括所述标注数据相应的置信度值;不同的人工审核结果对应不同的置信度值区间;
提示子模块,用于当所述判断子模块判断出人工审核结果对应的置信度值区间内不包括所述标注数据相应的置信度值时,输出表示审核结果可能错误的提示信息。
B5、根据B1所述的装置,所述获取单元包括:
第一获取模块,用于从指定接口获取未审核的标注数据集中的各标注数据的置信度值。
B6、根据B1所述的装置,所述获取单元包括:
第二获取模块,用于获取设定数量的已审核标注数据的审核结果数据,基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值。
B7、根据B6所述的装置,所述第二获取模块,用于确定针对每一个待确定置信度值的标注数据,基于所述审核结果数据包括的信息确定该标注数据的置信度值;其中,所述审核结果数据包括如下信息:所述待确定置信度值的标注数据的标注者的历史标注行为信息,和/或,所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息。
B8、根据B7所述的装置,所述第二获取模块包括:
第一计算子模块,用于基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;其中,所述历史标注行为信息包括如下内容:所述待确定置信度值的标注数据的标注者,在设定数量的已审核标注数据中标注正确的标注数据的数量以及标注错误的标注数据的数量。
B9、根据B8所述的装置,所述第一计算子模块,用于通过第一公式计算所述待确定置信度值的标注数据的置信度值;
所述第一公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Ai表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注正确的标注数据的数量;所述Bi表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注错误的标注数据的数量;所述a表征大于0的常数;所述b表征大于0的常数。
B10、根据B8所述的装置,所述第一计算子模块,用于通过第二公式计算所述待确定置信度值的标注数据的置信度值;
所述第二公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Ai表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注正确的标注数据的数量;所述Bi表征第j个所述待确定置信度值的标注数据的标注者i在所述已审核标注数据中标注错误的标注数据的数量;所述e表征大于0的常数;所述f表征大于0的常数;所述g表征大于0的常数。
B11、根据B7所述的装置,所述第二获取模块包括:
第二计算子模块,用于基于所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息包括的内容,以及所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;其中,
所述标注者针对所述待确定置信度值的标注行为信息包括如下内容中的一个或多个:标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点和待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数;
所述待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容中的一个或多个:标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
B12、根据B11所述的装置,所述第二计算子模块,用于基于标注者标注待确定置信度值的标注数据的标注时长以及标注者的已审核标注数据中标注正确的标注数据的平均标注时长,通过第三公式计算所述待确定置信度值的标注数据的置信度值;
所述第三公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数。
B13、根据B11所述的装置,所述第二计算子模块,用于基于标注者标注待确定置信度值的标注数据的标注时间点,以及标注者的已审核标注数据中标注错误的标注数据对应的出错时间段,通过第四公式计算所述待确定置信度值的标注数据的置信度值;
所述第四公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1。
B14、根据B11所述的装置,所述第二计算子模块,用于基于待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数,以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过第五公式计算所述待确定置信度值的标注数据的置信度值;
所述第五公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2。
B15、根据B11所述的装置,所述第二计算子模块,用于基于标注者标注待确定置信度值的标注数据的标注时间点、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数以及标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数,通过第六公式计算所述待确定置信度值的标注数据的置信度值;
所述第六公式为:
其中,所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1、k2、m1和m2均表征常数,且k1大于k2,m2大于m1。
B16、根据B11所述的装置,所述第二计算子模块,用于基于标注者标注待确定置信度值的标注数据的标注时长、标注者标注待确定置信度值的标注数据的标注时间点、待确定置信度值的标注数据与其标注者标注错误的上一个的标注数据之间的间隔数、标注者的已审核标注数据中标注正确的标注数据的平均标注时长、标注者的已审核标注数据中标注错误的标注数据对应的出错时间段、标注者的已审核标注数据中标注错误的标注数据之间的平均出现间隔数、标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量,通过第七公式计算所述待确定置信度值的标注数据的置信度值;
所述第七公式为:
所述Mj表征第j个所述待确定置信度值的标注数据的置信度值;所述Tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时长;所述Ri表征标注者i的已审核标注数据中标注正确的标注数据的平均标注时长;所述n表征大于或等于1的常数;所述tij表征第j个所述待确定置信度值的标注数据的标注者i标注第j个所述待确定置信度值的标注数据的标注时间点;所述[t1i,t2i]表征标注者i的已审核标注数据中标注错误的标注数据对应的出错时间段;m1和m2均表征常数,且m2大于m1;所述Pij表征第j个所述待确定置信度值的标注数据与其标注者i标注错误的上一个的标注数据之间的间隔数;所述Qi表征标注者i的已审核标注数据中标注错误的标注数据之间的平均出现间隔数;k1和k2均表征常数,且k1大于k2;所述Ei表征标注者i的已审核标注数据中标注正确的标注数据的数量;所述Fi表征标注者i的已审核标注数据的总量;所述α表征第一权重;所述β表征第二权重;所述γ表征第三权重。
B17、根据B7所述的装置,所述第二获取模块包括:
第三计算子模块,用于基于所述待确定置信度值的标注数据的标注者的历史标注行为信息包括的内容,计算所述待确定置信度值的标注数据的置信度值;
其中,所述待确定置信度值的标注数据的标注者的历史标注行为信息包括如下内容:标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量。
B18、根据B17所述的装置,所述第三计算子模块,用于将标注者的已审核标注数据中标注正确的标注数据的数量以及标注者的已审核标注数据的总量之间的比值,确定为所述待确定置信度值的标注数据的置信度值。
B19、根据B1-B18中任一所述的装置,所述辅助单元包括:
排序模块,用于基于各未审核的标注数据的置信度值,对各未审核的标注数据进行排序;
辅助模块,用于依据所述排序辅助标注数据的人工审核过程。
B20、根据B1-B18中任一所述的装置,该装置还包括:
更新单元,用于当又新获取到预设数量的已审核标注数据的审核结果数据时,基于原有的审核结果数据和新获取的审核结果数据,更新各未审核的标注数据的置信度值,并基于更新后的置信度值辅助标注数据的人工审核过程。
B21、根据B1-B18中任一所述的装置,该装置还包括:
传送单元,用于从未审核的标注数据集中选取置信度值不大于预设第一阈值的标注数据;将选取的标注数据通过相应接口传送给设定的标注人员进行重新标注。
B22、根据B1-B18中任一所述的装置,该装置还包括:
确定单元,用于从未审核的标注数据集中选取置信度值不小于预设第二阈值的标注数据;确定选取的标注数据无需人工审核。
C1、一种计算机可读存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行A1至A22中任意一项所述的标注数据的审核方法。
D1、一种存储管理设备,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行A1至A22中任意一项所述的标注数据的审核方法。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种标注数据的审核方法,其特征在于,包括:
获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
基于标注数据的置信度值辅助标注数据的人工审核过程。
2.根据权利要求1所述的方法,其特征在于,所述基于标注数据的置信度值辅助标注数据的人工审核过程包括:
以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值;
和/或,
将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息。
3.根据权利要求2所述的方法,其特征在于,所述以可视化的形式,对应展示待审核的标注数据和待审核的标注数据对应的置信度值,包括:
对应展示待审核的标识数据的标识和待审核的标注数据对应的置信度;
在对应展示的待审核的标识数据的标识和待审核的标注数据对应的置信度被选中时,以可视化窗口同时展示待审核的标识数据以及所述待审核的标识数据对应的原始未标注数据供人工审核。
4.根据权利要求2所述的方法,其特征在于,所述将标注数据的人工审核结果与相应置信度值进行比较,当比较结果满足预设条件时,输出表示审核结果可能错误的提示信息,包括:
判断标注数据的人工审核结果对应的置信度值区间内是否包括所述标注数据相应的置信度值;不同的人工审核结果对应不同的置信度值区间;
当判断出人工审核结果对应的置信度值区间内不包括所述标注数据相应的置信度值时,输出表示审核结果可能错误的提示信息。
5.根据权利要求1所述的方法,其特征在于,所述获取未审核的标注数据集中的各标注数据的置信度值,包括:
从指定接口获取未审核的标注数据集中的各标注数据的置信度值。
6.根据权利要求1所述的方法,其特征在于,所述获取未审核的标注数据集中的各标注数据的置信度值,包括:
获取设定数量的已审核标注数据的审核结果数据,基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值。
7.根据权利要求6所述的方法,其特征在于,所述基于所述审核结果数据确定所述未审核的标注数据集中的各标注数据的置信度值,包括:
针对每一个待确定置信度值的标注数据,基于所述审核结果数据包括的信息确定该标注数据的置信度值;
其中,所述审核结果数据包括如下信息:所述待确定置信度值的标注数据的标注者的历史标注行为信息,和/或,所述待确定置信度值的标注数据的标注者针对所述待确定置信度值的标注数据的标注行为信息。
8.一种标注数据的审核装置,其特征在于,包括:
获取单元,用于获取未审核的标注数据集中的各标注数据的置信度值,所述置信度值与相应标注数据的标注的正确概率相关;
辅助单元,用于基于标注数据的置信度值辅助标注数据的人工审核过程。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求7中任意一项所述的标注数据的审核方法。
10.一种存储管理设备,其特征在于,包括:
存储器,用于存储程序;
处理器,耦合至所述存储器,用于运行所述程序以执行权利要求1至权利要求7中任意一项所述的标注数据的审核方法。
CN201910458920.0A 2019-05-29 2019-05-29 一种标注数据的审核方法及装置 Active CN110232060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910458920.0A CN110232060B (zh) 2019-05-29 2019-05-29 一种标注数据的审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910458920.0A CN110232060B (zh) 2019-05-29 2019-05-29 一种标注数据的审核方法及装置

Publications (2)

Publication Number Publication Date
CN110232060A true CN110232060A (zh) 2019-09-13
CN110232060B CN110232060B (zh) 2021-08-24

Family

ID=67858684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910458920.0A Active CN110232060B (zh) 2019-05-29 2019-05-29 一种标注数据的审核方法及装置

Country Status (1)

Country Link
CN (1) CN110232060B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781583A (zh) * 2019-10-10 2020-02-11 北京字节跳动网络技术有限公司 审核模式优化方法、装置及电子设备
CN110991296A (zh) * 2019-11-26 2020-04-10 腾讯科技(深圳)有限公司 视频标注方法、装置、电子设备及计算机可读存储介质
CN111966674A (zh) * 2020-08-25 2020-11-20 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075695A (zh) * 2010-12-30 2011-05-25 中国科学院自动化研究所 面向海量广播电视节目的新一代智能编目系统和方法
CN105046630A (zh) * 2014-04-04 2015-11-11 影像搜索者公司 图像标签添加系统
CN106055718A (zh) * 2016-07-15 2016-10-26 北京光年无限科技有限公司 一种针对机器人自主学习的输出内容过滤方法及机器人
US20170132636A1 (en) * 2015-11-11 2017-05-11 Idm Global, Inc. Systems and methods for detecting relations between unknown merchants and merchants with a known connection to fraud
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102075695A (zh) * 2010-12-30 2011-05-25 中国科学院自动化研究所 面向海量广播电视节目的新一代智能编目系统和方法
CN105046630A (zh) * 2014-04-04 2015-11-11 影像搜索者公司 图像标签添加系统
US20170132636A1 (en) * 2015-11-11 2017-05-11 Idm Global, Inc. Systems and methods for detecting relations between unknown merchants and merchants with a known connection to fraud
CN106055718A (zh) * 2016-07-15 2016-10-26 北京光年无限科技有限公司 一种针对机器人自主学习的输出内容过滤方法及机器人
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781583A (zh) * 2019-10-10 2020-02-11 北京字节跳动网络技术有限公司 审核模式优化方法、装置及电子设备
CN110781583B (zh) * 2019-10-10 2023-04-18 北京字节跳动网络技术有限公司 审核模式优化方法、装置及电子设备
CN110991296A (zh) * 2019-11-26 2020-04-10 腾讯科技(深圳)有限公司 视频标注方法、装置、电子设备及计算机可读存储介质
CN110991296B (zh) * 2019-11-26 2023-04-07 腾讯科技(深圳)有限公司 视频标注方法、装置、电子设备及计算机可读存储介质
CN111966674A (zh) * 2020-08-25 2020-11-20 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备
CN111966674B (zh) * 2020-08-25 2024-03-15 北京金山云网络技术有限公司 标注数据的合格性判断方法、装置和电子设备

Also Published As

Publication number Publication date
CN110232060B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN110232060A (zh) 一种标注数据的审核方法及装置
US8521675B2 (en) Integrated automatic user support and assistance
US7548847B2 (en) System for automatically annotating training data for a natural language understanding system
US8122371B1 (en) Criteria-based structured ratings
CN107278310A (zh) 批次归一化层
US20050160033A1 (en) System and method for aiding commercial property assessment
US20150153824A9 (en) System and method for multi-domain problem solving on the web
US20170153903A1 (en) Computerized system and method for analyzing user interactions with digital content and providing an optimized content presentation of such digital content
CN110188205A (zh) 一种智能客服系统知识库的更新方法及装置
US20240070731A1 (en) Machine learning systems for computer generation of automated recommendation outputs
CN110659985A (zh) 一种捞回误拒潜在用户的方法、装置和电子设备
CN107292785A (zh) 一种出题方法及系统
CN108830734A (zh) 续保预测方法、装置、计算机设备及存储介质
CN106874335A (zh) 行为数据处理方法、装置及服务器
US20230143079A1 (en) Systems and methods for discovering and quantifying principal factors or dominant paths in interconnected journey data
Faliszewski et al. Multiwinner rules with variable number of winners
CN109740868A (zh) 一种基于病案首页的医疗机构排序方法和装置
US20130346335A1 (en) Determining course equivalence
CA2850606A1 (en) System and method for multi-domain problem solving on the web
US20120150851A1 (en) Matching reviewers to review objects
CN110019774A (zh) 标签分配方法、装置、存储介质及电子装置
US20130013244A1 (en) Pattern based test prioritization using weight factors
CN110222244A (zh) 一种标注数据的审核推送方法及装置
US8257091B2 (en) Matching learning objects with a user profile using top-level concept complexity
CN109344232A (zh) 一种舆情信息检索方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant