CN116167457A - 一种数据标注方法、装置、计算机设备和存储介质 - Google Patents

一种数据标注方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116167457A
CN116167457A CN202310187846.XA CN202310187846A CN116167457A CN 116167457 A CN116167457 A CN 116167457A CN 202310187846 A CN202310187846 A CN 202310187846A CN 116167457 A CN116167457 A CN 116167457A
Authority
CN
China
Prior art keywords
data
labeling
marking
objects
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310187846.XA
Other languages
English (en)
Inventor
刘汝坚
林馨怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202310187846.XA priority Critical patent/CN116167457A/zh
Publication of CN116167457A publication Critical patent/CN116167457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开提供了一种数据标注方法、装置、计算机设备和存储介质,其中,该方法包括:利用第一测试数据,从全量的初始对象中筛选出标注对象;按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个所述标注对象,并获取各所述标注对象提供的初始标注结果;在所述标注对象标注的所述第二测试数据的数量达到第一预设数量的情况下,根据各所述第二测试数据对应的标准标注结果和所述初始标注结果,确定所述标注对象的阶段标注误差;针对任一所述待标注数据,根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果。

Description

一种数据标注方法、装置、计算机设备和存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据标注方法、装置、计算机设备和存储介质。
背景技术
随着神经网络技术的发展,各种各样的机器模型可以被广泛应用。但是,在通常情况下,大多部分的机器模型在被应用之前,为了保证训练好的机器模型的预测精度,需要使用大量的标注过的训练数据对机器模型进行迭代训练。
但是,常规的训练数据标注方式,需要由专业的数据标注人员完成,既影响了数据标注的成本,又降低了数据标注的效率。
发明内容
本公开实施例至少提供一种数据标注方法、装置、计算机设备和存储介质。
第一方面,本公开实施例提供了一种数据标注方法,包括:
利用第一测试数据,从全量的初始对象中筛选出标注对象;
按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个所述标注对象,并获取各所述标注对象提供的初始标注结果;
在所述标注对象标注的所述第二测试数据的数量达到第一预设数量的情况下,根据各所述第二测试数据对应的标准标注结果和所述初始标注结果,确定所述标注对象的阶段标注误差;
针对任一所述待标注数据,根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果。
在一种可能的实施方式中,所述根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果,包括:
根据标注所述待标注数据的各所述标注对象的阶段标注误差,从所述标注对象中筛选出阶段标注误差小于预设误差阈值的目标对象;
在所述目标对象的数量大于或等于第二预设数量的情况下,根据各所述目标对象的所述阶段标注误差,确定各所述目标对象的拟合权重;
利用各所述目标对象的所述拟合权重,对各所述目标对象的所述初始标注结果进行拟合,得到所述待标注数据的目标标注结果。
在一种可能的实施方式中,所述利用第一测试数据,从全量的初始对象中筛选出标注对象,包括:
根据所述初始对象的答题记录信息,确定每个所述初始对象在预设历史时间段内的答题数量;
根据所述答题数量,从所述初始对象中筛选出中间对象;
利用第一测试数据,从所述中间对象中筛选出所述标注对象。
在一种可能的实施方式中,
所述利用第一测试数据,从所述中间对象中筛选出所述标注对象,包括:
针对任一所述中间对象,向该中间对象发送第三预设数量的所述第一测试数据,并获取该中间对象为所述第一测试数据分别提供的测试标注结果;
根据每个所述第一测试数据的标准标注结果和测试标注结果,确定该中间对象的标注准确率;
根据所述标注准确率,从所述中间对象中筛选出所述标注对象。
在一种可能的实施方式中,在所述确定所述标注对象的阶段标注误差之后,还包括:
在所述标注对象的所述阶段标注误差大于或等于预设误差阈值的情况下,去除所述标注对象;或者,
在所述标注对象的所述阶段标注误差小于所述预设误差阈值的情况下,将所述标注对象标注的所述第二测试数据的数量更新为默认值,并按照所述默认值重新统计所述标注对象新标注的所述第二测试数据的数量。
在一种可能的实施方式中,所述待标注数据包括待回答问题和回答内容,所述目标标注结果包括用于表征所述回答内容的质量的内容质量得分;
所述待标注数据根据以下步骤获取:
根据各原始数据的展现量,从所述原始数据中筛选出目标数量的中间数据;
根据各所述中间数据包括的回答内容和所述中间数据的标注情况,从所述中间数据中筛选出待标注数据;所述标注情况用于表征是否确定出所述中间数据的目标标注结果。
在一种可能的实施方式中,所述根据各所述中间数据包括的回答内容和所述中间数据的标注情况,从所述中间数据中筛选出待标注数据,包括:
在所述中间数据包括的回答内容中的回答字数小于预设字数的情况下,判断所述回答内容是否存在预设格式的子内容;
若否,则判断所述中间数据是否为已标注数据;
若否,则在所述中间数据的标注情况指示所述中间数据未确定出目标标注结果的情况下,将所述中间数据作为所述待标注数据。
在一种可能的实施方式中,在确定所述待标注数据的目标标注结果之后,还包括:
利用所述待标注数据和所述目标标注结果,对数据标注模型进行迭代训练,得到训练好的数据标注模型;所述数据标注模型用于对输入的待标注数据进行识别处理,输出待标注数据的预测标注结果。
在一种可能的实施方式中,在确定所述待标注数据的目标标注结果之后,还包括:
根据各所述待标注数据的目标标注结果表征的内容质量得分,从所述待标注数据筛选出待推荐数据;
根据各所述待推荐数据的内容质量得分对应的推荐权重,对各所述待推荐数据进行推送。
第二方面,本公开实施例还提供一种数据标注装置,包括:
筛选模块,用于利用第一测试数据,从全量的初始对象中筛选出标注对象;
发送模块,用于按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个所述标注对象,并获取各所述标注对象提供的初始标注结果;
第一确定模块,用于在所述标注对象标注的所述第二测试数据的数量达到第一预设数量的情况下,根据各所述第二测试数据对应的标准标注结果和所述初始标注结果,确定所述标注对象的阶段标注误差;
第二确定模块,用于针对任一所述待标注数据,根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果。
第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述数据标注装置、计算机设备、及计算机可读存储介质的效果描述参见上述数据标注方法的说明,这里不再赘述。
本公开实施例提供的数据标注方法、装置、计算机设备和存储介质,利用第一测试数据可以实现对全量的初始对象的筛选,筛选出能够进行数据标注的各个标注对象。由于初始对象可以包括未执行过数据标注操作的对象,所以筛选出的标注对象中可以包括非专业标注对象。然后,在向标注对象发送待标注数据的过程中,通过向标注对象发送带有标准标注结果的第二测试数据,可以利用第二测试数据及其标准标注结果,实现对标注对象的阶段标注误差的确定。由于阶段标注误差可以用于对标注结果的纠正,所以最后利用标注对象标注的初始标注结果以及标注对象对应的阶段标注误差,既能够实现对待标注数据的目标标注结果的确定,保障标注对象完成对待标注数据的标注,又可以提高确定出的目标标注结果的准确性。整体来说,本公开实施例提供的数据标注方法,不仅可以实现非专业标注对象对待标注数据的准确标注,增加能够进行数据标注的对象的数量,降低标注成本,还可以得益于对象数量的增加,提升数据标注的速度和效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种数据标注方法的流程图;
图2示出了本公开实施例所提供的一种数据标注方法的具体实施过程示意图;
图3示出了本公开实施例所提供的一种数据标注装置的示意图;
图4示出了本公开实施例所提供的一种计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
经研究发现,对于内容型产品(如长文章、短文章、问答话题等)而言,产品的内容质量决定了产品的使用量。因此,为了提高产品的使用量,提高产品的内容质量成为了关键途径,例如,通过保留高质量内容、剔除低质量内容的方式,实现对整体内容质量的提升。然而,提前产品的内容质量的前提是需要准确确定出各个产品的内容质量,也即准确标注出各个产品的内容质量。常见的内容质量标注方法包括人工标注和机器标注,又由于机器标注之前,需要利用人工标注的样本数据对机器进行训练,所以内容质量标注的根本途径在于人工标注。但是,常规的人工标注方法,需要由经过系统培训、拥有专业技能的专业人员完成,导致了大部分用户无法完成标注,使得标注人员的数量较少,既使得数据标注具有较高成本,又降低了数据标注的效率。
基于上述研究,本公开提供了一种数据标注方法、装置、计算机设备和存储介质,利用第一测试数据可以实现对全量的初始对象的筛选,筛选出能够进行数据标注的各个标注对象。由于初始对象可以包括未执行过数据标注操作的对象,所以筛选出的标注对象中可以包括非专业标注对象。然后,在向标注对象发送待标注数据的过程中,通过向标注对象发送带有标准标注结果的第二测试数据,可以利用第二测试数据及其标准标注结果,实现对标注对象的阶段标注误差的确定。由于阶段标注误差可以用于对标注结果的纠正,所以最后利用标注对象标注的初始标注结果以及标注对象对应的阶段标注误差,既能够实现对待标注数据的目标标注结果的确定,保障标注对象完成对待标注数据的标注,又可以提高确定出的目标标注结果的准确性。整体来说,本公开实施例提供的数据标注方法,不仅可以实现非专业标注对象对待标注数据的准确标注,增加能够进行数据标注的对象的数量,降低标注成本,还可以得益于对象数量的增加,提升数据标注的速度和效率。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种数据标注方法进行详细介绍,本公开实施例所提供的数据标注方法的执行主体一般为具有一定计算能力的终端设备或其他处理设备,其中终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、个人数字助理设备(Personal Digital Assistant,PDA)、手持设备、计算机设备等;在一些可能的实现方式中,该数据标注方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为计算机设备为例对本公开实施例提供的数据标注方法加以说明。
如图1所示,为本公开实施例提供的一种数据标注方法的流程图,可以包括以下步骤:
S101:利用第一测试数据,从全量的初始对象中筛选出标注对象。
这里,全量的初始对象具体可以为使用内容型产品的全体对象,内容型产品例如可以为文章阅读应用程序、问答话题阅读应用程序、短视频应用程序等。例如,全量的初始对象可以为使用文章阅读应用程序的全体用户、使用短视频应用程序的全体用户,初始对象中可以包括非专业标注人员。
示例性的,可以按照预设的标注对象确认周期,确定在当前周期内使用内容型产品的全体对象,也即确定出了与当前周期对应的全量的初始对象。这里,全量的初始对象中可以包括未执行过数据标注操作的对象和/或执行过数据标注操作的对象。
标注对象即为从全量的初始对象中筛选出的对象,该对象可以对待标注数据进行标注。具体实施时,待标注数据可以为任一类型的数据,本公开实施例以待标注数据为包括待回答问题和回答内容的数据为例进行说明。
第一测试数据为经过多轮人工标注的数据,存在准确的标注结果,即标准标注结果,用于确定对象是否能够进行数据标注。第一测试数据可以与待标注数据的数据类型一致。例如,在待标注数据为包括待回答题目和回答内容的问答话题的情况下,第一测试数据可以为包括待回答样本题目和样本回答内容的测试话题。
具体实施时,可以将第一测试数据分别发送给全量的初始对象中的每个初始对象,然后,获取每个初始对象对第一测试数据进行标注后的测试标注结果。然后,针对每个初始对象,可以利用该初始对象回答的各个第一测试数据对应的标准标注结果和测试标注结果,确定该初始对象对应的标注准确率。在标注准确率大于预设准确率的情况下,将该初始对象作为筛选出的标注对象;反之,在标注准确率小于或等于预设准确率的情况下,确定该初始对象无法作为标注对象,去除掉该初始对象。
在一种实施例中,上述S101,可以按照以下步骤实施:
S101-1:根据初始对象的答题记录信息,确定每个初始对象在预设历史时间段内的答题数量。
这里,答题记录信息为初始对象授权获取的信息,用于指示初始对象回答的各个历史题目信息,历史题目信息具体可以包括历史题目、回答内容、回答时间等。初始对象回答的各个题目的类型与待标注数据中的待回答题目的类型一致。
预设历史时间段可以根据经验设置,本公开实施例不进行具体限定。例如,预设历史时间段可以为过去30天内、过去10天内等。
具体实施时,针对任一初始对象,可以根据该初始对象的答题记录信息,确定该初始对象在预设历史时间段内回答过的题目的数量,也即得到了该初始对象对应的答题数量。
S101-2:根据答题数量,从初始对象中筛选出中间对象。
具体实施时,可以将答题数量大于预设数量的初始对象,作为筛选出的中间对象。
示例性的,在预设历史时间段为过去30天内、预设数量为30的情况下,根据各个初始对象的答题数量,可以从全量的初始对象中筛选出过去30天内答题数量超过30题的中间对象。
这样,答题数量越多,越有利于了解数据标注的流程,所以利用答题数量和预设数量,可以从全量的初始对象中筛选出适合进行数据标注的中间对象。
S101-3:利用第一测试数据,从中间对象中筛选出标注对象。
具体实施时,针对每个中间对象,可以利用第一测试数据对该中间对象进行进一步地测试,在该中间对象测试通过的情况下,将该中间对象作为标注对象;反之,在该中间对象测试未通过的情况下,忽略该中间对象。
这样,利用答题数量和第一测试数据对全量的初始对象进行两次筛选,可以提高筛选出的标注对象的合理性。
在一种实施例中,上述S101-3可以按照以下步骤实施:
S101-3-1:针对任一中间对象,向该中间对象发送第三预设数量的第一测试数据,并获取该中间对象为第一测试数据分别提供的测试标注结果。
这里,第三预设数量可以根据经验设置,本公开实施例不进行具体设置。例如,第三预设数数量可以为30个。第一测试数据可以为一条条带有标准标注结果的待标注数据。测试标注结果即为中间对象对第一测试数据进行数据标注的结果。
具体实施时,可以预先建立一个用于存储第一测试数据的数据库,针对任一中间对象,可以从该数据库中随机选取第三预设数量的第一测试数据,并将选取的这些第一测试数据发送至该中间对象。然后,可以获取到该中间对象分别对每个第一测试数据进行数据标注后的测试标注结果。
S101-3-2:根据每个第一测试数据的标准标注结果和测试标注结果,确定该中间对象的标注准确率。
这里,测试数据对应的标注结果的种类和表征方式可以预先设定,例如,针对任一测试数据而言,其对应的标注结果可以为分数范围区间[0,2]中的任一个值,其中,分数越高,表示数据内容的质量越好,如0分代表数据内容的质量较差、1分代表数据内容的质量一般、2分代表数据内容的质量优质。可选的,针对任一测试数据而言,其对应的标注结果可以为预先指定好的多个固定值,如0、1、2。
中间对象在对第一测试数据进行标注时,确定的测试标注结果为预先设定的多种可能的标注结果中的一种。一个第一测试数据的标准标注结果也为预先设定的多种可能的标注结果中的一种。
每个中间对象的标注准确率可以根据该中间对象标注正确的第一测试数据的数量与第三预设数量的比值确定。
具体实施时,针对任一中间对象,可以确定该中间对象标注的每个第一测试数据的测试标注结果和标准标注结果是否一致,若一致,则可以确定该第一测试数据标注正确,反之则确定该第一测试数据标注错误。基于此,根据每个第一测试数据的标准标注结果和测试标注结果,可以确定每个中间对象的标注准确率。
S101-3-3:根据标注准确率,从中间对象中筛选出标注对象。
示例性的,针对每个中间对象,可以在该中间对象的标注准确率大于预设准确率的情况下,将该中间对象作为标注对象;反之,在该中间对象的标注准确率小于或等于预设准确率的情况下,确定该中间对象无法作为标注对象,去除掉该中间对象。
S102:按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个标注对象,并获取各标注对象提供的初始标注结果。
这里,预设发送数量比例用于指示待标注数据和第二测试数据之间的发送数量的比例。例如,预设数量比例可以为9:1,也即,每向标注对象发送9条待标注数据后,会向标注对象发送一条第二测试数据。在具体实施时,预设发送数量比例可以根据经验设置,本公开实施例不进行具体限定。
待标注数据即为需要进行标注的数据。示例性的,待标注数据可以为前N天的内容数据,N大于或等于1。
在一种实施例,待标注数据可以包括待回答问题和回答内容,目标标注结果可以包括用于表征回答内容的质量的内容质量得分。其中,内容质量得分可以落在分数范围区间[0,2]之内。在具体实施时,待标注数据可以根据以下步骤获取:
步骤一、根据各原始数据的展现量,从原始数据中筛选出目标数量的中间数据。
这里,原始数据即为从至少一个内容型产品中获取的各个数据。例如,从文章阅读应用程序和短视频应用程序中获取的数据。展现量可以表征原始数据在内容型产品中,前N天的搜索量、浏览量等。目标数量可以为预先指定的数据数量。示例性的,目标数量可以为10万、5万等。
具体实施时,可以从内容型产品中,获取前一天的多条原始数据。然后,可以按照展现量从高到低的顺序,根据各原始数据的展现量,对各原始数据进行排序,得到每个原始数据的排序次序。之后,可以将排序次序小于或等于目标数量的各个原始数据,作为筛选出的中间数据。
步骤二、根据各中间数据包括的回答内容和中间数据的标注情况,从中间数据中筛选出待标注数据;标注情况用于表征是否确定出中间数据的目标标注结果。
示例性的,由于内容型产品每天都会被大量对象使用,所以每天确定出的中间数据可以存在重复。针对部分中间数据而言,该中间数据可能在之前已经被标注完成,存在对应的目标标注结果,无需再进行重复标注。因此,在得到中间数据之后,可以利用中间数据的标注情况对中间数据进行筛选,筛选出未被标注的原始数据。
具体实施时,针对每个中间数据,可以根据该中间数据的标注情况,确定该中间数据是否存在目标标注结果,若否,则可以对该中间数据包括的回答内容进行审核,在审核通过的情况下,可以将该中间数据作为待标注数据。在审核未通过的情况下,可以忽略该中间数据。其中,对中间数据包括的回答内容进行审核,具体可以包括内容质量审核、安全性审核、敏感词审核、内容健康审核等。
在一种实施例中,上述步骤二,可以按照以下步骤实施:
S1:在中间数据包括的回答内容中的回答字数小于预设字数的情况下,判断回答内容是否存在预设格式的子内容。
这里,预设字数可以根据经验设置,本公开实施例不进行具体限定。例如,预设字数可以为2000字。预设格式可以为图片/视频格式。
示例性的,可以确定中间数据包括的回答内容中的回答字数,判断回答字数是否小于预设字数。在回答字数小于预设字数的情况下,可以进一步判断回答内容中是否存在预设格式的子内容。也即,判断回答内容中是否包括图片内容/视频内容。若回答内容中存在预设格式的子内容,则可以忽略中间数据。
S2:若否,则判断中间数据是否为已标注数据。
这里,已标注数据可以为存在初始标注结果、但不存在目标标注结果的数据。根据上述各实施例可知,若一个待标注数据对应的目标对象小于第二预设数量,或者一个待标注数据对应的标注对象的阶段标注误差小于预设误差阈值,均会忽略该待标注数据,但是,该类待标注数据已经被分发至标注对象进行标注,为了防止发送标注对象的数据存在重复,则需要过滤掉已标注数据。
因此在具体实施时,在中间数据的回答内容中不存在预设格式的子内容的情况下,可以进一步判断中间数据是否为已标注数据。若是,则可以忽略中间数据。
S3:若否,则在中间数据的标注情况指示中间数据未确定出目标标注结果的情况下,将中间数据作为待标注数据。
示例性的,在中间数据不属于已标注数据的情况下,可以根据中间数据的标注情况,确定中间数据是否存在目标标注结果,若否,则将中间数据作为待标注数据;若中间数据存在目标标注结果,则可以忽略中间数据。
基于上述S1~S3,可以过滤掉回答字数大于预设字数的中间数据、过滤掉存在预设格式的子内容的中间数据、过滤掉已标注数据、过滤掉存在目标标注结果的中间数据,得到适用于标注对象标注的待标注数据。
在得到各个待标注数据之后,可以利用最新确定出的待标注数据对用于存储待标注数据的候选池进行更新,得到更新后的候选池。候选池中存储有各个最新的待标注数据、待标注数据的数据标识、待标注数据的展现量等。示例性的,候选池可以每天按时进行更新,如可以每天15点更新候选池。
第二测试数据也可以为经过人工标注的数据,也存在标注好的标准标注结果,用于确定标注对象在数据标注过程中的标注误差,可以与第一测试数据为相同的数据,也可以为不同的数据。第二测试数据可以与待标注数据的数据类型一致。例如,在待标注数据为包括待回答题目和回答内容的问答话题的情况下,第二测试数据可以为包括待回答样本题目和样本回答内容的测试话题。
初始标注结果可以为标注对象为待标注数据提供的标注结果和/或标注对象为第二测试数据提供的标注结果。一个待标注数据最多可以分发至第四预设数量的标注对象,对同一个标注对象而言,一个待标注数据只会被发送至该标注对象一次。
具体实施时,针对每条待标注数据,可以随机分发给不超过第四预设数量的标注对象,分别获取每个标注对象为该条待标注数据提供的初始标注结果并保存,同时可以记录每个标注对象获取到的待标注数据的数量。在任一标注对象获取的待标注数据的数量、与预设发送数量比例指示的数量相匹配的情况下,可以向该标注对象发送一条第二测试数据,并获取该标注对象为该第二测试数据提供的初始标注结果。
示例性的,针对每个标注对象而言,可以按照预设发送数量比例,将待标注数据和第二测试数据发送至该标注对象。例如,每向该标注对象发送9个待标注数据后,向该标注对象穿插发送一条第二测试数据。其中,向标注对象发送待标注数据的过程可以分为多阶段,每个阶段中,标注对象获取的待标注数据和第二测试数据之间的数量比例符合预设发送数量比例。
关于存储各个标注对象提供的初始标注结果,具体可以将待标注数据的数据标识、标注对象的对象标识、标注对象提供的初始标注结果,以及标注对象在提供初始标注结果时对应的阶段标注误差,关联存储至数据库。
S103:在标注对象标注的第二测试数据的数量达到第一预设数量的情况下,根据各第二测试数据对应的标准标注结果和初始标注结果,确定标注对象的阶段标注误差。
这里,阶段标注误差用于表征标注对象在一个标注阶段内的标注误差,该标注误差具体可以为平均绝对误差(Mean Absolute Error,简称MAE)。第一预设数量可以根据经验进行设置,本公开实施例不进行具体限定。示例性的,第一预设数量可以为20、30等。
示例性的,针对任一标注对象,在该标注对象标注的第二测试数据的数量达到第一预设数量的情况下,可以分别计算该标注对象为各第二测试数据标注的初始标注结果和各第二测试数据对应的标准标注结果之间的绝对误差,根据各第二测试数据对应的绝对误差,确定该标注对象的对应的MAE。
在一种实施例中,标注对象对第二测试数据进行标注可以分为多个标注阶段,其中,针对每个标注阶段而言,在该标注阶段标注的第二测试数据达到第一预设数量后,即进入新的标注阶段。针对每个标注阶段,均可以利用在该标注阶段标注的第二测试数据的初始标注结果和标准标注结果,确定标注对象在该标注阶段对应的阶段标注误差。进一步的,在确定标注对象的阶段标注误差之后,还可以利用阶段标注误对标注对象进行筛选,以提高最终确定出的目标标注结果的准确性。
具体的,在确定标注对象的阶段标注误差之后,可以将标注对象的阶段标注误差和预设误差阈值进行比较,在标注对象的阶段标注误差大于或等于预设误差阈值的情况下,可以说明标注对象的标注误差较大,在对应的标注阶段中标注的准确性较低,标注的各个待标注数据的初始标注结果的准确性无法保证,参考价值较低。为了提高最终确定的各个待标注数据的标注结果的准确性,可以去除阶段标注误差大于或等于预设误差阈值的标注对象。如此,可以实现对标注误差较大的标注对象的及时删除,保证各个标注对象标注出的初始标注结果的合理性和准确性。
反之,在标注对象的阶段标注误差小于预设误差阈值的情况下,则可以将标注对象标注的所述第二测试数据的数量更新为默认值,并按照所述默认值重新统计标注对象新标注的第二测试数据的数量。
示例性的,在阶段标注误差小于预设误差阈值的情况下,则可以说明标注对象的标注误差较小,标注的各个待标注数据的初始标注结果的准确性较高,参考价值较高,则可以允许标注对象继续进行新数据的标注。因此,可以确定标注对象进入新的标注阶段,并将标注对象标注的第二测试数据的数量更新为默认值(具体可以为0)。之后,可以从0开始,重新统计标注对象在新的标注阶段,新标注的第二测试数据的数量。
在一种实施方式中,在确定出标注对象之后,还可以先向各个标注对象发送第一预设数量的第二测试数据,并根据每个标注对象为第二测试数据提供的初始标注结果和第二测试数据的标准标注结果,确定每个标注对象的MAE。将MAE大于或等于预设误差阈值的标注对象直接过滤,将MAE小于预设误差阈值的标注对象作为最终筛选出的标注对象,并执行上述S102。
如此,利用答题数量、第一测试数据和第二测试数据,可以实现对全量的初始对象的多次筛选,提高了筛选出的标注对象的合理性。
S104:针对任一待标注数据,根据标注待标注数据的各标注对象的阶段标注误差和初始标注结果,确定待标注数据的目标标注结果。
这里,目标标注结果可以为待标注数据确定出的最终标注结果。
示例性的,针对任一待标注数据,可以获取标注过该待标注数据的各标注对象提供的初始标注结果,和各标注对象在提供该初始标注结果时对应的阶段标注误差。之后,针对利用各标注对象对应的阶段标注误差,对各标注对象提供的初始标注结果分别进行修正,得到修正后的标注结果。然后,可以根据各标注对象对应的修正后的标注结果,确定标注结果的均值,将该均值作为该待标注数据的目标标注结果。
在一种实施例中,上述S104,可以按照以下步骤实施:
S104-1:根据标注待标注数据的各标注对象的阶段标注误差,从标注对象中筛选出阶段标注误差小于预设误差阈值的目标对象。
这里,由于各个标注对象提供的初始标注结果均会被保存,所以即使在利用标注对象对应的阶段标注误差对部分标注对象进行过滤之后,该部分标注对象在先标注的各个初始标注结果也将会被保存。因此,在确定目标标注结果的过程中,需要利用各标注对象的阶段标注误差,对已经保存的初始标注结果进行进一步筛选,以保证最终使用的各初始标注结果,均为准确性较高的标注结果。
预设误差阈值可以根据经验进行设置,本公开实施例不进行具体限定。示例性的,预设误差阈值可以为0.3、0.4等。
具体实施时,可以从数据库中,获取标注待标注数据的各标注对象在标注待标注数据时对应的阶段标注误差。然后可以利用各标注对象的阶段标注误差,从标注待标注数据的各标注对象中,筛选出阶段标注误差小于预设误差阈值的目标对象。这里,筛选出的目标对象对应的标注误差较小,为待标注数据提供的初始标注结果的准确性和可靠性更高。
S104-2:在目标对象的数量大于或等于第二预设数量的情况下,根据各目标对象的阶段标注误差,确定各目标对象的拟合权重。
这里,第二预设数量可以为预设设置的最小的目标对象的数量,在目标对象的数量小于第二预设数量的情况下,说明能够用于确定待标注数据的目标标注结果的初始标注结果的数量较小,不利于确定出准确的目标标注结果,则可以忽略该待标注数据,不为该待标注数据确定目标标注结果。
反之,在目标对象的数量大于或等于第二预设数量的情况下,说明存在一定数量的初始标注结果能够用于确定待标注数据的目标标注结果,则可以根据预先设置的各个阶段标注误差范围和拟合权重之间的第一映射关系,以及各目标对象的阶段标注误差所属的阶段标注误差范围,确定各目标对象的拟合权重。
示例性的,第一映射关系可以为:MAE∈(0.35,0.4),拟合权重为1;MAE∈(0.3,0.35),拟合权重为1.1;MAE∈(0,0.3),拟合权重为1.2。
S104-3:利用各目标对象的拟合权重,对各目标对象的初始标注结果进行拟合,得到待标注数据的目标标注结果。
示例性的,在得到各个目标对象的拟合权重之后,可以利用各个目标对象的拟合权重,对各目标对象提供的初始标注结果进行加权求和,得到求和结果,利用求和结果和目标对象的数量,确定求和均值,将该均值作为待标注数据的目标标注结果。
这样,利用第一测试数据可以实现对全量的初始对象的筛选,筛选出能够进行数据标注的各个标注对象。由于初始对象可以包括未执行过数据标注操作的对象,所以筛选出的标注对象中可以包括非专业标注对象。然后,在向标注对象发送待标注数据的过程中,通过向标注对象发送带有标准标注结果的第二测试数据,可以利用第二测试数据及其标准标注结果,实现对标注对象的阶段标注误差的确定。由于阶段标注误差可以用于对标注结果的纠正,所以最后利用标注对象标注的初始标注结果以及标注对象对应的阶段标注误差,既能够实现对待标注数据的目标标注结果的确定,保障标注对象完成对待标注数据的标注,又可以提高确定出的目标标注结果的准确性。整体来说,本公开实施例提供的数据标注方法,不仅可以实现非专业标注对象对待标注数据的准确标注,增加能够进行数据标注的对象的数量,降低标注成本,还可以得益于对象数量的增加,提升数据标注的速度和效率。
在一种实施例中,在确定待标注数据的目标标注结果之后,还可以将待标注数据作为训练数据,对数据标注模型进行训练,以提高数据标注模型的精度。具体的,可以利用待标注数据和目标标注结果,对数据标注模型进行迭代训练,得到训练好的数据标注模型;数据标注模型用于对输入的待标注数据进行识别处理,输出待标注数据的预测标注结果。
示例性的,可以将待标注数据输入至数据标注模型,利用数据标注模型对待标注数据进行识别处理,输出待标注数据的预测标注结果。然后,可以利用待标注数据的目标标注结果和预测标注结果,确定预测损失,并利用预测损失对数据标注模型进行迭代训练,直至满足训练截止条件,得到训练好的数据标注模型。其中,训练截止条件可以为迭代训练的轮数达到预设轮数和/或训练的数据标注模型的预测精度达到预设精度。
这样,利用大量确定出目标标注结果的待标注数据,对数据标注模型进行训练,可以有效提高数据标注模型的预测精度。
然后,可以利用训练好的数据标注模型,对未标注的待标注数据进行处理,输出各个未标注的待标注数据的预测标注结果。根据预测标注结果指示的内容质量分数,从未标注的待标注数据中筛选出优质的数据,并对优质数据进行推送。
在另一种实施例中,在确定待标注数据的目标标注结果之后,还可以根据目标标注结果,对待标注数据进行推荐。具体的,可以根据各待标注数据的目标标注结果表征的内容质量得分,从待标注数据筛选出待推荐数据。
示例性的,可以根据该待标注数据的目标标注结果表征的内容质量得分,从待标注数据中筛选出内容质量得分超过第一预设得分的待推荐数据。由于内容质量得分越高,待标注数据的内容质量越好,所以利用内容质量得分和第一预设得分,能够从待标注数据中筛选出优质的待推荐数据。
然后,可以根据各待推荐数据的内容质量得分对应的推荐权重,对各待推荐数据进行推送。
这里,可以预先设置的各个质量得分范围和推荐权重之间的第二映射关系。根据各待推荐数据的内容质量得分,可以确定各待推荐数据所属的质量得分范围。然后,可以根据第二映射关系,确定各待推荐数据对应的推荐权重。再然后,可以利用各待推荐数据对应的推荐权重,对各待推荐数据的内容质量得分分别进行加权处理,得到各待推荐数据的加权得分。最后,可以按照加权得分从高到低的顺序,对各待推荐数据进行推送。
这样,通过筛选出待推荐数据并按照加权得分的方式对待推荐数据进行推送,可以实现对优质内容的推送,使得各个使用内容型产品的对象能够获取到优质的数据,有利于提高内容型产品的整体内容质量。
可选的,在确定待标注数据的目标标注结果之后,还可以根据各待标注数据的目标标注结果表征的内容质量得分,从待标注数据中筛选出内容质量得分小于第二预设得分的待更新数据。其中,第二预设得分小于第一预设得分。这样,利用内容质量得分和第二预设得分,能够从待标注数据中筛选出质量较低的待更新数据。之后,可以对待更新数据进行下线和更新,以防止将质量较低的待更新数据推送至对象。
在一种实施例中,为便于对本公开实施例提供的数据标注方法进行理解,如图2所示,为本公开实施例提供的一种数据标注方法的具体实施过程示意图,可以包括以下步骤:
S201:中间数据采集。
具体实施时,可以参照上述步骤一,具体可以筛选出目标数量的中间数据。并且,还可以从中间数据中,确定出第一测试数据和第二测试数据。
S202:确定待标注数据。
具体实施时,本步骤可以参照上述步骤二。
S203:更新候选池。
这里,候选池中可以存储有各个最新的待标注数据、待标注数据的数据标识、待标注数据的展现量等。
S204:将候选池中的待标注数据分发给标注对象。
关于上述S204,可以细分为下述S205~S209。
S205:根据答题数量,从全量的初始对象中筛选出中间对象。
S206:利用第一测试数据,从中间对象中筛选出标注对象。
S207:阶段标注误差测算。
具体的,可以按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个标注对象,并在标注对象标注的第二测试数据的数量达到第一预设数量的情况下,根据各第二测试数据对应的标准标注结果和初始标注结果,确定标注对象的阶段标注误差。
S208:对象标注权限确定。
具体实施时,可以在标注对象的阶段标注误差大于或等于预设误差阈值的情况下,去除标注对象;反之,则将标注对象标注的第二测试数据的数量更新为默认值,并按照默认值重新统计标注对象新标注的第二测试数据的数量。
S209:获取并存储标注对象提供的初始标注结果。
这里,在将待标注数据发送至标注对象之后,可以获取并存储标注对象为待标注数据提供的初始标注结果。
S210:待标注数据筛选,并确定筛选出的待标注数据的目标标注结果。
关于S210,可以细分为下述S211和S212。
S211:阶段标注误差筛选。
具体实施时,本步骤可以参照上述S104-1。
S212:通过分层加权的方式进行多对象拟合,得到待标注数据对应的目标标注结果。
具体实施时,本步骤可以参照上述S104-2和S104-3。基于上述S212,可以得到待标注数据对应的目标标注结果。
S213:待标注数据的应用。
示例性的,可以利用存在目标标注结果的待标注数据,对数据标注模型进行训练;或者,也可以利用待标注数据的目标标注结果表征的内容质量得分,对筛选出的待推荐数据进行推送;再或者,也可以利用待标注数据的目标标注结果表征的内容质量得分,对筛选出的质量较低的待更新数据进行下线和更新。
关于上述S201~S213的具体实施步骤,可以参照上述各实施例,此处不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与数据标注方法对应的数据标注装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述数据标注方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,为本公开实施例提供的一种数据标注装置的示意图,包括:
筛选模块301,用于利用第一测试数据,从全量的初始对象中筛选出标注对象;
发送模块302,用于按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个所述标注对象,并获取各所述标注对象提供的初始标注结果;
第一确定模块303,用于在所述标注对象标注的所述第二测试数据的数量达到第一预设数量的情况下,根据各所述第二测试数据对应的标准标注结果和所述初始标注结果,确定所述标注对象的阶段标注误差;
第二确定模块304,用于针对任一所述待标注数据,根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果。
在一种可能的实施方式中,所述第二确定模块304,在所述根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果时,用于:
根据标注所述待标注数据的各所述标注对象的阶段标注误差,从所述标注对象中筛选出阶段标注误差小于预设误差阈值的目标对象;
在所述目标对象的数量大于或等于第二预设数量的情况下,根据各所述目标对象的所述阶段标注误差,确定各所述目标对象的拟合权重;
利用各所述目标对象的所述拟合权重,对各所述目标对象的所述初始标注结果进行拟合,得到所述待标注数据的目标标注结果。
在一种可能的实施方式中,所述筛选模块301,在所述利用第一测试数据,从全量的初始对象中筛选出标注对象时,用于:
根据所述初始对象的答题记录信息,确定每个所述初始对象在预设历史时间段内的答题数量;
根据所述答题数量,从所述初始对象中筛选出中间对象;
利用第一测试数据,从所述中间对象中筛选出所述标注对象。
在一种可能的实施方式中,所述筛选模块301,在所述利用第一测试数据,从所述中间对象中筛选出所述标注对象时,用于:
针对任一所述中间对象,向该中间对象发送第三预设数量的所述第一测试数据,并获取该中间对象为所述第一测试数据分别提供的测试标注结果;
根据每个所述第一测试数据的标准标注结果和测试标注结果,确定该中间对象的标注准确率;
根据所述标注准确率,从所述中间对象中筛选出所述标注对象。
在一种可能的实施方式中,所述装置还包括:
处理模块305,在所述确定所述标注对象的阶段标注误差之后,还用于:
在所述标注对象的所述阶段标注误差大于或等于预设误差阈值的情况下,去除所述标注对象;或者,
在所述标注对象的所述阶段标注误差小于所述预设误差阈值的情况下,将所述标注对象标注的所述第二测试数据的数量更新为默认值,并按照所述默认值重新统计所述标注对象新标注的所述第二测试数据的数量。
在一种可能的实施方式中,所述待标注数据包括待回答问题和回答内容,所述目标标注结果包括用于表征所述回答内容的质量的内容质量得分;
所述装置还包括:
获取模块306,用于根据以下步骤获取所述待标注数据:
根据各原始数据的展现量,从所述原始数据中筛选出目标数量的中间数据;
根据各所述中间数据包括的回答内容和所述中间数据的标注情况,从所述中间数据中筛选出待标注数据;所述标注情况用于表征是否确定出所述中间数据的目标标注结果。
在一种可能的实施方式中,所述获取模块306,在所述根据各所述中间数据包括的回答内容和所述中间数据的标注情况,从所述中间数据中筛选出待标注数据时,用于:
在所述中间数据包括的回答内容中的回答字数小于预设字数的情况下,判断所述回答内容是否存在预设格式的子内容;
若否,则判断所述中间数据是否为已标注数据;
若否,则在所述中间数据的标注情况指示所述中间数据未确定出目标标注结果的情况下,将所述中间数据作为所述待标注数据。
在一种可能的实施方式中,所述装置还包括:
训练模块307,在所述确定所述待标注数据的目标标注结果之后,用于:
利用所述待标注数据和所述目标标注结果,对数据标注模型进行迭代训练,得到训练好的数据标注模型;所述数据标注模型用于对输入的待标注数据进行识别处理,输出待标注数据的预测标注结果。
在一种可能的实施方式中,所述装置还包括:
推荐模块308,在确定所述待标注数据的目标标注结果之后,用于:
根据各所述待标注数据的目标标注结果表征的内容质量得分,从所述待标注数据筛选出待推荐数据;
根据各所述待推荐数据的内容质量得分对应的推荐权重,对各所述待推荐数据进行推送。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本申请实施例还提供了一种计算机设备。参照图4所示,为本申请实施例提供的一种计算机设备的结构示意图,包括:
处理器41、存储器42和总线43。其中,存储器42存储有处理器41可执行的机器可读指令,处理器41用于执行存储器42中存储的机器可读指令,所述机器可读指令被处理器41执行时,处理器41执行下述步骤:S101:利用第一测试数据,从全量的初始对象中筛选出标注对象;S102:按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个标注对象,并获取各标注对象提供的初始标注结果;S103:在标注对象标注的第二测试数据的数量达到第一预设数量的情况下,根据各第二测试数据对应的标准标注结果和初始标注结果,确定标注对象的阶段标注误差以及S104:针对任一待标注数据,根据标注待标注数据的各标注对象的阶段标注误差和初始标注结果,确定待标注数据的目标标注结果。
上述存储器42包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器41中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器41通过内存421与外部存储器422进行数据交换,当计算机设备运行时,处理器41与存储器42之间通过总线43通信,使得处理器41在执行上述方法实施例中所提及的执行指令。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据标注方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的数据标注方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据标注方法的步骤,具体可参见上述方法实施例,在此不再赘述。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种数据标注方法,其特征在于,包括:
利用第一测试数据,从全量的初始对象中筛选出标注对象;
按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个所述标注对象,并获取各所述标注对象提供的初始标注结果;
在所述标注对象标注的所述第二测试数据的数量达到第一预设数量的情况下,根据各所述第二测试数据对应的标准标注结果和所述初始标注结果,确定所述标注对象的阶段标注误差;
针对任一所述待标注数据,根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果。
2.根据权利要求1所述的方法,其特征在于,所述根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果,包括:
根据标注所述待标注数据的各所述标注对象的阶段标注误差,从所述标注对象中筛选出阶段标注误差小于预设误差阈值的目标对象;
在所述目标对象的数量大于或等于第二预设数量的情况下,根据各所述目标对象的所述阶段标注误差,确定各所述目标对象的拟合权重;
利用各所述目标对象的所述拟合权重,对各所述目标对象的所述初始标注结果进行拟合,得到所述待标注数据的目标标注结果。
3.根据权利要求1所述的方法,其特征在于,所述利用第一测试数据,从全量的初始对象中筛选出标注对象,包括:
根据所述初始对象的答题记录信息,确定每个所述初始对象在预设历史时间段内的答题数量;
根据所述答题数量,从所述初始对象中筛选出中间对象;
利用第一测试数据,从所述中间对象中筛选出所述标注对象。
4.根据权利要求3所述的方法,其特征在于,所述利用第一测试数据,从所述中间对象中筛选出所述标注对象,包括:
针对任一所述中间对象,向该中间对象发送第三预设数量的所述第一测试数据,并获取该中间对象为所述第一测试数据分别提供的测试标注结果;
根据每个所述第一测试数据的标准标注结果和测试标注结果,确定该中间对象的标注准确率;
根据所述标注准确率,从所述中间对象中筛选出所述标注对象。
5.根据权利要求1所述的方法,其特征在于,在所述确定所述标注对象的阶段标注误差之后,还包括:
在所述标注对象的所述阶段标注误差大于或等于预设误差阈值的情况下,去除所述标注对象;或者,
在所述标注对象的所述阶段标注误差小于所述预设误差阈值的情况下,将所述标注对象标注的所述第二测试数据的数量更新为默认值,并按照所述默认值重新统计所述标注对象新标注的所述第二测试数据的数量。
6.根据权利要求1所述的方法,其特征在于,所述待标注数据包括待回答问题和回答内容,所述目标标注结果包括用于表征所述回答内容的质量的内容质量得分;
所述待标注数据根据以下步骤获取:
根据各原始数据的展现量,从所述原始数据中筛选出目标数量的中间数据;
根据各所述中间数据包括的回答内容和所述中间数据的标注情况,从所述中间数据中筛选出待标注数据;所述标注情况用于表征是否确定出所述中间数据的目标标注结果。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述中间数据包括的回答内容和所述中间数据的标注情况,从所述中间数据中筛选出待标注数据,包括:
在所述中间数据包括的回答内容中的回答字数小于预设字数的情况下,判断所述回答内容是否存在预设格式的子内容;
若否,则判断所述中间数据是否为已标注数据;
若否,则在所述中间数据的标注情况指示所述中间数据未确定出目标标注结果的情况下,将所述中间数据作为所述待标注数据。
8.根据权利要求1所述的方法,其特征在于,在确定所述待标注数据的目标标注结果之后,还包括:
利用所述待标注数据和所述目标标注结果,对数据标注模型进行迭代训练,得到训练好的数据标注模型;所述数据标注模型用于对输入的待标注数据进行识别处理,输出待标注数据的预测标注结果。
9.根据权利要求1所述的方法,其特征在于,在确定所述待标注数据的目标标注结果之后,还包括:
根据各所述待标注数据的目标标注结果表征的内容质量得分,从所述待标注数据筛选出待推荐数据;
根据各所述待推荐数据的内容质量得分对应的推荐权重,对各所述待推荐数据进行推送。
10.一种数据标注装置,其特征在于,包括:
筛选模块,用于利用第一测试数据,从全量的初始对象中筛选出标注对象;
发送模块,用于按照预设发送数量比例,将获取的待标注数据和第二测试数据发送至至少一个所述标注对象,并获取各所述标注对象提供的初始标注结果;
第一确定模块,用于在所述标注对象标注的所述第二测试数据的数量达到第一预设数量的情况下,根据各所述第二测试数据对应的标准标注结果和所述初始标注结果,确定所述标注对象的阶段标注误差;
第二确定模块,用于针对任一所述待标注数据,根据标注所述待标注数据的各所述标注对象的阶段标注误差和初始标注结果,确定所述待标注数据的目标标注结果。
11.一种计算机设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至9任意一项所述的数据标注方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机设备运行时,所述计算机设备执行如权利要求1至9任意一项所述的数据标注方法的步骤。
CN202310187846.XA 2023-02-22 2023-02-22 一种数据标注方法、装置、计算机设备和存储介质 Pending CN116167457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310187846.XA CN116167457A (zh) 2023-02-22 2023-02-22 一种数据标注方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310187846.XA CN116167457A (zh) 2023-02-22 2023-02-22 一种数据标注方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116167457A true CN116167457A (zh) 2023-05-26

Family

ID=86413106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310187846.XA Pending CN116167457A (zh) 2023-02-22 2023-02-22 一种数据标注方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116167457A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775850A (zh) * 2023-08-24 2023-09-19 北京珊瑚礁科技有限公司 一种聊天模型训练方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775850A (zh) * 2023-08-24 2023-09-19 北京珊瑚礁科技有限公司 一种聊天模型训练方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112257777B (zh) 基于隐马尔可夫模型的离职预测方法及相关装置
CN113535963A (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
WO2019217999A1 (en) Document processing and classification systems
CN116167457A (zh) 一种数据标注方法、装置、计算机设备和存储介质
CN110990523A (zh) 一种法律文书的确定方法及系统
CN116204714A (zh) 推荐方法、装置、电子设备及存储介质
CN116187524A (zh) 一种基于机器学习的供应链分析模型对比方法及装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN111291567A (zh) 人工标注质量的评估方法、装置、电子设备及存储介质
CN111241400A (zh) 一种信息搜索方法及装置
CN112015870B (zh) 数据上传方法及装置
CN113626638A (zh) 短视频推荐处理方法、装置、智能终端及存储介质
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN112163098A (zh) 一种知识图谱的创建方法、装置、存储介质和服务器
CN110188277B (zh) 一种资源的推荐方法及装置
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN111639485A (zh) 基于文本相似性的课程推荐方法及相关设备
CN116680480A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN110598112A (zh) 一种题目推荐方法、装置、终端设备及存储介质
CN112734142B (zh) 基于深度学习的资源学习路径规划方法及装置
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
CN115130455A (zh) 文章处理方法、装置、电子设备以及存储介质
CN113987159A (zh) 一种推荐信息确定方法、装置、电子设备及存储介质
CN114861614A (zh) 用于填充数据的方法及装置、电子设备、介质
CN114840668A (zh) 网络文本审核方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination