CN112749308A - 一种数据标注方法、装置及电子设备 - Google Patents

一种数据标注方法、装置及电子设备 Download PDF

Info

Publication number
CN112749308A
CN112749308A CN201911049184.XA CN201911049184A CN112749308A CN 112749308 A CN112749308 A CN 112749308A CN 201911049184 A CN201911049184 A CN 201911049184A CN 112749308 A CN112749308 A CN 112749308A
Authority
CN
China
Prior art keywords
data
task
labeling
annotation
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911049184.XA
Other languages
English (en)
Inventor
林志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201911049184.XA priority Critical patent/CN112749308A/zh
Publication of CN112749308A publication Critical patent/CN112749308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据标注方法,包括:获取待标注的原始数据;创建用于对所述原始数据进行标注的多个标注任务,标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;根据标注任务之间的依赖关系,依次执行每个标注任务,接收每个标注任务的数据标注结果,并根据依赖关系对数据标注结果进行汇总,得到标注后的数据。本发明还公开了一种数据标注装置及电子设备。

Description

一种数据标注方法、装置及电子设备
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据标注方法、装置及电子设备。
背景技术
近年来,大数据技术的迅猛发展,推动了社会的进步,但是,随着大量数据的出现,对于数据的人工标注,变得越来越困难。
为此,相关技术中提出众包的概念。众包是指一个公司或机构把原本有公司内部员工执行的工作,以公开招募的形式外包给非特征的大众网络中的众包用户去执行的做法。随着众包概念的提出,互联网上出现了许多为众包活动提供支持的众包系统,众包系统利用互联网将发布任务的请求者同参与任务的工作者连接起来,极大地提高了众包活动中知识和劳动的交易效率。众包系统是一种集众人之力为文件做标注或修改标注,内部人员通过在众包系统上发布标注任务,由外部人员对数据进行标注,最后内部人员获取所需标注后的数据的系统。众包系统将大数据的标注外包给众包用户,集众人之力,降低了对数据的人工标注的难度。
但是,相关技术中的众包系统在对发布的任务进行数据标注结果进行汇总时存在好费时间长、汇总效率低的问题。
发明内容
有鉴于此,本发明提供了一种数据标注方法、装置、电子设备及计算机可读存储介质,以解决相关技术中的众包系统在对发布的任务进行数据标注结果进行汇总时存在好费时间长、汇总效率低的问题。
为实现上述发明目的,根据本发明第一个方面,提供了一种数据标注方法,包括:
获取待标注的原始数据;
创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;
根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;
接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述数据标注结果进行汇总,得到标注后的数据。
在一种可选方式中,在创建用于对所述原始数据进行标注的多个标注任务之前,所述方法还包括:
确定所述原始数据的切分逻辑;
根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,
在创建用于对所述原始数据进行标注的多个标注任务之后,所述方法还包括:
配置多个所述标注任务的任务环境。
在一种可选方式中,所述配置多个所述标注任务的任务环境,包括:
为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,
配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;
配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。
在一种可选方式中,在依次执行每个所述标注任务之前,所述方法还还包括:配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。
在一种可选方式中,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
判断所述数据标注结果是否满足预置流转条件;
如果是,则转入执行将所述数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;
否则,继续执行当前标注任务。
在一种可选方式中,,所述判断所述数据标注结果是否满足预置流转条件,包括:
获取所述数据标注结果中,标注结果相同的数据的占比;
当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件;和/或,
获取数据标注结果中,标注结果相同的数据的数量;
当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。
在一种可选方式中,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
根据预置筛选条件对所述数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。
根据本发明第二个方面,提供了一种数据标注装置,包括:
获取模块,用于获取待标注的原始数据;
创建模块,用于创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;
执行模块,用于根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;
接收模块,用于接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述标注结果进行汇总,得到标注后的数据。
在一种可选方式中,所述装置,还包括:
确定模块,用于确定所述原始数据的切分逻辑;
所述确定模块,还用于根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,
所述装置,还包括:
配置模块,用于在创建用于对所述原始数据进行标注的多个标注任务之后,配置多个所述标注任务的任务环境。
在一种可选方式中,所述配置模块,用于为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,
配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;
配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。
在一种可选方式中,所述配置模块,还用于在依次执行每个所述标注任务之前,配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。
在一种可选方式中,所述装置,还包括:
判断模块,用于在在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,判断所述数据标注结果是否满足预置流转条件;
所述执行模块,用于如果是,则转入执行将所述数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;
否则,继续执行当前标注任务。
在一种可选方式中,所述获取模块,用于获取数据标注结果中,标注结果相同的数据的占比;
所述判断模块,用于当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件;和/或,
所述获取模块,用于获取所述数据标注结果中,标注结果相同的数据的数量;
所述判断模块,用于当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。
在一种可选方式中,所述装置,还包括:
筛选模块,用于根据预置筛选条件对所述数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。
根据本发明第三个方面,提供了一种电子设备,包括存储器、处理器和通讯总线;
所述存储器与所述处理器通过所述通讯总线通讯连接;
所述存储器中存储有计算机可执行指令,所述处理器用于执行所述计算机可执行指令,用于实现本发明第一个方面任一可选方式提供的数据标注方法。
根据本发明第四个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被执行时,用于实现本申请第一个方面任一可选方式提供的数据标注方法方法。
本发明提供的一种数据标注方法、装置、电子设备及计算机可读存储介质,其中,数据标注方法,包括:获取待标注的原始数据;创建用于对原始数据进行标注的多个标注任务,标注任务两两之间具有依赖关系,且任一标注任务执行完毕后输出数据标注结果,并将数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖数据标注结果执行数据标注;根据标注任务之间的依赖关系,依次执行每个标注任务;接收每个标注任务的数据标注结果,并根据依赖关系对数据标注结果进行汇总,得到标注后的数据。如此,在通过众包系统发布数据标注任务后,众包用户通过当前标注任务首先对待标注的原始数据进行标注,然后在下一标注任务中,众包用户对前一标注任务的标注结果进行数据标注;如此,后一个标注任务标注的数据始终依赖于前一标注任务的标注结果,在最后输出的每一个标注任务对应的标注数据之间均具有依赖关系,根据依赖关系对标注数据进行汇总,提高了数据标注结束后的汇总效率;解决了相关技术中的众包系统在对发布的任务进行数据标注结果进行汇总时存在好费时间长、汇总效率低的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。
图1是本申请一实施例提供的数据标注方法的实现流程图;
图2是本申请另一实施例提供的数据标注方法的实现流程图;
图3是本申请实施例提供的数据标注方法在具体应用中的任务状态流转图;
图4是本申请实施例提供的数据标注装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明实施例的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
图1是本申请一实施例提供的数据标注方法的实现流程图。
参照图1所示,本申请实施例提供的数据标注方法,具体应用于通过众包系统发布数据标注任务,由众包用户对数据进行标注;在具体应用中,众包系统可以安装在台式电脑、笔记本电脑、移动终端、平板电脑或者服务器等电子设备上,该数据标注方法包括以下步骤:
步骤101,获取待标注的原始数据。
具体的,本申请实施例中,待标注的原始数据可以是内部人员(标注任务发布者)上传至众包系统中的待标注文件,在一些具体实施场景中,待标注的原始数据可以是需要众包用户标注的图片、表格、文本、语音、视频等数据文件,标注可以是由众包用户对待标注文件进行的分类、画框、注释、标记或者添加说明文件的某种属性的标签的工作。
步骤102,创建用于对原始数据进行标注的多个标注任务。
具体的,本申请实施例中,标注任务的发布者将待标注的原始数据上传至众包系统后,众包系统根据标注任务发布者的操作指令创建标注任务。在一些可选方式中,多个标注任务可以是标注任务发布者依据任务需求一次性在众包系统中创建的多个标注任务;在另一些可选方式中,多个标注任务也可以是标注任务发布者上传待标注的原始数据是仅创建一个标注任务,在后期标注过程中,依据任务需求或者任务发布者对标注结果的需求,进一步新增创建其他标注任务。本申请实施例中对多个任务的具体创建方式不作限定。
具体的,标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖数据标注结果执行数据标注。
在一些具体应用场景中,当前标注任务与下一标注任务可以是标注任务流程中,位于同一数据流向上的两个标注任务;具体的,当前标注任务可以是位于下一标注任务之前的标注任务,在众包用户对当前标注任务中的待标注数据进行标注后,得到当前标注任务的数据标注结果,数据标注结果传递至下一标注任务,并作为下一标注任务中的待标注数据;众包用户在下一标注任务中对数据标注结果进行进一步的标注;如此,保证了下一标注任务的数据标注结果与当前标注任务的数据标注结果之间的依赖关系。在对数据标注结果进行汇总时,能够根据数据标注结果之间的依赖关系进行汇总,提高了数据标注结果的汇总效率。
步骤103,根据标注任务之间的依赖关系,依次执行每个标注任务。
在具体应用中,标注任务发布者通过众包系统发布标注任务后,标注任务会通过众包系统呈现在众包用户的使用界面上,以供众包用户对待标注数据进行标注,从而完成标注任务;具体的,众包用户在对标注任务进行标注时,依次按照标注任务之间的依赖关系进行标注,只有在上一个标注任务完成,且数据标注结果传递至下一个标注任务中后,众包用户才能在下一个标注任务中对数据标注结果进行进一步的标注。
步骤104,接收每个标注任务的数据标注结果,并根据依赖关系对数据标注结果进行汇总,得到标注后的数据。
具体的,在众包用户通过众包系统对待标注数据进行标注后,众包系统接收众包用户对每个标注任务中的待标注数据进行的标注结果。本申请实施例中,在众包用户对每一个标注任务中的待标注数据进行标注后,每个标注任务都可以输出当前任务对应的数据标注结果;例如,在当前标注任务中的待标注数据完成标注后,当前标注任务输出完成标注的数据标注结果;下一标注任务中的待标注数据完成标注后,下一标注任务输出完成标注的数据标注结果。在所有标注任务完成后,根据依赖关系对数据标注结果进行汇总,从而得到标注后的数据。
本申请实施例提供的数据标注方法,包括:获取待标注的原始数据;创建用于对原始数据进行标注的多个标注任务,标注任务两两之间具有依赖关系,且任一标注任务执行完毕后输出数据标注结果,并将数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖数据标注结果执行数据标注;根据标注任务之间的依赖关系,依次执行每个标注任务;接收每个标注任务的数据标注结果,并根据依赖关系对数据标注结果进行汇总,得到标注后的数据。如此,在通过众包系统发布数据标注任务后,众包用户通过当前标注任务首先对待标注的原始数据进行标注,然后在下一标注任务中,众包用户对前一标注任务的标注结果进行数据标注;如此,后一个标注任务标注的数据始终依赖于前一标注任务的标注结果,在最后输出的每一个标注任务对应的标注数据之间均具有依赖关系,根据依赖关系对标注数据进行汇总,提高了数据标注结束后的汇总效率;解决了相关技术中的众包系统在对发布的任务进行数据标注结果进行汇总时存在好费时间长、汇总效率低的问题。
图2是本申请另一实施例提供的数据标注方法的实现流程图;图3是本申请实施例提供的数据标注方法在具体应用中的任务状态流转图。
基于前述实施例,参照图2和图3所示,本申请另一实施例提供的数据标注方法,包括以下步骤:
步骤201,获取待标注的原始数据。
具体的,本申请实施例中,待标注的原始数据可以是内部人员(标注任务发布者)上传至众包系统中的待标注文件,在一些具体实施场景中,待标注的原始数据可以是需要众包用户标注的图片、表格、文本、语音、视频等数据文件,标注可以是由众包用户对待标注文件进行的分类、画框、注释、标记或者添加说明文件的某种属性的标签的工作。
步骤202,确定原始数据的切分逻辑。
在一些具体实时场景中,可以根据原始数据的数据类型和对数据标注结果的需求确定原始数据的切分逻辑;例如,在一些具体示例中,任务发布者上传的原始数据为Excel表格,Excel表格中具有多条数据,对多条数据有不同的数据标注结果需求,例如,对于多条数据中的一部分的数据标注结果需求为选出其中价格较低的商品;另一部分的数据标注结果需求为对其中包含“汽车”的关键字进行划线;从而可以将Excel表格中的多条数据切分成不同的标注任务。
步骤203,根据切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系。步骤204,创建用于对原始数据进行标注的多个标注任务。
具体的,标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖数据标注结果执行数据标注。
在一些可选实施方式中,在将数据标注结果传递给与其存在依赖关系的下一标注任务之前,本申请实施例提供的数据标注方法还包括:
判断数据标注结果是否满足预置流转条件;
在一些具体实施方式中,获取数据标注结果中,标注结果相同的数据的占比。
具体的,在标注任务发布后,可能会存在大量的众包用户对标注任务中的待标注数据进行标注。本申请实施例中,通过获取对标注任务中待标注数据进行标注的数据标注结果中,数据标注结果相同的的占比,确定标注任务中的数据标注结果是否达到预置条件。参照图3所示,在一种具体应用场景中,众包用户对选择题提进行答题,众包系统获取众包用户的答题结果,例如其中某一个选择题具有A、B、C、D四个选项,总有100个众包用户答题,其中80个众包用户的答题结果为B,则众包系统获取答题结果相同的占比为80%。
当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。
具体的,第一预设阈值可以根据任务发布者对数据标注结果的实际需求进行设定,例如,第一预设阈值可以为60%、65%、或者70%等。本申请实施例中对第一预设预置的具体值不作限定。
和/或,
获取数据标注结果中,标注结果相同的数据的数量。
具体的,在标注任务发布后,可能会存在大量的众包用户对标注任务中的待标注数据进行标注。本申请实施例中,通过获取对标注任务中待标注数据进行标注的标注结果中结果相同的标注数据的比重,确定标注任务中的标注数据是否达到可回收条件。参照图3所示,在一种具体应用场景中,众包用户对选择题提进行答题,众包系统获取众包用户的答题结果,例如其中某一个选择题具有A、B、C、D四个选项,总有100个众包用户答题,其中80个众包用户的答题结果为B,则众包系统获取答题结果相同的数量为80。
当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。
具体的,本申请中第二预设阈值可以是标注任务发布者在发布标注任务时设置的,具体可以是60、65、70等。在一些具体示例中,待标注数据的受众(即众包用户)可能较少,比如一些需要一定专业知识储备的待标注数据,此时第二预设预置可以是相对较小的数值,例如5、6、7等。
如果是,则转入执行将数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;
否则,继续执行当前标注任务。
具体的,本申请实施例中,在当前标注任务的数据标注结果未满足预置条件的情况下,继续执行当前标注任务中的标注任务,众包用户在任务截止时间前可以继续在当前任务中对待标注数据进行标注;在当前标注任务的数据标注结果满足预置条件的情况下,数据标注结果传递至下一标注任务,当前标注任务结束,众包用户在下一标注任务中对数据标注结果进行进一步标注。
作为一种具体示例,参照图3所示,本申请实施例中,在当前标注任务中的数据标注结果满足预置条件时,数据标注结果按照任务状态流转图流转,从当前标注任务流转至下一标注任务。具体的,当前标注任务可以是图3中示出的选择题任务,下一标注任务可以是图3中示出的划线题。需要说明的是,图3中选择题和划线题作为对应标注任务的题目类型仅是一种示例,并非对具体标注任务的题目类型进行限定。
在一些可选实施方式中,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,本申请实施例提供的数据标注方法还包括:
根据预置筛选条件对数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。
具体的,本申请实施例中预置筛选条件可以是标注任务发布者在发布任务时,根据标注需求进行设置的筛选条件,例如在一些评价类题型对应的标注任务中,筛选条件可以是正面评价、负面评价或者中性评价中的一种。
经过筛选后的标注数据流转至下一标注任务。
具体的,本申请实施例中,经过筛选后的标注数据,例如在评价类题型的标注任务中,筛选条件为正面评价时,当前标注任务在完成标注后,评价结果为正面的标注数据直接输出,评价结果为负面或中性的标注数据进行下一标注任务,由众包用户做进一步标注,例如对评价结果是否准确做判断的标注。
本实施例中,通过对当前标注任务标注完成的标注数据进行筛选,经过筛选后的标注数据流转至下一标注任务;如此,减少了流转至下一标注任务的数据量,提高了数据标注的效率。
步骤205,配置多个标注任务的任务环境。
具体的,本申请实施例中,在标注任务发布者创建标注任务之后,需要对创建的标注任务进行任务环境配置,以确定标注任务对应的待标注文件,多个标注任务中的任务之间是否需建立依赖关系等。
在一些可选的实施方式中,待标注的原始数据具有唯一标识符,其中,原始数据的唯一标识符可以是以原始数据的文件名为标识的唯一标识符。在一些具体应用中,在标注任务发布者将原始数据文件上传至众包系统后,本申请实施例中原始数据的唯一标识符也可以是由众包系统生成并添加至原始数据文件的标识符。
在一些可选方式中,绑定每一个标注任务对应的待标注原始数据的唯一标识符。
具体的,通过绑定每一个标注任务对应的待标注原始数据的唯一标识符,确定每一个标注任务所标注的具体文件。在具体应用中,标注任务发布者可能在众包系统中同时上传了多个待标注的原始数据,并分别创建了多个标注任务;此时,需要指定多个标注任务中的某一个或某一些标注任务对应的待标注原始数据,以确定标注任务的标注对象。
具体的,配置多个标注任务的任务环境,包括:
为多个标注任务创建任务队列,并按照依赖关系将多个标注任务发布至任务队列中。
和/或,
配置标注任务对应的起始时间和截止时间,以便在起始时间和截止时间覆盖的时间段内执行标注任务。
具体的,本申请实施例中标注任务对应的起始时间可以是任务队列中第一个标注任务开始的时间,任务截止时间可以是任一标注任务的截止时间。具体的,在超过截止时间后,对应的标注任务结束,众包用户无法继续在该标注任务中进行标注。
具体的,本实施例中,任务的开始时间和任务的结束时间限定了任务的有效期限,只有在任务开始时间到任务结束时间期间内,众包用户才能够对标注任务进行标注。通过限定任务的开始时间和结束时间,提高了众包用户对标注任务进行标注的积极性,提高了获取标注数据的效率。
配置标注任务的关联用户ID,以便关联用户ID查看数据标注结果。
具体的,本申请实施例中,关联用户可以是任务发布者的内部人员,内部人员可以通过关联用户ID登录众包用户查看各个标注任务的数据标注结果。
步骤206,根据标注任务之间的依赖关系,依次执行每个标注任务。
步骤207,接收每个标注任务的数据标注结果,并根据依赖关系对数据标注结果进行汇总,得到标注后的数据。
在一些可选实施方式中,在依次执行每个所述标注任务之前,本申请实施例提供的数据标注方法还包括:配置每个标注任务的任务参数;任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型、以及数据来源。
具体的,在一些具体示例中,任务名称可以指出该任务的简要信息,以供众包用户在选择标注任务时,选择自己更擅长的标注任务,从而提高标注任务的准确性;例如,任务名称可以为“网站类型标注-20190906”。在一些具体示例中,题目类型可以是指定标注任务需要以何种方式完成标注。具体的,通过众包系统发布标注任务,发布者通常将待标注原始数据做成一些题目,由众包用户通过答题的形式对原始数据添加标签;例如,在图片中选出某种特定特征图形,可以以选这题的形式由众包用户选择,从而对图片添加标注。具体的,本申请实施例中的题目类型可以是选择题、填空题、划线题或者其他形式的一些题目。本申请实施例中对题目的具体类型不作限定。
在一些可选实施方式中,多个标注任务对应的题目类型可以相同;例如,当前标注任务为选择题,下一标注任务同样也可以为选择题。在具体应用中,下一标注任务的选择题可以为对当前标注任务中众包用户标注的数据标注结果中正确的结果进行选择,从而保证下一标注任务依赖于当前标注任务。在另一些可选实施方式中,多个标注任务对应的题目类型也可以不同;例如第一标注任务为选择题,第二标注任务可以为划线题。
具体的,本实施例中,当前标注任务所标注的数据来源具体可以是待标注的原始标注数据,也可以是多个标注任务中的某一个标注任务标注后输出的数据标注结果。在当前标注任务所标注的数据来源为待标注的原始标注数据时,当前标注任务不依赖于其他标注任务,但可能被其他标注任务依赖;在当前标注任务所标注的数据来源为多个标注任务中的某一个标注任务标注后的数据标注结果时,当前标注任务依赖于其他标注任务。
图4是本申请实施例提供的数据标注装置的结构示意图。
基于前述实施例,参照图4所示,本申请实施例提供的数据标注装置40,包括:
获取模块41,用于获取待标注的原始数据;
创建模块42,用于创建用于对原始数据进行标注的多个标注任务,标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖数据标注结果执行数据标注;
执行模块43,用于根据标注任务之间的依赖关系,依次执行每个标注任务;
接收模块44,用于接收每个标注任务的数据标注结果,并根据依赖关系对标注结果进行汇总,得到标注后的数据。
在一种可选实施方式中,本申请实施例提供的数据标注装置40,还包括:
确定模块45,用于确定原始数据的切分逻辑;
确定模块45,还用于根据切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,
装置40,还包括:
配置模块46,用于在创建用于对原始数据进行标注的多个标注任务之后,配置多个标注任务的任务环境。
在一种可选实施方式中,配置模块46,用于为多个标注任务创建任务队列,并按照依赖关系将多个标注任务发布至任务队列中;和/或,
配置标注任务对应的起始时间和截止时间,以便在起始时间和截止时间覆盖的时间段内执行标注任务;
配置标注任务的关联用户ID,以便关联用户ID查看数据标注结果。
在一种可选实施方式中,配置模块46,还用于在依次执行每个标注任务之前,配置每个标注任务的任务参数,任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型、以及数据来源。
在一种可选实施方式中,装置40,还包括:
判断模块47,用于在在将数据标注结果传递给与其存在依赖关系的下一标注任务之前,判断数据标注结果是否满足预置流转条件;
执行模块43,用于如果是,则转入执行将数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;
否则,继续执行当前标注任务。
在一种可选实施方式中,获取模块41,用于获取数据标注结果中,标注结果相同的标注数据的占比;
判断模块47,用于当占比达到第一预设阈值时,判断满足预置流转条件;否则,判断不满足预置流转条件;和/或,
获取模块41,用于获取数据标注结果中,标注结果相同的数据的数量;
判断模块47,用于当数量达到第二预设阈值时,判断满足预置流转条件;否则,判断不满足预置流转条件。
在一种可选实施方式中,装置40,还包括:
筛选模块48,用于根据预置筛选条件对数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。
需要说明的是,本申请提供的装置实施例与本申请提供的方法实施例具有相同或类似的效果,本实施例不再赘述。
所述数据标注装置40包括处理器和存储器,上述获取模块41、创建模块42、执行模块43、接收模块44、确定模块45、配置模块46、判断模块47和筛选模块48等均作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序模块。内核可以设置一个或以上,通过调整内核参数来实现本申请任一可选实施例提供的数据标注方法。
本发明实施例提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被执行时,用于实现本申请任一可选实施例提供的数据标注方法。
图5是本申请实施例提供的电子设备的结构示意图。
基于前述实施例,参照图5所示,本申请实施例提供的电子设备50,包括:存储器51、处理器52和通讯总线53;
存储器51与处理器52通过通讯总线53通讯连接;
存储器51中存储有计算机可执行指令,处理器52用于执行计算机可执行指令,用于实现本申请任一可选实施例提供的数据标注方法。
需要说明的是,本申请提供的设备实施例与本申请提供的方法实施例具有相同或类似的效果,本实施例不再赘述。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
S01,获取待标注的原始数据;
S05,创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系,且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;
S10,根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;
S15,接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述数据标注结果进行汇总,得到标注后的数据。
在一些实施方式中,在S05,创建用于对所述原始数据进行标注的多个标注任务之前,所述方法还包括:
S02,确定所述原始数据的切分逻辑;
S03,根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,
在S05,创建用于对所述原始数据进行标注的多个标注任务之后,所述方法还包括:
S06,配置多个所述标注任务的任务环境。
在一些实施方式中,S06所述配置多个所述标注任务的任务环境,包括:
S061A,为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,
S061B,配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;
S062,配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。
在一些实施方式中,S10,在依次执行每个所述标注任务之前,所述方法还还包括:
S07,配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。
在一些实施方式中,在S05,将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
S04,判断所述数据标注结果是否满足预置流转条件;
如果是,则转入执行将所述数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;
否则,继续执行当前标注任务。
在一些实施方式中,S04,所述判断所述数据标注结果是否满足预置流转条件,包括:
S041A,获取数据标注结果中,标注结果相同的数据的占比;
S042A,当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件;和/或,
S041B,获取数据标注结果中,标注结果相同的数据的数量;
S042B,当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。
在一些实施方式中,在S05,将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
根据预置筛选条件对所述数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据标注方法,其特征在于,包括:
获取待标注的原始数据;
创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系,且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;
根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;
接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述数据标注结果进行汇总,得到标注后的数据。
2.根据权利要求1所述的方法,其特征在于,在创建用于对所述原始数据进行标注的多个标注任务之前,所述方法还包括:
确定所述原始数据的切分逻辑;
根据所述切分逻辑确定待创建的标注任务的数量以及标注任务之间的依赖关系;和/或,
在创建用于对所述原始数据进行标注的多个标注任务之后,所述方法还包括:
配置多个所述标注任务的任务环境。
3.根据权利要求2所述的方法,其特征在于,所述配置多个所述标注任务的任务环境,包括:
为多个所述标注任务创建任务队列,并按照所述依赖关系将多个所述标注任务发布至所述任务队列中;和/或,
配置所述标注任务对应的起始时间和截止时间,以便在所述起始时间和所述截止时间覆盖的时间段内执行所述标注任务;
配置所述标注任务的关联用户ID,以便所述关联用户ID查看所述数据标注结果。
4.根据权利要求1所述的方法,其特征在于,在依次执行每个所述标注任务之前,所述方法还还包括:
配置每个所述标注任务的任务参数,所述任务参数包括以下至少一种:任务名称、任务标签、任务类型、任务对应的题目类型以及数据来源。
5.根据权利要求1所述的方法,其特征在于,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
判断所述数据标注结果是否满足预置流转条件;
如果是,则转入执行将所述数据标注结果传递给与其存在依赖关系的下一标注任务的步骤;
否则,继续执行当前标注任务。
6.根据权利要求5所述的方法,其特征在于,所述判断所述数据标注结果是否满足预置流转条件,包括:
获取数据标注结果中,标注结果相同的数据的占比;
当所述占比达到第一预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件;和/或,
获取数据标注结果中,标注结果相同的数据的数量;
当所述数量达到第二预设阈值时,判断满足所述预置流转条件;否则,判断不满足所述预置流转条件。
7.根据权利要求5所述的方法,其特征在于,在将所述数据标注结果传递给与其存在依赖关系的下一标注任务之前,所述方法还包括:
根据预置筛选条件对所述数据标注结果进行筛选,以便将经过筛选后的数据标注结果传递给与其存在依赖关系的下一标注任务。
8.一种数据标注装置,其特征在于,包括:
获取模块,用于获取待标注的原始数据;
创建模块,用于创建用于对所述原始数据进行标注的多个标注任务,所述标注任务两两之间具有依赖关系;且任一标注任务执行完毕后输出数据标注结果,并将所述数据标注结果传递给与其存在依赖关系的下一标注任务,以便下一标注任务依赖所述数据标注结果执行数据标注;
执行模块,用于根据所述标注任务之间的依赖关系,依次执行每个所述标注任务;
接收模块,用于接收每个所述标注任务的数据标注结果,并根据所述依赖关系对所述标注结果进行汇总,得到标注后的数据。
9.一种电子设备,其特征在于,包括存储器、处理器和通讯总线;
所述存储器与所述处理器通过所述通讯总线通讯连接;
所述存储器中存储有计算机可执行指令,所述处理器用于执行所述计算机可执行指令,用于实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被执行时,用于实现权利要求1-7任一项所述的方法。
CN201911049184.XA 2019-10-31 2019-10-31 一种数据标注方法、装置及电子设备 Pending CN112749308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911049184.XA CN112749308A (zh) 2019-10-31 2019-10-31 一种数据标注方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911049184.XA CN112749308A (zh) 2019-10-31 2019-10-31 一种数据标注方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112749308A true CN112749308A (zh) 2021-05-04

Family

ID=75641550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911049184.XA Pending CN112749308A (zh) 2019-10-31 2019-10-31 一种数据标注方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112749308A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449142A (zh) * 2021-06-30 2021-09-28 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质及产品
CN113469291A (zh) * 2021-09-01 2021-10-01 平安科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130197954A1 (en) * 2012-01-30 2013-08-01 Crowd Control Software, Inc. Managing crowdsourcing environments
CN106156025A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 一种数据标注的管理方法及装置
CN108228557A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 一种序列标注的方法及装置
CN108804563A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种数据标注方法、装置以及设备
CN108984490A (zh) * 2018-07-17 2018-12-11 北京猎户星空科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109993315A (zh) * 2019-03-29 2019-07-09 联想(北京)有限公司 一种数据处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130197954A1 (en) * 2012-01-30 2013-08-01 Crowd Control Software, Inc. Managing crowdsourcing environments
CN106156025A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 一种数据标注的管理方法及装置
CN108228557A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 一种序列标注的方法及装置
CN108804563A (zh) * 2018-05-22 2018-11-13 阿里巴巴集团控股有限公司 一种数据标注方法、装置以及设备
CN108984490A (zh) * 2018-07-17 2018-12-11 北京猎户星空科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109993315A (zh) * 2019-03-29 2019-07-09 联想(北京)有限公司 一种数据处理方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449142A (zh) * 2021-06-30 2021-09-28 北京百度网讯科技有限公司 信息处理方法及装置、电子设备、存储介质及产品
CN113469291A (zh) * 2021-09-01 2021-10-01 平安科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113469291B (zh) * 2021-09-01 2021-11-30 平安科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110058856B (zh) 页面配置方法及装置
TWI683251B (zh) 界面展示方法及裝置
CN108170656B (zh) 模板创建方法、文档创建方法、渲染方法和装置
US20160342449A1 (en) Data exchange across multiple computing devices through a proactive intelligent clipboard
CN112256647B (zh) 一种文件处理的方法及装置
US10353874B2 (en) Method and apparatus for associating information
CN106933887B (zh) 一种数据可视化方法及装置
CN110895544B (zh) 一种接口数据处理方法、装置、系统及存储介质
CN112749308A (zh) 一种数据标注方法、装置及电子设备
CN105160018A (zh) 一种复制/粘贴图片的方法、装置和系统
CN108874379B (zh) 页面的处理方法及装置
CN110633959A (zh) 基于图结构的审批任务创建方法、装置、设备及介质
CN111897978A (zh) 直播状态监测方法、装置、电子设备及存储介质
CN103678263A (zh) 一种文档章节之间的关联关系的图形界面展现方法及系统
CN110971544A (zh) 一种数据发送方法及装置
WO2022156087A1 (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN111177093A (zh) 一种科技资源的共享方法及设备、介质
CN111078905A (zh) 一种数据处理方法、装置、介质以及设备
CN106204125A (zh) 一种定价方法及装置
CN111222065B (zh) 一种信息展示方法、装置、电子设备及介质
CN112579149A (zh) 模型训练程序镜像的生成方法、装置、设备及存储介质
CN113905037A (zh) 一种文件传输管理方法、装置、设备及存储介质
CN110830358B (zh) 信息的交互方法及装置、存储介质及处理器
CN109446180B (zh) 一种用于配置云数据平台的方法和装置
CN107305564B (zh) 一种数据处理的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination