CN111506776B - 数据标注方法以及相关装置 - Google Patents

数据标注方法以及相关装置 Download PDF

Info

Publication number
CN111506776B
CN111506776B CN201911088473.0A CN201911088473A CN111506776B CN 111506776 B CN111506776 B CN 111506776B CN 201911088473 A CN201911088473 A CN 201911088473A CN 111506776 B CN111506776 B CN 111506776B
Authority
CN
China
Prior art keywords
data
label
tag
labeled
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911088473.0A
Other languages
English (en)
Other versions
CN111506776A (zh
Inventor
刘睿
靳丁南
罗欢
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN201911088473.0A priority Critical patent/CN111506776B/zh
Publication of CN111506776A publication Critical patent/CN111506776A/zh
Application granted granted Critical
Publication of CN111506776B publication Critical patent/CN111506776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据标注方法以及相关装置。其中,数据标注方法包括:将待标注数据输入层级标注系统,确定待标注数据的数据标签;若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签;若查找到满足预设条件的数据标签,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。上述方案,能够提高错误标注处理效率,提升数据标注质量。

Description

数据标注方法以及相关装置
技术领域
本申请涉及人工智能技术领域,特别是涉及一种数据标注方法以及相关装置。
背景技术
随着近几年,深度学习、机器学习等AI(Artificial Intelligence,人工智能)领域取得了巨大突破,AI在各个领域得到了广泛和深入的应用。此外,数据标签被誉为人工智能领域的“粮食”,故此,数据标注自然而然成为人工智能领域中的一个热点。
然而,不同行业具有不同自然语言知识,而且随着科学技术的发展,相关自然语言知识越来越复杂,越来越多样,在数据标注过程中,难免会出现数据标注错误的情况,而现有技术尚无对于此类情况的应对策略,错误标注处理效率低下,继而对数据标注质量产生不利影响。有鉴于此,如何提高错误标注处理效率,提升数据标注质量成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种数据标注方法以及相关装置,能够提高错误标注处理效率,提升数据标注质量。
为了解决上述问题,本申请第一方面提供了一种数据标注方法,包括:将待标注数据输入层级标注系统,确定待标注数据的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签;若查找到满足预设条件的数据标签,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。
为了解决上述问题,本申请第二方面提供了一种数据标注装置,包括:输入模块、查找模块、分析模块和确定模块,输入模块用于将待标注数据输入层级标注系统,确定待标注数据的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;查找模块用于在待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签时,在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签;确定模块用于在查找到满足预设条件的数据标签时,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。
为了解决上述问题,本申请第三方面提供了一种数据标注装置,包括相互耦接的存储器和处理器;处理器用于执行存储器存储的程序指令,以实现上述第一方面中的数据标注方法。
为了解决上述问题,本申请第四方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的数据标注方法。
上述方案,通过将待标注数据输入层级标注系统,确定待标注数据的数据标签,且层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签,若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签,若查找到满足预设条件的数据标签,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签,从而能够对错误标注的待标注数据进行处理,使其尽可能地被正确标注,能够提高数据标注的准确性,并提高错误标注处理效率,提升数据标注质量。
附图说明
图1是本申请数据标注方法一实施例的流程示意图;
图2是层级标注系统一实施例的框架示意图;
图3是层级标注系统另一实施例的框架示意图;
图4是图1中步骤S11一实施例的流程示意图;
图5是本申请数据标注方法另一实施例的流程示意图;
图6是本申请数据标注装置一实施例的框架示意图;
图7是本申请数据标注装置另一实施例的框架示意图;
图8是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请数据标注方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:将待标注数据输入层级标注系统,确定待标注数据的数据标签。
本实施例中,层级标注系统每一层包括至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签。请结合参阅图2,图2是层级标注系统一实施例的框架示意图。层级标注系统至少包括一层,本实施例中,层级标注系统包含多层,例如,2层、3层、4层等等,图2所示的层级标注系统包括2层,且层级标注系统每一层包含至少一个数据标签,例如,1个、2个、3个等等,图2所示的层级标注系统中,第一层包括3个数据标签,第一层中每个数据标签包含子标签,第二层中每个数据标签可以包括3个子标签,且该数据标签也是这3个子标签的父标签,而第二层中的数据标签不包含子标签,也就是说,层级标注系统中,第一层的数据标签不包含父标签,而最后一层的数据标签不包含子标签。此外,层级标注系统还可以根据具体应用场景设置为不同于图2所示的层级标注系统,例如图3所示的层级标注系统,可以将层级标注系统中不包含任何子标签的数据标签设置为叶节点标签,也就是说,层级标注系统中,叶节点标签不包含子标签,本实施例在此不再一一举例。
请继续参阅图2,以消费金融领域为例,第一层的三个数据标签可以依次为“还款”、“申请”、“提现”,第二层的数据标签中,可以包含“还款”数据标签的子标签,例如:“还款日期查询”、“还款日更改条件”、“还款期数更改”,还可以包含“申请”数据标签的子标签,例如:“贷款申请”、“卡片申请”、“额度申请”,还可以包含“提现条件查询”、“提现额度查询”、“提现金额更改”,当应用于其他领域中时,层级标注系统还可以是不同于图2所示的层级标注系统,本实施例在此不再一一举例。
在一个实施场景中,层级标注系统还包括利用样本数据进行训练的数据标注的推荐模型,确定的数据标签是通过推荐模型推荐得到的。在一个具体的实施场景中,可以获取多个样本数据,其中,样本数据标注有对应于层级标注系统各个层的数据标签,从而对样本数据进行学习训练,进而得到推荐模型。
请继续参阅图2,仍以消费金融领域为例,待标注数据为“还款日期是哪天”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“还款”数据标签;或者待标注数据为“贷款额度是多少”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“贷款”数据标签;或者待标注数据为“能提现多少金额”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“提现”数据标签,其他待标注数据可以以此类推,本实施例在此不再一一举例。
步骤S12:若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签。
本实施例中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签。在一个具体的实施场景中,若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,即此时,判断非本类数据标签对应的上一层的数据标签可能标错了,则在与确定的数据标签位于同一层级且具有同一父标签的其他数据标签中查找满足预设条件的数据标签。
请结合参阅图3,在一个具体的实施场景中,待标注数据在第一层确定的数据标签为“数据标签B”,并且,待标注数据在第二层所确定的数据标签为“数据标签B2”,在确定的数据标签“数据标签B2”所对应的子标签层(即第三层)中非本类数据标签,即待标注数据既不能被标注为“数据标签B2”的其中一个子标签“数据标签B21”,也不能被标注为“数据标签B2”的另一个子标签“数据标签B22”,因此,待标注数据有可能在第二层就被错误标注了,此时,可以在与确定的数据标签“数据标签B2”位于同一层且具有同一父标签的其他数据标签(即“数据标签B1”和“数据标签B3”)中查找满足预设条件的数据标签,即查找在其他数据标签所对应的子标签层中为其他数据标签的其中一个子标签的数据标签。
步骤S13:判断是否查找到满足预设条件的数据标签。若是,则执行步骤S14。
在查找过程中,判断是否能够查找到满足预设条件的数据标签。
步骤S14:用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。
在本实施例中,待标注数据的数据标签包括:确定的子标签及该子标签对应的上一层数据标签。请继续结合参阅图3,仍以上述步骤为例,在查找过程中,若待标注数据在确定的数据标签对应的子标签层中为数据标签的其中一个子标签,则将满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。例如,在“数据标签B1”和“数据标签B3”中查找到待标注数据在“数据标签B1”所对应的子标签层中能够被标注为“数据标签B1”的其中一个子标签“数据标签B11”,则可以用上述其中一个子标签(即“数据标签B11”)以及子标签(即“数据标签B11”)上一层数据标签(即“数据标签B1”)对应标注待标注的数据标签。此外,进一步地,还可以判断确定的数据标签是否存在子标签,若不存在,则说明对待标注数据的标注已经完成。在一个具体的实施场景中,请继续结合参阅图3,待标注数据在第三层中确定的数据标签为“数据标签B11”,而“数据标签B11”不包含任何子标签,则说明待标注数据的标注已经完成。
在一个实施场景中,在查找过程中,还可能存在与确定的数据标签位于同一层级的其他数据标签较多(例如,超过10个)的情况,为了节省流程,当查找次数大于一个预设阈值(例如:10次)时,可以不再对待标注数据进行标注,将待标注数据直接发送至错误数据集,留待后续处理。
在另一个实施场景中,为了进一步提升数据标注的准确性,每个数据标签对应至少一个标注人员,每个标注人员只需标注其对应类别的数据标签。通过将待标注的数据进行分类标注,得到待标注数据的子标签;分类标注的引入使得只需培训对应类别的标注人员,每个类别的标注人员标注对应类别的数据标签,可以实现标注人员的流水线作业,降低了标注人员的培训成本,且大大提高了数据分类的效率,且提升了数据标注的准确性。请结合参阅图2,如图2所示,“还款”类数据标签对应至少一个标注人员,“申请”类数据标签对应至少一个标注人员,“提现”类数据标签对应至少一个标注人员,“还款日期查询”类数据标签对应至少一个标注人员,以此类推,本实施例在此不再赘述。此时,仍以消费金融领域为例,待标注数据为“还款日期是哪天”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“还款”数据标签,将标注有“还款”数据标签的待标注数据“还款日期是哪天”流转至与“还款”数据标签对应的标注人员,并获取标注人员对其标注的子标签,例如:“还款日期查询”子标签。其他待标注数据可以以此类推,本实施例在此不再一一举例。
此外,每类数据标签应一个用于对待标注数据进行数据标注的对应标注人员时,采用本申请中的层级标注系统,每个对应标注人员只需学习对应类别的数据标签下的相关知识,而无需学习其他类别的数据标签所对应的知识,故此,能够大大降低对标注人员的要求,降低数据标注门槛和学习成本。
在又一个实施场景中,为了进一步提升数据标注的准确性,在将确定的数据标签进行分类标注子标签之前,还可以通过推荐模型对待标注数据进行推荐,其中,待标注数据标注的分类子标签是基于推荐模型的推荐结果而确定的。例如,通过推荐模型获取待标注数据属于确定的数据标签的各个子标签的置信度,再获取标注人员基于获取到的置信度确定的子标签,具体地,可以将置信度最高的子标签作为确定的数据标签的子标签。仍以消费金融领域为例,待标注数据为“还款日期是哪天”,通过推荐模型,获取其属于数据标签“还款”的各个子标签的置信度分别为:属于子标签“还款日期查询”的置信度为90%,属于子标签“还款日期更改条件”的置信度为70%,属于子标签“还款期数更改”的置信度为50%,则确定待标注数据“还款日期是哪天”所属的数据标签“还款”的子标签为“还款日期查询”。其他待标注数据可以以此类推,本实施例在此不再一一举例。
在一个具体的实施场景中,还可能存在查找不到满足预设条件的数据标签的情况,此时,为了进一步提高数据标注的准确性,提高错误标注处理效率,提升数据标注质量,还可以在确定的数据标签所在层级的上一层进行进一步的分析,具体可以包括如下步骤:
步骤S15:对待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签。
在查找过程中,如果查找不到满足预设条件的数据标签,则说明待标注数据在确定的数据标签的父标签所在的层级中已经被错误标注,此时可以对待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签。
在一个具体的实施场景中,请结合参阅图3,待标注数据在第一层确定的数据标签为“数据标签B”,并且,待标注数据在第二层所确定的数据标签为“数据标签B2”,在确定的数据标签“数据标签B2”所对应的子标签层(即第三层)中非本类数据标签,即待标注数据既不能被标注为“数据标签B2”的其中一个子标签“数据标签B21”,也不能被标注为“数据标签B2”的另一个子标签“数据标签B22”,因此,待标注数据有可能在第二层就被错误标注了,此时,可以在与确定的数据标签“数据标签B2”位于同一层且具有同一父标签的其他数据标签(即“数据标签B1”和“数据标签B3”)中查找满足预设条件的数据标签,即查找在其他数据标签所对应的子标签层中为其他数据标签的其中一个子标签的数据标签,若查找不到满足预设条件的数据标签,则说明待标注数据在确定的数据标签(即“数据标签B2”)的父标签(即数据标签B)所在的层级中可能就被错误标注了,此时可以在确定的数据标签(即“数据标签B2”)的父标签(即数据标签B)所在的层级进行相似度分析,获取待标注数据的相似数据标签,如“数据标签C”。
步骤S16:若确定的数据标签的父标签与相似数据标签不是同一数据标签,则将相似数据标签确定为待标注数据的与相似数据标签同层的数据标签。
如果确定的数据标签的父标签与相似数据标签为同一数据标签,则说明待标注数据在确定的数据标签的父标签所在层级中可能未被错误标注,此时为了节省流程,可以将其发送至错误数据集中,留待后续分析、处理。反之,如果确定的数据标签的父标签与相似数据标签不是同一数据标签,则说明待标注数据在确定的数据标签的父标签所在层级中可能被错误标注,此时可将相似数据标签确定为待标注数据的与相似数据标签同层的数据标签。在一个具体的实施场景中,在将相似数据标签确定为待标注数据的数据标签之后,可以进一步判断待标注数据在所确定的数据标签所对应的子标签层中是否为非本类数据标签,并重新执行若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签的步骤以及后续步骤,以对待标注数据继续进行标注。
上述方案,通过将待标注数据输入层级标注系统,确定待标注数据的数据标签,且层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签,若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签,若查找到满足预设条件的数据标签,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。从而能够对错误标注的待标注数据进行处理,使其尽可能地被正确标注,提高数据标注的准确性,并提高错误标注处理效率,提升数据标注质量。
请参阅图4,图4是图1中步骤S11一实施例的流程示意图。具体地,本实施例中,层级标注系统包括推荐模型,上述步骤S11可以包括:
步骤S111:将待标注数据输入层级标注系统的推荐模型中,获取待标注数据属于层级标注系统中各个数据标签的置信度。
请结合参阅图2,通过推荐模型,获取待标注数据“还款日期是哪天”属于层级标注系统第一层中各个数据标签的置信度,例如,属于数据标签“还款”的置信度是90%,属于数据标签“申请”的置信度是50%,属于数据标签“提现”的置信度是40%。其他待标注数据可以以此类推,本实施例在此不再一一举例。
步骤S112:将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签。
仍以上述待标注数据“还款日期是哪天”为例,在得到各个数据标签的置信度之后,可以将置信度最高的数据标签“还款”作为待标注数据“还款日期是哪天”推荐的数据标签。其他待标注数据可以以此类推,本实施例在此不再一一举例。
上述方案,通过推荐模型获取待标注数据各个数据标签的置信度,并将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签,能够尽可能地降低对人工经验的依赖,提高数据标注的质量和效率。
请参阅图5,图5是本申请数据标注方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S51:将待标注数据输入层级标注系统,确定待标注数据的数据标签。
本实施例中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签。
具体请参阅上述实施例中的步骤S11。
步骤S52:若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签。
本实施例中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签。
具体请参阅上述实施例中的步骤S12。
步骤S53:判断是否查找到满足预设条件的数据标签。若是,则执行步骤S54,否则执行步骤S55。
在查找过程中,判断是否能够查找到满足预设条件的数据标签。
步骤S54:用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。。
具体请参阅上述实施例中的步骤S14。
步骤S55:对待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签。
具体请参阅上述实施例中的步骤S15。
步骤S56:若确定的数据标签的父标签与相似数据标签为同一数据标签,则将待标注数据发送至错误数据集。
如果确定的数据标签的父标签与相似数据标签为同一数据标签,则说明待标注数据在确定的数据标签的父标签所在层级中可能未被错误标注,此时为了节省流程,可以将其发送至错误数据集中,从而后续可以对错误数据集中的待标注数据进行集中处理。
步骤S57:对错误数据集中的待标注数据进行分析,并基于分析结果更新层级标注系统中的数据标签。
本实施例中,可以对错误数据集中的待标注数据进行聚类分析,获取至少一个数据聚类,并对至少一个数据聚类进行标注,得到数据聚类的数据标签,最终基于得到的数据标签更新层级标注系统。
在一个具体的实施场景中,请结合参阅图2,待标注数据“注销账户要满足哪些条件”、“怎么注销账户”在经过上述实施例中的步骤之后,被纳入至错误数据集,此时,可以对这些待标注数据进行聚类分析,而将待标注数据“注销账户需要满足哪些条件”、“怎么注销账户”归为同一数据聚类“注销”,在此基础上对数据聚类进行分析、标注,得到该数据聚类的数据标签:第一层数据标签“注销”、第二层数据标签“注销条件查询”、“注销流程查询”,从而基于得到的数据标签更新层级标注系统,将如图2所示的层级标注系统中的第一层新增“注销”数据标签,并在第二层新增“注销”数据标签的子标签“注销条件查询”、“注销流程查询”。当错误数据集中的待标注数据为其他数据时,可以以此类推,本实施例在此不再一一举例。
在另一个具体的实施场景中,请继续结合参阅图2,待标注数据“提现办理网点在哪里”、“离我最近的提现网点在哪里”在经过上述实施例中的步骤之后,被纳入至错误数据集,此时,可以对这些待标注数据进行聚类分析,得到数据聚类“提现”,在此基础上对数据聚类进行分析、标注,得到该数据聚类的数据标签:第一层数据标签“提现”、第二层数据标签“提现网点查询”,从而基于得到的数据标签更新层级标注系统,将如图2所示的层级标注系统中“提现”数据标签下新增一个子标签“提现网点查询”。当错误数据集中的待标注数据为其他数据时,可以以此类推,本实施例在此不再一一举例。
本实施例中对待标注数据进行聚类分析的方法可以包括但不限于:基于划分的聚类算法,例如:K-Means算法、K-Medoids算法、Clarans算法;基于层次的聚类算法,例如:Birch算法、Cure算法、Chameleon算法;基于密度的算法,例如:Dbscan算法、Optics算法、Denclue算法;以及基于网格的算法,例如:Sting算法、Clique算法、Wave-cluster算法,关于上述算法的具体技术细节为本领域的现有技术,本实施例在此不再赘述。
区别于前述实施例,通过对错误数据集中的待标注数据进行分析,并基于分析结果更新层级标注系统中的数据标签,进而使得层级标注系统在数据标注的过程中能够不断地更新,使得行业知识构建可以遵循从简单到复杂循序渐进的过程,无需最开始就追求对行业知识进行充分、全面地分类,故此,能够降低数据标注难度。
请参阅图6,图6是本申请数据标注装置60一实施例的框架示意图。数据标注装置60包括输入模块61、查找模块62和确定模块63,输入模块61用于将待标注数据输入层级标注系统,确定待标注数据的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;查找模块62用于在待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签时,在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签;确定模块63用于在查找到满足预设条件的数据标签时,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签。。
上述方案,通过将待标注数据输入层级标注系统,确定待标注数据的数据标签,且层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签,若待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,预设条件包括:待标注数据被标注为其他数据标签对应的其中一个子标签,若查找到满足预设条件的数据标签,则用满足预设条件的数据标签的子标签及满足预设条件的数据标签的子标签的上一层数据标签对应标注待标注数据的数据标签,从而能够对错误标注的待标注数据进行处理,使其尽可能地被正确标注,能够提高数据标注的准确性,并提高错误标注处理效率,提升数据标注质量。
在一些实施例中,数据标注装置60还包括分析模块,用于在查找不到满足预设条件的数据标签时,对待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签,确定模块63还用于在确定的数据标签的父标签与所述相似数据标签不是同一数据标签时,则将相似数据标签确定为待标注数据的与相似数据标签同层的数据标签。
区别于前述实施例,在查找不到满足预设条件的数据标签时,对待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签,并在确定的数据标签的父标签与相似数据标签不是同一数据标签时,将相似数据标签确定为待标注数据的数据标签,能够进一步提高数据标注的准确性,提高错误标注处理效率,提升数据标注质量。
在一些实施例中,数据标注装置60还包括发送模块,用于在确定的数据标签的父标签与相似数据标签为同一数据标签时,将待标注数据发送至错误数据集,分析模块还用于对错误数据集中的待标注数据进行分析,数据标注装置60还包括更新模块,用于基于分析结果更新层级标注系统中的数据标签。
区别于前述实施例,通过对错误数据集中的待标注数据进行分析,并基于分析结果更新层级标注系统中的数据标签,进而使得层级标注系统在数据标注的过程中能够不断地更新,使得行业知识构建可以遵循从简单到复杂循序渐进的过程,无需最开始就追求对行业知识进行充分、全面地分类,故此,能够降低数据标注难度。
在一些实施例中,分析模块包括聚类分析子模块,用于对错误数据集中的待标注数据进行聚类分析,获取至少一个数据聚类,分析模块还包括聚类标注子模块,用于对至少一个数据聚类进行标注,得到数据聚类的数据标签,更新模块具体用于基于得到的数据标签更新层级标注系统。
在一些实施例中,层级标注系统包括推荐模型,输入模块61包括置信度获取子模块,用于将待标注数据输入层级标注系统的推荐模型中,获取待标注数据属于层级标注系统中各个数据标签的置信度,输入模块61还包括数据标签推荐子模块,用于将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签。
区别于前述实施例,通过推荐模型获取待标注数据各个数据标签的置信度,并将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签,能够尽可能地降低对人工经验的依赖,提高数据标注的质量和效率。
在一些实施例中,数据标注装置60还包括样本数据获取模块,用于获取多个样本数据,其中,样本数据标注有对应于层级标注系统各个层的数据标签,数据标注装置60还包括学习训练模块,用于对样本数据进行学习训练,得到推荐模型。
在一些实施例中,更新模块还用于在待标注数据在确定的数据标签对应的子标签层中为数据标签的其中一个子标签时,将其中一个子标签确定为待标注数据的数据标签。
在一些实施例中,上述模块还可以用于执行上述数据标注方法实施例中的其他步骤,具体可以参考上述任一数据标注方法实施例,本实施例在此不再赘述。
请参阅图7,图7是本申请数据标注装置70一实施例的框架示意图。本实施例中,数据标注装置70包括相互耦接的存储器71和处理器72;处理器72用于执行存储器71存储的程序指令,以实现上述任一数据标注方法实施例的步骤。
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一数据标注方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由多个集成电路芯片共同实现。
上述方案,能够进而大大提高错误标注处理效率,提升数据标注质量。
请参阅图8,图8是本申请存储装置80一实施例的框架示意图。存储装置80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一数据标注方法实施例中的步骤。
上述方案,能够进而大大提高错误标注处理效率,提升数据标注质量。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (8)

1.一种数据标注方法,其特征在于,包括:
将待标注数据输入层级标注系统,确定所述待标注数据的数据标签;其中,所述层级标注系统每一层包含至少一个数据标签,每个所述数据标签包含至少一个子标签,和/或,每个所述数据标签包含一个父标签;
若所述待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签,则在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,所述预设条件包括:所述待标注数据被标注为所述其他数据标签对应的其中一个子标签;
若查找到满足预设条件的数据标签,则用所述满足预设条件的数据标签的子标签及所述满足预设条件的数据标签的子标签的上一层数据标签对应标注所述待标注数据的数据标签;
若查找不到满足所述预设条件的数据标签,则对所述待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取所述待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签;
若确定的数据标签的父标签与所述相似数据标签不是同一数据标签,则将所述相似数据标签确定为所述待标注数据的与所述相似数据标签同层的数据标签;
若确定的数据标签的父标签与所述相似数据标签为同一数据标签,则将所述待标注数据发送至错误数据集;
对所述错误数据集中的待标注数据进行分析,并基于分析结果更新所述层级标注系统中的数据标签。
2.根据权利要求1所述的数据标注方法,其特征在于,所述对所述错误数据集中的待标注数据进行分析,并基于分析结果更新所述层级标注系统中的数据标签包括:
对所述错误数据集中的待标注数据进行聚类分析,获取至少一个数据聚类;
对所述至少一个数据聚类进行标注,得到所述数据聚类的数据标签;
基于得到的数据标签更新所述层级标注系统。
3.根据权利要求1所述的数据标注方法,其特征在于,所述层级标注系统包括推荐模型,所述将待标注数据输入层级标注系统,确定所述待标注数据的数据标签包括:
将所述待标注数据输入层级标注系统的推荐模型中,获取所述待标注数据属于所述层级标注系统中各个数据标签的置信度;
将置信度最高的数据标签推荐为所述待标注数据在所述层级标注系统中的数据标签。
4.根据权利要求3所述的数据标注方法,其特征在于,所述将所述待标注数据输入层级标注系统的推荐模型中,获取所述待标注数据属于所述层级标注系统中各个数据标签的置信度之前,所述方法还包括:
获取多个样本数据,其中,所述样本数据标注有对应于所述层级标注系统各个层的数据标签;
对所述样本数据进行学习训练,得到所述推荐模型。
5.根据权利要求1所述的数据标注方法,其特征在于,所述方法还包括:
若所述待标注数据在确定的数据标签对应的子标签层中为所述数据标签的其中一个子标签,则将所述其中一个子标签确定为所述待标注数据在所述子标签层中的数据标签。
6.一种数据标注装置,其特征在于,包括:
输入模块,用于将待标注数据输入层级标注系统,确定所述待标注数据的数据标签;其中,所述层级标注系统每一层包含至少一个数据标签,每个所述数据标签包含至少一个子标签,和/或,每个所述数据标签包含一个父标签;
查找模块,用于在所述待标注数据在确定的数据标签所对应的子标签层中为非本类数据标签时,在与确定的数据标签位于同一层级的其他数据标签中查找满足预设条件的数据标签,其中,所述预设条件包括:所述待标注数据被标注为其他数据标签对应的其中一个子标签;
确定模块,用于在查找到满足预设条件的数据标签时,则用所述满足预设条件的数据标签的子标签及所述满足预设条件的数据标签的子标签的上一层数据标签对应标注所述待标注数据的数据标签;
分析模块,用于在查找不到满足所述预设条件的数据标签时,对所述待标注数据在确定的数据标签的父标签所在的层级进行相似度分析,获取所述待标注数据在确定的数据标签的父标签所在的层级中的相似数据标签;
所述确定模块还用于在确定的数据标签的父标签与所述相似数据标签不是同一数据标签时,将所述相似数据标签确定为所述待标注数据的与所述相似数据标签同层的数据标签;
发送模块,用于在确定的数据标签的父标签与所述相似数据标签为同一数据标签时,将所述待标注数据发送至错误数据集;
所述分析模块还用于对所述错误数据集中的待标注数据进行分析;
更新模块,用于基于分析结果更新所述层级标注系统中的数据标签。
7.一种数据标注装置,其特征在于,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序指令,以实现权利要求1至5任一项所述的方法。
8.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至5任一项所述的方法。
CN201911088473.0A 2019-11-08 2019-11-08 数据标注方法以及相关装置 Active CN111506776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088473.0A CN111506776B (zh) 2019-11-08 2019-11-08 数据标注方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088473.0A CN111506776B (zh) 2019-11-08 2019-11-08 数据标注方法以及相关装置

Publications (2)

Publication Number Publication Date
CN111506776A CN111506776A (zh) 2020-08-07
CN111506776B true CN111506776B (zh) 2021-03-30

Family

ID=71875785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088473.0A Active CN111506776B (zh) 2019-11-08 2019-11-08 数据标注方法以及相关装置

Country Status (1)

Country Link
CN (1) CN111506776B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445831B (zh) * 2021-02-01 2021-05-07 南京爱奇艺智能科技有限公司 数据标注方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110101B (zh) * 2009-12-29 2013-01-16 北大方正集团有限公司 一种数字内容标引方法及装置
US9037600B1 (en) * 2011-01-28 2015-05-19 Yahoo! Inc. Any-image labeling engine
CN107832287A (zh) * 2017-09-26 2018-03-23 晶赞广告(上海)有限公司 一种标签识别方法及装置、存储介质、终端
CN108427661A (zh) * 2018-03-19 2018-08-21 广州汇智通信技术有限公司 一种新大数据标签生产方法及装置
CN108984618B (zh) * 2018-06-13 2021-02-02 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和计算机可读存储介质
CN109325213B (zh) * 2018-09-30 2023-11-28 北京字节跳动网络技术有限公司 用于标注数据的方法和装置
CN109255128B (zh) * 2018-10-11 2023-11-28 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质

Also Published As

Publication number Publication date
CN111506776A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US11593458B2 (en) System for time-efficient assignment of data to ontological classes
US9875319B2 (en) Automated data parsing
US8688603B1 (en) System and method for identifying and correcting marginal false positives in machine learning models
US9104709B2 (en) Cleansing a database system to improve data quality
CN110852107B (zh) 一种关系提取方法、装置、及存储介质
CN108496190B (zh) 用于从电子数据结构中提取属性的注释系统
US20220100963A1 (en) Event extraction from documents with co-reference
US10699112B1 (en) Identification of key segments in document images
US20220100772A1 (en) Context-sensitive linking of entities to private databases
CN113254507B (zh) 一种数据资产目录智能构建盘点方法
US20220335335A1 (en) Method and system for identifying mislabeled data samples using adversarial attacks
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN111506776B (zh) 数据标注方法以及相关装置
Pullar-Strecker et al. Hitting the target: stopping active learning at the cost-based optimum
KR102271810B1 (ko) 기계 학습을 통한 학습 모델을 사용한 정보 제공 방법 및 장치
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
JP2022082523A (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN106775694B (zh) 一种软件配置代码制品的层次分类方法
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN111506554B (zh) 数据标注方法以及相关装置
CN115098657A (zh) 自然语言转换数据库查询语句的方法、设备及介质
CN112364169B (zh) 基于nlp的wifi识别方法、电子设备和介质
CN112329440B (zh) 一种基于两阶段筛选和分类的关系抽取方法和装置
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant