CN111506554B - 数据标注方法以及相关装置 - Google Patents
数据标注方法以及相关装置 Download PDFInfo
- Publication number
- CN111506554B CN111506554B CN201911089517.1A CN201911089517A CN111506554B CN 111506554 B CN111506554 B CN 111506554B CN 201911089517 A CN201911089517 A CN 201911089517A CN 111506554 B CN111506554 B CN 111506554B
- Authority
- CN
- China
- Prior art keywords
- data
- label
- labeled
- tag
- hierarchical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据标注方法以及相关装置。其中,数据标注方法包括:将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括推荐模型,推荐的数据标签是通过推荐模型推荐得到的;基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签;根据确定的子标签更新待标注数据的当前数据标签。上述方案,能够提高数据标注的效率和质量。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种数据标注方法以及相关装置。
背景技术
随着近几年,深度学习、机器学习等AI(Artificial Intelligence,人工智能)领域取得了巨大突破,AI技术在各个领域得到了广泛和深入的应用。此外,数据标签被誉为人工智能领域的“粮食”,故此,数据标注自然而然成为人工智能领域中的一个热点。
目前,数据标注的效率与质量往往是人工智能领域所关注的重点。有鉴于此,如何提高数据标注的效率和质量成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种数据标注方法以及相关装置,能够提高数据标注的效率和质量。
为了解决上述问题,本申请第一方面提供了一种数据标注方法,包括:将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括推荐模型,推荐的数据标签是通过推荐模型推荐得到的;基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签;根据确定的子标签更新待标注数据的当前数据标签。
为了解决上述问题,本申请第二方面提供了一种数据标注装置,包括标签推荐模块、子标签确定模块和标签更新模块,标签推荐模块用于将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的,子标签确定模块用于基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签;标签更新模块用于根据确定的子标签更新待标注数据的当前数据标签。
为了解决上述问题,本申请第三方面提供了一种数据标注装置,包括相互耦接的存储器和处理器;处理器用于执行存储器存储的程序指令,以实现上述第一方面中的数据标注方法。
为了解决上述问题,本申请第四方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的数据标注方法。
上述方案,将待标注数据输入层级标注系统,从而确定待标注数据在层级标注系统中推荐的数据标签,其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括推荐模型,推荐的数据标签是通过推荐模型推荐得到的,从而最终能够基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签,并根据确定的子标签更新待标注数据的当前数据标签,进而能够避免完全依赖人工经验进行数据分类标注,提升数据分类标注的效率和质量。
附图说明
图1是本申请数据标注方法一实施例的流程示意图;
图2是层级标注系统一实施例的框架示意图;
图3是层级标注系统另一实施例的框架示意图;
图4是图1中步骤S11一实施例的流程示意图;
图5是本申请数据标注方法另一实施例的流程示意图;
图6是本申请数据标注方法又一实施例的流程示意图;
图7是本申请数据标注装置一实施例的框架示意图;
图8是本申请数据标注装置另一实施例的框架示意图;
图9是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请数据标注方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签。
本实施例中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签。
请结合参阅图2,图2是层级标注系统一实施例的框架示意图。层级标注系统可以包含多层,例如,2层、3层、4层等等,图2所示的层级标注系统包括2层,且层级标注系统每一层包含至少一个数据标签,例如,1个、2个、3个等等,图2所示的层级标注系统中,第一层包括3个数据标签,第一层中每个数据标签包含子标签,第二层中每个数据标签可以包括3个子标签,且该数据标签也是这3个子标签的父标签,而第二层中的数据标签不包含子标签,也就是说,层级标注系统中,第一层的数据标签不包含父标签,而最后一层的数据标签不包含子标签。此外,层级标注系统还可以根据具体应用场景设置为不同于图2所示的层级标注系统,例如图3所示的层级标注系统,可以将层级标注系统中不包含任何子标签的数据标签设置为叶节点标签,在一个实施场景中,如图2所示,叶节点标签在层级标注系统中的同一层,在另一个实施场景中,如图3所示,叶节点标签在层级标注系统的不同层,本实施例在此不做具体限制。
请继续参阅图2,以消费金融领域为例,第一层的三个数据标签可以依次为“还款”、“申请”、“提现”,第二层的数据标签中,可以包含“还款”数据标签的子标签,例如:“还款日期查询”、“还款日更改条件”、“还款期数更改”,还可以包含“申请”数据标签的子标签,例如:“贷款申请”、“卡片申请”、“额度申请”,还可以包含“提现条件查询”、“提现额度查询”、“提现金额更改”,当应用于其他领域中时,层级标注系统还可以是不同于图2所示的层级标注系统,本实施例在此不再一一举例。
本实施例中,层级标注系统还包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的。在一个具体的实施场景中,可以获取多个样本数据,其中,样本数据标注有对应于层级标注系统各个层的数据标签,从而对样本数据进行学习训练,进而得到推荐模型。
请继续参阅图2,仍以消费金融领域为例,待标注数据为“还款日期是哪天”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“还款”数据标签;或者待标注数据为“贷款额度是多少”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“贷款”数据标签;或者待标注数据为“能提现多少金额”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“提现”数据标签,其他待标注数据可以以此类推,本实施例在此不再一举例。
步骤S12:基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签。
在一个实施场景中,基于确定的推荐的数据标签,通过推荐模型的进一步推荐,可以确定待标注数据所属的数据标签的子标签。请继续参阅图2,仍以消费金融领域为例,待标注数据为“还款日期是哪天”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“还款”数据标签,通过推荐模型的进一步推荐,可以确定待标注数据所属的数据标签(即“还款”数据标签)的子标签:“还款日期查询”数据标签;或者,待标注数据为“贷款额度是多少”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“贷款”数据标签,通过推荐模型的进一步推荐,可以确定待标注数据所属的数据标签(即“贷款”数据标签)的子标签:“额度申请”数据标签;或者,待标注数据为“能提现多少金额”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“提现”数据标签,通过推荐模型的进一步推荐,可以确定待标注数据所属的数据标签(即“提现”数据标签)的子标签:“提现额度查询”数据标签。其他待标注数据可以以此类推,本实施例在此不再一一举例。
在另一个实施场景中,为了进一步提升数据标注的准确性,还可以对确定推荐的数据标签的待标注数据分类标注子标签;在层级标注系统的每层数据标签中,每类数据标签对应至少一个标注人员,每个标注人员只需标注其对应类别的数据标签的标注。在本实施例中,通过将待标注的数据进行分类标注,得到待标注数据的子标签;分类标注的引入使得只需培训对应类别的标注人员,每个类别的标注人员标注对应类别的数据标签;可以实现标注人员的流水线作业,降低了标注人员的培训成本,且大大提高了数据分类的效率,且提升了数据标注的准确性。请结合参阅图2,如图2所示,“还款”类数据标签对应至少一个标注人员,“申请”类数据标签对应至少一个标注人员,“提现”类数据标签对应至少一个标注人员,“还款日期查询”类数据标签对应至少一个标注人员,以此类推,本实施例在此不再赘述。此时,仍以消费金融领域为例,待标注数据为“还款日期是哪天”,经过推荐模型的推荐,确定待标注数据在层级标注系统中推荐的数据标签为“还款”数据标签,将标注有“还款”数据标签的待标注数据“还款日期是哪天”流转至与“还款”数据标签对应的标注人员,并获取标注人员对其标注的子标签,例如:“还款日期查询”子标签。其他待标注数据可以以此类推,本实施例在此不再一一举例。
此外,每类数据标签应一个用于对待标注数据进行数据标注的对应标注人员时,采用本申请中的层级标注系统,每个对应标注人员只需学习对应类别的数据标签下的相关知识,而无需学习其他类别的数据标签所对应的知识,故此,能够大大降低对对应标注人员的要求,降低数据标注门槛和学习成本。
在又一个实施场景中,为了进一步提升数据标注的准确性,在将确定推荐的数据标签的待标注数据进行分类标注子标签之前,还可以通过推荐模型对待标注数据进行推荐,其中,待标注数据标注的分类子标签是基于推荐模型的推荐结果而确定的。例如,通过推荐模型获取待标注数据属于所属数据标签的各个子标签的置信度,再获取分类标注人员基于获取到的置信度确定的子标签,具体地,可以将置信度最高的子标签确定为待标注数据所属的数据标签的子标签。仍以消费金融领域为例,待标注数据为“还款日期是哪天”,通过推荐模型,获取其属于数据标签“还款”的各个子标签的置信度分别为:属于子标签“还款日期查询”的置信度为90%,属于子标签“还款日期更改条件”的置信度为70%,属于子标签“还款期数更改”的置信度为50%,则确定待标注数据“还款日期是哪天”所属的数据标签“还款”的子标签为“还款日期查询”。其他待标注数据可以以此类推,本实施例在此不再一一举例
步骤S13:根据确定的子标签更新待标注数据的当前数据标签。
本实施例中,可以将待标注数据的当前数据标签更新为确定的子标签。在一个具体的实施场景中,为了进一步提升数据标注的准确性,对确定推荐的数据标签的待标注数据分类标注子标签;此时将获取到的待标注数据所标注的子标签作为待标注数据的当前数据标签;在层级标注系统的每层数据标签中,每类数据标签对应至少一个标注人员,每个标注人员只需标注其对应类别的数据标签的标注。
上述方案,将待标注数据输入层级标注系统,从而确定待标注数据在层级标注系统中推荐的数据标签,其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的,从而最终能够基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签,并根据确定的子标签更新待标注数据的当前数据标签,进而能够避免完全依赖人工经验进行数据标注,提升数据标注的效率和质量。
请参阅图4,图4是图1中步骤S11一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S111:将待标注数据输入层级标注系统的推荐模型中,获取待标注数据属于层级标注系统中各个数据标签的置信度。
请结合参阅图2,通过推荐模型,获取待标注数据“还款日期是哪天”属于层级标注系统第一层中各个数据标签的置信度,例如,属于数据标签“还款”的置信度是90%,属于数据标签“申请”的置信度是50%,属于数据标签“提现”的置信度是40%。其他待标注数据可以以此类推,本实施例在此不再一一举例。
步骤S112:将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签。
仍以上述待标注数据“还款日期是哪天”为例,在得到各个数据标签的置信度之后,可以将置信度最高的数据标签“还款”作为待标注数据“还款日期是哪天”推荐的数据标签。其他待标注数据可以以此类推,本实施例在此不再一一举例。
上述方案,通过推荐模型获取待标注数据各个数据标签的置信度,并将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签,能够尽可能地降低对人工经验的依赖,提高数据标注的质量和效率。
请参阅图5,图5是本申请数据标注方法另一实施例的流程示意图。本实施例中,层级标注系统中每层的数据标签对应至少一个用于对待标注数据进行标注的标注人员,具体而言,可以包括如下步骤:
步骤S51:将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签。
其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的。
具体请参阅上述实施例中的步骤S11。
步骤S52:将确定推荐的数据标签的待标注数据流转到对应所属数据标签的标注人员中。
具体请参阅上述实施例中的步骤S12。
步骤S53:获取标注人员对待标注数据标注的标注结果。
具体请参阅上述实施例中的步骤S12。
步骤S54:判断标注结果是子标签还是非本类标识。若是子标签,则执行步骤S55,若是非本类标识,则执行步骤S56。
本实施例中,非本类标识是标注人员基于待标注数据不属于对应的数据标签中任何一个子标签而标注的。请结合参阅图3,数据标签B2对应的标注人员基于待标注数据不属于数据标签B2中任何一个子标签,则可以对待标注数据标注非本类标识。
步骤S55:将标注人员对待标注数据标注的子标签作为待标注数据的当前数据标签。
具体请参阅上述实施例中的步骤S13。
步骤S56:根据置信度将待标注数据流转至与当前数据标签同一层的其他数据标签,将其他数据标签作为待标注数据在层级标注系统中推荐的数据标签。
例如,可以根据与当前数据标签在同一层的其他数据标签的置信度高低进行流转。或者,也可以根据一默认的顺序流转至与当前数据标签同一层的其他数据标签。
本实施例中,在流转之后,还可进一步将其他数据标签作为待标注数据在层级标注系统中推荐的数据标签。
步骤S57:重新执行步骤S52以及后续步骤。
在将其他数据标签作为待标注数据在层级标注系统中推荐的数据标签之后,重新将确定推荐的数据标签的待标注数据流转到对应所属数据标签的标注人员中,从而不断循环执行上述过程,直至标注人员对待标注数据标注的标注结果为子标签时,可以确定待标注数据恢复到正常的数据标注过程中。
在一个具体的实施场景中,为了降低资源消耗,还可以在上述流转到其他数据标签的过程中,记录待标注数据的非本类标识的个数,若待标注数据的非本类标识个数大于预设阈值,则将待标注数据流转至错误数据集,预设阈值可以是5、6、7、8等等,本实施例在此不做具体限制。
在一个具体的实施场景中,还可以进一步对错误数据集中的待标注数据进行聚类分析,获取至少一个数据聚类,获取对数据聚类进行标注而得到的数据标签,基于获取到的数据标签更新层级标注系统。仍以消费金融领域为例,请结合参阅图2,待标注数据“注销账户需要满足哪些条件”、“怎么注销账户”在经过上述实施例中的步骤之后,被纳入至错误数据集,此时,可以对这些待标注数据进行聚类分析,而将待标注数据“注销账户需要满足哪些条件”、“怎么注销账户”归为同一数据聚类“注销”,对该数据聚类进行标注,从而得到第一层数据标签“注销”,第二层数据标签“注销条件查询”、“注销操作查询”,并将这些数据标签更新至图2所示的层级标注系统,更新后的层级标注系统第一层新增了“注销”数据标签,第二层新增了“注销”数据标签下的子标签“注销条件查询”、“注销操作查询”。当错误数据集中的待标注数据为其他数据,层级标注系统为不同于图2所示的层级标注系统时,还可以以此类推,对层级标注系统进行更新,从而实现对层级标注系统的动态扩展,使得层级标注系统在使用过程中不断健壮,本实施例在此不再一一举例。本实施例中对待标注数据进行聚类分析的方法可以包括但不限于:基于划分的聚类算法,例如:K-Means算法、K-Medoids算法、Clarans算法;基于层次的聚类算法,例如:Birch算法、Cure算法、Chameleon算法;基于密度的算法,例如:Dbscan算法、Optics算法、Denclue算法;以及基于网格的算法,例如:Sting算法、Clique算法、Wave-cluster算法,关于上述算法的具体技术细节为本领域的现有技术,本实施例在此不再赘述。
上述方案,通过基于待标注数据不属于对应的数据标签中任何一个子标签而将待标注数据标注上非本类标识,并进行流转,从而尽可能地使得被非本类标注的待标注数据能够再次恢复到正常标注流程中,从而增强了数据标注的鲁棒性。
请参阅图6,图6是本申请数据标注方法又一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S61:将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签。
本实施例中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的。
具体请参阅上述实施例中的步骤S11。
步骤S62:基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签。
具体请参阅上述实施例中的步骤S12。
步骤S63:根据确定的子标签更新待标注数据的当前数据标签。
具体请参阅上述实施例中的步骤S13。
步骤S64:判断当前数据标签是否存在子标签,若否,则执行步骤S65,若是,则执行步骤S66。
若当前数据标签还存在子标签,则可以认为对待标注数据的标注尚未完成,若当前数据标签不存在子标签,则可以认为已经完成对待标注数据的标注。
步骤S65:确定完成对待标注数据的标注。
当前数据标签不存在子标签,则可以确定已完成对待标注数据的标注。
步骤S66:重新执行步骤S62以及后续步骤。
当前数据标签还存在子标签,则继续基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签,并继续进行数据标签的更新、判断等步骤。
上述方案,在当前数据标签不包含子标签时,确定完成对待标注数据的标注,并在当前数据标签包含子标签时,继续进行标注,从而使得待标注数据能够按照层级标注系统的层次脉络逐层进行标注,直至标注完成,进而加强了数据标注的鲁棒性。
请参阅图7,图7是本申请数据标注装置70一实施例的框架示意图。数据标注装置70包括:标签推荐模块71、子标签确定模块72和标签更新模块73,标签推荐模块71用于将待标注数据输入层级标注系统,确定待标注数据在层级标注系统中推荐的数据标签;其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的;子标签确定模块72用于基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签;标签更新模块73用于根据确定的子标签更新待标注数据的当前数据标签。在一个实施场景中,标签更新模块73具体用于将标注人员对待标注数据标注的子标签作为待标注数据的当前数据标签。在一个实施场景中,层级标注系统至少包括一层。在一个实施场景中,位于层级标注系统的第一层的数据标签不包含父标签,位于层级标注系统的最后一层的数据标签不包含子标签。
上述方案,将待标注数据输入层级标注系统,从而确定待标注数据在层级标注系统中推荐的数据标签,其中,层级标注系统每一层包含至少一个数据标签,每个数据标签包含至少一个子标签,和/或,每个数据标签包含一个父标签;层级标注系统包括利用样本数据进行训练的数据标注的推荐模型,推荐的数据标签是通过推荐模型推荐得到的,从而最终能够基于待标注数据在层级标注系统中推荐的数据标签,确定待标注数据所属的数据标签的子标签,并根据确定的子标签更新待标注数据的当前数据标签,进而能够避免完全依赖人工经验进行数据标注,提升数据标注的效率和质量。
在一些实施例中,标签推荐模块71包括置信度获取子模块,用于将待标注数据输入层级标注系统的推荐模型中,获取待标注数据属于层级标注系统中各个数据标签的置信度,标签推荐模块71还包括标签推荐子模块,用于将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签。
区别于前述实施例,通过推荐模型获取待标注数据各个数据标签的置信度,并将置信度最高的数据标签推荐为待标注数据在层级标注系统中的数据标签,能够尽可能地降低对人工经验的依赖,提高数据标注的质量和效率。
在一些实施例中,子标签确定模块72具体用于对确定推荐的数据标签的待标注数据分类标注子标签,标签更新模块73具体用于将对待标注数据标注的子标签作为待标注数据的当前数据标签。
在一些实施例中,数据标注装置70还包括标注获取模块还用于获取对待标注数据标注的非本类标识,其中,非本类标识是基于待标注数据不属于对应的数据标签中任何一个子标签而标注的,数据标注装置70还包括数据流转模块,用于根据置信度将待标注数据流转至与当前数据标签同一层的其他数据标签,将其他数据标签作为待标注数据在层级标注系统中推荐的数据标签,数据标注装置70还包括循环执行模块,用于结合数据流转模块和标注获取模块重新执行上述相关步骤。在一个实施场景中,数据流转模块还用于在待标注数据的非本类标识个数大于预设阈值时,将待标注数据流转至错误数据集。
区别于前述实施例,通过基于待标注数据不属于对应的数据标签中任何一个子标签而将待标注数据标注上非本类标识,并进行流转,从而尽可能地使得被非本类标注的待标注数据能够再次恢复到正常标注流程中,从而增强了数据标注的鲁棒性。
在一些实施例中,数据标注装置70还包括判断模块,用于判断当前数据标签是否存在子标签,数据标注装置70还包括确定模块,用于在判断模块判断当前数据标签不存在子标签时,确定完成对待标注数据的标注,子标签确定模块72、标签更新模块73还用于结合判断模块,在判断模块判断当前数据标签存在子标签时,重新执行上述相关步骤。
区别于前述实施例,在当前数据标签不包含子标签时,确定完成对待标注数据的标注,并在当前数据标签包含子标签时,继续进行标注,从而使得待标注数据能够按照层级标注系统的层次脉络逐层进行标注,直至标注完成,进而加强了数据标注的鲁棒性。
在一些实施例中,数据标注装置70还包括样本获取模块,用于获取多个样本数据,其中,样本数据标注有对应于层级标注系统各个层的数据标签,数据标注装置70还包括学习训练模块,用于对样本数据进行学习训练,得到推荐模型。
区别于前述实施例,对获取到样本数据进行学习训练,且样本数据标注有对应于层级标注系统各个层的数据标签,从而得到推荐模型,从而对于不同行业、不同领域均可通过上述方案得到相应的推荐模型,具有优良的可拓展性。
请参阅图8,图8是本申请数据标注装置80一实施例的框架示意图。本实施例中,数据标注装置80包括相互耦接的存储器81和处理器82;处理器82用于执行存储器81存储的程序指令,以实现上述任一数据标注方法实施例中的步骤。
具体而言,处理器82用于控制其自身以及存储器81以实现上述任一数据标注方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由多个集成电路芯片共同实现。
上述方案,能够避免完全依赖人工经验进行数据标注,提升数据标注的效率和质量。
请参阅图9,图9是本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令91,程序指令91用于实现上述任一数据标注方法实施例中的步骤。
上述方案,能够避免完全依赖人工经验进行数据标注,大大提升数据标注的效率和质量。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种数据标注方法,其特征在于,包括:
将待标注数据输入层级标注系统,确定所述待标注数据在所述层级标注系统中推荐的数据标签;其中,所述将待标注数据输入层级标注系统,确定所述待标注数据在所述层级标注系统中推荐的数据标签包括:将所述待标注数据输入所述层级标注系统的推荐模型中,获取所述待标注数据属于所述层级标注系统中各个数据标签的置信度;将置信度最高的数据标签推荐为所述待标注数据在所述层级标注系统中的数据标签;
其中,所述层级标注系统每一层包含至少一个数据标签,所述数据标签包含至少一个子标签,和/或,所述数据标签包含一个父标签;所述层级标注系统包括推荐模型,所述推荐的数据标签是通过所述推荐模型推荐得到的;
基于所述待标注数据在所述层级标注系统中推荐的数据标签,确定所述待标注数据所属的所述数据标签的子标签;其中,所述基于所述待标注数据在所述层级标注系统中推荐的数据标签,确定所述待标注数据所属的所述数据标签的子标签,包括:对确定推荐的数据标签的所述待标注数据分类标注子标签;
根据确定的子标签更新所述待标注数据的当前数据标签;
所述方法还包括:
获取对所述待标注数据标注的非本类标识,其中,所述非本类标识是基于所述待标注数据不属于对应的数据标签中任何一个子标签而标注的;
根据所述置信度将所述待标注数据流转至与所述当前数据标签同一层的其他数据标签,将所述其他数据标签作为所述待标注数据在所述层级标注系统中推荐的数据标签;
并重新执行所述对确定推荐的数据标签的所述待标注数据分类标注子标签的步骤以及后续步骤。
2.根据权利要求1所述的数据标注方法,其特征在于,
所述根据确定的子标签更新所述待标注数据的当前数据标签包括:
将对所述待标注数据标注的子标签作为所述待标注数据的当前数据标签。
3.根据权利要求1所述的数据标注方法,其特征在于,所述方法还包括:
若所述待标注数据的非本类标识个数大于预设阈值,则将所述待标注数据流转至错误数据集。
4.根据权利要求1所述的数据标注方法,其特征在于,所述根据确定的子标签更新所述待标注数据的当前数据标签之后,所述方法还包括:
判断所述当前数据标签是否存在所述子标签;
若否,则确定完成对所述待标注数据的标注;
若是,则重新执行所述基于所述待标注数据在所述层级标注系统中推荐的数据标签,确定所述待标注数据所属的所述数据标签的子标签的步骤以及后续步骤。
5.根据权利要求1所述的数据标注方法,其特征在于,所述将待标注数据输入层级标注系统,确定所述待标注数据在所述层级标注系统中推荐的数据标签之前,所述方法还包括:
获取多个样本数据,其中,所述样本数据标注有对应于所述层级标注系统各个层的数据标签;
对所述样本数据进行学习训练,得到所述推荐模型。
6.根据权利要求1-5任一项所述的数据标注方法,其特征在于,所述层级标注系统至少包括一层;和/或,
位于所述层级标注系统的第一层的数据标签不包含所述父标签,位于所述层级标注系统的最后一层的数据标签不包含所述子标签。
7.一种数据标注装置,其特征在于,包括:
标签推荐模块,用于将待标注数据输入层级标注系统,确定所述待标注数据在所述层级标注系统中推荐的数据标签;所述标签推荐模块包括置信度获取子模块,用于将所述待标注数据输入所述层级标注系统的推荐模型中,获取所述待标注数据属于所述层级标注系统中各个数据标签的置信度;所述标签推荐模块还包括标签推荐子模块,用于将置信度最高的数据标签推荐为所述待标注数据在所述层级标注系统中的数据标签;
其中,所述层级标注系统每一层包含至少一个数据标签,所述数据标签包含至少一个子标签,和/或,所述数据标签包含一个父标签;所述层级标注系统包括推荐模型,推荐的数据标签是通过所述推荐模型推荐得到的;
子标签确定模块,用于基于所述待标注数据在所述层级标注系统中推荐的数据标签,确定所述待标注数据所属的所述数据标签的子标签;所述子标签确定模块用于对确定推荐的数据标签的所述待标注数据分类标注子标签;
标签更新模块,用于根据确定的子标签更新所述待标注数据的当前数据标签;
所述数据标注装置还包括:
标注获取模块,用于获取对所述待标注数据标注的非本类标识,其中,所述非本类标识是基于所述待标注数据不属于对应的数据标签中任何一个子标签而标注的;
数据流转模块,用于根据所述置信度将所述待标注数据流转至与所述当前数据标签同一层的其他数据标签,将所述其他数据标签作为所述待标注数据在所述层级标注系统中推荐的数据标签;
循环执行模块,用于结合所述子标签确定模块、所述标签更新模块、所述标注获取模块和所述数据流转模块重新执行所述对确定推荐的数据标签的所述待标注数据分类标注子标签的步骤以及后续步骤。
8.一种数据标注装置,其特征在于,包括相互耦接的存储器和处理器;
所述处理器用于执行所述存储器存储的程序指令,以实现权利要求1至6任一项所述的方法。
9.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089517.1A CN111506554B (zh) | 2019-11-08 | 2019-11-08 | 数据标注方法以及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911089517.1A CN111506554B (zh) | 2019-11-08 | 2019-11-08 | 数据标注方法以及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506554A CN111506554A (zh) | 2020-08-07 |
CN111506554B true CN111506554B (zh) | 2021-02-19 |
Family
ID=71867238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911089517.1A Active CN111506554B (zh) | 2019-11-08 | 2019-11-08 | 数据标注方法以及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506554B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114135440A (zh) * | 2021-12-02 | 2022-03-04 | 国能思达科技有限公司 | 一种风电机组作业工艺模块化的系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280221A (zh) * | 2018-02-08 | 2018-07-13 | 北京百度网讯科技有限公司 | 关注点的层次化构建方法、装置和计算机设备 |
CN109886211A (zh) * | 2019-02-25 | 2019-06-14 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN110175227A (zh) * | 2019-05-10 | 2019-08-27 | 神思电子技术股份有限公司 | 一种基于组队学习和层级推理的对话辅助系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9104435B2 (en) * | 2009-04-14 | 2015-08-11 | Empire Technology Development Llc | Program and data annotation for hardware customization and energy optimization |
CN102110101B (zh) * | 2009-12-29 | 2013-01-16 | 北大方正集团有限公司 | 一种数字内容标引方法及装置 |
US20110307240A1 (en) * | 2010-06-10 | 2011-12-15 | Microsoft Corporation | Data modeling of multilingual taxonomical hierarchies |
US9633004B2 (en) * | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
CN106326984A (zh) * | 2016-08-09 | 2017-01-11 | 北京京东尚科信息技术有限公司 | 用户意图识别方法和装置、自动应答系统 |
CN109165284B (zh) * | 2018-08-22 | 2020-06-16 | 重庆邮电大学 | 一种基于大数据的金融领域人机对话意图识别方法 |
-
2019
- 2019-11-08 CN CN201911089517.1A patent/CN111506554B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280221A (zh) * | 2018-02-08 | 2018-07-13 | 北京百度网讯科技有限公司 | 关注点的层次化构建方法、装置和计算机设备 |
CN109886211A (zh) * | 2019-02-25 | 2019-06-14 | 北京达佳互联信息技术有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN110175227A (zh) * | 2019-05-10 | 2019-08-27 | 神思电子技术股份有限公司 | 一种基于组队学习和层级推理的对话辅助系统 |
Non-Patent Citations (4)
Title |
---|
客服中心知识运营2.0规划;搜狐网;《https://www.sohu.com/a/313376480_753232》;20190511;5 * |
层级标注系统及基于层级标签的分众分类生成算法研究;罗双玲等;《系统工程理论与实践》;20180731;第38卷(第7期);1862—1869 * |
干货 | 解密美图大规模多媒体数据检索技术DeepHash;搜狐网;《https://www.sohu.com/a/240830376_651893》;20180712;5—10 * |
用户查询意图的层次化识别方法;唐静笑等;《现代图书情报技术》;20140131(第1期);36—41 * |
Also Published As
Publication number | Publication date |
---|---|
CN111506554A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019204976B2 (en) | Intelligent data ingestion system and method for governance and security | |
US8688603B1 (en) | System and method for identifying and correcting marginal false positives in machine learning models | |
US20070214140A1 (en) | Assigning into one set of categories information that has been assigned to other sets of categories | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
CN112380870A (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
US10699112B1 (en) | Identification of key segments in document images | |
Guo et al. | Multi-label classification methods for green computing and application for mobile medical recommendations | |
CN111538794A (zh) | 一种数据融合方法、装置及设备 | |
CN112101029B (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
JP7287699B2 (ja) | 機械学習を通じての学習モデルを使った情報提供方法および装置 | |
CN112732949A (zh) | 一种业务数据的标注方法、装置、计算机设备和存储介质 | |
CN111506554B (zh) | 数据标注方法以及相关装置 | |
JP2022082523A (ja) | 機械学習基盤類似アイテムに関する情報を提供する方法および装置 | |
CN113569955A (zh) | 一种模型训练方法、用户画像生成方法、装置及设备 | |
US11567851B2 (en) | Mathematical models of graphical user interfaces | |
CN116029394B (zh) | 自适应文本情感识别模型训练方法、电子设备及存储介质 | |
CN115210705A (zh) | 具有无效值或等效值的关系表的向量嵌入模型 | |
CN111506776B (zh) | 数据标注方法以及相关装置 | |
CN116957036A (zh) | 伪造多媒体检测模型的训练方法、装置和计算设备 | |
CN112364169B (zh) | 基于nlp的wifi识别方法、电子设备和介质 | |
US11822563B2 (en) | Scoring potential actions for machine learning based recommendations | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN116186257A (zh) | 一种基于混合特征对短文本进行分类的方法及系统 | |
CN116150411A (zh) | 一种基于自适应类相关离散哈希的零样本跨模态检索方法 | |
US11625555B1 (en) | Artificial intelligence system with unsupervised model training for entity-pair relationship analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |