CN110472054B

CN110472054B - 一种数据处理方法和装置

Info

Publication number: CN110472054B
Application number: CN201910753601.2A
Authority: CN
Inventors: 张晴晴; 刘天宇; 杨金富; 罗磊; 马光谦; 汪洋
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2023-05-23
Anticipated expiration: 2039-08-15
Also published as: CN110472054A

Abstract

本发明公开一种数据处理方法和装置，该方法包括以下步骤：在多个标注员完成多种类型的语音标注任务后，获取每个所述标注员的标注数据，所述标注数据用于表示对语音标注任务的标注质量；根据所述标注数据，对所述多个标注员进行聚类，确定每个所述标注员擅长的任务类型和不擅长的任务类型。本发明通过多种类型的语音标注任务对标注员进行自动培训平台，有利于标注员熟悉任务规则和培训标注能力，利用标注员的标注数据对标注员进行准确性维度和能效比维度的分析，确定标注员擅长的任务，对标注员的能力有一个先验知识，从而针对性地分配标注任务，提高标注质量，并辅助质检员工作，减少质检员的工作。

Description

一种数据处理方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种数据处理方法和装置。

背景技术

随着语音技术的发展，对语音模型的要求越来越高，而一个有效的语音模型依赖海量的语音数据进行训练，且数据准确性越高，语音模型越好。

现有技术中，通常采用人工标注的方法获取标注结果，再通过质检对标注结果进行合格验收，而标注员在领取任务后需要熟悉标注规则和标注任务，标注结果的质量相对较差，质检员需要对标注结果进行严格把控，导致标注效率较低。

发明内容

本发明提供了一种数据处理方法和装置，以提高标注效率。

本发明提供了一种数据处理方法，包括以下步骤：

在多个标注员完成多种类型的语音标注任务后，获取每个所述标注员的标注数据，所述标注数据用于表示对语音标注任务的标注质量；

根据所述标注数据，对所述多个标注员进行聚类，确定每个所述标注员擅长的任务类型和不擅长的任务类型。

可选地，所述标注数据包括语音文本正确性；

所述获取每个所述标注员的标注数据，包括：

获取每个所述标注员完成每个语音标注任务后得到的标注文本；

通过对所述标注文本与所述语音标注任务对应的标准文本进行对比，确定多种类型错误的出现次数，所述多种类型错误包括插入错误、删除错误和替换任务；

根据所述语音标注任务的类型，确定每种类型的错误的权重；

根据所述每种类型错误的权重，计算文本错误率；

判断所述文本错误率是否大于第一预设阈值，如果是，则确定语音文本不正确；否则，确定语音文本正确。

可选地，所述标注数据包括标注时间正确性；

所述获取每个所述标注员的标注数据，包括：

获取每个所述标注员完成每个语音标注任务后得到的标注时间点；

获取所述标注时间点与所述语音标注任务对应的标准时间点的交集和并集；

判断所述交集与所述并集的比值是否大于第二预设阈值，如果是，则确定标注时间不正确；否则，确定标注时间正确。

可选地，所述标注数据包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比。

可选地，所述根据所述标注数据，对所述多个标注员进行聚类，确定每个所述标注员擅长的任务类型和不擅长的任务类型，包括：

针对每个标注员，判断其对每种类型的语音标注任务的标注数据是否满足预设条件，若满足，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。

本发明还提供了一种数据处理装置，包括：

获取模块，用于在多个标注员完成多种类型的语音标注任务后，获取每个所述标注员的标注数据，所述标注数据用于表示对语音标注任务的标注质量；

聚类模块，用于根据所述标注数据，对所述多个标注员进行聚类，确定每个所述标注员擅长的任务类型和不擅长的任务类型。

可选地，所述标注数据包括语音文本正确性；

所述获取模块，具体用于获取每个所述标注员完成每个语音标注任务后得到的标注文本；通过对所述标注文本与所述语音标注任务对应的标准文本进行对比，确定多种类型错误的出现次数，所述多种类型错误包括插入错误、删除错误和替换任务；根据所述语音标注任务的类型，确定每种类型的错误的权重；根据所述每种类型错误的权重，计算文本错误率；判断所述文本错误率是否大于第一预设阈值，如果是，则确定语音文本不正确；否则，确定语音文本正确。

可选地，所述标注数据包括标注时间正确性；

所述获取模块，具体用于获取每个所述标注员完成每个语音标注任务后得到的标注时间点；获取所述标注时间点与所述语音标注任务对应的标准时间点的交集和并集；判断所述交集与所述并集的比值是否大于第二预设阈值，如果是，则确定标注时间不正确；否则，确定标注时间正确。

可选地，所述聚类模块，具体用于针对每个标注员，判断其对每种类型的语音标注任务的标注数据是否满足预设条件，若满足，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。

本发明通过多种类型的语音标注任务对标注员进行自动培训平台，有利于标注员熟悉任务规则和培训标注能力，利用标注员的标注数据对标注员进行准确性维度和能效比维度的分析，确定标注员擅长的任务，对标注员的能力有一个先验知识，从而针对性地分配标注任务，提高标注质量，并辅助质检员工作，使质检员更多关注于培训时得分较低的标注员的标注文本，减少质检员的工作。

附图说明

图1为本发明实施例中的一种数据处理方法流程图；

图2为本发明实施例中的一种数据处理装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据处理方法，如图1所示，包括以下步骤：

步骤101，在多个标注员完成多种类型的语音标注任务后，获取每个标注员的标注数据。

其中，标注数据用于表示对语音标注任务的标注质量。标注数据可以包括语音文本正确性，也可以包括标注时间正确性，还可以包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比。

具体地，当标注数据包括语音文本正确性时，可以获取每个标注员完成每个语音标注任务后得到的标注文本；通过对标注文本与语音标注任务对应的标准文本进行对比，确定多种类型错误的出现次数，该多种类型错误包括插入错误、删除错误和替换任务；根据语音标注任务的类型，确定每种类型的错误的权重；根据每种类型错误的权重，计算文本错误率；判断文本错误率是否大于第一预设阈值，如果是，则确定语音文本不正确；否则，确定语音文本正确。

当标注数据包括标注时间正确性时，获取每个标注员完成每个语音标注任务后得到的标注时间点；获取标注时间点与语音标注任务对应的标准时间点的交集和并集；判断交集与并集的比值是否大于第二预设阈值，如果是，则确定标注时间不正确；否则，确定标注时间正确。

步骤102，根据标注数据，对多个标注员进行聚类，确定每个标注员擅长的任务类型和不擅长的任务类型。

具体地，可以针对每个标注员，判断其对每种类型的语音标注任务的标注数据是否满足预设条件，若满足，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。本实施例可以基于机器学习的聚类算法，对多个标注员进行聚类。

其中，当标注数据包括语音文本正确性时，可以针对每个标注员，判断其对每种类型的语音标注任务的语音文本是否正确，如果正确，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。当标注数据包括标注时间正确性时，可以针对每个标注员，判断其对每种类型的语音标注任务的标注时间是否正确，如果正确，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。

当标注数据包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比时，可以针对每个标注员，判断其对每种类型的语音标注任务的标注数据与预设阈值是否满足预设关系，如果是，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。例如，可以判断标注员对每种类型的语音标注任务的一次通过率是否大于第三预设阈值，如果是，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。可以判断标注员对每种类型的语音标注任务的文本修改率是否小于第四预设阈值，如果是，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。

本发明实施例通过多种类型的语音标注任务对标注员进行自动培训平台，有利于标注员熟悉任务规则和培训标注能力，利用标注员的标注数据对标注员进行准确性维度和能效比维度的分析，确定标注员擅长的任务，对标注员的能力有一个先验知识，从而针对性地分配标注任务，提高标注质量，并辅助质检员工作，使质检员更多关注于培训时得分较低的标注员的标注文本，减少质检员的工作。

基于上述数据处理方法，本发明实施例还提供一种数据处理装置，如图2所示，包括：

获取模块210，用于在多个标注员完成多种类型的语音标注任务后，获取每个所述标注员的标注数据，所述标注数据用于表示对语音标注任务的标注质量；

聚类模块220，用于根据所述标注数据，对所述多个标注员进行聚类，确定每个所述标注员擅长的任务类型和不擅长的任务类型。

其中，标注数据包括语音文本正确性；相应地，获取模块210，具体用于获取每个所述标注员完成每个语音标注任务后得到的标注文本；通过对所述标注文本与所述语音标注任务对应的标准文本进行对比，确定多种类型错误的出现次数，所述多种类型错误包括插入错误、删除错误和替换任务；根据所述语音标注任务的类型，确定每种类型的错误的权重；根据所述每种类型错误的权重，计算文本错误率；判断所述文本错误率是否大于第一预设阈值，如果是，则确定语音文本不正确；否则，确定语音文本正确。

其中，标注数据包括标注时间正确性；相应地，获取模块210，具体用于获取每个所述标注员完成每个语音标注任务后得到的标注时间点；获取所述标注时间点与所述语音标注任务对应的标准时间点的交集和并集；判断所述交集与所述并集的比值是否大于第二预设阈值，如果是，则确定标注时间不正确；否则，确定标注时间正确。

其中，标注数据包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比。

聚类模块220，具体用于针对每个标注员，判断其对每种类型的语音标注任务的标注数据是否满足预设条件，若满足，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。

结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，包括以下步骤：

根据所述标注数据，对所述多个标注员进行聚类，利用所述标注数据对标注员进行准确性维度和能效比维度的分析，确定每个所述标注员擅长的任务类型和不擅长的任务类型；

所述标注数据包括语音文本正确性；

所述获取每个所述标注员的标注数据，包括：

根据所述每种类型错误的权重，计算文本错误率；

判断所述文本错误率是否大于第一预设阈值，如果是，则确定语音文本不正确；否则，确定语音文本正确；

所述标注数据包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比；

所述根据所述标注数据，对所述多个标注员进行聚类，利用所述标注数据对标注员进行准确性维度和能效比维度的分析，确定每个所述标注员擅长的任务类型和不擅长的任务类型，包括：

针对每个标注员，判断其对每种类型的语音标注任务的标注数据是否满足预设条件，若满足，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务；

其中，当标注数据包括语音文本正确性时，针对每个标注员，判断其对每种类型的语音标注任务的语音文本是否正确，如果正确，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务；

当标注数据包括完成任务所需时间、文本正确分数、语音有效时长、完成任务的次数、一次通过率、文本修改率和能效比时，针对每个标注员，判断其对每种类型的语音标注任务的标注数据与预设阈值是否满足预设关系，如果是，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务；其中，判断标注员对每种类型的语音标注任务的一次通过率是否大于第三预设阈值，如果是，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务；判断标注员对每种类型的语音标注任务的文本修改率是否小于第四预设阈值，如果是，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务。

2.一种数据处理装置，其特征在于，包括：

聚类模块，用于根据所述标注数据，对所述多个标注员进行聚类，利用所述标注数据对标注员进行准确性维度和能效比维度的分析，确定每个所述标注员擅长的任务类型和不擅长的任务类型；

所述标注数据包括语音文本正确性；

所述获取模块，具体用于获取每个所述标注员完成每个语音标注任务后得到的标注文本；通过对所述标注文本与所述语音标注任务对应的标准文本进行对比，确定多种类型错误的出现次数，所述多种类型错误包括插入错误、删除错误和替换任务；根据所述语音标注任务的类型，确定每种类型的错误的权重；根据所述每种类型错误的权重，计算文本错误率；判断所述文本错误率是否大于第一预设阈值，如果是，则确定语音文本不正确；否则，确定语音文本正确；

所述聚类模块，具体用于针对每个标注员，判断其对每种类型的语音标注任务的标注数据是否满足预设条件，若满足，则确定该标注员擅长该类型的语音标注任务；否则，确定该标注员不擅长该类型的语音标注任务；