CN112435651B

CN112435651B - 一种语音数据自动标注的质量评估方法

Info

Publication number: CN112435651B
Application number: CN202011312501.5A
Authority: CN
Inventors: 何俊; 张彩庆; 周义方; 申时凯; 岳为好
Original assignee: Kunming University
Current assignee: Kunming University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2023-05-02
Anticipated expiration: 2040-11-20
Also published as: US20220164531A1; CN112435651A; US11790166B2

Abstract

本发明提供一种语音数据自动标注的质量评估方法，包括：基于质量关键指标，预先构建自动标注语音数据的质量规则库；读取需要被检测的自动标注语音数据，依据所述质量关键指标对所述需要被检测的自动标注语音数据进行质量检测，以完成质量度量；根据所述质量度量的结果更新自动标注语音数据集；将更新后的所述自动标注语音数据集转换为新规则导入所述质量规则库。本发明方法弥补了将传统数据标注质量评估方法用于机器自动标注数据存在的不足；对推动小语种语言语音智能化发展进程具有非常积极的支撑作用。

Description

一种语音数据自动标注的质量评估方法

技术领域

本发明涉及语言信息处理技术领域，尤其涉及一种语音数据自动标注的质量评估方法。

背景技术

近年来，数据自动标注逐步成为人工智能领域的关键基础技术，希望通过机器自动标注数据来取代人力，已在图像等领域的数据自动标注中取得较大进展。语音标注数据极度匮乏已经成为制约我国少数民族语言语音识别性能的关键因素。由于受原始数据质量、人工出错和模型局限性等因素的影响，数据标注错误难以避免，因此引入有效的质量评估方法是非常重要的，而数据标注的标准不统一、标注质量参差不齐，很大程度上阻碍了数据标注的应用和发展。

目前已有的人工数据标注质量评估方法主要包括：第一，基于人工参与的数据标注质量评估方法，主要通过质量检验员的抽样分析得出评估结论；第二，基于概率模型的质量评估方法，主要是通过标注数据质量的抽样统计实现质量评估及纠错。但这些方法主要用于人工数据标注质量评估，并不适用于自动数据标注的质量评估，主要原因是机器自动标注和人工标注的错误形成原因、质量问题类型和规律都较大差异。

发明内容

本发明的目的在于解决上述现有技术存在的缺陷，提供一种语音数据自动标注的质量评估方法，解决了以下问题：第一，对机器完成的语音自动标注数据进行质量评估，发现标注数据存在的“错标和漏标”等质量问题，从而提升数据自动标注的质量。第二，针对自动标注与人工标注的本质差异，基于现有的概率模型质量评价方法，引入基于规则库的逻辑推理机制，根据自动标注数据中常见的质量问题形成规则，通过规则比对实现质量评估和度量。

一种语音数据自动标注的质量评估方法，包括以下步骤：

步骤一：基于质量关键指标，预先构建自动标注语音数据的质量规则库；

所述质量关键指标包括：词错误率WER、句子错误率SER、偏误特征错误率PAR、用户反馈错误率CER；

步骤二：读取需要被检测的自动标注语音数据，依据所述质量关键指标对所述需要被检测的自动标注语音数据进行质量检测，以完成质量度量；

步骤三：根据所述质量度量的结果更新自动标注语音数据集；

步骤四：将更新后的所述自动标注语音数据集转换为新规则导入所述质量规则库。

进一步地，如上所述的语音数据自动标注的质量评估方法，步骤一中所述构建自动标注语音数据的质量规则库包括以下步骤：

步骤11，生成基础规则层；根据所述质量关键指标生成基础规则，作为规则库的基础标准；所述基础规则层包括预先构建的规则，质量评估过程中不进行规则导入操作；

步骤12，生成自定规则层；根据业务需求定义规则，分别生成数据标注规则；所述数据标注规则包括：语音数据自动标注规则、小语种数据标注规则；质量评估过程中生成的新规则导入自定规则层进行存储；

步骤13，生成用户规则层；测试用户反馈质量结果，采用统一的文本模板收集反馈意见，进行人工审核后入库生成新规则；

步骤14，规则检测；检测以上所有规则之间在逻辑上是否存在冲突，对有逻辑冲突的规则进行修改后再进行检测，直到所有逻辑冲突消失；

步骤15：将检测完成的规则库作为所述质量规则库。

进一步地，如上所述的语音数据自动标注的质量评估方法，所述步骤二包括以下步骤：

步骤21：获取所述所述需要被检测的自动标注语音数据，分别将数据中对词进行标注、句子进行标注、偏误特征进行标注的标签分离出来，存储为词标注集、句子标注集和偏误标注集；

步骤22：词标注集与所述质量规则库中的词错误率规则进行逐一比对，分别记录标注错误词数量，再计算词错误率并记录错误位置和类型；

步骤23：句子标注集与所述质量规则库中的句子错误率规则进行逐一比对，记录标注错误句子的数量，再计算句子错误率并记录错误位置和类型；

步骤24：偏误标注集与所述质量规则库中的偏误特征规则进行逐一比对，记录未标注偏误特征的句子数量，再计算偏误特征未标注率并记录错误位置和类型；

步骤25：分别将上述词标注集、句子标注集和偏误标注集与用户反馈错误规则进行逐一比对，记录通过比对发现的错误，再计算用户反馈错误率并记录错误位置和类型；

步骤26：按上述词错误率、句子错误率、偏误特征未标注率和用户反馈错误率进行公式计算，获得每一个自动标注语音数据集的质量评分；

其中，质量评分公式为：

AQM＝(q₁WER+q₂SER+q₃PAR+q₄CER)*100％，其中：q₁、q₂、q₃、q₄分别表示所述质量关键指标的权重，并满足

AQM表示质量评分。

进一步地，如上所述的语音数据自动标注的质量评估方法，所述词错误率计算为：WER＝(S+D+I)/N，S表示需要替换的标注错误词数，D表示需要删除的标注错误词数，I表示需要插入的标注错误词数，N表示标注词汇总量；对应基础规则层和自定规则层；

所述句子错误率计算为：SER＝EN/TN，EN表示标注错误的句子数，若句子中有词标注错误则判断为该句子错误，TN表示标注的句子总数；对应基础规则层和自定规则层；

所述偏误特征错误率计算为：PAR＝AN/TN，其中AN表示未标注偏误特征的句子数量，TN表示规则库中的偏误特征总数；对应基础规则层和自定规则层；

所述用户反馈错误率计算为：CER＝(w₁*B₁+w₂*B₂+w₃*B₃)/N，其中B₁、B₂、B₃分别表示在用户反馈错误规则中该样本数据的词错误标注数量、句子错误数量和偏误特征错误数量，w₁、w₂、w₃表示对应的权重，N表示该样本数据中三类错误的总和；对应用户规则层。

进一步地，如上所述的语音数据自动标注的质量评估方法，所述步骤13包括以下步骤：

步骤131：预先给定规则模板，用于当测试用户发现自动标注语音数据集质量问题时填写模板并反馈；采用所述规则模板生成的用户反馈可直接读取并导入所述质量规则库；

步骤132：人工审核反馈意见的规范性和合理性，审核通过，则导入所述质量规则库，否则不导入。

进一步地，如上所述的语音数据自动标注的质量评估方法，所述步骤三包括：

步骤31：设置质量阈值，如果质量评分大于阈值则不进行更新；

步骤32：若质量评分小于质量阈值，则进行更新处理；按照质量评分过程中记录的错误位置和类型，分别对自动标注语音数据进行标签删除、替换和插入处理；

步骤33：更新处理后再次进行质量评估，直至质量评分大于阈值。

进一步地，如上所述的语音数据自动标注的质量评估方法，所述步骤四包括：

步骤41：将自动标注语音数据集评估过程中分离并记录下来的标签进行分类存储；

步骤42：按照预先给定规则模板，将所述分类标签转换为规则模板的格式，生成新规则；

步骤43：将上述新规则导入质量规则库的自定规则层进行存储。

本发明的优点是：

第一、本发明是一种专门针对语音数据自动标注的质量评估方法，与现有的人工数据标注或半自动数据标注方法有较大区别。

第二、本发明是采用基于规则库的“逻辑推理”实现质量评估，不同于现有的人工评估和概率模型评估方法。并通过将规则库分层，处理传统错误、方言偏误、用户反馈等多层级的评估指标，确保评估方法的全面和有效。

具体地说，现有深度学习方法绝大多数都是基于概率模型的方法，语音自动标注的数据也是基于神经网络等概率模型方法获得的。因此，不能再采用同样的理论方法进行质量评估。采用规则库的方法具有以下优势：

1、可以将人类总结的质量评估经验以规则(知识)的形式进行表示并重复利用；

2、采用基于规则库的质量检测方式，弥补了“机器学习模型训练得到的自动标注结果”存在的不足(如：数据样本不足、过拟合、模型缺陷等)，真正实现了人类逻辑知识与基于数据的概率模型训练结果相互结合、取长补短。大大提升数据标注质量。

3、机器自动标注数据出现的错误是有规律可寻的，且通常会反复、大量出现，使规则库的方法更容易识别这些错误(往往一类错误就会使分值大幅度降低)，并处理错误。

第三、本发明引入用户反馈机制，是一种避免机器自动标注发生的“漏标”、“错标”等纠错机制。

本发明是的积极效果是：

(1)弥补了将传统数据标注质量评估方法用于机器自动标注数据存在的不足；

(2)针对语音(特别是受方言和汉语借来词影响较大的少数民族语言)设计专门的数据标注质量评估方法。对推动小语种语言语音智能化发展进程具有非常积极的支撑作用。

附图说明

图1为本发明语音数据自动标注的质量评估方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

自动标注数据的质量检测机制。由于人类和机器对“标注错误”的理解存在差距，对计算机自动完成的大量自动标注数据质量检测存在一定难度，因此需要适当借助原人工方法。检测机制设计的基本思想是：建立质量评价关键指标体系，并抽取标注流程中容易“犯错误”点建立规则库，如：句头、句尾词汇，汉语借来词汇，分支语言差异词汇等等。此外，需引入测试用户使用反馈机制来逐步丰富规则库。

数据标注质量度量方法。数据自动标注方法采用基于概率的学习模型，而质量度量则需要更加“精确”的方法，因此本发明采用基于关键指标的度量方法。建立包括词错误率、句子错误率、特征错误率、用户反馈率等因素的指标体系，通过大量自动标注数据的质量评估不断优化指标权重，并利用质量反馈机制优化参数，不断提高模型性能。

由于数据自动标注模型主要采用概率模型方法，而采用基于规则逻辑推理的方法对标注质量进行检测将更有效。目前，大数据技术领域中基于规则库的数据清洗技术较为成熟，本发明拟对这些方法进行研究并在此基础上构建“基于规则库的语音自动标注数据质量检测模型”。模型中规则库和关键指标的建立至关重要，将在自建指标的基础上引入用户反馈机制，及时发现标注易错点和常见问题，不断丰富关键指标库的内容，逐步提升标注数据质量检测的准确率。

图1为本发明语音数据自动标注的质量评估方法流程图，如图1所示，该方法包括以下步骤：

步骤四：将更新后的所述自动标注语音数据集导入所述质量规则库。

优选地，所述步骤一中所述构建自动标注语音数据的质量规则库包括以下步骤：

步骤15：将检测完成的规则库作为所述质量规则库。

其中，所述步骤13包括以下步骤：

优选地，所述步骤二包括以下步骤：

其中，质量评分公式为：

AQM表示质量评分。

优选地，所述词错误率计算为：WER＝(S+D+I)/N，S表示需要替换的标注错误词数，D表示需要删除的标注错误词数，I表示需要插入的标注错误词数，N表示标注词汇总量；对应基础规则层和自定规则层；

优选地，所述步骤三包括：

优选地，所述步骤四包括：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音数据自动标注的质量评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音数据自动标注的质量评估方法，其特征在于，步骤一中所述构建自动标注语音数据的质量规则库包括以下步骤：

步骤15：将检测完成的规则库作为所述质量规则库。

3.根据权利要求2所述的语音数据自动标注的质量评估方法，其特征在于，所述步骤二包括以下步骤：

步骤21：获取所述需要被检测的自动标注语音数据，分别将数据中对词进行标注、句子进行标注、偏误特征进行标注的标签分离出来，存储为词标注集、句子标注集和偏误标注集；

其中，质量评分公式为：

AQM表示质量评分。

4.根据权利要求3所述的语音数据自动标注的质量评估方法，其特征在于，所述词错误率计算为：WER＝(S+D+I)/N，S表示需要替换的标注错误词数，D表示需要删除的标注错误词数，I表示需要插入的标注错误词数，N表示标注词汇总量；所述词错误率对应基础规则层和自定规则层；

所述句子错误率计算为：SER＝EN/TN，EN表示标注错误的句子数，若句子中有词标注错误则判断为该句子错误，TN表示标注的句子总数；所述句子错误率对应基础规则层和自定规则层；

所述偏误特征错误率计算为：PAR＝AN/TN，其中AN表示未标注偏误特征的句子数量，TN表示规则库中的偏误特征总数；所述偏误特征错误率对应基础规则层和自定规则层；

所述用户反馈错误率计算为：CER＝(w₁*B₁+w₂*B₂+w₃*B₃)/N，其中B₁、B₂、B₃分别表示在用户反馈错误规则中样本数据的词错误标注数量、句子错误数量和偏误特征错误数量，w₁、w₂、w₃表示对应的权重，N表示该样本数据中三类错误的总和；所述用户反馈错误率对应用户规则层。

5.根据权利要求2所述的语音数据自动标注的质量评估方法，其特征在于，所述步骤13包括以下步骤：

步骤131：预先给定规则模板，用于当测试用户发现自动标注语音数据集质量问题时填写模板并反馈；采用所述预先给定的规则模板生成的用户反馈可直接读取并导入所述质量规则库；

6.根据权利要求3所述的语音数据自动标注的质量评估方法，其特征在于，所述步骤三包括：

7.根据权利要求2所述的语音数据自动标注的质量评估方法，其特征在于，所述步骤四包括：

(1)将自动标注语音数据集评估过程中分离并记录下来的标签进行分类存储；

(2)按照预先给定规则模板，将所述分离并记录下来的标签转换为规则模板的格式，生成新规则；

(3)将上述新规则导入质量规则库的自定规则层进行存储。