CN107808661A

CN107808661A - 一种基于协作式批量主动学习的藏语语音语料标注方法及系统

Info

Publication number: CN107808661A
Application number: CN201710995917.3A
Authority: CN
Inventors: 赵悦; 徐晓娜; 李要嫱; 裴欢欢
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-03-16
Anticipated expiration: 2037-10-23
Also published as: CN107808661B

Abstract

本发明公开了一种基于协作式批量主动学习的藏语语音语料标注方法及系统，其中系统包括：样本选择模块，手工标注模块，标注决策模块，标注者评估模块，训练集生成模块。本发明通过临近最优批量样本选择方法解决样本评价函数的构造及其submodular函数性质的证明，通过标注委员会协作标注方法，解决标注决策函数的构造、标注者评估模型和标注者辅助学习模型的建模。此外，本发明的系统能够实现样本的优化选择、用户的标注评估、标注信息和藏语语音知识的共享、标注者辅助学习等功能，拟提高藏语语音数据的标注质量，加快语音语料建设。

Description

一种基于协作式批量主动学习的藏语语音语料标注方法及系统

技术领域

本发明涉及语音识别、语料训练领域，特别涉及一种基于协作式批量主动学习的藏语语音语料标注方法及系统。

背景技术

在语音识别领域中,传统的语音识别算法(例如HMM、DBNs、ANN和DTW等)采用有监督学习方式建立语音识别模型，为了建立高准确率的语音识别模型，这种学习方式需要大量的带标注语音语料，而标注语音语料是一个极其费时费力的工作。通常以词为语音识别单元的标注工作所花费的时间是实际音频语句时间的10倍(例如，一个一分钟的语音语句所花费的标注时间接近10分钟)，以音素为识别单元的语音标注工作将会达到语音语句时间长度的400倍(假设语音句子时间长度一分钟，那么标注时间将接近7个小时)。

目前，在藏语拉萨话非特定人大词汇量连续语音识别研究工作中，由于训练有素的语音标注专家的缺少，语音标注耗时耗力的问题更为突出，使能够用来建立语音识别模型的训练语料十分有限，并且更为严重的是，在标注过程中，由于标注人员的经验不足或是粗心大意，训练数据中还带有一些标注错误的语料，这更加降低了语音识别模型的性能。因此，现有的面向藏语拉萨话LVCSR的连续语音语料的情况是，带标注语音语料数量较少，并且存在标注噪声。

为了解决语音标注工作繁琐冗长的问题，主动学习方法通常被用来减少人工标注的数据量。它可以从大量未标注的语音数据中挑选一些有价值的样本交给用户进行标注，以便利用少量高质量的训练样本构建与被动学习方式一样精度的识别模型(Lewis D D,Gale W A.A Sequential Algorithm for Training Text Classifiers.Proceedings of17th ACM International Conference on Research and Development in InformationRetrieval[C].Dubl in,Ireland,July 1994,3-12)。然而，以往的主动学习方法每次只选择一个样本进行人工标注，且假设是理想的标注。但是，现实情况通常是多人同时对多个样本进行并行标注，且数据的标注存在一定的错误。

发明内容

本发明要解决的技术问题是，一种基于协作式批量主动学习的藏语语音语料标注方法，基于主动学习进行语音数据的选择和优化的样本集选择方法以及更有效的标注委员会协同工作方法。通过临近最优批量样本选择方法解决样本评价函数的构造及其submodularity性质的证明。通过标注委员会协作标注方法，解决标注决策函数的构造、标注者评估模型和标注者辅助学习模型的建模。

解决上述技术问题，本发明提供了一种语音标注系统，包括：

样本选择模块，用以在未标注数据集中选择数据样本子集，以及随机抽取样本用以初始训练集的构建，

手工标注模块，用以提供在待标注的数据样本子集进入各用户的标注池后的数据标注调用接口，

标注决策模块，用以根据标注决策函数对共享标注数据池中新增加的标注数据进行投票和/或标签确认，

标注者评估模块，用以在共享标注数据池中查询标注者本次标注的信息，并根据评估模型更新计算标注者的可信度，

训练集生成模块，用以根据预设的可信度阈值来抽取共享标注数据池中的数据，并加载到语音识别模型中的训练数据集中，训练并生成模型。

更进一步，语音标注系统还包括：若可信度低于可信度阈，则通过辅助学习模块进行新一轮的手工标注。

更进一步，在所述辅助学习模块中使用共享标注数据池中决策后的数据样本建立一辅助学习模型，所述辅助学习模型用以为标注者提供新数据的标注参考信息。

更进一步，所述训练集生成模块中若语音识别模型未达到预先设定的识别精度并且未标注数据集仍有剩余数据，则再一次运行样本选择和/或标注过程。

本发明还提供了一种基于协作式批量主动学习的藏语语音语料标注方法，包括如下步骤：

选择代表整个数据集的全局最优样本子集，并在共享标注数据池中得到新的共享标注数据集，

通过共享标注数据集，对标注者进行可信度评估并进入分类器训练得到语音识别模型，以及，

建立用以下一轮标注的辅助学习器。

更进一步，通过submodular函数得到全局最优样本子集。

更进一步，对标注者进行可信度评估并进入分类器训练得到语音识别模型的方法具体为：

标注者对各自标注池中出现的新数据进行手工标注，

每个标注池中相同的数据被载入到共享标注数据池中，通过标注决策函数确定每一个数据的最终标签，

每个标注者的标注信息被传递给标注者评估模型，以输出和/或更新每个标注者的标注可信度。

更进一步，所述共享标注数据集用以建立辅助学习器，所述辅助学习器用以在下一次标注过程中，为可信度低的标注者提供参考信息，其对某一数据的分类预测高于设定值时，分类结果将直接作为该标注者对数据的标注结果。

更进一步，采用多数票法构建标所述注决策函数。

更进一步，通过动态贝叶斯网络模型构建所述标注者评估模型。

本发明的有益效果：

1)本发明实现了标注工作中批量最优样本的选择、标注委员会的协作学习和标注质量的控制，从而为藏语LVCSR模型提供充分、可信的训练数据。

2)更进一步，在本发明中还针对批量样本选择问题，基于数据分布情况和语音识别目标的临近最优批量样本选择算法，以减少冗余样本的标注。

3)更进一步，在本发明中针对协作式批量主动学习，提出一种基于数据共享的标注质量控制方法，其可以实现标注者的评估和辅助学习，从根本上抑制了标注噪声；

4)本发明还提供了语音标注系统，该系统能够实现样本的优化选择、用户的标注评估、标注信息和藏语语音知识的共享、标注者辅助学习等功能，拟提高藏语语音数据的标注质量，加快语音语料建设。

附图说明

图1是本发明一实施例中的系统结构示意图；

图2是本发明另一实施例中的优选系统结构示意图；

图3是本发明一实施例中的方法流程示意图；

图4是本发明一实施例中的实现原理示意图。

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

在本申请中，采集的藏语连续语音语料，包括但不限于新闻广播语料和口语对话语料，发音人大约在50个左右，8000条语句，总时长40小时左右。

请参考图1是本发明一实施例中的系统结构示意图，在本实施例中系统包括：样本选择模块1，用以在未标注数据集中选择数据样本子集，以及随机抽取样本用以初始训练集的构建，手工标注模块2，用以提供在待标注的数据样本子集进入各用户的标注池后的数据标注调用接口，标注决策模块3，用以根据标注决策函数对共享标注数据池中新增加的标注数据进行投票和/或标签确认，标注者评估模块4，用以在共享标注数据池中查询标注者本次标注的信息，并根据评估模型更新计算标注者的可信度，训练集生成模块5，用以根据预设的可信度阈值来抽取共享标注数据池中的数据，并加载到语音识别模型中的训练数据集中，训练并生成模型。在本实施例中的藏语连续语音标注系统在软件实现开发方面采用了跨平台的J2EE技术，并利用轻量级开发架构SSH(Spring+Structs+Hibernate)技术，采用Storm Workflow工作流平台统一管理工作流程，并对数据的更新采用事务处理的方式进行分层协同开发。

具体地，所述样本选择模块1主要基于提出的临近最优样本选择算法在未标注数据集中选择样本子集，并且该模块也配备随机抽取样本的功能，以满足主动学习初始训练集的构建。在交给多个用户标注数据之前，根据用户个数，将待标注样本集合划分成若干子集，并且各子集中包含一定量的相同数据样本。待标注数据子集进入各用户的标注池，用户使用手工标注模块2进行数据标注工作。所述手工标注模块2将对语音数据的藏文内容、多种拉丁转写和注释符号进行语音转写和标注。手工标注任务结束后，各标注池中的相同数据样本被装入共享标注数据池中，由所述标注决策模块3根据标注决策函数对新增加的标注数据进行投票和标签确认。所述标注者评估模块4在共享标注数据池中查询标注者本次标注的信息，根据评估模型更新计算标注者的可信度。所述训练集生成模块5根据事先设定的可信度阈值来抽取标注池中的数据，加载这些数据进入到语音识别模型的训练数据集中，以便再次学习语音识别模型。如果语音识别模型还没有达到预先设定的识别精度并且未标注数据集仍有剩余数据，那么标注系统再一次运行样本选择和标注过程。

请参考图2，作为本实施例中的优选，若可信度低于可信度阈，则通过辅助学习模块进行新一轮的手工标注。在一些实施例中，在所述辅助学习模块中使用共享标注数据池中决策后的数据样本建立一辅助学习模型，所述辅助学习模型用以为标注者提供新数据的标注参考信息。在本实施例中针对可信度低于阈值的标注者来说，新一轮的手工标注可以借鉴辅助学习模块6，所述辅助学习模块6中使用共享标注数据池中决策后的数据样本建立辅助学习模型，其可以为标注者提供新数据的标注参考信息，该模块可以实现语音数据的自动标注，其结果再由标注者进行手工校正。同时该模块中也存储一些藏语语音发音学知识供用户查询。

上述实施例中的系统，基于协作式批量主动学习的藏语连续语音标注系统可以根据藏语连续语音识别目标，对未标注数据进行自动的评价，并选择出临近最优样本集交给多个用户在线同时标注。同时，提出的协作式标注方法运用共享数据集、标注者评估模型和辅助学习模型来使标注者之间进行信息共享和学习，这为标注噪声的抑制和标注质量的控制提供了可行性。

请参考图3是本发明一实施例中的方法流程示意图，在本实施例中的一种基于协作式批量主动学习的藏语语音语料标注方法，包括如下步骤：

步骤S100选择代表整个数据集的全局最优样本子集，并在共享标注数据池中得到新的共享标注数据集，

步骤S101通过共享标注数据集，对标注者进行可信度评估并进入分类器训练得到语音识别模型，以及，

步骤S102建立用以下一轮标注的辅助学习器。

在本实施例中的提出标注者之间共享标注数据，其不仅为评估标注者提供信息，更为标注者之间共享了准确的标注知识，为标注水平差的标注者提供可借鉴的信息，同时其也能防止不负责任的标注者提供较差的标注，因为辅助学习模型的输出结果可以直接作为标注结果。这种协作标注方法从本质上降低了标注噪声，提高了训练数据集的标注质量。

作为本实施例中的优选，通过submodular函数得到上述步骤S100中全局最优样本子集。为了选择到代表整个数据集的全局最优样本子集,本申请利用submodular函数理论优化样本集的选择问题，通过构造具有submodular函数性质的样本子集评价函数，使得学习器利用greedy算法获得临近最优的数据子集，以保证学习器使用较少的全局最具代表性的样本和较少的训练次数建立分类器。

作为本实施例中的优选，在上述步骤S101中对标注者进行可信度评估并进入分类器训练得到语音识别模型的方法具体为：标注者对各自标注池中出现的新数据进行手工标注，每个标注池中相同的数据被载入到共享标注数据池中，通过标注决策函数确定每一个数据的最终标签，每个标注者的标注信息被传递给标注者评估模型，以输出和/或更新每个标注者的标注可信度。本申请拟采用多数票法来构建标注决策函数。对共享标注数据集中的某个数据来说，其最终标签由标注委员会投票决定。得票最多的标签将成为该数据的最终标注。标注决策函数的数学表达式见公式

其中vote(y_i)是某一个类标签的得票数。多数票法能保证数据的标注接近于真实标签，因为多个标注者同时出现错误的可能性很小。

作为本实施例中的优选，采用多数票法构建标上述注决策函数。当共享标注数据集中的数据样本确定了其最终标签后，记录每个标注者的数据标注信息，并结合标注者的年龄、性别、学历、专业、标注历史时间等信息，通过动态贝叶斯网络模型构建标注者评估模型。评估模型可以动态地评价标注者数据标注可信度，并给出连续的评估值，而不是给出“好”与“坏”二进制的评估值，这为动态调整各标注池数据进入训练数据集提供了方便。

作为本实施例中的优选，通过动态贝叶斯网络模型构建所述标注者评估模型。动态贝叶斯网络是动态随机序列建模方法之一。动态贝叶斯网络中可以引入隐藏变量，对一些影响目标变量变化的无法观测到的隐含因素，同样可以很好地建立分析预测模型。在标注者评估模型中，一些影响标注者标注可信度的潜在因素，如责任心、标注经验等，都无法得到它们的观测值，因此动态贝叶斯网络较其他动态随机序列建模方法，如HMM和卡尔曼滤波模型更适合于构建标注者评估模型。

作为本实施例中的优选，所述共享标注数据集用以建立辅助学习器，所述辅助学习器用以在下一次标注过程中，为可信度低的标注者提供参考信息，其对某一数据的分类预测高于设定值时，分类结果将直接作为该标注者对数据的标注结果。

请参考图4是本发明一实施例中的实现原理示意图，如图4所述，首先包括了：临近最优批量样本选择方法。

本申请基于音子覆盖度和期望误差最小的样本评价策略，其目的在于挑选涵盖最多的音素个数，最多的稀疏音子个数和最大的期望识别误差减少的样本子集，这样的样本集是分类信息丰富和具有泛化性的样本。样本子集评价函数依据涵盖的音素个数，涵盖的稀疏音子个数和最大的期望识别误差减少来确定，其选择的样本子集应能够使三类信息量的总和达到最大值。

为了选择到代表整个数据集的全局最优样本子集,本申请利用submodular函数理论优化样本集的选择问题，通过构造具有submodular函数性质的样本子集评价函数，使得学习器利用贪心算法获得临近最优的数据子集，以保证学习器使用较少的全局最具代表性的样本和较少的训练次数建立分类器。本申请利用submodular函数性质既可以保障主动学习过程选择到最具代表性的样本子集，又可以通过贪婪算法减少搜索的计算复杂度。

如图4所述，其次包括了：标注委员会协作标注方法。

标注委员会协作标注的基本思想是：通过共享标注数据，实现标注者的评估和辅助学习，这样既可以识别出差标注者，抑制他们的标注噪声数据进入训练数据集，又使得标注者通过共享数据学习他人的标注经验，提高标注水平，最终标注质量得到控制。

标注委员会的协作标注流程是：首先，标注者对各自标注池中出现的新数据进行手工标注，接着每个标注池中相同的数据被载入到共享标注数据池中，通过标注决策函数确定每一个数据的最终标签，然后每个标注者的标注信息被传递给标注者评估模型，以输出(或更新)每个标注者的标注可信度，只有可信度高于阈值的标注者，其标注池中的标注数据才被允许进入分类器的训练数据集中，同时，共享标注数据集被用来建立辅助学习器，该辅助学习器被用来在下一次标注过程中，为可信度低的标注者提供参考信息，其对某一数据的分类预测高于设定值时，分类结果将直接作为该标注者对数据的标注结果。

本申请拟采用多数票法来构建标注决策函数。对共享标注数据集中的某个数据来说，其最终标签由标注委员会投票决定。得票最多的标签将成为该数据的最终标注。当共享标注数据集中的数据样本确定了其最终标签后，记录每个标注者的数据标注信息，并结合标注者的年龄、性别、学历、专业、标注历史时间等信息，通过动态贝叶斯网络模型构建标注者评估模型。评估模型可以动态地评价标注者数据标注可信度，并给出连续的评估值，而不是给出“好”与“坏”二进制的评估值，这为动态调整各标注池数据进入训练数据集提供了方便。

动态贝叶斯网络是动态随机序列建模方法之一。其典型的网络模型如图4所示。动态贝叶斯网络中可以引入隐藏变量，对一些影响目标变量变化的无法观测到的隐含因素，同样可以很好地建立分析预测模型。在标注者评估模型中，一些影响标注者标注可信度的潜在因素，如责任心、标注经验等，都无法得到它们的观测值，因此动态贝叶斯网络较其他动态随机序列建模方法，如HMM和卡尔曼滤波模型更适合于构建标注者评估模型。

标注者辅助学习模型将基于共享标注数据集中的数据，使用与语音识别模型相同的分类算法构建。

提出标注者之间共享标注数据，其不仅为评估标注者提供信息，更为标注者之间共享了准确的标注知识，为标注水平差的标注者提供可借鉴的信息，同时其也能防止不负责任的标注者提供较差的标注，因为辅助学习模型的输出结果可以直接作为标注结果。这种协作标注方法从本质上降低了标注噪声，提高了训练数据集的标注质量。

如图4所述，还包括了：面向语音识别的藏语语音标注系统。

该语音标注系统可以分为6个主要模块，包括样本选择模块、手工标注模块、标注决策模块、标注者评估模块、辅助学习模块和训练集生成模块。

样本选择模块主要基于提出的临近最优样本选择算法在未标注数据集中选择样本子集，并且该模块也配备随机抽取样本的功能，以满足主动学习初始训练集的构建。在交给多个用户标注数据之前，根据用户个数，将待标注样本集合划分成若干子集，并且各子集中包含一定量的相同数据样本。

待标注数据子集进入各用户的标注池，用户使用手工标注模块进行数据标注工作。手工标注模块提供对语音数据的波形显示、语音数据的藏文内容输入、多种拉丁转写方法和注释符号的转写和标注功能。

手工标注任务结束后，各标注池中的相同数据样本被装入共享标注数据池中，由标注决策模块根据标注决策函数对新增加的标注数据进行投票和标签确认。标注者评估模块在共享标注数据池中查询标注者本次标注的信息，根据评估模型更新计算标注者的可信度。训练集生成模块根据事先设定的可信度阈值来抽取标注池中的数据，加载这些数据进入到语音识别模型的训练数据集中，以便再次学习语音识别模型。如果语音识别模型还没有达到预先设定的识别精度并且未标注数据集仍有剩余数据，那么标注系统再一次运行样本选择和标注过程。

针对可信度低于阈值的标注者来说，新一轮的手工标注可以借鉴辅助学习模块。辅助学习模块中使用共享标注数据池中决策后的数据样本建立辅助学习模型，其可以为标注者提供新数据的标注参考信息，该模块可以实现语音数据的自动标注，其结果再由标注者进行手工校正。同时该模块中也存储一些藏语语音发音学知识供用户查询。

对于已有的语音标注系统,仍存在一些缺陷，即没有对未标注数据进行精心选择，其系统多是用户单机操作。随着人工智能和计算机网络技术的发展，本申请提出的基于协作式批量主动学习的藏语连续语音标注系统可以根据藏语连续语音识别目标，对未标注数据进行自动的评价，并选择出临近最优样本集交给多个用户在线同时标注。同时，提出的协作式标注方法运用共享数据集、标注者评估模型和辅助学习模型来使标注者之间进行信息共享和学习，这为标注噪声的抑制和标注质量的控制提供了可行性。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种语音标注系统，其特征在于，包括：

2.根据权利要求1所述的语音标注系统，其特征在于，还包括：若可信度低于可信度阈，则通过辅助学习模块进行新一轮的手工标注。

3.根据权利要求2所述的语音标注系统，其特征在于，在所述辅助学习模块中使用共享标注数据池中决策后的数据样本建立一辅助学习模型，所述辅助学习模型用以为标注者提供新数据的标注参考信息。

4.根据权利要求1所述的语音标注系统，其特征在于，所述训练集生成模块中若语音识别模型未达到预先设定的识别精度并且未标注数据集仍有剩余数据，则再一次运行样本选择和/或标注过程。

5.一种基于协作式批量主动学习的藏语语音语料标注方法，其特征在于，包括如下步骤：

建立用以下一轮标注的辅助学习器。

6.根据权利要求5所述的藏语语音语料标注方法，其特征在于，通过submodular函数得到全局最优样本子集。

7.根据权利要求5所述的藏语语音语料标注方法，其特征在于，对标注者进行可信度评估并进入分类器训练得到语音识别模型的方法具体为：

标注者对各自标注池中出现的新数据进行手工标注，

8.根据权利要求7所述的藏语语音语料标注方法，其特征在于，所述共享标注数据集用以建立辅助学习器，所述辅助学习器用以在下一次标注过程中，为可信度低的标注者提供参考信息，其对某一数据的分类预测高于设定值时，分类结果将直接作为该标注者对数据的标注结果。

9.根据权利要求7所述的藏语语音语料标注方法，其特征在于，采用多数票法构建标所述注决策函数。

10.根据权利要求5所述的藏语语音语料标注方法，其特征在于，通过动态贝叶斯网络模型构建所述标注者评估模型。