CN113593522B

CN113593522B - 一种语音数据标注方法和装置

Info

Publication number: CN113593522B
Application number: CN202110720290.7A
Authority: CN
Inventors: 李睿端; 武卫东
Original assignee: Beijing Tianxing Huitong Information Technology Co ltd
Current assignee: Beijing Jietong Digital Intelligence Technology Co ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-08-18
Anticipated expiration: 2041-06-28
Also published as: CN113593522A

Abstract

本发明提供了一种语音数据标注方法和装置，涉及自然语言技术领域。本发明提供的语音数据标注方法和装置，通过获取待标注语音信息的待标注文本数据和待标注音频数据；将所述待标注文本数据转换为拼音序列数据；将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。本发明实施例从韵律标注及音素切分两方面，基于序列韵律标注及强制对齐模型的进行音素起止时间标注，实现自动标注语音数据的目的。

Description

一种语音数据标注方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种语音数据标注方法、装置、一种电子设备以及一种计算机可读介质。

背景技术

TTS(语音合成，text-to-speech)技术可以完成根据文本生成音频的任务，语音合成技术经历了三个主要发展阶段，分别为拼接、参数合成、端到端合成方式。语音合成的数据通常包括文本及其对应拼音标注、音素切分信息、韵律标注数据等。以端到端合成为例，用这种技术完成的TTS可以很大程度上脱离机器感，自然度高，同时对录音数据量要求较低。即便是端到端这种对数据要求不高的模型，输入通常也需要带入韵律信息。但是，这些数据往往需要人工标注来完成，而人工标注数据由于存在标注员的主观介入，存在耗时长、人力消耗大且主观性强的问题。

所以，想要加速TTS任务的完成，加快音库建设的速度，训练数据的自动化标注是亟需解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音数据标注方法、装置、一种电子设备以及一种计算机可读介质。

依据本发明的第一方面，提供了一种语音数据标注方法，该方法包括：

获取待标注语音信息的待标注文本数据和待标注音频数据；

将所述待标注文本数据转换为拼音序列数据；

将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；

将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；

将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。

依据本发明的第二方面，提供了一种语音数据标注装置，该装置包括：

信息获取模块，用于获取待标注语音信息的待标注文本数据和待标注音频数据；

拼音序列转换模块，用于将所述待标注文本数据转换为拼音序列数据；

韵律标识标注模块，用于将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；

时间标识模块，用于将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；

合并模块，用于将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。

在本发明实施的第三方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

在本发明实施的第四方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

本发明实施例中，获取待标注语音信息的待标注文本数据和待标注音频数据；将所述待标注文本数据转换为拼音序列数据；将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。避免了利用人工对大量待标注语音数据造成耗时长且主观性强的问题，本发明中从韵律标注及音素切分这两个角度，基于序列韵律标注及强制对齐模型的进行音素起止时间标注方法，得到带韵律标注信息的语音数据，从而达到加快音库建设的速度的目的。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种语音数据标注方法的步骤流程图；

图1A是本发明实施例提供的人工音频标注流程示意图；

图1B是本发明实施例提供的自动语音数据标注流程示意图；

图2是本发明实施例提供的一种语音数据标注装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

针对文本生成语音任务需要提前建成音库，而音库构建需要进行语音韵律标注的准备工作。通常，语音合成主要为拼接、参数合成、端到端合成方式。如图1A所示，通过结合录音文本及录音片段，进行文本校对，确定准确的文本；然后，通过听标，进行韵律标注，即将韵律符号标注到文本中。常见的韵律标注即标注出一级韵律短语(#4)和二级韵律短语(#3)；然后，结合声音与文本，写出音频对应的音素序列，之所以需要结合音频，是因为有些播音员会在某些字或词读出变调，需要准确标出。最后，将韵律信息誊写进音素序列中，得到TTS(语音合成，text-to-speech)模型的输入。

针对上述传统的人工韵律标注方式，本发明实施例针对其中的韵律标注流程实现自动化。

图1是本发明实施例提供的一种语音数据标注方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取待标注语音信息的待标注文本数据和待标注音频数据；

本发明实施例中，本发明实施例中，以端到端合成为例，在合成语音时需要文本信息附带韵律标识。

在实际应用中，首先需要将待标识韵律的文本以及对应的音频数据产品从待标注语音信息中提取，可以理解为将语音信息分为文本信息和对应的音频数据两个部分。例如，对于待标注语音信息，提取文本信息“比赛仍采用以多胜少制”和对应的音频数据。

步骤102、将所述待标注文本数据转换为拼音序列数据；

本发明实施例中，如图1B所示，将获取的待标注文本数据转换为拼音序列，例如，待标注文本数据为“比赛仍采用以多胜少制”，那么对应的拼音序列为“bi3 sai4 reng2cai3 yong4 yi3 duo1 sheng4 shao3 zhi4”，其中每个汉字拼音为拼音序列数据中的音素数据，拼音序列中的数字标记为拼音声调。

步骤103、将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；

本发明实施例中，将获取的上述文本数据“比赛仍采用以多胜少制”输入已经训练好的韵律标注模型，对该文本序列中的每个字(位置)进行自动韵律信息标注，得到输出的带韵律标识的文本序列。

具体地，以上述数据为例继续说明，“比赛仍采用以多胜少制”输入已经训练好的韵律标注模型，得到输出的结果为“0 1 0 0 3 0 0 0 0 4”，韵律标识表达了字词之间的停顿及音高信息等，其中，0代表词内，1代表词信息，3代表#3，4代表#4。

例如“以多胜少制”为一个词，而在它的韵律标识为#1，表示在发音时，“以多胜少制”是作为一个韵律词进行发音的，这样符合韵律习惯，使得读音更自然流畅。

步骤104、将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；

优选地，所述拼音序列数据中包含拼音音素；所述起止时间标识包括所述拼音序列数据中每个拼音音素的时间戳。

本发明实施例中，在步骤101中获取的待标注文本数据和所述待标注音频数据同时输入强制对齐模型，该模型将会标注文本数据对应的拼音序列中，每个拼音音素的起止时间戳，即起止时间标识。

具体地，如图1B所示，强制对齐模型对于给定音频和文本，确定每个音素的起止位置的过程。最常见的是利用viterbi解码，简单来说，即将音频切分成很多帧，其中，一帧通常为10ms，可以认为在这么短的时间内，音频的各种特征保持稳定，对帧内进行特征抽取，主要特征包括Mfcc(梅尔频率倒谱系数)和发音清浊特征，并将其与标准音素的特征进行相似度计算。用bi(Ot)来表示第t个采样(帧)和第i个音素模型的相似度。δt(i)代表在采样t的时刻当前音频到达音素i的最大概率δt(i)，则可利用公式由第t个采样推算出第t+1个时刻的结果δt+1(i)。在这个过程中，t从0开始不断递增，直到音频结束，最终得到各个音素i对应的δN(i)。

可以理解地，由于每个发言人的发音特征不同，可以先用小部分数据训练该强制对齐模型，即根据该发言人发音(音素)的特征训练出模型，再用该训练好的模型对大量数据进行预测。

步骤105、将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。

本发明实施例中，如果某个音素对应静音段(静音标识sp，sil)，且与韵律模型预测出的停顿位置表现一致，则在最终序列中保留该结果。这样，即可得到带韵律信息的音素序列。

如图1B所示，将对应文本数据的拼音序列数据，以韵律标注模型输出的带韵律标识的拼音序列数据，以及强制对齐模型输出的带起止时间戳的拼音序列数据进行合并，得到带韵律标识和起止时间戳的拼音序列数据，即语音标识拼音序列。

在实际应用中，可以利用基于循环神经网络(RNN，recurrent neural network)模型的韵律标注模型进行韵律预测结果，以及基于音频文件和文本在时间维度上的kaldi自动标注工具，结果生成带有韵律标注的语音数据。

其中，Kaldi是语音识别中常用的工具，能够对特定帧的声学特征进行提取和模型构建。将文本及对应音频输入进Kaldi工具中，可将其过程中的对齐模型提取出来作为自动标注工具。

可以理解地，在实际使用中韵律标注模型不限于RNN模型，强制对齐模型也不限于kaldi自动标注工具，以具体应用对象而定，本发明实施例对此不加以具体限制。

具体地，采用如下方式构建韵律标注模型：

S11，获取待训练语音信息的待训练文本数据；

本发明实施例中，对于训练韵律标注模型，对输入的文本序列进行预测，输出对应等长的输出标签序列。

其中，训练韵律标注模型使用的训练样本人工标注了韵律信息的文本。人工听一段音频，根据音频的停顿，对该音频的文本标注上韵律信息。针对不同的发音场景(发音人或者文本背景)不同，在特定的，或者说与待标注语音信息相同的发音场景下获取待训练文本数据。例如导航地图中，用户选择了发音人“李二”后，终端设备根据用户操作确定的发音人是“李二”的发音场景，即韵律预测模型是基于“李二”的韵律习惯对文本进行韵律预测，此时的目标场景就是在导航系统中以“李二”作为发音人的发音场景。

如上述确定特定发音场景的语音数据后，提取对应语音数据的文本数据作为待训练文本数据。

S12，将所述待训练文本数据进行韵律信息标记，得到训练文本数据；所述韵律信息至少包括韵律词、韵律词内、一级韵律短语和二级韵律短语其中的一项；

具体地，将上述获取的待训练文本数据标记韵律信息，韵律信息至少包括韵律词、韵律词内、一级韵律短语和二级韵律短语其中的一项，其中，韵律词一般为汉语中常作为整体发音的词组或者短语，例如，短语“去看电影吗”中，如果按照普通语法，短语应该分为“去”，“看”，“电影”，“吗”，但是在口语发音中“去看电影吗”可视为一个整体。在对其进行韵律标后为“去看#2电影#2吗？#4”，其中#1是韵律词#2和#3都是二级韵律短语，只是级别不同，#4是一级韵律短语。

S13，将所述训练文本数据，进行神经网络模型训练，生成韵律标注模型。

具体地，将标记好韵律词的待训练文本数据作为待训练文本数据，对神经网络模型进行训练，将训练收敛后的神经网络模型作为韵律标注模型，对其他样本数据进行韵律标记的预测。

具体地，采用如下方式构建强制对齐模型：

S21，获取待训练语音信息的待训练文本数据和待训练音频数据；

具体地，对于训练强制对齐模型，首先提取预设场景的待训练语音信息，并将该语音信息拆分为文本数据和音频数据，分别作为待训练文本数据和待训练音频数据。其中，音频数据可以通过目标发音人朗读第三文本样本得到，也可以从特定场景的音源库中获得音频样本，例如从推销场景的音源库中获取常用的语音，例如：内容是“为你推荐几款产品”等语音。

S22，将所述待训练音频数据进行切分，得到音频帧数据；

具体地，将待训练音频数据切分为音频帧数据，一帧通常为10ms，通常我们认为在这么短的时间内，音频的各种特征保持稳定，例如，将文本中“你好”切分得到“n i h ao”序列中的‘i’对应音频的第5到第10帧。

S23，获取所述音频帧数据的声学特征；所述声学特征至少包括梅尔频率倒谱系数和清浊音特征；

S24，将所述声学特征以及对应的待训练文本数据作为训练数据，训练概率模型，得到强制对齐模型。

具体地，获取音频帧数据的音素特征，通常为Mfcc和清浊音特征，将带有音素特征的音频数据，以及对应的待训练文本数据作为训练数据，训练概率模型，将收敛的概率模型，作为强制对齐模型，用于预测样本数据中音素的起止时间戳。

其中，概率模型训练中，主要是计算样本数据中的音素数据与标准音素模型的相似度，δt(i)代表在采样t的时刻当前音频到达音素i的最大概率δt(i)，则可利用公式，由第t个采样推算出第t+1个时刻的结果δt+1(i)。在这个过程中，t从0开始不断递增，直到音频结束，最终得到各个音素i对应的δN(i)。在这个过程中，t从0开始不断递增，直到音频结束，最终得到各个音素i对应的δN(i)。由于每个发言人的发音特征不同，可以先用小部分数据训练该强制对齐工具，即训练出该发言人发音(音素)的特征，再对大量数据进行预测。

如果某个音素对应静音段(sp，sil)，且与韵律模型预测出的停顿位置表现一致，则在最终序列中保留该结果。

在实际应用中，强制对齐工具可以使用其他基于Hmm的强制对齐模型。当然，可以理解地，对于不同的样本数据和应用场景，训练工具不同，不限于使用Hmm来训练强制对齐模型，本发明实施例对此不做具体限制。

综上所述，本发明实施例中，获取待标注语音信息的待标注文本数据和待标注音频数据；将所述待标注文本数据转换为拼音序列数据；将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。本发明实施例从韵律标注及音素切分两方面，基于序列韵律标注及强制对齐模型的进行音素起止时间标注，实现自动标注语音数据的目的。

图2是本发明实施例提供的一种语音数据标注装置的框图，如图2所示，该装置200可以包括：

信息获取模块201，用于获取待标注语音信息的待标注文本数据和待标注音频数据；

拼音序列转换模块202，用于将所述待标注文本数据转换为拼音序列数据；

韵律标识标注模块203，用于将所述待标注文本数据输入韵律标注模型中，获得输出的所述待标注文本数据的韵律标识；

时间标识模块204，用于将所述拼音序列数据和所述待标注音频数据输入强制对齐模型，获得输出的所述拼音序列数据的起止时间标识；

合并模块205，用于将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列。

可选地，所述拼音序列数据中包含拼音音素；所述起止时间标识包括所述拼音序列数据中每个拼音音素的时间戳。

可选地，还包括：

韵律标注模型训练模块，用于获取待训练语音信息的待训练文本数据；将所述待训练文本数据进行韵律信息标记，得到训练文本数据；所述韵律信息至少包括韵律词、韵律词内、一级韵律短语和二级韵律短语其中的一项；将所述训练文本数据，进行神经网络模型训练，生成韵律标注模型。

可选地，还包括：

强制对齐模型训练模块用于获取待训练语音信息的待训练文本数据和待训练音频数据；将所述待训练音频数据进行切分，得到音频帧数据；获取所述音频帧数据的声学特征；所述声学特征至少包括梅尔频率倒谱系数和清浊音特征；将所述声学特征以及对应的待训练文本数据作为训练数据，训练概率模型，得到强制对齐模型。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音数据标注方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音数据标注方法。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种语音数据标注方法，其特征在于，所述方法包括：

获取待标注语音信息的待标注文本数据和待标注音频数据；

将所述待标注文本数据转换为拼音序列数据；

将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列；

所述拼音序列数据中包含拼音音素；所述起止时间标识包括所述拼音序列数据中每个拼音音素的时间戳。

2.根据权利要求1所述的方法，其特征在于，所述韵律标注模型通过如下步骤训练得到，包括：

获取待训练语音信息的待训练文本数据；

将所述待训练文本数据进行韵律信息标记，得到训练文本数据；所述韵律信息至少包括韵律词、一级韵律短语和二级韵律短语其中的一项；

将所述训练文本数据，进行神经网络模型训练，生成韵律标注模型。

3.根据权利要求1所述的方法，其特征在于，所述强制对齐模型通过如下步骤训练得到，包括：

获取待训练语音信息的待训练文本数据和待训练音频数据；

将所述待训练音频数据进行切分，得到音频帧数据；

获取所述音频帧数据的声学特征；所述声学特征至少包括梅尔频率倒谱系数和清浊音特征；

将所述声学特征以及对应的待训练文本数据作为训练数据，训练概率模型，得到强制对齐模型。

4.一种语音数据标注装置，其特征在于，所述装置包括：

合并模块，用于将所述拼音序列数据、所述韵律标识以及所述拼音序列数据的起止时间标识进行合并，生成语音标识拼音序列；

5.根据权利要求4所述的装置，其特征在于，还包括：

韵律标注模型训练模块，用于获取待训练语音信息的待训练文本数据；将所述待训练文本数据进行韵律信息标记，得到训练文本数据；所述韵律信息至少包括韵律词、一级韵律短语和二级韵律短语其中的一项；将所述训练文本数据，进行神经网络模型训练，生成韵律标注模型。

6.根据权利要求4所述的装置，其特征在于，还包括：

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-3任一所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的方法。