CN110556093A

CN110556093A - 一种语音标注方法及其系统

Info

Publication number: CN110556093A
Application number: CN201910875253.6A
Authority: CN
Inventors: 鲁泽茹; 胡新辉; 徐欣康
Original assignee: Hithink Royalflush Information Network Co Ltd
Current assignee: Zhejiang Tonghuashun Zhifu Software Co ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2019-12-10
Anticipated expiration: 2039-09-17
Also published as: CN110556093B

Abstract

本申请实施例公开了一种语音标注方法及系统。所述语音标注方法可以包括以下操作：获取音频数据和对应的音频文本数据；确定所述音频数据的声学特征以及所述音频文本数据的音素标注；基于所述音频数据的所述声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，确定标注异常语句；对所述标注异常语句进行校正以获取满足预设条件的音素标注结果。本申请所披露的方法，可以实现异常标注语句的定位后针对异常语句进行校验更新。可以实现高效的语音标注，也可以大大节省人力，同时提升语音标注的质量。

Description

一种语音标注方法及其系统

技术领域

本申请涉及语音处理技术领域，特别地，涉及一种语音标注方法及其系统。

背景技术

近些年来，语音合成技术在技术研发和实际应用方面都得到了飞速发展，合成的音质和自然度上均有了明显的提高。在语音合成领域，语音标注包括标韵律标注和音段标注。其中音段标注具体指标出音素序列并进行切分，音素切分指的是标注各个音素的起始和结束时间。其中标注音素序列这个环节是给录音数据标注发音音素。音素就是身份牌，一旦标错，后果很严重。一般标音的标准是：尊重录音，保证标注的音素和录音的发音一一对应。

在连续语流中，总存在一些规则音变或者不规则音变，导致所读不是原来词典音素。中文里的多音字，声调变化，儿化音，轻音等都是雷区，自动化标音很难做到精准，一般需要人工标注，才能达到音素精标。

目前，音素标注一般是先完成标注，然后人工听录音一一校验发音。但是，在数据量较大的情况下，往往会出现标注数据生成效率低，人工成本较高的问题，而且难免有遗漏和标错的情况存在。

发明内容

本申请的一个方面提供一种语音标注方法。所述语音标注方法可以包括以下操作：获取音频数据和对应的音频文本数据；确定所述音频数据的声学特征以及所述音频文本数据的音素标注；基于所述音频数据的所述声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，确定标注异常语句；以及基于一次或以上迭代以校正所述标注异常语句，获取满足预设条件的音素标注结果。

在一些实施例中，所述确定所述音频文本数据的音素标注可以包括以下操作：利用至少一种分词算法，对所述音频文本数据进行分词；以及基于转换算法，确定分词后的所述音频文本数据的音素标注。

在一些实施例中，所述确定分词后的所述音频文本数据的音素标注可以包括以下操作：基于所述分词后的音频文本数据所处的上下文场景匹配所述分词后的音频文本的音素标注。

在一些实施例中，所述基于所述声学特征、所述音素标注、以及语音标注校验模型获取标注异常语句可以包括以下操作：将所述音频数据的所述声学特征和对应的所述音频文本数据的音素标注输入所述语音标注校验模型进行强制对齐；以及基于所述强制对齐结果，获取所述标注异常语句。

在一些实施例中，所述强制对齐结果包括所述音频数据的声学特征与所述音频文本数据的音素标注之间的匹配概率。所述获取所述标注异常语句可以包括以下操作：确定所述匹配概率是否小于预设阈值；若所述匹配概率小于所述预设阈值，确定所述匹配概率对应的标识，并基于所述标识获取所述标注异常语句。

在一些实施例中，所述语音标注校验模型包括基于Kaldi的GMM-HMM三音素声学模型，或基于HTK的GMM-HMM单音素或三音素声学模型。

在一些实施例中，所述对所述标注异常语句进行校正以获取满足预设条件的音素标注结果可以包括以下操作：获取对所述标注异常语句更新后的音素标注；将所述标注异常语句的声学特征和对应的更新后的音素标注输入语音标注校验模型，进行强制对齐；基于所述强制对齐结果，确定所述更新后的音素标注是否正确；若所述更新后的音素标注错误，则重复进行所述标注异常语句的更新的音素标注获取及正确性判定过程，直至满足所述预设条件为止。

在一些实施例中，所述音频数据的所述声学特征包括线性预测系数、倒谱系数、梅尔频率倒谱系数、梅尔滤波器组、或感知线性预测系数。

本申请的另一方面提供一种语音标注系统。所述语音标注系统包括获取模块以及确定模块。所述获取模块用于获取音频数据和对应的音频文本数据。所述确定模块，用于确定所述音频数据的声学特征以及所述音频文本数据的音素标注，以及用于基于所述音频数据的所述声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，确定标注异常语句，还用于基于一次或以上迭代以校正所述标注异常语句，获取满足预设条件的音素标注结果。

本申请的另一方面提供一种语音标注装置。所述装置可以包括处理器以及存储器。所述存储器可以用于存储指令。当所述指令被所述处理器执行时，可以导致所述装置实现如上所述的语音标注方法。

本申请的另一方面提供一种计算机可读存储介质。所述存储介质可以存储计算机指令。当计算机读取存储介质中的计算机指令后，计算机运行如上所述的语音标注方法。

附图说明

在此所述的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的限定。在各图中，相同标号表示相同部件。

图1是根据本申请的一些实施例所示的一种音素标注方法的示例性流程图；

图2是根据本申请的一些实施例所示的一种音素标注校验过程的示例性流程图；

图3是根据本申请的一些实施例所示的一种语音标注校验模型训练方法的示例性流程图；

图4是根据本申请的一些实施例所示的一种语音标注处理设备的结构示意图；

图5是根据本申请的一些实施例所示的一种示例性移动设备的示例性硬件组件和/或软件组件的示意图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的方法所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

下面参考附图描述本发明实施例的语音标注方法。

在现有技术中，对于整个音素的标注过程，由于对音频文本数据进行自动标注的方法可能会存在很多标错的情况，例如，在对汉语进行标音时，最开始通过汉字拼音转换工具进行自动标音。如，录音中有一句“他给予了我很大的帮助”，采用自动标注方法会按照某种标准会给出一个标准发音。但是“给予”的发音，录音人读“gei3yu3”，或是“ji3 yu3”都有可能(拼音后的数字表示音调，1表示一声，2表示二声，3表示三声，4表示四声，5表示轻声)，所以必须要人工听一遍才能确定正确的发音，最终保证所标注的音素读音和实际发音一样。所以，通常在对音频文本数据进行自动标注之后，需要根据对应的音频数据，对音频文本数据的自动音素标注一一进行人工校验。在人工校验确认无标注错误后再输出音素标注结果。随着音频数据的增加，人工校验的工作量也会随之增多，尤其是存在大量音频数据的情况下，人工一一校验不仅费时费力，而且标注效率也很低。因此，本申请提出一种音素标注方法，可自动定位标音错误的位置，节省校验时间，能够更高效准确的进行标音。

图1是根据本申请的一些实施例所示的一种语音标注方法的示例性流程图。如图1所示，流程100可以包括以下步骤。

步骤110，获取音频数据和对应的音频文本数据。

在一些实施例中，所述音频数据可以包括多个声音文件。所述声音文件可以是指通过声音录入设备，例如，麦克风，录制的原始声音。所述音频文本数据可以是由需要进行音素标注的各种文字构成，例如，中文(如，今天要下雨)、英文(如，It’s going to raintoday)等各种语言。并且所述音频文本数据与所述音频数据一一对应，例如，音频数据中录入的是中文发音的“天气不错”的声音文件，则对应的音频文本数据为“天气不错”。

在一些实施例中，所述音频数据和对应的音频文本数据的来源可以是多样的。例如，可以专门针对语音合成进行语料设计并录音，获取所述录音数据作为需要处理的音频数据，获取对应的设计语料作为需要标注的音频文本数据。又例如，可以利用已有的语音数据(例如视频、有声读物等多媒体资源)获取音频数据和对应的音频文本数据，用于进行音素标注。还例如，可以从录音棚、网络、移动终端上收集大量的音视频文件以及对应的文本文件，将音视频文件中的语音作为需要处理的音频数据，将音视频文件中对应的文本文件作为需要进行音素标注的文本数据。本申请不对此做出具体限定。

步骤120，确定所述音频数据的声学特征以及所述音频文本数据的音素标注。

在一些实施例中，所述声学特征可以是指包括与声音相关的各种参数，可以是表征语音信号的时序特性或频率特性的特征。示例性的声学特征可以包括线性预测系数(Linear Predictive Coefficient，LPC)、倒谱系数、梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCCs)、梅尔滤波器组(Mel Filter Bank,FBANK)或感知线性预测系数(Perceptual Linear Predictive，PLP)等或其任意组合。所述声学特征可以是利用一种或以上的声学特征提取算法获取。例如，所述线性预测系数(LPC)的示例性计算方法可以是：通过使实际语音的采样值和线性预测采样值之间达到均方差最小(LMS)，即可得到线性预测系数(LPC)。所述倒谱系数的示例性计算方法可以是：利用同态处理方法，对语音信号求离散傅立叶变换(DFT)后取对数，再求反变换(iDFT)即可得到倒谱系数。所述梅尔频率倒谱系数(MFCCs)的示例性计算方法可以是：首先用快速傅氏变换(FFT)将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换(DCT)，取前N个系数。所述梅尔滤波器组的示例性计算方法可以是与MFCCs的计算方法一致，将多个滤波器输出作为所述梅尔滤波器组。所述感知线性预测系数(PLP)的示例性计算方法可以是：用德宾法去计算线性预测系数(LPC)参数，在计算自相关参数时采用对听觉激励的对数能量谱进行离散余弦变换(DCT)。

在一些实施例中，对于所述音频文本数据的音素标注，可以是基于分词后的音频文本数据进行标音。所述音频文本数据分词可以利用一种或以上分词算法进行。并且，分词后的音频文本数据的音素标注可以基于转换算法确定，继而得到所述音频文本数据整体的音素标注。特别地，在本申请中，对于是中文的音频文本数据，其对应的音素标注，也可以是汉字字词的拼音标注。在一些实施例中，所述分词算法可以包括基于规则的分词算法、基于统计的分词算法、混合分词算法(例如，结合规则+统计的分词算法)、理解分词算法等或其任意组合。示例性的基于规则的分词算法可以包括正向最大匹配法、逆向最大匹配法、双向最大匹配法等。示例性的基于统计的分词算法可以包括语音模型、深度学习模型(CNN、LSTM等)等。示例性混合分词算法可以包括SVM模型、隐马尔可夫(HMM)模型、条件随机场(CRF)等。示例性的理解分词算法可以包括知识图谱等。作为示例，对于中文语料，基于以上任意一种分词算法，可以得到音频文本数据“我的钱你还不还我”的一种分词结果：“我/的/钱/你/还/不/还/我”。

在一些实施例中，在对所述音频文本数据分词完毕后，所述音频文本数据的音素标注可以基于拼音转换算法确定。示例性的转换算法可以包括发音词典、汉字拼音转换工具、机器学习算法(例如，决策树算法)等或其任意组合。例如，发音词典包含了音素、字、词、句等及其对应的发音。通过查询或搜索发音词典可以确定分词后的字或词的拼音。例如，基于以上分词示例，所述音频文本数据“我的钱你还不还我”的一种拼音标注可以被确定为：wo3 de5qian2 ni3 hai2 bu2 hai2 wo3。

在一些实施例中，所述音频文本数据的音素标注可以基于规则进行。所述规则可以包括基于所述分词后的音频文本数据所处的上下文场景匹配所述分词后的音频文本的音素标注。可以理解的是，在中文中，一些多音字在不同的上下文场景中的发音是不一样的。所述上下文场景可以是指所述多音字所处的一个具体字段的词性，包括名词、动词、形容词、数词、量词、代词等。作为示例，“任”具有两种发音，包括ren2和ren4。当“任”用作人名的姓时，通常发音为ren2，而在其他情况下一般发音为ren4。因此，针对这些多音字，可以有在不同的上下文场景对应的特定的拼音标注。这些上下文场景和特定的拼音标注可以被预先存储。在分词后，分词后的音频文本数据所处的上下文场景可以首先被确定，其后所述上下文场景对应的特定拼音标注可以被作为所述分词后的音频文本数据的拼音标注。例如，假定分词后的音频文本数据“任”所处的上下文场景是人名(为名词)，“任”的拼音标注将被指定为ren2。

步骤130，基于所述音频数据的所述声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，获取标注异常语句。

在一些实施例中，所述标注异常可以是指所述音频文本数据的音素标注与所述音频数据的声音文件的发音不一致。例如，假定声音文件的发音是“wo3 de5 qian2 ni3 hai2bu2 huan2wo3”，若发音文件对应的文本的音素标注是wo3 de5 qian2 ni3 hai2 bu2 hai2wo3。则该文本可以被确定是标注异常语句。在一些实施例中，所述音频数据的所述声学特征以及所述音频文本数据的音素标注可以被输入至所述语音标注校验模型，以获取所述标注异常语句。所述语音标注校验模型可以是机器学习模型中的一种或多种的组合，包括神经网络模型(例如，DNN、CNN、RNN、LSTM、TDNN、FSMN、VDCNN、Highway/Residual-LSTM等)、优化模型(例如，交叉熵、MMI、MPE、SMBR、LF-MMI等)、端到端的语音识别模型(例如，原始波形语音识别模型、基于注意力的语音识别模型等)。在一些实施例中，所述语音标注校验模型可以是基于GMM-HMM的声学模型，或是基于DNN-HMM的声学模型。

在一些实施例中，所述语音标注校验模型可以对输入的所述音频数据的声学特征以及所述音频文本数据的音素标注进行强制对齐。所述强制对齐可以是指所述音频数据的声学特征与所述音频文本数据的音素标注之间的对齐。所述语音标注校验模型在执行强制对齐时，可以确定所述音频数据的声学特征与所述音频文本数据的音素标注之间的一个匹配概率。当所述匹配概率小于所述语音标注校验模型的一个预设阈值时，所述语音标注校验模型可以调节所述预设阈值，使所述匹配概率大于或等于所述调整后的预设阈值，以完成强制对应的执行。当所述预设阈值被调整后，所述语音标注校验模型会对所述匹配概率对应的音频文本数据(例如，一句话)进行标识标记。基于所述标识，所述音频文本数据中的标注异常语句可以被确定。关于获取所述标注异常语句的具体描述可以参考本申请其他部分，例如，图3，的相关内容。

步骤140，对所述标注异常语句进行校正以获取满足预设条件的音素标注结果。

在一些实施例中，所述校正可以是指对标注异常语句的音素标注进行调整以获取与是音频数据中对应的发音相同的正确音素标注。仅作为示例，在获取了标注异常语句后，所述标注异常语句的音素标注(本申请中可被称为更新后的音素标注)可以被重新确定。例如，所述音素标注算法可以被重新利用，以再次确定所述标注异常语句的与之前不同的音素标注。在确定所述标注异常语句的更新后的音素标注后所述标注异常语句的声学特征和更新后的音素标注可以被再次输入至所述语音标注校验模型进行强制对齐，以获取所述标注异常语句的声学特征与更新后的音素标注之间的匹配概率。若所述匹配概率仍然小于所述预设阈值，则可以确定所述标注异常语句的更新后的音素标注仍然是错误的。在这种情况下，可以继续重新获取所述标注异常语句的更新后的音素标注，并再一次基于所述语音标注校验模型进行下一次的对齐，继而判断所述标注异常语句的声学特征与再一次更新后的音素标注之间的匹配概率与所述预设阈值的大小关系。若所述匹配概率仍然小于所述预设阈值，则将继续重复上述更新-判断过程。若所述匹配概率不小于所述预设阈值，则可以认为所述标注异常语句的更新后的音素标注是正确的，将结束校正过程。当所述音频文本数据包括的所有语句的音素标注都是正确的时候(例如，所述音频数据的声学特征与所述音频文本数据的音素标注之间的匹配概率大于或等于所述语音标注校验模型的一个预设阈值，此时可以认为是预设条件被满足)，所述音频文本数据的音素标注结果可以被获取。

可以理解的是，流程100中，在判定是否存在标注异常语句时，是可以有不存在标注异常语句的情况。此时，步骤120的结果可以直接被获取，即所述音频文本数据的音素标注可以作为最后的音素标注结果。

应该注意的是，关于流程100的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，流程100可以进一步包括对音素标注结果的输出步骤，或一个或多个对中间结果(例如，所述音频数据的声学特征、所述音频文本数据的音素标注等)的存储步骤。

图2是根据本申请的一些实施例所示的一种获取标注异常语句的示例性流程图。如图2所示，流程200可以包括以下步骤。

步骤210，将所述音频数据的声学特征和所述音频文本数据的音素标注输入语音标注校验模型进行强制对齐。

在一些实施例中，所述语音标注校验模型可以是已经训练好的机器学习模型中的一种或多种的组合。例如，可以事先利用样本音频数据的声学特征和样本音频数据对应的样本音频文本数据的正确音素标识训练。关于所述语音标注校验模型的训练可以参考本申请其他部分，例如，图3。示例性的语音标注校验模型可以包括神经网络模型(例如，DNN、CNN、RNN、LSTM、TDNN、FSMN、VDCNN、Highway/Residual-LSTM等)、优化模型(例如，交叉熵、MMI、MPE、SMBR、LF-MMI等)、端到端的语音识别模型(例如，原始波形语音识别模型、基于注意力的语音识别模型等)等。在一些实施例中，所述语音标注校验模型可以是多种机器学习模型的组合。作为示例，所述语音标注校验模型可以包括基于Kaldi的GMM-HMM三音素声学模型、基于HTK(Hidden-Markov-Model Toolkit)的GMM-HMM单音素或三音素声学模型等。

在一些实施例中，在将所述音频数据的声学特征和所述音频文本数据的音素标注输入语音标注校验模型后，所述语音标注校验模型可以执行以下过程。1)设定合适的匹配阈值(本申请中也可以被称为预设阈值)；2)对所述音频数据的声学特征和所述音频文本数据的音素标注执行Viterbi解码；3)执行强制对齐，所述强制对齐是指音频数据的声学特征序列与对应的音素标注进行对齐；并计算对齐过程中(也可以被称为匹配解码)音频数据的声学特征与音频文本数据的音素标注之间的匹配概率。在执行完上述过程后，所述音频数据的声学特征与音频文本数据的音素标注之间的匹配概率可以被确定。可以理解，所述音频数据可以包括多个语句声音文件，对应的音频文本数据包括多个语句。每个语句可以有对应的一个匹配概率。

步骤220，确定所述匹配概率是否小于预设阈值。

在一些实施例中，所述预设阈值可以是一个经验值，或统计值，或根据不同情况而调整的值。在获取所述音频数据的声学特征与音频文本数据的音素标注之间的匹配概率后，可以判断所述匹配概率是否小于所述预设阈值。若所述匹配概率小于所述预设阈值，流程200可以行进至230。否则，可以确定所述音频文本数据的音素标注满足要求，流程300可以被终止。

步骤230，确定所述匹配概率对应的标识，并基于标识获取所述标注异常语句。

可以理解，所述语音标注校验模型在运行过程中会产生运行记录(Server log，本申请中也可以被称为是Log日志)。所述Log日志中可以包括输入所述语音标注校验模型的语句(包括在所述音频文本数据中)的标识(例如，序列号等)、针对语句对应的音频的声学特征和音素标注之间的匹配概率等。出于说明的目的，当所述匹配概率小于所述预设阈值时，出于强制对齐的要求，所述语音标注校验模型会自行调整所述预设阈值，例如，减小所述预设阈值，以使所述匹配概率大于或等于所述预设阈值完成对齐。因此，当所述语音标注校验模型确定的某一语句对应的音频的声学特征和音素标注之间的匹配概率小于所述预设阈值时，所述语音标注校验模型可以生成提示信息(或被称为报警信息)，以标示出该语句。所述提示信息可以包括该语句对应的标识。在获取该语句对应的标识后，可以通过搜索语音标注校验模型的Log日志，以获取该语句。该语句也被称为标识异常语句。

应该注意的是，关于流程200的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。

图3是根据本申请的一些实施例所示的一种语音标注校验模型训练方法的示例性流程图。如图3所示，流程300可以包括以下步骤。

步骤310，获取训练样本集。

在一些实施例中，所述训练样本集可以包括音频样本数据集和对应的音频文本样本数据集。所述音频样本数据集可以是专门针对语音合成进行语料设计并录制并录音。所述录音数据作为音频样本数据集，获取对应的设计预料作为音频文本样本数据集。已有的语音数据(例如视频、有声读物等多媒体资源)也可以被获取以作为音频样本数据集和对应的音频文本样本数据集。在一些实施例中，录音棚、网络、移动终端上收集大量的音视频文件以及对应的文本文件也可以被搜集。音视频文件中的语音可以被作为音频样本数据集，音视频文件中对应的文本文件可以被作为音频文本样本数据集。

步骤320，对所述训练样本集进行预处理。

在一些实施例中，所述预处理可以包括对音频样本数据集中的音频数据进行声学特征提取，以及对音频文本样本数据集中的文本数据进行音素标注。所述声学特征提取可以参见步骤120。所述音素标注方法可以采用人工听语音一一进行标注，也可以先采用自动音素标注方法(具体标注方法参见本说明书图1相关内容)，再由人工听语音一一进行校对。

步骤330，划分所述训练样本集。

在一些实施例中，所述训练样本集可以被划分为训练集、验证集、以及测试集。所述训练样本集的划分可以按一定的比例随机地进行划分。例如，所述比例可以是训练集80％，验证集15％，测试集5％。

步骤340，训练初始模型。

在一些实施例中，所述初始模型可以是未经训练的语音标注校验模型。经过预处理后的训练集中的数据，例如，音频数据的声学特征，以及对应的文本数据的音素标注，可以被输入至初始模型进行训练。当训练满足一定条件时，例如，训练次数达到预设值，或损失函数的值小于预定值，所述模型训练过程可以停止。

步骤350，验证训练后的模型。

在一些实施例中，所述验证集中经过预处理后的样本数据可以被输入至训练后的模型进行验证，以获得验证结果。例如，将验证集中的音频数据的声学特征输入至训练后的模型，以获取对应的文本数据的音素标注。

步骤360，判定验证是否通过。

在一些实施例中，验证集中经过预处理后的样本数据经训练后的模型得到的输出结果与相应样本数据的标签标识(例如，正确的音素标注)之间的对比结果可以被确定。所述对比结果可以包括输出结果与标签标识一致，或不一致。若对比结果满足验证要求(可根据实际需要，自行设定，如，可设定验证集中95％以上的样本数据经训练后的模型得到的输出结果与相应标签标识一致)，则转入步骤370进行测试。否则，则认为模型的不达要求(例如，预测准确率低)。经训练后的模型的参数可以被调整并再次进行训练，完成后再次执行步骤440。

步骤370，模型测试。

在一些实施例中，测试集中经过预处理后的样本数据可以被输入至通过验证的模型进行测试，以获得输出结果。例如，将测试集中的音频数据的声学特征输入至通过验证的模型，以获取对应的文本数据的音素标注。

步骤380，判断模型测试是否通过。

在一些实施例中，测试集中经过预处理后的样本数据经训练后的模型得到的输出结果与相应样本数据的标签标识(例如，正确的音素标注)之间的对比结果可以被确定。所述对比结果可以包括输出结果与标签标识一致，或不一致。若对比结果满足测试要求(可根据实际需要，自行设定，如，可设定测试集中98％以上的样本数据经训练后的模型得到的输出结果与相应标签标识一致)，则转入步骤390。否则，则认为模型的不达要求(例如，预测准确率低)。流程300将再次回到步骤310，重新准备样本数据，或者再次回到步骤330，重新划分训练集、验证集、测试集，进行继续训练，直至通过模型测试。

步骤390，获取训练好的语音标注校验模型。

应该注意的是，关于流程300的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。

图4是根据本申请的一些实施例所示的一种处理设备400的模块图。处理设备400可以在一个计算设备，例如，计算机、服务器等，上实现。在一些实施例中，处理设备400可以用于实现本申请所披露的语音标注方法(例如，流程100、流程200等)。如图4所示，处理设备400可以包括获取模块410、以及确定模块420。

获取模块410可以获取数据。

在一些实施例中，获取模块410可以获取音频数据和对应的音频文本数据。所述音频数据可以包括多个声音文件。所述声音文件可以是指通过声音录入设备，例如，麦克风，录制的原始声音。所述音频文本数据可以是由需要进行音素标注的各种文字构成。

确定模块420可以基于所获取的数据确定一个或以上结果。

在一些实施例中，确定模块420可以确定所述音频数据的声学特征。所述声学特征可以是指包括与声音相关的各种参数，可以是表征语音信号的时序特性或频率特性的特征。示例性的声学特征可以包括线性预测系数(Linear Predictive Coefficient，LPC)、倒谱系数、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)、或感知线性预测系数(Perceptual Linear Predictive，PLP)等或其任意组合。确定模块420可以基于一种或以上的声学特征提取算法获取所述声学特征。例如，通过使实际语音的采样值和线性预测采样值之间达到均方差最小(LMS)，即可得到线性预测系数(LPC)。

在一些实施例中，确定模块420可以对音频文本数据进行分词后再进行音素标注。确定模块420可以利用一种或以上分词算法，对所述音频文本数据进行分词。并基于转换算法，确定分词后的音频文本数据的音素标注，继而得到所述音频文本数据整体的音素标注。所述分词算法可以包括基于规则的分词算法、基于统计的分词算法、混合分词算法(例如，结合规则+统计的分词算法)、理解分词算法等或其任意组合。所述转换算法可以包括发音词典、汉字拼音转换工具等或其任意组合。确定模块420还可以基于规则，对所述音频文本数据进行音素标注。

在一些实施例中，确定模块420可以基于所述音频数据的所述声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，获取标注异常语句。所述标注异常可以是指所述音频文本数据的音素标注与所述音频数据的声音文件的发音不一致。确定模块420可以将所述音频数据的所述声学特征以及所述音频文本数据的音素标注输入至所述语音标注校验模型进行强制对齐，以获取所述标注异常语句。在进行强制对齐时，所述音频数据的声学特征与所述音频文本数据的音素标注之间的会存在一个匹配概率。当所述匹配概率小于所述语音标注校验模型的一个预设阈值时，可以确定存在标注异常语句。基于所述语音标注校验模型可以得到与所述标注异常语句相关的标识。基于所述标识，确定模块420可以确定所述音频文本数据中的标注异常语句。

在一些实施例中，确定模块420可以对所述标注异常语句进行校正以获取满足预设条件的音素标注结果。在中获取了标注异常语句后，确定模块420可以重新确定所述标注异常语句的音素标注(本申请中可被称为更新后的音素标注)。在确定所述标注异常语句的更新后的音素标注后，确定模块420可以将所述标注异常语句的声学特征和更新后的音素标注再次输入至所述语音标注校验模型进行强制对齐，以获取所述标注异常语句的声学特征与更新后的音素标注之间的匹配概率。重新判断匹配概率与预设阈值之间的大小，确定模块420可以重新执行音素标注及异常语句判断流程(例如，匹配概率小于预设阈值)，或直接输出最终的音素标注结果(例如，匹配概率大于或等于预设阈值)。

以上处理设备400中各个模块的功能和作用的详细描述可以参考本说明书中相应的流程图部分，在此不再赘述。

应当理解，图4所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于处理设备400及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图4中披露的获取模块、确定模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。又例如，确定模块可以被细分为声学特征确定单元、音素标注确定单元以及异常语句确定单元，分别用于实现确定音频数据的声学特征、确定音频文本数据的音素标注以及确定音频文本数据的音素标注中的异常标注语句。还例如，处理设备400中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

图5为根据本申请的一些实施例所示的示例性计算设备的示例性硬件组件和/或软件组件的示意图。在一些实施例中，图5中所示的计算设备500可以被实现为执行本申请所披露的语音标注方法设备或装置。如图5所示，计算设备500可包括处理器510、存储器520、输入/输出(I/O)530和通信端口540。

处理器510可以执行计算机指令(例如，程序代码)并可以根据申请中描述的技术执行本申请所披露的语音标注方法。所述计算机指令可以用于执行本申请中描述的特定功能，所述计算机指令可以包括例如程序、对象、组件、数据结构、程序、模块和功能。例如，处理器510可以处理所获取的音频文本数据以确定其音素标注。在一些实施例中，处理器510可以包括一个或多个硬件处理器，例如微控制器、微处理器、精简指令集计算机(reducedinstruction set computer(RISC))、特定应用集成电路(application specificintegrated circuit(ASIC))、应用程序特定的指令集处理器(application-specificinstruction-set processor(ASIP))、中央处理单元(central processing unit(CPU))、图形处理单元(graphics processing unit(GPU))、物理处理单元(physics processingunit(PPU))、数字信号处理器(digital signal processor(DSP))、现场可编程门阵列(field programmable gate array(FPGA))、先进的RISC机器(advanced RISC machine(ARM))、可编程逻辑器件(programmable logic device(PLD))、能够执行一个或多个功能的任何电路或处理器等其中一种或几种的组合。

仅用于说明，在计算设备500中仅描述一个处理器。然而，需要说明的是，计算设备500也可以包括多个处理器。由本申请中描述一个处理器执行的操作和/或方法也可以由多个处理器共同或分别执行。例如，如果本申请中描述的计算设备500的处理器执行操作A和操作B，应当理解的是，操作A和操作B也可以由计算装置中的500中的两个或两个以上不同处理器共同或分别执行(例如，第一处理器执行操作A和第二处理器执行操作B，或第一处理器和第二处理器共同执行操作A和B)。

存储器520可以存储获取的数据/信息。在一些实施例中，存储器520可包括大容量存储器、可移除存储器、易失性读写存储器、只读存储器(ROM)等其中一种或几种的组合。大容量存储可以包括磁盘、光盘、固态硬盘、移动存储等。可移除存储器可以包括闪存驱动器、软盘、光盘、存储卡、ZIP磁盘、磁带等。易失性读写存储器可以包括随机存取存储器(RAM)。RAM可以包括动态随机存储器(DRAM)、双数据率同步动态随机存取存储器(DDR SDRAM)、静态随机存取存储器(SRAM)、可控硅随机存取存储器(t-ram)、零电容随机存取存储器(Z-RAM)等。ROM可以包括掩模只读存储器(MROM)、可编程的只读存储器(PROM)、可擦除可编程只读存储器(EPROM)，电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)、数字多功能光盘的光盘等。在一些实施例中，存储器520可以存储一个或多个程序和/或指令，用于执行本申请中描述的示例性方法。例如，存储520可以存储程序，所述程序可以用于处理设备(例如，处理设备400)确定多组件的运动参数。

输入/输出530可以输入和/或输出信号、数据、信息等。在一些实施例中，输入/输出530可以实现用户与处理设备(例如，处理设备400)之间的交互。在一些实施例中，输入/输出530可以包括输入设备和输出设备。输入设备可以包括键盘、鼠标、触摸屏、麦克风等其中一种或几种的组合。输出装置可以包括显示装置、扬声器、打印机、投影仪等其中一种或几种的组合。所述显示装置可以包括液晶显示器(LCD)、发光二极管(LED)显示器、平板显示器、弧形屏幕、电视装置、阴极射线管(CRT)、触摸屏等其中一种或几种的组合。

通信端口540可以连接网络，以便于数据通信。通信端口540可以在处理设备(例如，处理设备400)和其他设备(例如，外接存储设备)之间建立连接。所述连接可以是有线连接、无线连接、任何能够实现数据传输和/或接收的连接等其中一种或几种的组合。所述有线连接可以包括例如电缆、光缆、电话线等其中一种或几种的组合。所述无线连接可以包括，例如，蓝牙^TM链接、Wi-Fi^TM链接、WiMAX^TM链路、无线局域网链接、ZigBee^TM链接、移动网络链接(例如，3G、4G、5G等)其中一种或几种的组合。在一些实施例中，通信端口540可以是和/或包括标准化通信端口，如RS232、RS485等。

本申请实施例可能带来的有益效果包括但不限于：相较于现有技术中采用的自动音素标注结合人工一一校验的方式，本申请结合语音识别技术中的自动强制对齐技术，先定位找出自动标注异常的语句，再针对异常语句进行校验更新，既可以实现高效的语音标注，也可以大大节省人力，同时提升语音标注的质量。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种语音标注方法，其特征在于，所述方法包括以下步骤：

获取音频数据和对应的音频文本数据；

确定所述音频数据的声学特征以及所述音频文本数据的音素标注；

基于所述音频数据的声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，确定标注异常语句；

对所述标注异常语句进行校正以获取满足预设条件的音素标注结果。

2.如权利要求1所述的方法，其特征在于，所述确定所述音频文本数据的音素标注，包括：

利用至少一种分词算法，对所述音频文本数据进行分词；

基于转换算法，确定分词后的所述音频文本数据的音素标注。

3.如权利要求2所述的方法，其特征在于，所述确定分词后的所述音频文本数据的音素标注，包括：

基于所述分词后的音频文本数据所处的上下文场景匹配所述分词后的音频文本的音素标注。

4.如权利要求1所述的方法，其特征在于，所述基于所述声学特征、所述音素标注、以及语音标注校验模型，获取标注异常语句，包括：

将所述音频数据的所述声学特征和对应的所述音频文本数据的音素标注输入所述语音标注校验模型进行强制对齐；

基于所述强制对齐结果，获取所述标注异常语句。

5.如权利要求4所述的方法，其特征在于，所述强制对齐结果包括所述音频数据的声学特征与所述音频文本数据的音素标注之间的匹配概率；所述获取所述标注异常语句，包括：

确定所述匹配概率是否小于预设阈值；

若所述匹配概率小于所述预设阈值，确定所述匹配概率对应的标识，并基于所述标识获取所述标注异常语句。

6.如权利要求4或5所述的方法，其特征在于，所述语音标注校验模型包括基于Kaldi的GMM-HMM三音素声学模型，或基于HTK的GMM-HMM单音素或三音素声学模型。

7.如权利要求1所述的方法，其特征在于，所述对所述标注异常语句进行校正以获取满足预设条件的音素标注结果，包括：

获取对所述标注异常语句更新后的音素标注；

将所述标注异常语句的声学特征和对应的更新后的音素标注输入语音标注校验模型，进行强制对齐；

基于所述强制对齐结果，确定所述更新后的音素标注是否正确；

若所述更新后的音素标注错误，则重复进行所述标注异常语句的更新的音素标注获取及正确性判定过程，直至满足所述预设条件为止。

8.如权利要求1所述的方法，其特征在于，所述音频数据的所述声学特征包括线性预测系数、倒谱系数、梅尔频率倒谱系数、梅尔滤波器组、或感知线性预测系数。

9.一种语音标注系统，其特征在于，所述语音标注系统包括获取模块以及确定模块；

所述获取模块，用于获取音频数据和对应的音频文本数据；

所述确定模块，用于

基于所述音频数据的所述声学特征、所述音频文本数据的音素标注、以及语音标注校验模型，确定标注异常语句；

10.一种语音标注装置，其特征在于，所述装置包括处理器以及存储器；所述存储器用于存储指令，其特征在于，所述指令被所述处理器执行时，导致所述装置实现如权利要求1～8中任意一项所述的语音标注方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如权利要求1～8中任意一项所述的语音标注方法。