CN107924677B

CN107924677B - 用于异常值识别以移除语音合成中的不良对准的系统和方法

Info

Publication number: CN107924677B
Application number: CN201580082349.7A
Authority: CN
Inventors: E·V·拉哈文达; A·甘娜帕茜拉朱
Original assignee: Interactive Intelligence Group Inc
Current assignee: Interactive Intelligence Group Inc
Priority date: 2015-06-11
Filing date: 2015-06-11
Publication date: 2022-01-25
Anticipated expiration: 2035-06-11
Also published as: CA2991913C; KR20180041114A; AU2019202146A1; CN107924677A; AU2015397951B2; AU2020205275B2; EP3308378A4; AU2015397951A1; AU2019202146B2; WO2016200391A1; CA2991913A1; EP3308378A1; KR102051235B1; EP3308378B1; AU2020205275A1

Abstract

本发明公开了一种用于异常值识别以从语音合成中移除不良对准的系统和方法。文本‑语音系统的输出质量直接取决于语音表达的对准的精确度。由自动对准识别未对准和发音错误可以基于基频方法和基于群延迟的异常值方法做出。这些异常值的识别允许移除它们，从而提高文本‑语音系统的合成质量。

Description

用于异常值识别以移除语音合成中的不良对准的系统和方法

背景技术

本发明整体涉及语音合成系统和方法以及电信系统和方法。更具体地，本发明涉及文本-语音系统。

发明内容

提供一种用于异常值识别以从语音合成中移除不良对准的系统和方法。文本-语音系统的输出质量直接取决于语音表达的对准的精确度。由自动对准识别未对准和发音错误可以基于基频方法和基于群延迟的异常值方法做出。这些异常值的识别允许移除它们，从而提高文本-语音系统的合成质量。

在一个实施例中，提供一种用于在文本-语音系统中应用基频识别用于模型训练的音频文件中的偏离结果的方法，所述方法包括以下步骤：从音频文件中提取基频的值；使用来自音频文件的所述提取的值生成对准；分离出音素的实例；为每个分离的实例确定平均基频值和平均持续时间值；将实例识别为异常值，其中如果满足以下条件则识别异常值：音素为元音；实例的平均基频小于预定值；实例的持续时间大于音素的平均时间长度的两倍；和实例的持续时间小于音素的平均时间长度的一半；和为音频文件中的每个语句识别异常值总数，其中如果所述语句具有大于一定数量的异常值，则从模型训练中放弃音频文件中的所述语句。

在另一个实施例中，提出一种用于在文本-语音系统中应用群延迟算法识别用于模型训练的音频文件中的偏离结果的方法，所述方法包括以下步骤：以音素层次生成音频文件的对准；以音节层次生成音频文件的对准；使用群延迟算法以音节层次调整所述对准；将来自音频文件的每个音节分离成单独的音频文件；使用每个音节的音素边界和现有的音素模型为每个单独的音频文件生成单独的音频文件的音素；确定每个生成的音素的似然值，其中如果似然值满足标准，则将生成的音素识别为异常值；和为音频文件中的每个语句识别异常值总数，其中如果所述语句具有大于一定数量的异常值，则将所述语句从模型训练中放弃。

在另一个实施例中，提供一种用于在文本-语音系统中合成语音的方法，其中所述系统至少包括语音数据库、能够存储隐马尔科夫模型的数据库和合成滤波器，所述方法包括以下步骤：从语音数据库中识别音频文件中的偏离结果并在模型训练之前移除偏离结果；将来自语音数据库的语音信号转换为参数并从语音信号中提取所述参数；使用来自语音信号的所述提取的参数并使用来自语音数据库的标签训练隐马尔可夫模型，以生成依赖于上下文的隐马尔可夫模型；将依赖于上下文的隐马尔可夫模型存储在能够存储隐马尔可夫模型的数据库中；输入文本并分析所述文本，其中所述分析包括从所述文本中提取标签；使用所述标签从依赖于上下文的隐马尔可夫模型生成参数；由参数生成其它信号；将所述其它信号和所述参数输入到合成滤波器中；和当所述其它信号通过合成滤波器时生成合成的语音。

附图说明

图1a为显示未对准的一个实施例的视图；

图1b为显示未对准的一个实施例的视图；

图1c为显示发音错误的一个实施例视图；

图2a为显示平均FO和持续时间图的一个实施例的视图；

图2b为显示平均FO和持续时间图的一个实施例的视图；

图2c为显示平均F0和持续时间图的一个实施例的视图；

图2d为显示平均F0和持续时间图的一个实施例的视图；

图3为显示基于HMM的TTS系统的一个实施例的视图；

图4为显示基于F0的异常值的检测的一个实施例的过程的流程图；

图5为显示音素边界的一个实施例的视图；以及。

图6为显示基于群延迟的异常值的检测的一个实施例的过程的流程图。

具体实施方式

为了促进对本发明的原理的理解，将参考附图中所示的实施例并使用特定的语言说明这些实施例。然而应当理解的是这并不意在对本发明的保护范围进行限制。本发明涉及的技术领域中的技术人员通常会想到对所述实施例中的任何改变和进一步的修改以及本文所述的本发明的原理的任何进一步应用。

随着可获得更高的处理内存和存储容量，对移动电话和手持装置的语音应用需求也在增加。对语音界面的请求在商业应用中也在增长。应用程序的语音界面的开发通常集中在文本-语音合成，更具体地集中在基于隐马尔科夫模型(HMM)的方法(例如，统计参数语音合成)的使用。

基于HMM的方法已经显示出可以生成自然发音的合成语音。这在合成的语音听起来不那么机器化而是更人性化时是非常理想的。在分析参数方法中，从语音信号中提取并模型化标准，例如持续时间、基频(F0)以及梅尔倒谱系数(MCEP)。在合成期间，被训练的模型随后用于从语句HMM生成参数序列。

为持续时间、F0以及MCEP生成模型依赖于音频到音素的对准。高度精确的对准将产生更好的合成质量，而不良的对准将降低合成语音的质量。通过所述系统生成的对准用于产生上下文标签，但是如果发生失配将会出现问题。生成的对准由于音频和转录与扬声器变化之间的失配可能存在未对准。错误的对准导致差的韵律和特别的频率或频谱变化，因此显著降低语音合成的质量。

图1a-1c示出发音错误和未对准以及对语音合成的影响的普通示例。在一个示例中，图1(a)示出所有音素已经及时地进一步移动，并且单词“the”已经被发音为[dh][ax]。实际发音显示为[dh][iy]。在另一个示例中，图1(b)示出音素[iy]的未对准。然而在另一个示例中，图1(c)示出扬声器将单词“or”发音为[ow]的实例。这些未对准和发音错误的示例产生错误模型，这导致在合成期间模型错误地预测。为了避免这些问题，提供了用于异常值识别的系统和方法，以移除文本-语音系统中的不良对准。

基于基频的异常值检测

基频(F0)可以用于确定来自人的语音的频率。F0还指示声带振动的频率。在通常的示例中，成年女性说话者通常具有范围从165Hz到225Hz的F0。对于女性说话者，在该范围之外的F0值会被标示为异常值。使用成年女性说话者的该通常的示例，图2a-2d显示长元音的平均F0和持续时间图，所述图指示未对准和/或发音错误。在这些附图中，水平轴上标示持续时间，同时在该图的垂直轴上标示音素的平均F0分数。图2a示出长元音[aa]，图2b示出[ao]，图2c示出[iy]以及图2d示出[uw]。如图2a-2d中的每一个中所看到的，很多实施例具有低于165的平均F0。低于165Hz的F0值的出现可能是由于从元音到清辅音的转变造成的，反之亦然。在一些实例中，还可以从图2a-2d中的每一个中看出音素的持续时间在250ms以上。

图3为显示基于隐马尔可夫模型(HMM)的文本-语音(TTS)系统(整体以300标示)的一个实施例的视图。示例性系统的一个实施例可以包括两个阶段，例如训练阶段和合成阶段。

语音数据库305可以包含语音合成中使用的大量语音数据。在训练阶段期间，语音信号306被转换成参数。所述参数可以由激励参数和频谱参数组成。从起始于语音数据库305的语音信号306发生激励参数提取310和频谱参数提取315。可以使用这些提取的参数和来自语音数据库305的标签307训练隐马尔可夫模型320。任何数量的HMM模型可以来自于这些训练，并且这些上下文相关的HMM被存储在数据库325中。

当上下文相关的HMM 325被用于生成参数340时，合成阶段开始。参数生成340可以使用来自文本语料库330的输入，其中将被合成的语音来自于文本语料库330。文本330可以被分析335，并且提取标签336被用于参数生成340中。在一个实施例中，激励参数和频谱参数可以在340中生成。

激励参数可以用于生成激励信号345，激励信号345与频谱参数一起被输入到合成滤波器350中。滤波器参数通常是梅尔频率倒谱系数(MFCC)，并且通常通过使用HMM通过统计时间序列被模型化。滤波器的预测值和基频可以作为时间序列值通过由基频值和用于形成滤波器的MFCC值创建激励信号而被用于合成滤波器。

当激励信号穿过滤波器时产生合成的语音355。激励信号345的形成是输出质量或者合成的语音355所必需的。

在一个实施例中，在训练阶段期间，异常值检测发生在HMM 320的训练之前。语音数据库中的数据通过数据库内的异常值的检测被优化，并且因此HMM 320的训练具有更高的精确度。图4和图6更详细地说明检测异常值的过程的实施例，更具体地，所述过程分别是基于基频的异常值检测和基于群延迟的异常值检测。

图4为显示基于基频的异常值的检测的一个实施例的过程的流程图，其中所述过程整体以400标示。

在操作405中，提取基频。例如，可以使用音调追踪工具(例如，ESPS)来执行信号分析。控制被传递到操作410，并且过程400继续。

在操作410中，生成对准。例如，可以使用语音识别系统(例如，HTK)来执行对准生成的过程。控制被传递到操作415，并且过程400继续。

在操作415中，多个实例被分离。例如，音素的实例被分离出。一种实例可以说明音频文件内的音素的出现。控制被传递到操作420，并且过程400继续。

在操作420中确定基频和持续时间。例如，可以为每个分离的实例确定平均基频值和平均持续时间值。控制被传递到操作425，并且过程400继续。

在操作425中，为多个实例识别异常值。例如，为了识别异常值必须确定标准。多个标准的非限制性示例可以包括：呈现为元音的音素、小于预定值的实例的平均F0、呈现为大于平均元音持续时间的两倍的实例的持续时间以及呈现为小于平均音素持续时间的一半的实例的持续时间。预定值可以根据经验选择，从而可以识别由于不良对准出现的假的F0评估。在一个示例中，使用预定值40，其中40代表根据经验为特定实例选择的值。控制被传递到操作430，并且过程400继续。

在操作430中，为语句识别异常值。例如，确定语句中实例的异常值总数。控制被传递到操作435，并且过程400继续。

在操作435中，判定异常值总数是否达到阈值。如果判定异常值的总数达到阈值，则控制被传递到操作440，并且过程400继续。如果判定异常值总数没有达到阈值，则控制被传递到操作445，并且过程400继续。

操作435中的判定可以根据任何合适的标准做出。例如，异常值数量的阈值可以是根据经验选择的值，该值提供放弃的记录与保存太多不良对准记录的平衡。在一个示例中，阈值可以呈现5个异常值，并且如果在操作430中判定异常值总数达到阈值，则该语句将被从模型训练中移除。

在操作440中，所述语句被从模型训练中移除，并且过程400结束。

在操作445中，为模型训练保存所述语句，并且过程400结束。

基于群延迟的异常值检测

群延迟方法有助于使用群延迟域中的峰值和谷值的连续语音到音节边界的分段。可以使用音频对准工具(例如，HVite)将音素边界与基于群延迟的音节对准。如果音素的可能性非常低，或者因素不可以与更大的束宽对准，那么该音素可以被认为是异常值。图5为单词“ultimately”的音素边界的一个示例性图示。然而，扬声器已经将该单词发音为“automately”。当音素[ah]、[l]与音节[al-l]对准时，音素[l]的可能性变得非常低并造成调整边界的失败。

图6为显示基于群延迟的异常值的检测的一个实施例的过程的流程图，所述过程整体以600标示。

在操作605中生成音素层次对准。例如，可以使用语音识别系统(例如，HTK)执行对准生成的过程。控制被传递到610，并且过程600继续。

在操作610中，使用群延迟生成音节层次对准。例如，可以使用语音识别系统(例如，HTK)执行对准生成的过程和音素模型。音素模型可以包括预先训练的使用训练日期的声学模型。控制被传递到操作615，并且过程600继续。

在操作615中执行对准调整。例如，可以使用群延迟算法执行音节对准的调整。控制被传递到操作620，并且过程600继续。

在操作620中，音节被分离。例如，音节可以被分离到单独的音频文件中。这些分离的文件可以被用于进一步分析例如来自其它相似音节的集合信息。控制被传递到操作625，并且过程600继续。

在操作625中生成音素边界。例如，可以使用现有的音素模型为操作620中生成的每一个音频文件生成音素边界，其中现有的音素模型包括先前使用训练数据训练的声学模型。控制被传递到操作620，并且过程600继续。

在操作630中确定似然值。例如，为每个生成的音素确定似然值。该似然值可以包括对数似然值。控制被传递到操作635，并且过程600继续。

在操作635中，判定对准是否失败或者似然值是否小。如果判定对准失败或者似然值小，则控制被传递到操作640，并且过程600继续。如果判定对准没有失败或者似然值不小，则控制被传递到操作645，并且过程600继续。

操作635中的判定可以根据任何合适的标准做出。例如，这可能是非常特定的工具并根据经验选择。

在操作640中，公告异常值并从训练中移除语句，过程结束。

在操作645中识别异常值总数。例如，确定来自语句的异常值总数。控制被传递到操作650，并且过程600继续。

在操作650中判定异常值总数是否达到阈值。如果判定异常值总数没有达到阈值，则控制被传递到操作650，并且过程600继续。如果判定异常值总数达到阈值，则控制被传递回到操作640，并且过程600继续。

操作650中的判定可以根据任何合适的标准做出。例如，阈值可以是根据经验选择的值以提供保留记录与放弃记录的平衡。在一个实施例中，阈值是3。因此，如果确定语句具有超过3个的异常值，则该语句将不用于模型训练。

在操作655中，语句被保留用于模型训练，并且过程600结束。

语音合成中的异常值检测的使用

如图4所示，前文所述的异常值检测的实施例可以应用于基于HMM的语音合成系统中。在HMM模型训练阶段期间，频谱参数和激励参数被从语音数据库中提取并通过上下文相关的HMM被模型化。在合成阶段期间，根据将被合成的文本串联上下文相关的HMM。

使用基于HMM的语音合成系统(HTS)框架训练HMM模型。HTS是隐马尔可夫模型工具包的修改版本以及信号处理工具，例如信号处理工具包(SPTK)。在训练期间，频谱参数和激励参数被从带注释的语音数据库中提取并被转换为通过相应的HMM序列模型化的一系列观察特征向量。每个HMM对应于从左到右无跳转模型，其中每个输出向量由两个流组成：频谱流和激励流。频谱流由梅尔倒谱系数表示，包括能量系数和相关的德尔塔(delta)系数以及德尔塔-德尔塔系数。

HMM具有状态持续时间密度以对语音的瞬时结构进行模型化。因此，HTS模型不仅使用频谱参数，还使用HMM的统一框架中的F0和持续时间。梅尔倒谱系数由连续的HMM模型化，F0由多空间概率分布HMM(HSD-HMM)模型化。

为了捕捉语音和韵律的共同发音现象，可以使用依赖于上下文的电话模型。基于决策树和最小描述长度标准的状态绑定被应用于克服训练中的数据稀疏问题。依赖流的模型被建立以将频谱、韵律和持续时间特征聚类为分离的决策树。

在合成期间，随机给定的被合成文本转换成基于上下文的标签序列。根据该标签序列，通过串联依赖于上下文的HMM构建语句HMM。确定语句HMM的状态持续时间以最大化状态持续时间的输出可能性。确定梅尔倒谱系数序列和log F0值，包括声音/非声音的决定，从而使用语音参数生成算法最大化HMM的输出可能性。

所述系统的主要特征是动态特征的使用：通过在特征向量中包括动态系数。在合成中生成的语音参数序列被约束为是逼真的，如通过HMM的统计参数所定义。语音波形由生成的梅尔倒谱系数和F0值直接合成，其中所述合成使用MLSA滤波器。

梅尔倒谱失真(MCD)可以用于评估语音合成。MCD是用于计算原始和合成的MCEP和F0值之间的倒谱失真的对象错误度量。较低的MCD值指示高质量的合成语音。MCD可以被定义为使用下面的数学公式的欧几里得距离度量：

其中，

和

分别表示目标和评估的F0和MCEP。

虽然已经在附图和上文的说明中显示并说明了本发明，但是应当被认为是说明性而非限制性的，应当理解的是仅示出并说明了优选实施例，并且本文和/或通过以下权利要求所述的本发明的精神内的所有等效形式、改变和修改均需被保护。

因此，本发明适当的保护范围应当仅通过所附权利要求书的最宽解释来确定，以便涵盖所有这些修改以及与在附图中所示和在说明书中所述相等效的所有关系。

Claims

1.一种用于使用参数模型生成合成语音的方法，所述方法包括以下步骤：

a.从语音音频文件的数据库选择语句，所述语句包括多个音素；

b.为所述语音音频文件中的每个语句识别异常值总数，所述异常值包括基于基频的异常值和基于群延迟的异常值；

c.忽略所述异常值数量超过异常值阈值的语句，并且保留所述异常值数量满足所述异常值阈值的语句；

d.通过起始于语音数据库的语音信号提取的激励参数和频谱参数以及来自语音数据库的标签训练隐马尔科夫模型；

e.使用来自所述语音信号的提取的激励参数和频谱参数并使用来自所述语音数据库的所述标签训练隐马尔科夫模型，以生成依赖于上下文的隐马尔科夫模型；

f.输入文本并分析所述文本，其中所述分析包括从所述文本中提取标签，使用所述标签由所述依赖于上下文的隐马尔可夫模型生成参数；

g.使用所述文本激励参数生成文本激励信号；和

h.通过将所述文本激励信号和所述文本频谱参数传送到合成滤波器中生成合成的语音波形。

2.根据权利要求1所述的方法，其中，所述识别所述基于基频的异常值的步骤还包括：

a.使用音调追踪工具执行信号分析以提取所述语句中的每一个的所述基频；

b.使用从包括隐马尔科夫模型工具包(HTK)的组中选择的语音识别工具生成对准；

c.分离所述多个音素的实例；

d.从所述多个音素的所述分离的实例中的每一个确定第一基频和持续时间；和

e.为所述多个音素的所述分离的实例中的每一个识别异常值，所述异常值超过异常值阈值。

3.根据权利要求2所述的方法，其中，选择所述异常值阈值以识别呈现为元音的音素。

4.根据权利要求2所述的方法，其中，所述异常值阈值为预定值，所述多个音素的所述分离的实例的所述第一基频的平均值小于所述预定值。

5.根据权利要求2所述的方法，其中，当所述分离的实例中的每一个呈现为大于所述音素的平均持续时间的两倍时，所述异常值阈值为持续时间。

6.根据权利要求2所述的方法，其中，当所述分离的实例中的每一个呈现为小于音素的平均持续时间的一半时，所述异常值阈值为持续时间。

7.根据权利要求4所述的方法，其中，所述预定值为根据经验为所述多个音素的所述分离的实例中的每一个选择的值。

8.根据权利要求1所述的方法，其中，所述识别基于群延迟的异常值的步骤还包括：

a.以音素层次生成音频文件的对准，和以音节层次生成所述音频文件的对准；

b.使用群延迟算法调整所述音频文件的对准；

c.拆分音节到单独的音频文件中以形成分离的文件，所述分离的文件被用于进一步分析来自其它相似音节的集合信息；

d.使用音素模型为拆分的音节中的每一个生成音素边界；

e.为所述生成的音素边界中的每一个确定似然值，所述似然值包括对数似然值；

f.确定对准是否失败和确定每个生成的音素的似然值，如果对准没有失败或者所述似然值满足标准，则将所述生成的音素识别为异常值；和

g.为所述音频文件中的每个语句识别异常值总数，其中如果所述语句大于一定数量的异常值，则将所述语句从模型训练中放弃。

9.根据权利要求8所述的方法，其中，所述音素模型包括使用训练数据预先训练的声学模型。

10.根据权利要求1所述的方法，其中，使用所述训练的隐马尔科夫模型、频谱参数和激励参数生成多个依赖于上下文的隐马尔科夫模型，在隐马尔科夫模型的模型训练期间，频谱参数和激励参数被从语音数据库中提取并通过上下文相关的隐马尔科夫模型被模型化，使用基于隐马尔科夫模型的语音合成系统框架训练隐马尔科夫模型，所述频谱参数和所述激励参数从带注释的语音数据库中被提取并被转换为通过相应的隐马尔科夫模型序列模型化的一系列观察特征向量。

11.根据权利要求1所述的方法，其中，生成文本激励参数和文本频谱参数还包括激励参数和频谱参数在参数生成期间生成，在参数生成时合成阶段开始，在合成期间，随机给定的被合成文本转换成基于上下文的标签序列。

12.根据权利要求1所述的方法，其中，所述合成滤波器包括从包括梅尔频率倒谱系数的组中选择的滤波器参数，所述梅尔频率倒谱系数由连续的隐马尔科夫模型模型化，语音波形由生成的梅尔倒谱系数和基频值直接合成，其中所述合成使用MLSA滤波器。

13.根据权利要求1所述的方法，其中，生成语音波形还包括：

a.通过串联多个所述依赖于上下文的隐马尔科夫模型构建语句隐马尔科夫模型；和

b.为所述语句隐马尔科夫模型确定状态持续时间，所述状态持续时间被计算为将所述状态持续时间的输出概率最大化。

14.根据权利要求13所述的方法，其中，确定梅尔倒谱系数序列和log基频值包括声音/非声音的决定，从而使用语音参数生成算法最大化隐马尔科夫模型的输出概率。