CN108369803B - 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 - Google Patents
用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 Download PDFInfo
- Publication number
- CN108369803B CN108369803B CN201580085103.5A CN201580085103A CN108369803B CN 108369803 B CN108369803 B CN 108369803B CN 201580085103 A CN201580085103 A CN 201580085103A CN 108369803 B CN108369803 B CN 108369803B
- Authority
- CN
- China
- Prior art keywords
- band
- glottal
- speech
- database
- pulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000005284 excitation Effects 0.000 title claims abstract description 55
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 34
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000003595 spectral effect Effects 0.000 claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 238000007792 addition Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种用于形成基于声门脉冲模型的参数化语音合成系统的激励信号的系统和方法。激励信号可以通过使用多个子带模板而不是单个子带模板来形成。多个子带模板可以组合形成激励信号,其中模板添加的比例是基于所确定的能量系数动态变化的。这些系数随帧而变化,并且在特征训练期间被与频谱参数一起学习。所述系数被附加到特征向量中,所述特征向量包括频谱参数并使用HMM建模,并且确定激励信号。
Description
技术领域
本发明通常涉及电信系统和方法以及语音合成。更具体地,本发明涉及在基于隐马尔可夫模型的统计参数语音合成系统中形成激励信号。
背景技术
在语音合成中,激励通常被假定为有声区域的准周期脉冲序列。每个序列与前一个序列相隔一段(持续)时间,例如其中T0表示基音周期,F0表示基频。在无声区域中,激励被模型化为白噪声。然而,在有声区域中,激励实际上不是脉冲序列。激励是由于声带的振动及其形状而产生的声源脉冲序列。此外,脉冲的形状可以根据各种因素而变化,例如:说话者、说话者的语气、语言背景、情绪等。
例如,如欧洲专利EP 2242045(2012年6月27日授予发明人Thomas Drugman等人)中所记载,通过长度归一化(通过重采样)和脉冲对准,源脉冲被以数学方式处理为向量。归一化源脉冲信号的最终长度被重新采样以满足目标基音。源脉冲不是从数据库中选择的,而是通过有损频域中的脉冲特性的一系列计算获得的。传统上,对基于HMM的系统使用声学参数或激励模型来进行声源脉冲的建模,然而,所述模型内插/重新采样声门/残余脉冲以满足目标基音周期,这有损频域中的模型脉冲特性。其他方法使用规范方法选择脉冲,但是通过长度归一化将剩余脉冲转换为等长度向量。这些方法还对这些向量执行PCA,这使得被选中的最终脉冲成为计算过的脉冲,而不是直接从训练数据中选择的脉冲。
发明内容
本发明提出了一种用于形成基于声门脉冲模型的参数语音合成系统的激励信号的系统和方法。激励信号可以通过使用多个子带模板而不是单个子带模板来形成。多个子带模板可以组合以形成激励信号,其中添加模板的比例是基于确定的能量系数动态地进行的。所述系数随着帧而变化,并且在特征训练期间被与频谱参数一起学习。系数被附加到特征向量中,该特征向量包括频谱参数并使用HMM来建模,并且激励信号已被确定。
在一个实施例中,提出了一种用于创建用于训练语音合成系统的参数模型的方法,其中所述系统至少包括训练文本语料库、语音数据库和模型训练模块,所述方法包括以下步骤:通过模型训练模块获取训练文本语料库的语音数据,其中语音数据包括记录的语音信号和相应的转录;通过模型训练模块将训练文本语料库转换为上下文相关的电话标签;通过模型训练模块为来自语音训练数据库中的语音信号中的语音的每个帧提取以下中的至少一个:频谱特征、多个频带激励能量系数和基频值;通过模型训练模块使用以下中的至少一个来为语音的每个帧生成特征向量流:频谱特征、多个频带激励能量系数和基频值;通过上下文相关的电话标记语音;从标记的语音中提取每个上下文相关的电话的持续时间;执行语音信号的参数估计,其中执行的参数估计包括特征、HMM和决策树;和识别多个子带本征声门脉冲,其中子带本征声门脉冲包括在合成期间用于形成激励的不同模型。
在另一个实施例中,提出了一种用于从声门脉冲数据库识别子带本征脉冲以训练语音合成系统的方法,其中该方法包括以下步骤:从声门脉冲数据库接收脉冲;将每个脉冲分解成多个子带分量;根据所述分解将子带分量分成多个数据库;确定每个数据库的向量表示;由向量表示为每个数据库确定本征脉冲值;和为每个数据库选择最佳的本征脉冲用于合成。
附图说明
图1是显示一个实施例的基于隐马尔可夫模型的文本转语音系统的示意图;
图2是显示一个实施例的特征向量提取过程的流程图;
图3是显示一个实施例的特征向量提取过程的流程图;
图4是显示一个实施例的识别本征脉冲的过程的流程图;以及
图5是显示一个实施例的语音合成过程的流程图。
相关申请的交叉引用
本申请是2014年5月28日提交的名称为“Method for Forming the ExcitationSignal for a Glottal Pulse Model Based Parametric Speech Synthesis System”的美国申请14/288,745的部分继续申请,其内容部分并入本文。
具体实施方式
为了促进对本发明原理的理解,现在将参考附图中示出的实施例并将使用特定的语言来说明这些实施例。然而应该理解的是,这并不是对本发明保护范围的限制。本发明所属领域的技术人员通常会想到对所述的实施例的任何改变和进一步修改以及本文所述的本发明原理的任何进一步应用。
为了不是通过计算,而是通过选择直接从训练数据中获得最终脉冲,声门脉冲可以通过定义量度和提供向量表示来建模。在给定声门脉冲和基频的情况下,还提出了不是对脉冲重新采样或内插的激励形成。
在统计参数语音合成中,语音单元信号由一组可用于合成语音的参数表示。例如,这些参数可以通过统计模型来学习,例如HMM。在一个实施例中,语音可以表示为有源滤波器模型,其中源/激励是信号,所述信号在通过适当的滤波器时产生给定声音。图1是显示基于隐马尔可夫模型(HMM)的文本转语音(TTS)系统的一个实施例的示意图,所述系统整体用100表示。一个实施例的示例性系统可以包含两个阶段,例如训练阶段和合成阶段,下面将更详细地说明每个阶段。
语音数据库105可以包含一定量的用于语音合成的语音数据。语音数据可以包括记录的语音信号和相应的转录。在训练阶段,语音信号106被转换成参数。所述参数可以包括激励参数、F0参数和频谱参数。激励参数提取110a、频谱参数提取110b和F0参数提取110c由从语音数据库105传播来的语音信号106而发生。隐马尔可夫模型可以使用训练模块115进行训练,其中所述训练模块使用这些提取的参数和来自语音数据库105的标签107。训练可以产生任意数量的HMM模型,这些上下文相关的HMM被存储在数据库120中。
合成阶段从上下文相关的HMM 120被用于生成参数135开始。参数生成135可以使用来自合成语音的文本125的语料库的输入。在参数生成135中使用之前,文本125可以先进行分析130。在分析130期间,从文本125提取标签131以用于参数生成135。在一个实施例中,可以在参数生成模块135中生成激励参数和频谱参数。
激励参数可以用于生成激励信号140,该激励信号140与频谱参数一起输入到合成滤波器145中。滤波器参数通常是梅尔频率倒谱系数(MFCC),并且通常通过使用HMM由统计时间序列来建模。通过由基频值和用于形成滤波器的MFCC值来创建激励信号,滤波器的预测值和基频作为时间序列值可以用来合成滤波器。当激励信号通过滤波器时产生合成语音150。
图1中的激励信号140的形成与输出质量或合成语音150是整体的。通常,在统计参数语音合成系统中使用的频谱参数包括MCEPS、MGC、Mel-LPC或Mel-LSP。在一个实施例中,频谱参数是由预加重语音信号计算的mel广义倒谱(MGC),但是零级能量系数是由原始语音信号计算的。在传统系统中,仅将基频值视为源参数,而将整个频谱视为系统参数。然而,语音频谱的频谱倾斜或总频谱形状实际上是声门脉冲的特性,因此被认为是源参数。频谱倾斜被捕获并针对基于声门脉冲的激励被建模,并且作为系统参数被排除。相反,除了零级能量系数(语音能量)之外,预加重语音用于计算频谱参数(MGC)。该系数在时间上变化缓慢,并且可以被作为由未处理的语音直接计算的韵律参数进行处理。
训练与模型构建
图2是显示一个实施例的特征向量提取过程的流程图,所述过程整体用200表示。该过程可以在图1的频谱参数提取110b期间发生。如前所述,所述参数可以用于模型训练,例如使用HMM模型。
在操作205中,接收语音信号以转换成参数。如图1所示,可以从语音数据库105接收语音信号。控制传递到操作210和220,并且过程200继续。在一个实施例中,操作210和215与操作220同时发生,并且判定结果都传递到操作225。
在操作210中,语音信号要进行预加重。例如,在此阶段对语音信号进行预加重可防止在下一个操作中确定MGC系数中捕获低频源信息。控制传递到操作215,并且过程200继续。
在操作215中,为语音的每一帧确定频谱参数。在一个实施例中,可以为每个帧确定MGC系数1-39。可选地,也可以使用MFCC和LSP。控制传递到操作225,并且过程200继续。
在操作220中,为语音的每一帧确定零级系数。在一个实施例中,这可以使用与预加重语音相反的未处理语音来确定。控制传递到操作225,并且过程200继续。
在操作225中,来自操作220和215的系数被附加到1-39MGC系数以形成语音每一帧的39个系数。然后,帧的频谱系数可以被称为频谱向量。过程200结束。
图3是显示一个实施例的特征向量提取过程的流程图,该过程整体用300表示。该过程可以在图1的激励参数提取110a期间发生。如前所述,这些参数可以用于模型训练,例如使用HMM模型。
在操作305中,接收语音信号以转换成参数。如图1所示,可以从语音数据库105接收语音信号。控制被传递到操作310、320和325,并且过程300继续。
在操作310中,对语音信号执行预加重。例如,在此阶段对语音信号进行预加重可防止在下一个操作中确定MGC系数中捕获低频源信息。控制传递到操作315,并且过程300继续。
在操作315中,对预加重的语音信号执行线性预测编码或LPC分析。例如,LPC分析产生在下一个操作中用于执行逆滤波的系数。控制传递到操作320,并且过程300继续。
在操作320中,对所分析的信号和原始语音信号执行逆滤波。在一个实施例中,直到执行预加重之后才执行操作320(操作310)。控制传递到操作330,并且过程300继续。
在操作325中,由原始语音信号确定基频值。基频值可以使用本领域已知的任何标准技术来确定。控制被传递到操作330,并且过程300继续。
在操作330中,声门周期被分段。控制传递到操作335,并且过程300继续。
在操作335中,声门周期被分解。在一个实施例中,对于每个帧,对应的声门周期被分解成子带分量。在一个实施例中,子带分量可以包括多个频带,其中频带可以包括较低分量和较高分量。
在通常的声门脉冲的频谱中,在低频下可能存在较高的能量凸起,在较高频率下可能存在平坦结构。这些频带之间的分界线随着脉冲到脉冲以及能量比而变化。给定声门脉冲,就会确定分离较高频带和较低频带的截止频率。在一个实施例中,ZFR方法可以与适当的窗口尺寸一起使用,但要应用于频谱幅度。在低频凸起结果的边缘处产生过零点,其被视为较低频带和较高频带之间的分界频率。时域中的两个分量可以通过在进行逆FFT以获得声门脉冲的低频分量的时域版本且反之亦然以获得高频分量之前在频谱的较高频带区域中放置零点来获得。控制传递到操作340,并且过程300继续。
在操作340中,确定子带分量的能量。例如,可以确定每个子带分量的能量以形成每个帧的能量系数。在一个实施例中,子带分量的数量可以是两个。可以使用本领域已知的任何标准技术来确定子带分量的能量。然后,帧的能量系数被称为能量向量。过程300结束。
在一个实施例中,由逆滤波语音确定每个帧的两频带能量系数。能量系数可以表示声门激励的动态特性。逆滤波语音在被分割成多个声门周期之后,包含了对源信号的逼近。两频带能量系数包括源信号的相应声门周期的低频带分量和高频带分量的能量。较低频率分量的能量包括较低频带的能量系数,并且类似地,较高频率分量的能量包括较高频带的能量系数。所述系数可以通过将该系数包括在相应帧的特征向量中来建模,然后在HTS中通过HMM-GMM来建模。
在该非限制性示例中,源信号的两频带能量系数被附加到在过程200中确定的频谱参数中,以与基频值一起形成特征流,并且如在通常基于HMM-GMM(HTS)的TTS系统中那样使用HMM来建模。然后,如下所述,该模型可以在过程500中用于语音合成。
本征脉冲识别的训练
图4是显示一个实施例的识别本征脉冲的过程的流程图,所述过程整体用400表示。可以为每个子带声门脉冲数据库识别本征脉冲,并且如下面进一步描述的那样在合成中使用本征脉冲。
在操作405中,创建声门脉冲数据库。在一个实施例中,声门脉冲的数据库是使用从配音演员获得的训练数据(语音数据)自动创建的。给定语音信号s(n),执行线性预测分析。对信号s(n)进行逆滤波,以获得近似声门激励的积分线性预测残差信号。例如,然后使用例如零频率滤波技术将积分线性预测残差分割成多个声门周期。获得的多个小信号被称为声门脉冲,所述声门脉冲可以表示为gi(n),i=1,2,3,...。聚集声门脉冲以创建数据库。控制传递到操作410,并且过程400继续。
在操作410中,来自数据库的脉冲被分解成子带分量。在一个实施例中,声门脉冲可以被分解成多个子带分量(例如,低频带分量和高频带分量)以及两频带能量系数。在通常的声门脉冲的频谱中,在低频下存在高能量凸起,而在高频下存在通常的平坦结构。然而,频带之间的分界随着脉冲到脉冲而变化,这两个频带之间的能量比也是如此。因此,这些频带可能需要不同的模型。
给定声门脉冲,确定截止频率。在一个实施例中,截止频率是通过使用具有适当窗口大小的零频率谐振器(ZRF)方法来分离较高频带和较低频带的频率,但要应用在频谱幅度上。在低频凸起结果的边缘处产生零点,其被视为较低频带和较高频带之间的分界频率。时域中的两个分量是由于在进行逆FFT以获得声门脉冲的较低频分量的时域版本以及反之亦然以获得较高频率分量之前在频谱的较高频带区域中放置零点而产生的。控制传递到操作415,并且过程400继续。
在操作415中,形成脉冲数据库。例如,从操作410产生多个声门脉冲数据库,例如低频带声门脉冲数据库和高频带声门脉冲数据库。在一个实施例中,形成的数据库的数量对应于形成的频带的数量。控制传递到操作420,并且过程400继续。
在操作420中,确定每个数据库的向量表示。在一个实施例中,已经产生了针对声门脉冲的较低和较高频带分量的两个单独的模型,但是如进一步描述的,这些模型中的每一个可以应用相同的方法。在本文中,子带声门脉冲是指声门脉冲的高频带或低频带的分量。
子带声门脉冲信号的空间可以像下面这样被处理为新的数学度量空间:
考虑连续函数、有界变差函数和单位能量函数的函数空间M。如果g在时间上是翻译/延迟版本,则识别该空间中的翻译,其中f与g相同。在给定f和g的情况下,此空间上施加有等价关系,其中f和g表示任意两个子带声门脉冲,如果存在实常数则f等价于g,使得g=cos(θ)+fh sin(θ),其中fh表示f的希尔伯特变换。
距离度量d可以在函数空间M上定义。给定f,g∈M,两个函数之间的归一化互相关性可以表示为让其中rh是r的希尔伯特变换。f和g之间的角度可以被定义为θ(f,g)=suprR(τ)意思是假定θ(f,g)是函数R(τ)的最大值。f、g之间的距离度量变为度量d与函数空间M一起形成度量空间(M,d)。
如果度量d是希尔伯特度量,则所述空间可以等距嵌入到希尔伯特空间中。因此,对于函数空间中的给定信号,x∈M可以被映射到希尔伯特空间中的向量Ψx(.),表示为:
对于度量空间的给定信号x的向量表示Ψx(.)取决于x与度量空间中的其他每一个信号的距离的集合。确定与度量空间的所有其它点的距离是不切实际的,因此,向量表示可以仅取决于与度量空间的一组固定数量的点{ci}的距离,这些点是在基于度量的对来自度量空间的大量信号集合聚类后获得的质心。控制传递到操作425,并且过程400继续。
在操作425中,确定本征脉冲,过程400结束。在一个实施例中,为了确定子带声门脉冲的度量,定义任何两个子带声门脉冲x和y之间的度量或概念距离d(x,y)。两个脉冲f、g之间的度量定义如下。f、g之间的归一化循环互相关性被定义为:
循环相关性的周期被认为是f、g的最高长度。较短的信号被零扩展以用于计算度量,而且在数据库中不会被修改。确定R(n)的离散希尔伯特变换Rh(n)。
接下来,通过数学方程式获得信号:
两个信号f、g之间的角度θ的余弦可以定义为:
cosθ=supnH(n)
其中supnH(n)是指信号H(n)的所有采样中的最大值。距离度量可以被给定为:
可以修改本领域公知的k均值聚类算法,以从整个声门脉冲数据库G确定k聚类质心声门脉冲。第一修改包括用如前述为声门脉冲定义的度量d(x,y)替换欧几里德距离度量。第二修改包括更新簇的质心。其元素被表示为{g1,g2,...gN}的一簇声门脉冲的质心声门脉冲用元素gc表示,使得:
对于m=c最小。当k簇的任何质心都没有偏移时,终止聚类迭代。
然后可以确定子带声门脉冲的向量表示。给定声门脉冲xi,并且假设c1,c2,...ci,c256是通过如前所述的聚类确定的质心声门脉冲,则使声门脉冲数据库的大小为L。基于距离度量给每一个质心簇ci分配一个,分配给质心cj的元素的总数可以被定义为nj。其中x0表示从数据库中拾取的固定子带声门脉冲,向量表示可以被定义为:
其中Vi是子带声门脉冲xi,Vi的向量表示,可以给出为:
Vi=[Ψ1(xi),Ψ2(xi),Ψ3(xi),...Ψj(xi),...Ψ256(xi)]
对于数据库中的每个声门脉冲,确定相应的向量并将其存储在数据库中。
在向量空间中执行PCA并识别本征声门脉冲。对与声门脉冲数据库相关联的向量集合进行主成分分析(PCA),以便获得本征向量。从每个向量中减去整个向量数据库的平均向量以获得平均减去向量。然后确定向量集合的协方差矩阵的本征向量。与所获得的每个本征向量相关联的是其平均减去向量与本征向量具有最小欧几里德距离的声门脉冲,并将其称为相应的本征声门脉冲。这样可以确定每个子带声门脉冲数据库的本征脉冲,并且基于听力测试从中选择一个本征脉冲,并且可以如以下进一步描述的那样在合成中使用本征脉冲。
合成中的使用
图5是显示一个实施例的语音合成过程的流程图,所述过程整体用500表示。该过程可以用于训练在过程100(图1)中获得的模型。在一个实施例中,在特定基音周期中用作激励的声门脉冲通过在将较低频带声门模板脉冲和较高频带声门模板脉冲中的每一个定标为相应的两频带能量系数之后对两者进行组合而形成。特定周期的两频带能量系数被认为是基音周期对应的帧的两频带能量系数。激励由声门脉冲形成,并被滤波以获得输出语音。
合成可以发生在频域和时域中。在频域中,对于每个基音周期,相应的频谱参数向量被转换成频谱并与声门脉冲的频谱相乘。结果经过离散傅立叶逆变换(DFT)获得对应于基音周期的语音段。对时域中所有获得的基音同步语音段叠加获得合成语音。
在时域中,使用梅尔对数频谱近似(MLSA)滤波器构造和滤波激励信号,以获得合成语音信号。给定声门脉冲被归一化为单位能量。对于无声区域,在激励信号中加入固定能量的白噪声。对于有声区域,用零初始化激励信号。基频值,例如每5ms对帧给出的基频值,用于计算基音边界。声门脉冲从每个基音边界开始放置,并且叠加到零初始化的激励信号上以获得信号。在每个基音边界处对声门脉冲执行叠加,并且添加少量固定量的带通滤波后的白噪声,以确保在激励信号中存在少量随机/推测分量。为了避免合成语音中的模糊效应(windiness effect),应用拼接机制,其中使用右移位基音边界和循环左移位声门脉冲形成多个激励信号。用于构建的基音边界的右移位包括固定常数,并且用于构建的声门脉冲被循环左移相同的量。最终的拼接激励是激励信号的算术平均值。这被传递通过MLSA滤波器以获得语音信号。
在操作505中,文本被输入到语音合成系统中的模型中。例如,在图1中获得的模型(上下文相关的HMM 120)接收输入文本并提供如下所述随后用于合成与输入文本相关的语音的特征。控制传递到操作510和操作515,过程500继续。
在操作510中,为每一帧预测特征向量。这可以使用本领域标准的方法来完成,例如上下文相关决策树。控制传递到操作525和540,并且操作500继续。
在操作515中,确定(多个)基频值。控制传递到操作520且过程500继续。
在操作520中,确定基音边界。控制传递到操作560且过程500继续。
在操作525中,为每一帧确定MGC。例如,确定0-39MGC。控制传递到操作530且过程500继续。
在操作530中,MGC被转换成频谱。控制传递到顶部操作535,过程500继续。
在操作540中,为每一帧确定能量系数。控制传递到操作545且过程500继续。
在操作545中,确定并归一化本征脉冲。控制传递到操作550且过程500继续。
在操作550中,应用FFT。控制传递到操作535且过程500继续。
在操作535中,可以执行数据乘法。例如,来自操作550的数据与操作535中的数据相乘。在一个实施例中,这可以通过样本乘法在样本中完成。控制传递到操作555且过程500继续。
在操作555中,应用逆FFT。控制传递到操作560且过程500继续。
在操作560中,对语音信号执行叠加。控制传递到操作565且过程500继续。
在操作565中,接收输出语音信号且过程500结束。
尽管已经在附图和前面的描述中详细地示出和描述了本发明,但是应当理解的是,这些附图和描述被认为是说明性的而不是限制性的,仅示出和描述了优选实施例,并且希望保护落入本文所述和/或所附权利要求书的精神内的所有等同物、改变和修改。
因此,本发明的适当范围应当仅由所附权利要求书的最广泛的解释来确定,以便包括所有这样的修改以及与附图中示出的和说明书中描述的那些等效的所有关系。
Claims (19)
1.一种用于创建用于训练语音合成系统的参数模型的方法,其中所述系统至少包括训练文本语料库、语音数据库和模型训练模块,所述方法包括以下步骤:
a.由所述模型训练模块获取所述训练文本语料库的语音数据,其中所述语音数据包括记录的语音信号和相应的转录,其中所述语音信号被转换成参数,所述参数包括激励参数、F0参数和频谱参数;
b.训练阶段,在所述训练阶段中,由所述模型训练模块将所述训练文本语料库转换为上下文相关的隐马尔科夫模型,并将所述上下文相关的HMM存储在所述语音数据中,其中,所述训练阶段还包括:
由所述模型训练模块从语音训练数据库中为所述语音信号中的语音的每一帧提取频谱特征、多个频带激励能量系数和基频值中的至少一个,和
由所述模型训练模块使用频谱特征、多个频带激励能量系数和基频值中的至少一个为语音的每一帧形成特征向量流;和
c.合成阶段,所述合成阶段从所述上下文相关的HMM被用于参数生成开始,在参数生成模块使用来自合成语音的文本的语料库的输入,并在参数生成之前对所述文本进行分析,并在分析期间提取标签以用于参数生成,其中由参数生成模块生成激励参数和频谱参数,并且合成阶段还包括:
基于所述激励参数生成激励信号,并将所述激励信号与频谱参数一起输入到合成滤波器中;
其中使用HMM建模的步骤还包括:识别多个子带本征声门脉冲,其中所述子带本征声门脉冲包括在合成阶段形成激励信号所使用的单独模型,
其中所述模型训练模块使用提取的参数和来自语音数据库的标签。
2.根据权利要求1所述的方法,其中,确定所述频谱特征包括以下步骤:
a .由所述语音信号确定能量系数;
b .对所述语音信号进行预加重,并确定所述预加重语音信号的每个帧的MGC系数;
c .将所述能量系数和所述MGC系数相加,以形成所述信号的每个帧的MCG;和
d .为每个帧提取频谱向量。
3.根据权利要求1所述的方法,其中,确定所述多个频带激励能量系数包括以下步骤:
a .由所述语音信号确定基频值;
b .对所述语音信号进行预加重;
c .对预加重语音信号进行LPC分析;
d .对所述语音信号和LPC分析信号进行逆滤波;
e .使用所述基频值和逆滤波的语音信号对声门周期进行分割;
f .将每个帧对应的声门周期分解为子带分量;
g .计算每个子带分量的能量,以形成每个帧的多个能量系数;和
h .使用所述能量系数提取每个帧的激励向量。
4.根据权利要求3所述的方法,其中,所述子带分量包括至少2个频带。
5.根据权利要求4所述的方法,其中,所述子带分量至少包括高频带分量和低频带分量。
6.根据权利要求1所述的方法,其中,识别多个子带本征声门脉冲还包括以下步骤:
a .根据使用语音数据创建声门脉冲数据库;
b .将每个脉冲分解成多个子带分量;
c .根据所述分解将所述子带分量分为多个数据库;
d .确定每个数据库的向量表示;
e .由所述向量表示确定每个数据库的本征脉冲值;和
f .为每个数据库选择用于合成的最佳本征脉冲。
7.根据权利要求6所述的方法,其中,所述多个子带分量包括低频带和高频带。
8.根据权利要求6所述的方法,其中,所述声门脉冲数据库通过以下步骤创建:
a .对语音信号进行线性预测分析;
b .对所述信号进行逆滤波,以获得积分线性预测残差;和
c .将所述积分线性预测残差分割成多个声门周期以获得多个声门脉冲。
9.根据权利要求7所述的方法,其中,所述分解进一步包括:
a .确定截止频率,其中所述截止频率将所述子带分量分成分组;
b .在低频凸起结果的边缘处获得过零点;
c .在声门脉冲的频谱的高频带区域中放置零点,并且获得声门脉冲的低频分量的时域版本,其中所述获得包括执行逆FFT;和
d .在获得所述声门脉冲的高频分量的时域版本之前,在所述频谱的低频带区域中放置零点,其中所述获得包括执行逆FFT。
10.根据权利要求9所述的方法,其中,所述分组包括低频带分组和高频带分组。
11.根据权利要求9所述的方法,其中,将子带分量分成分组使用具有适当窗口大小的ZFR方法来执行并被应用于所述频谱幅度。
12.根据权利要求6所述的方法,其中,所述确定每个数据库的向量表示还包括距离度量空间的一组固定数量的点的距离集合,所述固定数量的点为在来自所述度量空间的基于度量的大量信号集合聚类之后获得的质心。
13.一种用于从声门脉冲数据库识别子带本征脉冲的方法,其中所述方法包括以下步骤:
a .从所述声门脉冲数据库接收脉冲;
b .将每个脉冲分解成多个子带分量;
c .根据所述分解将所述子带分量分为多个数据库;
d .确定每个数据库的向量表示;
e .由所述向量表示确定每个数据库的本征脉冲值;和
f .为每个数据库选择用于合成的最佳本征脉冲。
14.根据权利要求13所述的方法,其中,所述多个子带分量包括低频带和高频带。
15.根据权利要求13所述的方法,其中,所述声门脉冲数据库通过以下步骤创建:
a .对语音信号进行线性预测分析;
b .对所述信号进行逆滤波,以获得积分线性预测残差;和
c .将所述积分线性预测残差分割成多个声门周期以获得多个声门脉冲。
16.根据权利要求14所述的方法,其中,所述分解进一步包括:
a .确定截止频率,其中所述截止频率将所述子带分量分成分组;
b .在所述低频带凸起的边缘处获得过零点;
c .在获得声门脉冲的低频分量的时域版本之前,在所述声门脉冲的频谱的所述高频带区域中放置零点,其中所述获得包括执行逆FFT;和
d .在获得所述声门脉冲的高频分量的时域版本之前,在所述频谱的所述低频带区域中放置零点,其中所述获得包括执行逆FFT。
17.根据权利要求16所述的方法,其中,所述分组包括低频带分组和高频带分组。
18.根据权利要求16所述的方法,其中,将子带分量分离成分组使用具有适当窗口大小的ZFR方法来执行并被应用于所述频谱幅度。
19.根据权利要求13所述的方法,其中,所述确定每个数据库的向量表示还包括距度量空间的一组固定数量的点的集合的距离的集合,所述一组固定数量的点为来自所述度量空间的基于度量的大量信号集合聚类之后所获得的质心。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2015/054122 WO2017061985A1 (en) | 2015-10-06 | 2015-10-06 | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108369803A CN108369803A (zh) | 2018-08-03 |
CN108369803B true CN108369803B (zh) | 2023-04-04 |
Family
ID=58488102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580085103.5A Active CN108369803B (zh) | 2015-10-06 | 2015-10-06 | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3363015A4 (zh) |
KR (1) | KR20180078252A (zh) |
CN (1) | CN108369803B (zh) |
AU (1) | AU2015411306A1 (zh) |
CA (1) | CA3004700C (zh) |
WO (1) | WO2017061985A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3857541B1 (en) * | 2018-09-30 | 2023-07-19 | Microsoft Technology Licensing, LLC | Speech waveform generation |
CN109767755A (zh) * | 2019-03-01 | 2019-05-17 | 广州多益网络股份有限公司 | 一种语音合成方法和系统 |
CN111862931B (zh) * | 2020-05-08 | 2024-09-24 | 北京嘀嘀无限科技发展有限公司 | 一种语音生成方法及装置 |
CN112365875B (zh) * | 2020-11-18 | 2021-09-10 | 北京百度网讯科技有限公司 | 语音合成方法、装置、声码器和电子设备 |
CN113571079A (zh) * | 2021-02-08 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
CN1473322A (zh) * | 2001-08-31 | 2004-02-04 | ��ʽ���罨�� | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 |
EP2242045A1 (en) * | 2009-04-16 | 2010-10-20 | Faculte Polytechnique De Mons | Speech synthesis and coding methods |
CN102231275A (zh) * | 2011-06-01 | 2011-11-02 | 北京宇音天下科技有限公司 | 一种基于加权混合激励的嵌入式语音合成方法 |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
ATE456130T1 (de) * | 2007-10-29 | 2010-02-15 | Harman Becker Automotive Sys | Partielle sprachrekonstruktion |
CA2724753A1 (en) * | 2008-05-30 | 2009-12-03 | Nokia Corporation | Method, apparatus and computer program product for providing improved speech synthesis |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
GB2508417B (en) * | 2012-11-30 | 2017-02-08 | Toshiba Res Europe Ltd | A speech processing system |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
-
2015
- 2015-10-06 EP EP15905930.2A patent/EP3363015A4/en not_active Ceased
- 2015-10-06 CN CN201580085103.5A patent/CN108369803B/zh active Active
- 2015-10-06 AU AU2015411306A patent/AU2015411306A1/en not_active Abandoned
- 2015-10-06 KR KR1020187012944A patent/KR20180078252A/ko not_active Application Discontinuation
- 2015-10-06 CA CA3004700A patent/CA3004700C/en active Active
- 2015-10-06 WO PCT/US2015/054122 patent/WO2017061985A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
CN1473322A (zh) * | 2001-08-31 | 2004-02-04 | ��ʽ���罨�� | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 |
EP2242045A1 (en) * | 2009-04-16 | 2010-10-20 | Faculte Polytechnique De Mons | Speech synthesis and coding methods |
CN102231275A (zh) * | 2011-06-01 | 2011-11-02 | 北京宇音天下科技有限公司 | 一种基于加权混合激励的嵌入式语音合成方法 |
CN102270449A (zh) * | 2011-08-10 | 2011-12-07 | 歌尔声学股份有限公司 | 参数语音合成方法和系统 |
Non-Patent Citations (2)
Title |
---|
A novel codebook-based excitation model;Tamás Gábor Csapó;《CogInfoCom 2012 3rd IEEE International Conference on Cognitive Infocommunications》;20121205;第661-665页 * |
统计参数语音合成中的声学模型建模方法研究;雷鸣;《中国博士学位论文全文数据库》;20130131(第1期);I136-22 * |
Also Published As
Publication number | Publication date |
---|---|
WO2017061985A1 (en) | 2017-04-13 |
KR20180078252A (ko) | 2018-07-09 |
AU2015411306A1 (en) | 2018-05-24 |
CN108369803A (zh) | 2018-08-03 |
CA3004700A1 (en) | 2017-04-13 |
CA3004700C (en) | 2021-03-23 |
EP3363015A4 (en) | 2019-06-12 |
EP3363015A1 (en) | 2018-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621969B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
AU2020227065B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
US20050131680A1 (en) | Speech synthesis using complex spectral modeling | |
JP5717097B2 (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
US10014007B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
JP2017520016A5 (ja) | パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
Khonglah et al. | Speech enhancement using source information for phoneme recognition of speech with background music | |
EP3113180B1 (en) | Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal | |
CN111862931B (zh) | 一种语音生成方法及装置 | |
JPWO2009041402A1 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
Orphanidou et al. | Voice morphing using the generative topographic mapping | |
McHargue | Efficient Multispeaker Speech Synthesis and Voice Cloning | |
Ye | Efficient Approaches for Voice Change and Voice Conversion Systems | |
CN115132168A (zh) | 音频合成方法、装置、设备、计算机可读存储介质及产品 | |
CN115631744A (zh) | 一种两阶段的多说话人基频轨迹提取方法 | |
KR101047668B1 (ko) | 선율조절 방법 및 그 장치 | |
Jinachitra | Robust structured voice extraction for flexible expressive resynthesis | |
GB2526291A (en) | Speech analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |