CN107924686B - 语音处理装置、语音处理方法以及存储介质 - Google Patents
语音处理装置、语音处理方法以及存储介质 Download PDFInfo
- Publication number
- CN107924686B CN107924686B CN201580082452.1A CN201580082452A CN107924686B CN 107924686 B CN107924686 B CN 107924686B CN 201580082452 A CN201580082452 A CN 201580082452A CN 107924686 B CN107924686 B CN 107924686B
- Authority
- CN
- China
- Prior art keywords
- group delay
- parameter
- spectrum
- phase
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 title claims description 25
- 238000003672 processing method Methods 0.000 title description 4
- 238000001228 spectrum Methods 0.000 claims abstract description 168
- 238000004364 calculation method Methods 0.000 claims abstract description 78
- 238000012937 correction Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims description 26
- 230000001934 delay Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 abstract description 18
- 230000015572 biosynthetic process Effects 0.000 description 78
- 238000003786 synthesis reaction Methods 0.000 description 78
- 238000004458 analytical method Methods 0.000 description 58
- 238000010586 diagram Methods 0.000 description 46
- 239000011295 pitch Substances 0.000 description 39
- 238000009826 distribution Methods 0.000 description 32
- 238000000605 extraction Methods 0.000 description 20
- 230000000737 periodic effect Effects 0.000 description 17
- 238000003066 decision tree Methods 0.000 description 16
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 15
- 230000010363 phase shift Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000001755 vocal effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002688 persistence Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Complex Calculations (AREA)
Abstract
不仅能够使波形的再现性提高而且能够高速地生成波形。实施方式的语音处理装置具有频谱参数算出部、相位谱算出部、群延迟谱算出部、频带群延迟参数算出部以及频带群延迟修正参数算出部。频谱参数算出部算出频谱参数。相位谱算出部算出第1相位谱。群延迟谱算出部基于第1相位谱的频率成分,根据第1相位谱算出群延迟谱。频带群延迟参数算出部根据群延迟谱算出预定频率范围中的频带群延迟参数。频带群延迟修正参数算出部算出对根据频带群延迟参数重新构建所得到的第2相位谱与第1相位谱之差进行修正的频带群延迟修正参数。
Description
技术领域
本发明的实施方式涉及语音(声音)处理装置、语音处理方法以及存储介质。
背景技术
分析语音波形来提取特征参数的语音分析装置、和/或根据分析获得的特征参数来合成语音的语音合成装置,被广泛地用于文本语音合成技术、语音编码技术以及语音识别技术等语音处理技术。
现有技术文献
专利文献
专利文献1:国际公开第2014/021318号
专利文献2:日本特开2013-164572号公报
非专利文献
非专利文献1:坂野秀樹他、「時間領域平滑化群遅延を用いた短時間位相の効率的表現方法」、電子情報通信学会論文誌D-II Vol. J84-D-II、No.4、pp.621-628
发明内容
发明所要解决的问题
然而,以往存在难以利用于统计模型、在重新构建的相位与分析源波形的相位之间会产生偏离的问题。另外,以往存在当使用群延迟特征量进行波形生成时无法高速地生成波形这一问题。本发明所要解决的问题在于,提供能够使语音波形的再现性提高的语音处理装置、语音处理方法以及存储介质。
用于解决问题的技术方案
实施方式的语音处理装置具有频谱参数算出部、相位谱算出部、群延迟谱算出部、频带群延迟参数算出部以及频带群延迟修正参数算出部。频谱参数算出部针对输入语音的各语音帧,算出频谱参数。相位谱算出部针对所述各语音帧,算出第1相位谱。群延迟谱算出部基于所述第1相位谱的频率成分,根据所述第1相位谱算出群延迟谱。频带群延迟参数算出部根据所述群延迟谱算出预定频率范围(frequency range)中的频带群延迟参数。频带群延迟修正参数算出部算出对根据所述频带群延迟参数重新构建所得到的第2相位谱与所述第1相位谱之差进行修正的频带群延迟修正参数。
附图说明
图1是表示实施方式涉及的语音分析装置的构成例的框图。
图2是示例提取部所接收的语音波形和基音标记(pitch mark)的图。
图3是表示频谱参数算出部的处理例的图。
图4是表示相位谱算出部的处理例和群延迟谱算出部的处理的图。
图5是表示频率标度(scale)的制作例的图。
图6是示例进行了基于频带群延迟参数的分析所得的结果的图。
图7是示例根据频带群延迟修正参数进行了分析所得的结果的图。
图8是表示语音分析装置所进行的处理的流程图。
图9是表示频带群延迟参数算出步骤的详情的流程图。
图10是表示频带群延迟修正参数算出步骤的详情的流程图。
图11是表示语音合成装置的第1实施方式的框图。
图12是表示进行傅立叶逆变换以及波形叠加的语音合成装置的构成例的图。
图13是表示与图2所示的区间对应的波形生成例的图。
图14是表示语音合成装置的第2实施方式的框图。
图15是表示声源信号生成部所进行的处理的流程图。
图16是表示声源信号生成部的构成的框图。
图17是示例相移频带脉冲信号的图。
图18是表示选择部进行选择的选择算法的概念图。
图19是表示相移频带脉冲信号的图。
图20是表示声源信号的生成例的图。
图21是表示声源信号生成部所进行的处理的流程图。
图22是示例将最小相位修正也包含在内所生成的语音波形的图。
图23是表示使用频带噪声强度的语音合成装置的构成例的图。
图24是示例频带噪声强度的图。
图25是表示也使用基于频带噪声强度的控制的语音合成装置的构成例的图。
图26是表示语音合成装置的第3实施方式的框图。
图27是表示HMM的概略的图。
图28是表示HMM存储部的概略的图。
图29是表示HMM学习装置的概略的图。
图30是表示分析部所进行的处理的图。
图31是表示HMM学习部所进行的处理的流程图。
图32是表示HMM序列、分布列的构建例的图。
具体实施方式
(第1语音处理装置:语音分析装置)
接着,参照附图,对实施方式涉及的第1语音处理装置、即语音分析装置进行说明。图1是表示实施方式涉及的语音分析装置100的构成例的框图。如图1所示,语音分析装置100具有提取部(语音帧提取部)101、频谱参数算出部102、相位谱算出部103、群延迟谱算出部104、频带群延迟参数算出部105、频带群延迟修正参数算出部106。
提取部101接收输入语音以及基音标记,将输入语音以帧为单位切取并输出(语音帧提取)。关于提取部101所进行的处理例,将在后面使用图2进行说明。频谱参数算出部(第1算出部)102根据提取部101输出的语音帧来算出频谱参数。关于频谱参数算出部102所进行的处理例,将在后面使用图3进行说明。
相位谱算出部(第2算出部)103算出提取部101所输出的语音帧的相位谱。关于相位谱算出部103所进行的处理例,将在后面使用图4的(a) 进行说明。群延迟谱算出部(第3算出部)104根据相位谱算出部103算出的相位谱来算出后述的群延迟谱。关于群延迟谱算出部104所进行的处理例,将在后面使用图4的(b)进行说明。
频带群延迟参数算出部(第4算出部)105根据群延迟谱算出部104 算出的群延迟谱来算出频带群延迟参数。关于频带群延迟参数算出部105 所进行的处理例,将在后面使用图6进行说明。频带群延迟修正参数算出部(第5算出部)106算出对根据频带群延迟参数算出部105算出的频带群延迟参数重新构建所得到的相位谱与相位谱算出部103算出的相位谱之差进行修正的修正量(频带群延迟修正参数:修正参数)。关于频带群延迟修正参数算出部106所进行的处理例,将在后面使用图7进行说明。
接着,进一步详细说明语音分析装置100所进行的处理。在此,关于语音分析装置100所进行的处理,对通过基音(pitch)同步分析来进行特征参数分析的情况进行说明。
提取部101一并接收输入语音和基于其周期性表示了各语音帧的中心时刻的基音标记信息。图2是示例提取部101所接收的语音波形和基音标记的图。图2表示了“だ”这一语音的波形,与语音波形一起表示了按照有声音(浊音)的周期性而提取出的基音标记时刻。
以下,作为语音帧的样本,示出对于图2的下侧所示的区间(下划线的区间)的分析例。提取部101以基音标记为中心,乘以基音的两倍长度的窗函数,由此切取语音帧。基音标记例如利用通过基音提取装置提取基音并提取基音周期的峰值的方法等来求取。另外,不具有周期性的无声音 (清音)区间也能够通过内插了固定的帧速率和/或周期区间的基音标记的处理,从而制作成为分析中心的时刻列,作为基音标记。
在语音帧的提取中,能够使用汉宁(Hanning)窗。另外,也可以使用汉明(Hamming)窗、布莱克曼(Blackman)窗等特性不同的窗函数。提取部101使用窗函数,将成为周期区间的单位波形的基音波形作为语音帧切取。另外,提取部101在无音/无声音区间等非周期区间,也如上所述那样,按照通过内插固定帧速率和/或基音标记所确定的时刻,乘以窗函数来切取语音帧。
此外,在本实施方式中,以在频谱参数、频带群延迟参数以及频带群延迟修正参数的提取中使用基音同步分析的情况为例进行说明,但不限定于此,也可以利用固定的帧速率进行参数提取。
频谱参数算出部102求取对于提取部101提取出的语音帧的频谱参数。例如,频谱参数算出部102求取表现梅尔倒谱、线性预测系数、梅尔LSP (Line Spectrum Pair:线谱对)、正弦波模型等谱包络的任意频谱参数。另外,在并非基音同步分析而是进行基于固定帧速率的分析的情况下,也可以使用这些参数和/或由STRAIGHT分析实现的谱包络提取方法等来进行参数提取。在此,作为例子,使用基于梅尔LSP的频谱参数。
图3是表示频谱参数算出部102的处理例的图。图3的(a)表示了语音帧,图3的(b)表示了进行傅立叶变换所获得的频谱。频谱参数算出部102对该频谱应用梅尔LSP分析,获得梅尔LSP系数。梅尔LSP系数的0阶表现增益项,而1阶以上为频率轴上的线谱频率,对各LSP频率示出了网格线。在此,对44.1kHz的语音应用了梅尔LSP分析。由此获得的谱包络成为表现频谱的大致形状的参数(图3的(c))。
图4是表示相位谱算出部103的处理例和群延迟谱算出部104的处理例的图。图4的(a)表示了相位谱算出部103通过傅立叶变换求出的相位谱。相位谱是展开(unwrap)的谱。相位谱算出部103以使直流成分的相位为0的方式,对振幅和相位均施以高通滤波,求取相位谱。
群延迟谱算出部104根据图4的(a)所示的相位谱,通过下式1求取图4的(b)所示的群延迟谱。
【式1】
在上式1中,τ(ω)表示群延迟谱,表示相位谱,“'”表示微分运算。群延迟是相位的频率微分,是在时域中表现各频带的平均时间 (波形的重心时刻:延迟时间)的值。群延迟谱相当于展开了的相位的微分值,因而成为范围在-π至π之间的值。
在此,根据图4的(b)可知,在低频产生有接近于-π的群延迟。也就是说,该频率的相位谱中产生有接近于π的差。另外,根据图3的(b) 的振幅谱,可在该频率位置观察到波谷。
在以本频率划分的低频与高频中,由于信号的符号相反因而成为这样的形状,相位中产生阶梯差(日文为:段差)的频率表示了其边界的频率。将这样的频率轴上的π附近的群延迟包含在内来再现群延迟的不连续的变化,对于再现分析源的语音波形并获得高品质的分析合成语音是重要的。另外,作为语音合成所使用的群延迟参数,要求是能够再现这样的群延迟的急剧的变化的参数。
频带群延迟参数算出部105根据群延迟谱算出部104算出的群延迟参数来算出频带群延迟参数。频带群延迟参数是每个预先确定的频率范围的群延迟参数。由此,削减了群延迟谱的阶数,成为能够作为统计模型的参数利用的参数。频带群延迟参数通过下式2来求取。
【式2】
基于上式2的频带群延迟在时域表示平均时间,表示相对于零相位波形的偏移量。在根据离散谱求取平均时间的情况下,使用下式3。
【式3】
在此,频带群延迟参数使用了基于功率谱的加权,但也可以仅使用群延迟的平均。另外,也可以是基于振幅谱的加权平均等不同的算出方法,只要是表示各频带的群延迟的参数即可。
如此,频带群延迟参数成为表示预定频率范围的群延迟的参数。由此,如下式4所示,根据频带群延迟参数对群延迟的重新构建通过使用与各频率对应的频带群延迟参数来进行。
【式4】
根据该生成的群延迟的对相位的重新构建通过下式5来求取。
【式5】
在ω=0时的相位的初始值由于施加了上述的高通处理而成为0,但实际上也可以预先保存并使用直流成分的相位。它们所使用的Ωb是求取频带群延迟时的作为频带边界的频率标度。频率标度能够使用任意的标度,但可以配合听觉特性,低频以细间隔设定,高频以粗间隔设定。
图5是表示频率标度的制作例的图。图5所示的频率标度在到5kHz 为止使用α=0.35的梅尔标度,5kHz以上是表现为等间隔的标度。为了使波形形状的再现性提高,群延迟参数将功率增强的低频用细间隔表现,将高频设定为粗间隔。这是因为,在高频,波形的功率减小,另外非周期成分导致的随机相位成分增强,因而无法获得稳定的相位参数。另外,因为已知高频的相位对听觉的影响也小。
随机相位的成分和脉冲激励导致的成分的控制由作为周期成分、非周期成分的强度的各频带的噪声成分的强度来表现。在使用语音分析装置 100的输出结果来进行语音合成的情况下,将后述的频带噪声强度参数也包含在内,生成波形。由此,在此噪声成分强的高频的相位被粗表现,削减了次数。
图6是示例使用图5所示的频率标度进行了基于频带群延迟参数的分析而得到的结果的图。图6的(a)表示了通过上式3获得的频带群延迟参数。频带群延迟参数成为各频带的群延迟的加权平均,但可知在平均的群延迟中,无法再现群延迟谱中出现的变动。
图6的(b)是示例根据频带群延迟参数生成的相位的图。在图6的 (b)所示的例子中,虽然能大致再现出相位的倾斜度,但没能捕捉到接近于位于低频的π的相位的变化等、相位谱的阶梯差,含有无法再现相位谱的部位。
对该生成的相位和根据梅尔LSP生成的振幅谱进行傅立叶逆变换、进行波形生成而得到的例子,示于图6的(c)。生成的波形成为:在图3 的(a)的波形中出现的中心附近,与分析源的波形大为不同的形状。如此,在仅利用频带群延迟参数对相位进行了模型化的情况下,由于无法捕捉语音所包含的相位的阶梯差,因而重新生成的波形与分析源的波形产生差异。
为了应对该问题,语音分析装置100使用频带群延迟参数,并一起使用频带群延迟修正参数,该频带群延迟修正参数在预定频率中,将根据频带群延迟参数重新构建出的相位修正为相位谱的该频率处的相位。
频带群延迟修正参数算出部106根据相位谱以及频带群延迟参数算出频带群延迟修正参数。频带群延迟修正参数是将利用频带群延迟参数重新构建出的相位修正成边界频率处的相位值的参数,在将差分(差量)作为参数的情况下,通过下式6来求取。
【式6】
上式6的右边第1项是对语音进行分析所获得的Ωb的相位。上式6 的第2项使用利用频带群延迟参数bgrd(b)以及修正参数bgrdc(b)进行重新构建的群延迟来求取。如下式7所示,这作为在上式4的群延迟中的成为ω=Ωb的边界加上修正参数bgrdc(b)所得到的参数来表现。
【式7】
这样构成的根据群延迟的相位利用上式5重新构建。另外,上式6的右边第2项如下所述地求取:在利用上式7以及上式5将相位重新构建到ω=Ωb-1为止之后,利用由Ωb的频带群延迟重新构建出的下式8的相位来求取,并作为使用到Ωb-1为止的频带的频带群延迟参数以及频带群延迟修正参数、Ωb的频带群延迟参数进行重新构建所得到的相位来求取。
【式8】
另外,利用上式6,求取右边第2项的相位与实际相位之间的差分,从而求取频带群延迟修正参数,由此,在频率Ωb再现实际的相位。
图7是示例利用频带群延迟修正参数分析出的结果的图。图7的(a) 表示了由上式7得到的、根据频带群延迟参数以及频带群延迟修正参数重新构建出的群延迟谱。图7的(b)表示了根据该群延迟谱生成了相位的例子。如图7的(b)所示,通过使用频带群延迟修正参数能够重新构建与实际的相位接近的相位。尤其在频率标度的间隔窄的低频部分,能够将在图6的(b)中成为产生了差的梯状的相位的部位也包含在内地进行再现。
图7的(c)表示了根据如此重新构建出的相位参数合成了波形的例子。在图6的(c)所示的例子中波形的形状与分析源的波形大为不同,但在图 7的(c)所示的例子中生成了接近于源的波形的语音波形。上式6的修正参数bgrdc在此使用了相位的差分信息,但也可以是该频率的相位值等其他参数。例如,只要是通过与频带群延迟参数组合使用从而再现该频率处的相位的参数即可。
图8是表示语音分析装置100所进行的处理的流程图。语音分析装置 100利用基音标记的循环,进行算出与各基音标记对应的参数的处理。首先,语音分析装置100在语音帧提取步骤中,提取部101提取语音帧 (S801)。接着,频谱参数算出部102在频谱参数算出步骤中算出频谱参数(S802),相位谱算出部103在相位谱算出步骤中算出相位谱(S803),群延迟谱算出部104在群延迟谱算出步骤中算出群延迟谱(S804)。
接着,频带群延迟参数算出部105在频带群延迟参数算出步骤中算出频带群延迟参数(S805)。图9是表示图8所示的频带群延迟参数算出步骤(S805)的详情的流程图。如图9所示,频带群延迟参数算出部105通过预定频率标度的各频带的循环,设定频带的边界频率(S901),通过上式3所示的使用功率谱权重等的群延迟的平均化,算出频带群延迟参数(平均群延迟)(S902)。
接着,频带群延迟修正参数算出部106在频带群延迟修正参数算出步骤中算出频带群延迟修正参数(图8:S806)。图10是表示图8所示的频带群延迟修正参数算出步骤(S806)的详情的流程图。如图10所示,频带群延迟修正参数算出部106利用各频带的循环,首先设定频带的边界频率(S1001)。接着,频带群延迟修正参数算出部106使用上式7以及上式5,使用频带群延迟参数以及当前频带以下的频带的频带群延迟修正参数来生成边界频率的相位(S1002)。然后,频带群延迟修正参数算出部 106利用上式8算出相位谱差分参数,将算出结果作为频带群延迟修正参数(S1003)。
如此,语音分析装置100通过进行图8(图9、10)所示的处理,算出并输出与输入语音对应的频谱参数、频带群延迟参数以及频带群延迟修正参数,因此,在进行语音合成的情况下能够使语音波形的再现性提高。
(第2语音处理装置:语音合成装置)
接着,对实施方式涉及的第2语音处理装置、即语音合成装置进行说明。图11是表示语音合成装置的第1实施方式(语音合成装置1100)的框图。如图11所示,语音合成装置1100具有振幅信息生成部1101、相位信息生成部1102以及语音波形生成部1103,接收频谱参数序列、频带群延迟参数序列、频带群延迟修正参数序列以及参数序列的时刻信息,生成语音波形(合成语音)。输入语音合成装置1100的各参数由语音分析装置 100来算出。
振幅信息生成部1101根据各时刻的频谱参数生成振幅信息。相位信息生成部1102根据各时刻的频带群延迟参数以及频带群延迟修正参数生成相位信息。语音波形生成部1103根据振幅信息生成部1101生成的振幅信息以及相位信息生成部1102生成的相位信息,按照各参数的时刻信息来生成语音波形。
图12是表示进行傅立叶逆变换以及波形叠加的语音合成装置1200的构成例的图。语音合成装置1200是语音合成装置1100的一个具体的构成例,具有振幅谱算出部1201、相位谱算出部1202、傅立叶逆变换部1203 以及波形叠加部1204,通过傅立叶逆变换生成各时刻的波形,通过将所生成的波形进行叠加合成从而输出合成语音。
更具体而言,振幅谱算出部1201根据频谱参数算出振幅谱。振幅谱算出部1201例如在使用梅尔LSP作为参数的情况下,核查梅尔LSP的稳定性,变换为梅尔LPC系数,根据梅尔LPC系数算出振幅谱。相位谱算出部1202利用上式5以及上式7,根据频带群延迟参数以及频带群延迟修正参数算出相位谱。
傅立叶逆变换部1203对所算出的振幅谱以及相位谱进行傅立叶逆变换从而生成基音波形。由傅立叶逆变换部1203生成的波形例示于图7的 (c)。波形叠加部1204基于参数序列的时刻信息对所生成的基音波形进行叠加合成,获得合成语音。
图13是表示与图2所示的区间对应的波形生成例的图。图13的(a) 示出了图2所示的原声的语音波形。图13的(b)是语音合成装置1100 (语音合成装置1200)输出的基于频带群延迟参数以及频带群延迟修正参数的合成语音波形。如图13的(a)、(b)所示,语音合成装置1100能够生成形状接近于原声波形的波形。
图13的(c)作为比较例示出了仅使用频带群延迟参数的情况下的合成语音波形。如图13的(a)、(c)所示,仅使用频带群延迟参数的情况下的合成语音波形成为形状与原声不同的波形。
如此,语音合成装置1100(语音合成装置1200)通过除了频带群延迟参数之外还使用频带群延迟修正参数,能够再现原声的相位特性,能够使分析合成波形接近于分析源的语音波形的形状,生成高品质的波形(使语音波形的再现性提高)。
图14是表示语音合成装置的第2实施方式(语音合成装置1400)的框图。语音合成装置1400具有声源信号生成部1401以及声道滤波部1402。声源信号生成部1401使用频带群延迟参数序列以及频带群延迟修正参数序列、和参数序列的时刻信息,生成声源信号。声源信号是如下信号:在没进行相位控制、也没有使用噪声强度等的情况下,对无声音区间使用噪声信号、对有声音区间使用脉冲信号所生成,具有平坦的频谱,通过被应用声道滤波器而被合成语音波形。
在语音合成装置1400中,声源信号生成部1401利用频带群延迟参数以及频带群延迟修正参数来控制脉冲成分的相位。也就是说,图11所示的相位信息生成部1102的相位控制功能由声源信号生成部1401实现。也就是说,语音合成装置1400将频带群延迟参数以及频带群延迟修正参数利用于声码器式的波形生成从而高速地生成波形。
对声源信号进行相位控制的方法之一是使用傅立叶逆变换。在该情况下,声源信号生成部1401进行图15所示的处理。也就是说,声源信号生成部1401在特征参数的各时刻,利用上式5以及上式7,根据频带群延迟参数以及频带群延迟修正参数算出相位谱(S1501),将振幅设为1而进行傅立叶逆变换(S1502),将所生成的波形叠加(S1503)。
声道滤波部1402通过对所生成的声源信号应用根据频谱参数所确定的滤波器,进行波形生成并输出语音波形(合成语音)。声道滤波部1402 为了控制振幅信息而具有图11所示的振幅信息生成部1101所具备的功能。
语音合成装置1400在如上所述那样进行了相位控制的情况下,能够根据声源信号生成波形,但由于包含了傅立叶逆变换的处理、包含了滤波运算,因此与语音合成装置1200(图12)相比,处理量增加,无法高速地生成波形。于是,声源信号生成部1401如图16所示那样构成以使得生成仅通过时域的处理进行了相位控制的声源信号。
图16是表示生成仅通过时域的处理进行了相位控制的声源信号的声源信号生成部1401的构成的框图。图16所示的声源信号生成部1401预先准备对相移了的脉冲信号进行频带分割而得到的相移频带脉冲信号,使相移频带脉冲信号延迟并叠加合成,由此来生成声源波形。
具体而言,声源信号生成部1401首先在存储部1605中预先存储使脉冲信号相移并进行了频带分割所得到的各频带的信号。相移频带脉冲信号指的是:将相应的频带中的振幅谱设为1、将相位谱设为常数值的信号,成为将脉冲信号的相位移位、进行频带分割所得到的各频带的信号,利用下式9来制作。
【式9】
在此,频带的边界Ωb根据频率标度来确定,相位在的范围量化,量化为P级。在设为P=128的情况下,根据2π/128的步进(节距),制作128个×频带数的频带脉冲信号。如此,相移频带脉冲信号是对相移后的脉冲信号进行频带分割而得到的信号,在合成时由频带以及相位的主值来选择。将频带b的相移的指数设为ph(b)时,如此制作出的相移频带脉冲信号表示为bandpulseb ph(b)(t)。
图17是示例相移频带脉冲信号的图。左栏是整个频带的相移后的脉冲信号,上段表示0相位的情况,下段表示相位的情况。第2列至第 6列分别表示从图5所示的标度的低频到第5频带为止的频带脉冲信号。如此,存储部1605预先存储由频带分割部1606、相位赋予部1607以及傅立叶逆变换部1608制作出的相移频带脉冲信号。
延迟时间算出部1601根据频带群延迟参数算出相移频带脉冲信号的各频带的延迟时间。利用上式3求出的频带群延迟参数在时域表示该频带的平均延迟时间,成为利用下式10整数化得到的延迟时间delay(b),与整数延迟时间对应的群延迟作为τint(b)被求取。
【式10】
相位算出部1602根据与求取的频带相比为低频的频带群延迟参数以及频带群延迟修正参数,算出边界频率时的相位。根据参数所重新构建的边界频率的相位是利用上式7以及上式5求取的选择部1603使用边界频率相位以及整数群延迟bgrdint(b)来算出各频带的脉冲信号的相位。该相位作为通过且倾斜度为bgrdint(b)的直线的y轴截距,通过下式 11来求取。
【式11】
另外,选择部1603通过进行2π的加法运算或者减法运算以使得由上式11求出的相位的主值处于(0≤phase(b)<2π)的范围来求取(以下记作〈phase(b)〉),并求取所得到的相位的主值作为制作相移频带脉冲信号时量化所得到的相位的编号ph(b)(下式12)。
【式12】
根据该ph(b)进行基于频带群延迟参数以及频带群延迟修正参数的相移频带脉冲信号的选择。
图18是表示选择部1603进行选择的选择算法的概念图。在此,示出与b=1的频带的声源信号对应的相移频带脉冲信号的选择的例子。选择部 1603为了生成频带为Ωb至Ωb+1的声源信号,求取根据该频带的频带群延迟参数整数化所得到的延迟以及相位的倾斜度即群延迟bgrdint(b)。而且,选择部1603求取通过根据频带群延迟参数以及频带群延迟修正参数所生成的边界频率处的相位且倾斜度为bgrdint(b)的直线的y轴截距 phase(b),并根据将其主值〈phase(b)〉量化所得到的ph(b)来选择相移频带脉冲信号。
图19是表示相移频带脉冲信号的图。如图19的(a)所示,基于相位 phase(b)的整个频带的脉冲信号是固定的相位phase(b)、振幅为1的信号。若对其给予时间方向的延迟,则会产生与延迟量相应的固定的群延迟,因而,如图19的(b)所示,成为通过phase(b)、倾斜度为bgrdint(b)的直线。对该整个频带的直线相位的信号应用带通滤波器并切取Ωb至Ωb+1的区间所得到的信号成为图19的(c)的、振幅在Ωb至Ωb+1的区间为1且在其他频率区域为0的、边界Ωb的相位为的信号。
因此,利用图18所示的方法能够适当地选择各频带的相移脉冲信号。叠加部1604使如此选择出的相移频带脉冲信号按照延迟时间算出部1601 求出的延迟时间delay(b)来延迟,并在整个频带进行加法运算,由此,生成反映了频带群延迟参数以及频带群延迟修正参数的声源信号。
【式13】
图20是表示声源信号的生成例的图。图20的(a)是各频带的声源信号,是将使选择出的相移脉冲信号延迟所得的波形表示在低频的5个频带的图。将它们在整个频带进行加法运算、生成而得到的声源信号示于图20 的(b)。如此生成的信号的相位谱示于图20的(c),振幅谱示于图20 的(d)。
图20的(c)所示的相位谱用细线表示分析源的相位、用粗线重叠地表示利用上式5以及上式7生成的相位。如此,由声源信号生成部1401 生成的相位与根据参数重新生成的相位,除了由于高频的展开的不同而导致的存在差的部位之外,基本重叠,生成了与分析源相位接近的相位。
根据图20的(d)所示的振幅谱可知:除了相位变化大的跨零点的部位以外,成为振幅大体为1.0的接近于平坦的频谱的形状,正确地生成了声源波形。声源信号生成部1401将如此生成的声源信号按照由参数序列时刻信息确定的基音标记进行叠加合成,生成整句的声源信号。
图21是表示声源信号生成部1401所进行的处理的流程图。声源信号生成部1401进行参数序列的各时刻的循环,在频带脉冲延迟时间算出步骤中利用上式10算出延迟时间(S2101),在边界频率相位算出步骤中利用上式5以及上式7算出边界频率的相位(S2102)。然后,声源信号生成部1401在相移频带脉冲选择步骤中利用上式11以及上式12选择存储部1605所含的相移频带脉冲信号(S2103),在延迟相移频带脉冲叠加步骤中使选择出的相移频带脉冲信号延迟并进行加法运算以及叠加,由此生成声源信号(S2104)。
声道滤波部1402针对声源信号生成部1401生成的声源信号,应用声道滤波器,获得合成语音。声道滤波器在梅尔LSP参数的情况下,从梅尔 LSP参数变换为梅尔LPC参数,在进行了增益分出(括りだし)处理等后,通过应用梅尔LPC滤波器来生成波形。
由于声道滤波器的影响而增加了最小相位特性,因此,在根据分析源的相位来求取频带群延迟参数以及频带群延迟修正参数时,也可以应用进行最小相位的修正的处理。最小相位生成为以下虚轴:根据梅尔LSP来生成振幅谱,对基于对数振幅谱和零相位的频谱进行傅立叶逆变换,对所获得的倒谱使得正的成分为两倍、负的成分为0地再次进行傅立叶变换所得的虚轴。
将如此求出的相位展开,并从分析了波形所得的相位减去,由此,进行最小相位的修正。根据最小相位修正后的相位谱来求取频带群延迟参数以及频带群延迟修正参数,通过上述的声源信号生成部1401的处理生成声源,并应用滤波器,由此获得再现了源波形相位的合成语音。
图22是示例将最小相位修正也包含在内所生成的语音波形的图。图 22的(a)是与图13的(a)相同的分析源的语音波形。图22的(b)是基于由语音合成装置1400进行的声码器式波形生成的分析合成波形。图 22的(c)是基于广泛使用的脉冲声源的声码器,在该情况下成为最小相位的波形形状。
图22的(b)所示的由语音合成装置1400得到的分析合成波形再现有接近于图22的(a)所示的原声的波形。另外,生成有也接近于图13 的(b)所示的波形的语音波形。与此相对地,在图22的(c)所示的最小相位,成为了功率集中在基音标记附近的语音波形,没能再现原声的语音波形的形状。
另外,为了比较处理量,对生成大约30秒的语音波形时的处理时间进行了计测。关于除去相移频带脉冲生成等初始设定的处理时间,在使用傅立叶逆变换的图12的构成的情况下约为9.19秒,在声码器式的图14的构成的情况下约为0.47秒(通过2.9GHz的CPU的运算服务器计测)。也就是说,确认了处理时间大约缩短了5.1%左右。也就是说,通过声码器式波形生成,能够高速地生成波形。
这是因为:可以进行不使用傅立叶逆变换、仅通过时域的操作就反映了相位特性的波形生成。在上述的波形生成中,生成声源、对声源波形进行叠加合成后应用滤波器,但不限于此。也可以为:按每个基音波形生成声源波形并应用滤波器,生成基音波形,并对所生成的基音波形进行叠加合成等不同的构成。而且,只要使用图16所示的基于相移频带脉冲信号的声源信号生成部1401来根据频带群延迟参数以及频带群延迟修正参数生成声源信号即可。
图23是示出针对图12所示的语音合成装置1200增加了使用频带噪声强度的噪声成分、周期成分的分离的控制而得到的语音合成装置2300的构成例的图。语音合成装置2300是语音合成装置1100的具体的构成之一,振幅谱算出部1201根据频谱参数序列算出振幅谱,周期成分谱算出部2301 以及噪声成分谱算出部2302按照频带噪声强度分离出周期成分谱与噪声成分谱。频带噪声强度是表示频谱的各频带的噪声成分的比率的参数,例如能够通过使用PSHF(Pitch Scaled Harmonic Filter)方式将语音分离成周期成分与噪声成分、求取各频率的噪声成分比率并按预先确定的每个频带进行平均化的方法等来求取。
图24是示例频带噪声强度的图。图24的(a)是根据利用PSHF将语音分离成周期成分和非周期成分而得到的信号求取处理对象帧的语音的频谱和非周期成分的频谱、并求出各频率的非周期成分的比率的ap(ω)。在处理时,针对基于PSHF的比率,增加了将有声音的频带设为0的后处理和/或将比率在0至1之间进行限幅(clipping)的处理等。根据如此求出的噪声成分比率求出用按照频率标度的频谱进行了加权的平均所得的强度,是图24的(b)所示的频带噪声强度bap(b)。频率标度与频带群延迟同样地,使用图5所示的标度,通过下式14来求取。
【式14】
噪声成分谱算出部2302将基于该频带噪声强度的各频率的噪声强度乘以根据频谱参数所生成的频谱,求取噪声成分谱。周期成分谱算出部 2301通过乘以1.0-bap(b),求取除去噪声成分谱的周期成分谱。
噪声成分波形生成部2304根据从噪声信号制作出的随机相位和基于噪声成分谱的振幅谱,通过进行傅立叶逆变换来生成噪声成分波形。噪声成分相位例如能够通过以下方式来制作:生成平均为0、方差为1的高斯噪声,利用两倍基音的长度的汉宁窗来切取,并对切取出的施加窗的高斯噪声(窓かけガウス雑音)进行傅立叶变换。
周期成分波形生成部2303,对相位谱算出部1202根据频带群延迟参数以及频带群延迟修正参数算出的相位谱、和基于周期成分谱的振幅谱进行傅立叶逆变换,由此生成周期成分波形。
波形叠加部1204将所生成的噪声成分波形和周期成分波形相加,按照参数序列的时刻信息进行叠加从而获得合成语音。
如此,通过将噪声成分和周期成分分离,能够将难以作为频带群延迟参数表现的随机相位成分分离,根据随机相位生成噪声成分。由此,能够抑制无声音区间、和/或有声摩擦音的高频部、有声音所包含的噪声成分变为脉冲式的有尖叫感的音质。尤其在统计性地对各参数进行模型化的情况下,若使根据多个随机的相位成分求出的频带群延迟、频带群延迟修正参数平均化,则存在平均值接近于0、接近脉冲式的相位成分的倾向。通过与频带群延迟参数、频带群延迟修正参数一起使用频带噪声强度,能够根据随机的相位生成噪声成分,且周期成分能够使用适当生成的相位,因此合成语音的音质提高。
图25是表示也使用基于频带噪声强度的控制的、用于实现高速波形生成的声码器式的语音合成装置2500的构成例的图。噪声成分的声源生成使用频带噪声信号存储部2503所包含的预先进行了频带分割所得到的固定长的频带噪声信号来进行。在语音合成装置2500中,频带噪声信号存储部 2503存储频带噪声信号,噪声声源信号生成部2502按照频带噪声强度来控制各频带的频带噪声信号的振幅,将被进行了振幅控制的频带噪声信号进行加法运算,由此来生成噪声声源信号。此外,语音合成装置2500是图 14所示的语音合成装置1400的变形例。
脉冲声源信号生成部2501使用存储部1605所存储的相移频带脉冲信号,生成由图16所示的构成进行了相位控制的声源信号。其中,在叠加延迟相移频带脉冲波形的情况下,使用频带噪声强度来控制各频带的信号的振幅,生成为使得强度变为(1.0-bap(b))。语音合成装置2500将如此生成的脉冲声源信号与噪声声源信号相加而生成声源信号,在声道滤波部 1402中应用基于频谱参数的声道滤波器,获得合成语音。
语音合成装置2500与图23所示的语音合成装置2300同样地,分别生成噪声信号和周期信号,抑制针对噪声成分产生脉冲式的噪声,且将进行了相位控制的周期成分与噪声成分加入而生成声源,由此,能够进行具有与分析源波形的形状接近的形状的语音合成。另外,语音合成装置2500 对于噪声声源的生成和脉冲声源的生成,均能够仅通过时域的处理来算出,因而能够实现高速的波形生成。
如此,语音合成装置的第1实施方式以及第2实施方式通过使用频带群延迟参数以及频带群延迟修正参数,能够用可统计模型化的削减了维度 (次元)的特征参数,使重新构建出的相位与对波形进行分析得到的相位的相似度提高,能够进行根据这些参数适当地进行了相位控制的语音合成。实施方式涉及的各语音处理装置通过使用频带群延迟参数以及频带群延迟修正参数,能够使波形的再现性提高而且能够高速地生成波形。再者,在声码器式的语音合成装置中,生成仅通过时域的处理进行了相位控制的声源波形,能够进行基于声道滤波器的波形生成,由此,能够高速地进行被进行了相位控制的波形生成。另外,语音合成装置通过组合使用频带噪声强度参数,能够使噪声成分的再现性也得到提高,进行更高品质的语音合成。
图26是表示语音合成装置的第3实施方式(语音合成装置2600)的框图。语音合成装置2600是将上述的频带群延迟参数以及频带群延迟修正参数应用于文本语音合成装置而得到的。在此,作为文本语音合成方式,在基于作为基于统计模型的语音合成技术的HMM(Hidden Markov Model,隐马尔可夫模型)的语音合成中,在其特征参数方面,使用频带群延迟参数以及频带群延迟修正参数。
语音合成装置2600具有文本解析部2601、HMM序列制作部2602、参数生成部2603、波形生成部2604以及HMM存储部2605。HMM存储部(统计模型存储部)2605存储根据包括频带群延迟参数以及频带群延迟修正参数的声特征参数学习所得的HMM。
文本解析部2601对输入文本进行解析并求取读法、重音等信息,制作上下文信息。HMM序列制作部2602按照根据文本制作出的上下文信息,根据HMM存储部2605所存储的HMM模型,制作与输入文本对应的 HMM序列。参数生成部2603根据HMM序列生成声特征参数。波形生成部2604根据所生成的特征参数序列来生成语音波形。
更详细而言,文本解析部2601通过输入文本的语言(言语)解析来制作上下文信息。文本解析部2601对输入文本进行词素解析,求取读法信息以及重音信息等语音合成所需的语言(言语)信息,根据获得的读法信息以及语言信息,制作上下文信息。也可以根据另行制作出的与输入文本对应的已修正的读法、重音信息来制作上下文信息。上下文信息指的是,作为音素、半音素、音节HMM等对语音进行分类的单位来使用的信息。
在使用音素作为语音单位的情况下,能够使用音素名的序列作为上下文信息,进而能够使附加了先行音素/后续音素的三音素(Triphone)、和 /或前后各含有两个音素的音素信息、表示基于有声音/无声音的分类和/或进一步详细化的音素类别的属性的音素类别信息、各音素的句子内、呼吸群(换气单位)内、重音短语内的位置、重音短语的短音节(mora)数/ 重音类型、短音节位置、直到重音核的位置、语尾升调的有无的信息、被赋予的符号信息等语言(言语)的属性信息包含在内,作为上下文信息。
HMM序列制作部2602基于HMM存储部2605所存储的HMM信息,制作与输入上下文信息对应的HMM序列。HMM是由状态转移概率和各状态的输出分布表现的统计模型。在使用left-to-right型HMM作为HMM 的情况下,如图27所示,根据各状态的输出分布N(o|μi、Σi)和状态转移概率aij(i、j为状态指数)模型化,以仅有向相邻的状态转移的转移概率以及自身转移概率的值的形式模型化。在此,将取代自身转移概率aij而使用持续长(duration,时长)分布N(d|μi d、Σi d)的模型称为HSMM (隐半马尔可夫模型),被用于持续长的模型化。
HMM存储部2605存储有对该HMM的各状态的输出分布进行决策树分群所得的模型。在该情况下,如图28所示,HMM存储部2605存储作为HMM的各状态的特征参数的模型的决策树以及决策树的各叶节点的输出分布,进而也存储用于持续长分布的决策树以及分布。在决策树的各节点,关联有对分布进行分类的提问,例如分类成如“是否无音”、“是否为有声音”、“是否为重音核”这样的提问、在与该提问相符的情况下的子节点和不相符的情况下的子节点。针对被输入的上下文信息,判断是否与各节点的提问相符,由此搜索决策树,获得叶节点。通过使用与所获得的叶节点关联的分布作为各状态的输出分布,构建与各语音单位对应的 HMM。由此,制作与被输入的上下文信息对应的HMM序列。
HMM存储部2605所存储的HMM由图29所示的HMM学习装置 2900来进行。语音语料库存储部2901存储有包含用于HMM模型的制作的语音数据以及上下文信息的语音语料库。
分析部2902对学习中使用的语音数据进行分析,求取声特征参数。在此,使用上述的语音分析装置100求取频带群延迟参数以及频带群延迟修正参数,与频谱参数、基音参数、频带噪声强度参数等一并使用。
如图30所示,分析部2902求取语音数据的各语音帧中的声特征参数。语音帧在使用基音同步分析的情况下成为各基音标记时刻的参数,另外在固定帧速率的情况下通过对相邻的基音标记的声特征参数进行内插来使用的方法等提取特征参数。
使用图1所示的语音分析装置100对与语音的分析中心时刻(图30 中为基音标记位置)对应的声特征参数进行分析,提取频谱参数(梅尔 LSP)、基音参数(对数F0)、频带噪声强度参数(BAP)、频带群延迟参数以及频带群延迟修正参数(BGRD以及BGRDC)。再者,作为这些参数的动态特征量,求取Δ参数以及Δ2参数,全都作为各时刻的声特征参数。
HMM学习部2903根据如此求出的特征参数,学习HMM。图31是表示HMM学习部2903所进行的处理的流程图。HMM学习部2903将音素HMM初始化(S3101),通过HSMM的学习对音素HMM进行最大似然估计(S3102),学习作为初始模型的音素HMM。最大似然估计时,通过连接学习(連結学習),一边根据使HMM与句子对应而连接了的整句的HMM和与句子对应的声特征参数进行各状态与特征参数的概率性关联,一边进行学习。
接着,HMM学习部2903使用音素HMM将上下文依存HMM初始化(S3103)。作为上下文,如上所述,使用如相关音素、前后的音素环境、句子内/重音短语内等的位置信息、重音类型、是否语尾升调这样的音韵环境以及语言信息,针对存在于学习数据中的上下文,准备用相关音素进行了初始化的模型。
然后,HMM学习部2903针对上下文依存HMM应用基于连接学习的最大似然估计进行学习(S3104),应用基于决策树的状态分群(S3105)。由此,HMM学习部2903针对HMM的各状态/各流以及状态持续长分布,构建决策树。而且,HMM学习部2903根据每个状态/每个流的分布,利用最大似然准则和/或MDL(Minimum Description Length,最小描述长度)准则等学习将模型分类的规则,构建图28所示的决策树。另外,在语音合成时,在被输入学习数据中不存在的未知的上下文的情况下,也能够通过沿着决策树来选择各状态的分布、构建对应的HMM。
最后,HMM学习部2903对上下文依存分群后的模型进行最大似然估计,完成模型学习(S3106)。在分群时,通过按各特征量的每个流构建决策树,与频谱参数(梅尔LSP)、基音参数(对数基本频率)、频带噪声强度(BAP)一并,还构建频带群延迟以及频带群延迟修正参数的各流的决策树。另外,通过针对排列了每个状态的持续长的多维分布构建决策树,构建出以HMM为单位的持续长分布决策树。这些求出的HMM以及决策树保存于HMM存储部2605。
HMM序列制作部2602(图26)根据输入上下文和HMM存储部2605 所存储的HMM制作HMM序列,按照由持续长分布所确定的帧数,使各状态的分布反复出现,由此制作分布列。所制作的分布列是排列了要输出的参数的个数的分布的列。
参数生成部2603利用在基于HMM的语音合成中广泛使用的考虑了静态/动态特征量的参数生成算法来生成各参数,由此生成平滑的参数序列。
图32是表示HMM序列/分布列的构建例的图。首先,HMM序列制作部2602选择输入上下文的HMM的各状态/各流的分布以及持续长分布,构成HMM的序列。作为上下文,使用“先行音素_该音素_后续音素_音素位置_音素数_短音节位置_短音节数_重音类型”合成“赤(aka)”的情况下,由于为两短音节1型,所以最初的“a”的音素由于先行音素为“sil”、该音素为“a”、后续音素为“k”、音素位置为1、音素数为3、短音节位置为1、短音节数为2、重音类型为1型,因而成为“sil_a_k_1_3_1_2_1”这样的上下文。
在沿着HMM的决策树时,在各中间节点确定有如该音素是否为a、重音类型是否为1型这样的提问,通过沿着提问来选择叶节点的分布,梅尔LSP、BAP、BGRD以及BGRDC、LogF0的各流的分布以及持续长的分布被选择成HMM的各状态,构成HMM序列。如此,构成每个模型单位(例如音素)的HMM序列以及分布列,将它们在整句排列而制作与输入文章对应的分布列。
参数生成部2603根据制作出的分布列,利用使用静态/动态特征量的参数生成算法来生成参数序列。在使用Δ和Δ2作为动态特征参数的情况下,根据以下的方法求取输出参数。时刻t的特征参数ot使用静态特征参数ct和根据前后的帧的特征参数确定的动态特征参数Δct、Δ2ct,表示为ot= (ct′、Δct′、Δ2ct′)。由将P(O|J,λ)最大化的静态特征量ct构成的向量 C=(c0′、…、cT-1′)′通过将OTM设为T×M维的零向量、并对下式15 的方程式进行求解来求取。
【式15】
其中,T为帧数,J为状态转移序列。若根据计算动态特征的矩阵W 来使特征参数O与静态特征参数C的关系关联,则表示为O=WC。O成为3TM的向量,C成为TM的向量,W是3TM×TM的矩阵。而且,在将μ=(μs00′、…、μsJ-1Q-1′)′、Σ=diag(Σs00′、…、ΣsJ-1Q-1′)′设为与将各时刻的输出分布的平均向量、对角协方差全部排列了的句子对应的分布的平均向量以及协方差矩阵时,上式15通过对下式16的方程式求解来求取最优的特征参数序列C。
【式16】
W′∑-1WC=W′∑-1μ…(16)
该方程式利用基于乔列斯基分解的方法求取。另外与RLS滤波器的时间更新算法中使用的解法同样地,也能够随着延迟时间按时间顺序生成参数序列,也能够低延迟地进行生成。此外,参数生成的处理不限于上述的方法,也可以使用对平均向量进行内插的方法等、根据其他分布列生成特征参数的任意的方法。
波形生成部2604根据如此生成的参数序列生成语音波形。例如,波形生成部2604根据梅尔LSP序列、对数F0序列、频带噪声强度序列、频带群延迟参数以及频带群延迟修正参数,合成语音。在使用这些参数的情况下,使用上述的语音合成装置1100或者语音合成装置1400生成波形。具体而言,使用图23所示的基于傅立叶逆变换的构成、或者图25所示的声码器式的高速波形生成,来进行波形生成。在不使用频带噪声强度的情况下,将会使用图12所示的基于傅立叶逆变换的语音合成装置1200、或者图14所示的语音合成装置1400。
通过这些处理,能够获得与输入上下文对应的合成语音,使用频带群延迟参数以及频带群延迟修正参数来合成使语音波形的相位信息也得以反映的、接近于分析源语音的语音。
此外,在上述的HMM学习部2903中,说明了使用特定说话人的语料库对说话人依存模型进行最大似然估计的构成,但不限定于此。也可以使用作为提高HMM语音合成的多样性的技术而使用的说话人自适应(話者適応)技术、模型内插技术、其他群自适应(クラスタ適応)学习等不同的构成,另外也可以使用利用深度神经网络的分布参数推定等不同的学习方式。
另外,语音合成装置2600也可以构成为:在HMM序列制作部2602 与参数生成部2603之间还具有选择特征参数序列的特征参数序列选择部,将以HMM序列为目标由分析部2902求出的声特征参数作为候选,从中选择特征参数,根据选择出的参数合成语音波形。如此,通过进行声特征参数的选择,能够抑制由HMM语音合成的过度平滑引起的音质劣化,以获得更接近于实际的发声的自然的合成语音。
如此地,通过使用频带群延迟参数以及频带群延迟修正参数作为语音合成的特征参数,不仅能够使波形的再现性提高而且能够高速地生成波形。
此外,上述的语音分析装置100以及语音合成装置1100等语音合成装置例如也能够通过使用通用的计算机装置作为基本硬件来实现。即,本实施方式中的语音分析装置以及各语音合成装置能够通过使搭载于计算机装置的处理器执行程序来实现。此时,既可以通过将程序预先安装于计算机装置来实现,也可以通过存储于CD-ROM等存储介质、或者经由网络发布上述程序并将该程序适当安装于计算机装置来实现。另外,能够适当利用内置或者外置于计算机装置的存储器、硬盘或者CD-R、CD-RW、 DVD-RAM、DVD-R等存储介质等来实现。此外,语音分析装置100以及语音合成装置1100等语音合成装置的一部分或者全部既可以通过硬件构成,也可以通过软件构成。
另外,虽然对本发明的几个实施方式通过多个组合进行了说明,但是这些实施方式是作为例子提出的,并非旨在限定发明的范围。这些新实施方式能够以其他各种方式实施,在不偏离发明宗旨的范围内,可以进行各种省略、替换、变更。这些实施方式和/或其变形包含在发明的范围和/或宗旨中,并且,包含在权利要求书所记载的发明和与其等同的范围内。
Claims (4)
1.一种语音处理装置,具有:
频谱参数算出部,其针对输入语音的各语音帧,算出频谱参数;
相位谱算出部,其针对所述各语音帧,算出第1相位谱;
群延迟谱算出部,其基于所述第1相位谱的频率成分,根据所述第1相位谱算出群延迟谱;
频带群延迟参数算出部,其根据所述群延迟谱算出预定频率范围中的频带群延迟参数;以及
频带群延迟修正参数算出部,其算出对根据所述频带群延迟参数重新构建所得到的第2相位谱与所述第1相位谱之差进行修正的频带群延迟修正参数。
2.根据权利要求1所述的语音处理装置,
所述频带群延迟参数算出部,
算出预定频率范围中的群延迟的平均值、或者以频谱或功率谱加权所得到的群延迟的平均值,来作为频率范围各自的频带群延迟参数,
所述频带群延迟修正参数算出部,
从低频基于所述频带群延迟参数来重新构建所述第2相位谱,算出对所述第2相位谱与所述相位谱算出部所算出的各频率范围的边界频率的所述第1相位谱之差进行修正的频带群延迟修正参数。
3.一种语音处理方法,包括:
针对输入语音的各语音帧,算出频谱参数的步骤;
针对所述各语音帧,算出第1相位谱的步骤;
基于所述第1相位谱的频率成分,根据所述第1相位谱算出群延迟谱的步骤;
根据所述群延迟谱算出预定频率范围中的频带群延迟参数的步骤;以及
算出对根据所述频带群延迟参数重新构建所得到的第2相位谱与所述第1相位谱之差进行修正的频带群延迟修正参数的步骤。
4.一种存储介质,存储有语音处理程序,该语音处理程序用于使计算机执行:
针对输入语音的各语音帧,算出频谱参数的步骤;
针对所述各语音帧,算出第1相位谱的步骤;
基于所述第1相位谱的频率成分,根据所述第1相位谱算出群延迟谱的步骤;
根据所述群延迟谱算出预定频率范围中的频带群延迟参数的步骤;以及
算出对根据所述频带群延迟参数重新构建所得到的第2相位谱与所述第1相位谱之差进行修正的频带群延迟修正参数的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210141126.5A CN114464208A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置、语音处理方法以及存储介质 |
CN202210403587.5A CN114694632A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/076361 WO2017046904A1 (ja) | 2015-09-16 | 2015-09-16 | 音声処理装置、音声処理方法及び音声処理プログラム |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210141126.5A Division CN114464208A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置、语音处理方法以及存储介质 |
CN202210403587.5A Division CN114694632A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107924686A CN107924686A (zh) | 2018-04-17 |
CN107924686B true CN107924686B (zh) | 2022-07-26 |
Family
ID=58288321
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580082452.1A Active CN107924686B (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置、语音处理方法以及存储介质 |
CN202210403587.5A Pending CN114694632A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置 |
CN202210141126.5A Pending CN114464208A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置、语音处理方法以及存储介质 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210403587.5A Pending CN114694632A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置 |
CN202210141126.5A Pending CN114464208A (zh) | 2015-09-16 | 2015-09-16 | 语音处理装置、语音处理方法以及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (3) | US10650800B2 (zh) |
JP (1) | JP6496030B2 (zh) |
CN (3) | CN107924686B (zh) |
WO (1) | WO2017046904A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3308378B1 (en) * | 2015-06-11 | 2019-09-11 | Interactive Intelligence Group, Inc. | System and method for outlier identification to remove poor alignments in speech synthesis |
CN107924686B (zh) * | 2015-09-16 | 2022-07-26 | 株式会社东芝 | 语音处理装置、语音处理方法以及存储介质 |
EP3396670B1 (en) * | 2017-04-28 | 2020-11-25 | Nxp B.V. | Speech signal processing |
WO2020052756A1 (de) * | 2018-09-12 | 2020-03-19 | Ask Industries Gmbh | Verfahren zum betrieb einer kraftfahrzeugseitigen audioausgabeeinrichtung |
CN109727604B (zh) * | 2018-12-14 | 2023-11-10 | 上海蔚来汽车有限公司 | 用于语音识别前端的频域回声消除方法及计算机储存介质 |
KR102520240B1 (ko) * | 2019-03-18 | 2023-04-11 | 한국전자통신연구원 | 비음수 행렬 인수분해를 이용하는 데이터 증강 방법 및 장치 |
JP2020194098A (ja) * | 2019-05-29 | 2020-12-03 | ヤマハ株式会社 | 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法 |
CN110415722B (zh) * | 2019-07-25 | 2021-10-08 | 北京得意音通技术有限责任公司 | 语音信号处理方法、存储介质、计算机程序和电子设备 |
CN110535575B (zh) * | 2019-08-01 | 2021-05-14 | 电子科技大学 | 一种计算并补偿i/q信号线性相位失衡的方法 |
DE102019220091A1 (de) * | 2019-12-18 | 2021-06-24 | GiaX GmbH | Vorrichtung und verfahren zum erfassen von gruppenlaufzeitinformationen und vorrichtung und verfahren zum senden eines messsignals über ein übertragungsmedium |
CN111833843B (zh) * | 2020-07-21 | 2022-05-10 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
CN112634914B (zh) * | 2020-12-15 | 2024-03-29 | 中国科学技术大学 | 基于短时谱一致性的神经网络声码器训练方法 |
CN112949294B (zh) * | 2021-02-05 | 2022-09-30 | 国家基础地理信息中心 | 湿延迟数据文本的生成方法、装置、设备及存储介质 |
CN115295024A (zh) * | 2022-04-11 | 2022-11-04 | 维沃移动通信有限公司 | 信号处理方法、装置、电子设备及介质 |
CN114678037B (zh) * | 2022-04-13 | 2022-10-25 | 北京远鉴信息技术有限公司 | 一种重叠语音的检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
CN102637437A (zh) * | 2011-02-10 | 2012-08-15 | 佳能株式会社 | 音频处理设备及其控制方法 |
CN103154932A (zh) * | 2010-08-11 | 2013-06-12 | 伊夫·列扎 | 用于分析信号、提供瞬时频率和短时傅里叶变换的方法以及用于分析信号的设备 |
CN103444076A (zh) * | 2011-02-07 | 2013-12-11 | 射频小型装置公司 | 用于功率放大器包络跟踪的群延迟校准方法 |
WO2014021318A1 (ja) * | 2012-08-01 | 2014-02-06 | 独立行政法人産業技術総合研究所 | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2170377B (en) * | 1985-01-29 | 1988-12-14 | Plessey Co Plc | Voice synthesis module |
US5701390A (en) | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
JPH11219200A (ja) * | 1998-01-30 | 1999-08-10 | Sony Corp | 遅延検出装置及び方法、並びに音声符号化装置及び方法 |
EP1104101A3 (en) * | 1999-11-26 | 2005-02-02 | Matsushita Electric Industrial Co., Ltd. | Digital signal sub-band separating / combining apparatus achieving band-separation and band-combining filtering processing with reduced amount of group delay |
JP4166405B2 (ja) | 2000-03-06 | 2008-10-15 | 独立行政法人科学技術振興機構 | 駆動信号分析装置 |
JP2003044098A (ja) * | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
JP4753821B2 (ja) * | 2006-09-25 | 2011-08-24 | 富士通株式会社 | 音信号補正方法、音信号補正装置及びコンピュータプログラム |
JP4406440B2 (ja) * | 2007-03-29 | 2010-01-27 | 株式会社東芝 | 音声合成装置、音声合成方法及びプログラム |
JP5159279B2 (ja) | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
US9031834B2 (en) | 2009-09-04 | 2015-05-12 | Nuance Communications, Inc. | Speech enhancement techniques on the power spectrum |
JP5085700B2 (ja) | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US8891699B2 (en) * | 2011-03-25 | 2014-11-18 | Broadcom Corporation | Characterization and assessment of communication channel average group delay variation |
JP6011039B2 (ja) | 2011-06-07 | 2016-10-19 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP2013164572A (ja) * | 2012-01-10 | 2013-08-22 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
JP5631915B2 (ja) | 2012-03-29 | 2014-11-26 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
JP6347536B2 (ja) * | 2014-02-27 | 2018-06-27 | 学校法人 名城大学 | 音合成方法及び音合成装置 |
CN107924686B (zh) * | 2015-09-16 | 2022-07-26 | 株式会社东芝 | 语音处理装置、语音处理方法以及存储介质 |
-
2015
- 2015-09-16 CN CN201580082452.1A patent/CN107924686B/zh active Active
- 2015-09-16 CN CN202210403587.5A patent/CN114694632A/zh active Pending
- 2015-09-16 WO PCT/JP2015/076361 patent/WO2017046904A1/ja active Application Filing
- 2015-09-16 CN CN202210141126.5A patent/CN114464208A/zh active Pending
- 2015-09-16 JP JP2017540402A patent/JP6496030B2/ja active Active
-
2018
- 2018-02-16 US US15/898,337 patent/US10650800B2/en active Active
-
2020
- 2020-04-07 US US16/841,833 patent/US11170756B2/en active Active
- 2020-04-07 US US16/841,839 patent/US11348569B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268660A (ja) * | 2001-03-13 | 2002-09-20 | Japan Science & Technology Corp | テキスト音声合成方法および装置 |
CN103154932A (zh) * | 2010-08-11 | 2013-06-12 | 伊夫·列扎 | 用于分析信号、提供瞬时频率和短时傅里叶变换的方法以及用于分析信号的设备 |
CN103444076A (zh) * | 2011-02-07 | 2013-12-11 | 射频小型装置公司 | 用于功率放大器包络跟踪的群延迟校准方法 |
CN102637437A (zh) * | 2011-02-10 | 2012-08-15 | 佳能株式会社 | 音频处理设备及其控制方法 |
WO2014021318A1 (ja) * | 2012-08-01 | 2014-02-06 | 独立行政法人産業技術総合研究所 | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム |
Also Published As
Publication number | Publication date |
---|---|
CN114694632A (zh) | 2022-07-01 |
CN107924686A (zh) | 2018-04-17 |
US20180174571A1 (en) | 2018-06-21 |
US20200234691A1 (en) | 2020-07-23 |
JP6496030B2 (ja) | 2019-04-03 |
US11170756B2 (en) | 2021-11-09 |
US10650800B2 (en) | 2020-05-12 |
WO2017046904A1 (ja) | 2017-03-23 |
CN114464208A (zh) | 2022-05-10 |
US11348569B2 (en) | 2022-05-31 |
JPWO2017046904A1 (ja) | 2018-03-22 |
US20200234692A1 (en) | 2020-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107924686B (zh) | 语音处理装置、语音处理方法以及存储介质 | |
US11423874B2 (en) | Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product | |
JP5085700B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
US9135910B2 (en) | Speech synthesis device, speech synthesis method, and computer program product | |
EP2881947B1 (en) | Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis | |
US9343060B2 (en) | Voice processing using conversion function based on respective statistics of a first and a second probability distribution | |
WO2010119534A1 (ja) | 音声合成装置、方法およびプログラム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
Yu et al. | Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Nose et al. | A style control technique for singing voice synthesis based on multiple-regression HSMM. | |
Koriyama et al. | Discontinuous Observation HMM for Prosodic-Event-Based F0 Generation. | |
Achanta et al. | Significance of Maximum Spectral Amplitude in Sub-bands for Spectral Envelope Estimation and Its Application to Statistical Parametric Speech Synthesis | |
Koriyama et al. | Discontinuous observation HMM for prosodic-event-based F0 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |