CN100568343C - 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 - Google Patents

生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 Download PDF

Info

Publication number
CN100568343C
CN100568343C CNB2005100740685A CN200510074068A CN100568343C CN 100568343 C CN100568343 C CN 100568343C CN B2005100740685 A CNB2005100740685 A CN B2005100740685A CN 200510074068 A CN200510074068 A CN 200510074068A CN 100568343 C CN100568343 C CN 100568343C
Authority
CN
China
Prior art keywords
unit
voice
pitch
data
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB2005100740685A
Other languages
English (en)
Other versions
CN1702736A (zh
Inventor
佐藤宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co ltd
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Publication of CN1702736A publication Critical patent/CN1702736A/zh
Application granted granted Critical
Publication of CN100568343C publication Critical patent/CN100568343C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了一种基音周期波形信号生成方法,作为用于有效地对具有波动的基音周期的语音波形信号进行编码的基本处理。且进一步提供使用该方法的语音信号压缩/扩展装置以及语音信号合成装置,和与之相关的信号处理。本发明的基音周期波形生成方法主要包括:检测语音波形信号的每一个基音周期波形成分的瞬时基音周期的方法,和通过根据每一个检测到的瞬时基音周期在时间轴上扩展和压缩基音周期波形成分、同时保留它的波形模式来将相应的基音周期波形成分处理成具有预定固定的时间长度的归一化基音周期波形成分的过程。通过使用本发明的基音周期波形信号生成方法来对语音波形信号进行编码或合成,可以高质量和高效地压缩具有基音周期波动的语音信号。

Description

生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
本申请是申请日为2002年8月30日、申请号02802813.9的发明申请“生成基音周期波形信号的装置和方法及处理语音信号的装置和方法”的分案申请。
技术领域
本发明涉及生成基音周期波形信号的装置和方法。本发明也涉及使用这种生成基音周期波形信号方法的语音信号压缩装置、语音信号扩展装置、语音信号压缩方法和语音信号扩展方法。
此外,本发明涉及使用这种生成基音周期波形信号方法的语音合成装置、语音词典生成装置、语音合成方法和语音词典生成方法。
背景技术
近几年,在使用蜂窝式电话和其他类似装置的语音通信中频繁地使用到语音信号压缩技术。具体的应用领域主要包括CODEC(编码器(COder)/解码器(DECoder))、语音识别和语音合成。
可以将语音信号的压缩方法大致地分为使用人类声学机能的方法和使用声带特征的方法。
使用人类声学机能的方法包括MP3(MPEG1音频层3),ATRAC(自适应变换声学编码)和AAC(高级音频编码)。使用声学机能方法的特点是虽然压缩率低但是音质高,并且经常用于压缩音乐信号。
另一方面,使用声带特征的方法是用于压缩语音的方法,其特点是虽然音质低但是压缩率高。使用声带特征的方法包括使用线性预测编码的方法,尤其是CELP和ADPCM(自适应差分脉冲编码调制)。
使用线性预测编码方法压缩语音时,通常应该抽取语音的基音周期(基音频率的倒数)用于进行线性预测编码。为此,事先要用诸如倒谱分析的傅立叶变换的方法来抽取基音周期。
使用傅立叶变换方法抽取基音周期时,基音频率是从出现频谱峰值的频率(共振峰频率)中选取的,并且把基音频率的倒数确定为基音周期。
通过进行FFT(快速傅立叶变换)操作及其他类似操作可以获取频谱。为了通过FFT操作获取频谱,通常应该以比相当于语音的一个基音周期更长的时间周期进行语音采样。
采样连续进行过程中,进行语音采样的时间周期越长,由语音和其他类似声音切换而造成波形上突变的可能性就越高。如果在采样进行过程中出现波形上的突变,那么在采样后续处理中被确定的共振峰频率中包含的错误将十分明显。
此外,人声的基音周期长度中还包括起伏。起伏可能会在共振峰频率中引发错误。这就是说,以相当于若干个基音周期的时间周期对包含起伏的语音进行采样,其结果是使起伏变得平滑,由此确定出的共振峰频率也将与包含起伏的真实共振峰频率不同。
如果基于起伏平滑了的基音周期值压缩语音信号的话,那么在语音信号扩展和播放时,不仅产生的是机械语音,而且,音质也会降低。
考虑到上述情况设计了本发明,并且第一目的是提供基音周期波形信号生成装置和基音周期波形信号生成方法,此装置和方法作为初步处理,以有效地对包含基音周期起伏的语音波形信号进行编码。
其次,在近几年中,诸如蜂窝电话等进行数字语音通信的终端得到了广泛的应用。例如,可将这些终端用于传送使用诸如CELP(码本激励线性预测)的LPC(线性预测编码)方法压缩的语音信号。
使用线性预测编码方法时,将通过对人类声音的声道特征(声道的频率特征)进行编码来对语音进行压缩。要播放语音时,将搜索以此码本作为索引的码表。
但是,当此方法用于蜂窝电话及类似装置时,经常会降低声音的质量,从而如果码本的数量太小,对语音通信对方的声音的识别变得困难。
为了在线性预测方法中改进音质,可以增加在码表中注册的声道特征成分的数量。但是,在增加成分数量的方法中,要被传送的数据的数量和码表中的数据的数量都会显著地增加。这样,压缩效率就会大打折扣,同时也很难将码表储存在仅能容纳小型装置的终端中。
此外,人类的实际声道具有非常复杂的结构,而且声道的频率特征是随时间波动的。这样,语音的基音周期就具有起伏。因此,尽管可以对人的声音简单地进行傅立叶变换,但却不能精确地确定声道特征。因此,如果使用基于对人声进行傅立叶变换的简单结果确定的声道特征来进行线性预测编码的话,尽管增加了码表成分的数量,音质也不可能得到令人满意的改进。
考虑到上述情况设计了本发明,并且第二目的是提供语音信号压缩/扩展装置和语音信号压缩/扩展方法,此装置和方法用于高效地压缩表征语音的数据或者压缩表征在高音质中具有起伏的语音的数据。
此外,用于合成语音的方法包括通常所说的规则合成法。规则合成法是这样一种方法:其中,基于作为文本词法分析和韵律预测编码的结果获取的信息,来确定基音信息和频谱包络信息(声道特征),并且基于确定结果来合成阅读该文本的语音。
特别地,例如图8所示,首先,对用于合成语音的文本进行词法分析(图8中的步骤S101),基于词法分析的结果生成一列表征阅读文本语音发音的发音符号(步骤S102),并且生成一列表征该语音韵律的韵律符号(步骤S103)。
然后,基于已获得的发音符号序列来确定语音频谱包络(步骤S104),基于这个包络来确定模拟声道特征的滤波器的特征。另一方面,基于已获得的韵律符号序列来生成表征声道产生声音的特征的音源参数(步骤S105),并且基于音源参数生成表征由声道产生的声音波形的音源信号(步骤S106)。
然后,由决定特征的滤波器对该音源信号进行滤波(S107),由此合成语音。
如图9所示,为了合成语音,将通过在由冲激序列源1产生的冲激序列和由白噪声源2产生的白噪声之间的切换来模拟音源信号。之后,由模拟声道特征的数字滤波器3对音源信号进行滤波以生成语音。
但是,人类的实际声带具有复杂的结构,并且会使得通过冲激序列表征声带特征变得困难。因此,由上述规则合成法合成的语音容易成为不同于人所发出的真实语音的机械语音。
同时,声道结构也是复杂的,从而使得精确预测频谱包络变得困难,因此由数字滤波器表征声道特征也将变得困难。这也是引起由规则合成法合成的语音的音质降低的原因。
考虑到上述情况设计了本发明,并且第三个目的是提供语音合成装置、语音词典生成装置、语音合成方法和语音词典生成方法作为它的第三对象,此装置和方法用于高效地合成自然的语音。
发明内容
为获取本发明的上述三个目的,本发明也主要分成三类。为了方便,在下文中将这三类发明分别称为第一发明、第二发明和第三发明。
下面将按顺序介绍这些发明的内容。
第一发明
为获取第一发明的目的,根据第一发明的基音周期波形信号生成装置主要包括:
检测语音波形信号的每个基音周期波形成分的瞬时基音周期的装置;和
把相应的基音周期波形成分转换成具有预设的固定时间长度的归一化基音周期波形成分的装置,该装置将基于检测到的瞬时基音周期,通过保留基音周期波形模式的同时在时间轴上扩展和压缩基音周期波形成分来实现的。此外,另一方面,根据本发明的基音周期波形信号生成装置还包括:
在语音波形信号的一定时间间隔内检测平均基音周期的装置;
可变滤波器,该滤波器具有随着检测到的平均基音周期变化的频率特征,同时对语音波形信号进行滤波;
基于可变滤波器的输出来检测语音波形信号的瞬时基音周期的装置;
基于检测到的单独的瞬时基音周期来抽取相应基音周期波形成分的装置;和
通过在时间轴上扩展和压缩基音周期波形长度,把抽取的基音周期波形成分转换成具有预设固定时间长度的基音周期波形成分的装置。
根据本发明的结构,如果提供了这样的语音波形信号,其中产生声音的基音周期在每一瞬间发生改变(随时间波动),那么语音波形中的单独基音周期波形成分将被转换为具有固定时间长度的归一化基音周期波形成分。通过对语音波形成分进行这个归一化处理(根据本发明),可以获得这样的语音波形:其具有几乎相同模式的多个波形成分不断地被重复。这样,在模式改变均一化的语音波形中,各个基音周期波形之间的相关性得到了改善,因此,可以期望通过对基音周期波形进行熵编码来实施对实质信息的压缩。这里,熵编码是指一种高效编码(信息压缩)模式,其中注重于每个采样样本的发生概率,给发生概率高的样本分配具有较少比特的码字。根据熵编码,给发生概率高的样本分配较少比特数的码字,并且注重于样本的发生概率进行编码。如果使用熵编码,那么用相对于定长编码较少信息量来对来自于发生概率不平衡的信息源的信息进行编码。应用熵编码的一个典型例子是DPCM(差分脉冲编码调制)。
如上所述,根据本发明的上面的结构,基音周期波形成分的改变将由于它们的归一化而均一化,从而使得各个波形成分之间的相关度得到了增加。因此,如果确定了相邻基音周期波形成分之间的差别,并且对此差别进行了编码,那么已编码的比特效率将会得到改善。这是因为对于同其它信号具有高相关度的信号来说,其信号间差别的差分信号的动态范围比原始信号的动态范围小得多,因此使得显著减少编码所需比特数成为可能。
更具体地说,根据第一发明的基音周期波形信号生成装置包括:
可变滤波器,该可变滤波器具有根据表征语音波形的语音信号滤波的控制而变化的频率特征,由此抽取语音的基音频率分量;
滤波器特征确定单元,此单元可以基于由上述可变滤波器抽取的基音频率分量确定上述语音的基音频率,并控制上述的可变滤波器以获得这样的频率特征:其中除了那些存在于已确定基音频率附近的分量,其余分量均被截止;
基音周期抽取装置,该装置用于基于语音信号的基音频率分量值将上述语音信号分成多个段,其中每段都由与单位基音周期相等的语音信号组成;和
语音信号处理单元,此单元通过使得上述每段中的语音信号的相位完全相同,将语音信号处理成基音周期波形信号。
上述的语音信号处理单元可包括一个基音周期长度固定单元,这个长度固定单元可以通过对上述每段中基音周期波形信号以完全相同的样本数量进行采样(重采样),使得每段中基音周期波形信号的时间长度完全相同。
上述的基音周期长度固定单元可以生成和输出用于在上述的每段中确定基音周期波形信号的原始时间长度的数据。
上述的基音周期波形信号生成装置可包括一个插值单元,该单元可以将用于基音周期波形信号插值的的信号增加到由上述基音周期长度固定单元采样(重采样)的基音周期波形信号上。
上述的插值单元可包括:
通过多种方法对相同基音周期波形信号实施插值,以生成多个插值后的基音周期波形信号的装置;和
生成多个频谱信号的装置,其中每个频谱信号表征如下处理的结果:对每个插值后的基音周期波形信号进行傅立叶变换,基于已生成的频谱信号在插值后的基音周期波形信号之外以最小数量的谐波分量来确定基音周期波形信号,以及输出确定后的基音周期波形信号。
上述的滤波器特征确定单元可包括一个交叉检测单元,该单元识别由上述可变滤波器抽取的基音频率分量到达预设值的周期,并基于已识别的周期来确定上述的基音频率。
上述的滤波器特征确定单元可包括:
平均基音周期检测单元,该单元基于语音信号检测由滤波前语音信号表征的语音的基音周期长度;和
确定单元,该单元确定由上述交叉检测单元所识别的周期和由上述平均基音周期检测单元所识别的基音周期长度之间是否存在预定量或更大的差别,并且,如果确定不存在这样的差别,将控制上述可变滤波器以获得这样的频率特征:其中,除了存在于由上述交叉检测单元识别的基音频率附近的分量,其它分量均被截止,且如果确定存在这样的差别,将控制上述可变滤波器以获得这样的频率特征:其中,除了存在于由上述平均基音周期检测单元识别的基音周期长度中识别出的基音频率附近的分量,其它分量均被截止。
上述的平均基音周期检测单元可包括:
倒谱分析单元,用于确定滤波前语音信号的倒谱具有最大值所在的频率;
自相关分析单元,用于确定滤波前语音信号的自相关函数的周期图(periodgram)具有最大值所在的频率;和
平均值计算单元,该单元基于由上述倒谱分析单元和上述自相关分析单元所确定的频率,确定由语音信号表征的语音基音周期的平均值,并且将已确定的平均值识别为语音的基音周期长度。
上述的平均值计算单元可以从由上述倒谱分析单元和上述自相关分析单元所确定的频率中,将具有与预设值相等或更小的频率排除在将要确定其平均值的对象之外。
上述的语音信号处理单元可包括幅度固定单元,用于生成表征通过上述基音周期波形信号值乘以一个比例因子获得的结果的新基音周期波形信号,从而均一化新基音周期信号的幅度以使得有效值之间完全相等。
上述的幅度固定单元可以生成和输出表示上述比例因子的数据。
此外,从另一个角度看,可以把第一发明理解为一种基音周期波形信号生成方法。此方法包括如下步骤:
通过使用频率特征随控制变化的可变滤波器对表征语音波形的语音信号进行滤波,抽取语音的基音频率分量;
基于上述可变滤波器抽取的基音频率分量,确定上述语音的基音频率;
控制上述可变滤波器以获得这样的频率特征:其中除了存在于已确定基音频率附近的分量,其它分量均被截止;
基于语音信号基音频率分量的值,将上述语音信号分成几段,其中每段均由与单位基音周期相等的语音信号组成;和
通过通过使得上述每段中的语音信号的相位完全相同,将语音信号处理成基音周期波形信号。
第二发明
为获取第二发明的目的,根据第二发明的语音信号压缩装置主要包括:
检测语音波形信号的每个基音周期波形成分的瞬时基音周期的装置;
基于检测到的瞬时基音周期,通过在时间轴上扩展和压缩基音周期波形成分同时保留其波形模式,将相应的基音周期波形成分转换为具有预设固定时间长度的归一化基音周期波形成分的装置;和
对瞬时基音周期的值进行单独编码的编码装置,其中该瞬时基音周期是为每个基音周期波形成分和表征具有用变换装置获得的固定时间周期的归一化基音周期波形成分的信号而检测的。
本发明的语音压缩装置具有对归一化语音信号(即:由均具有固定时间长度的基音周期波形成分组成的语音)进行熵编码的编码装置,以此有效地对带有上面特征优点的信号的信息进行压缩,其中上面的特征是由基音周期波形成分的归一化而带来的。
具体地说,根据第一方面,第二发明的语音信号压缩装置包括:
语音信号处理装置,该方法用于获得表征将被压缩的第一语音波形的语音信号,使得与语音信号的单位基音周期相等的每段的时间长度都完全相同,并由此把语音信号处理成基音周期波形信号;
子波段抽取装置,用于从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;
恢复装置,用于从用于生成差别的第二语音的基音频率分量和谐波分量中随时间的变化的子波段信息中识别在由上述子波段抽取装置抽取的基音频率分量和谐波分量中具有随时间变化的最高相关的子波段信息;
差分装置,用于基于上述语音信号和由上述恢复装置识别的子波段信息,生成表征上述第一语音波形和由子波段信息表征的上述第二语音波形之间差别的差分信号;和
输出装置,用于输出识别子波段信息和上述差分信号的识别码,其中该子波段信息是由上述恢复装置识别的。
此外,根据第二方面,第二发明的语音信号压缩装置包括:
语音信号处理装置,用于获得表征将被压缩的第一语音波形的语音信号,使得与语音信号的单位基音周期相等的每段的时间长度都完全相同,并由此把语音信号处理成基音周期波形信号;
子波段抽取装置,用于从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;
恢复装置,用于在由上述子波段抽取装置抽取的基音频率分量和谐波分量中识别具有随时间变化的最高相关子波段信息,该子波段信息是来自表示在用于生成差别的第二语音的基音频率分量和谐波分量中随时间的变化的了波段信息中。
差分装置,基于由上述子波段抽取装置抽取的上述第一语音的基音频率分量和谐波分量以及由上述恢复装置确定的子波段信息,生成表征基音频率分量和谐波分量中上述第一语音波形和上述第二语音波形之间差别的差分信号;和
输出装置,用于输出识别子波段信息和上述差分信号的识别码,其中该子波段信息是由上述查找装置识别的。
可以使表示由子波段信息表征的第二语音讲话者的语音特征的讲话者确定数据与上述子波段信息一致,并且上述查找装置可以包括:基于上述语音信号确定第一语音讲话者特征的特征识别装置,其识别在由上述子波段抽取装置抽取的基音频率分量和谐波分量中确定具有随时间变化最高相关的信息,上面所说的信息仅仅指与表征由上述特征识别装置识别的特征的讲话者确定数据相一致的信息。
上述输出装置可以基于由上述子波段抽取装置抽取的上述第一语音的基音频率分量和谐波分量来确定上述第一语音是否与第三语音完全相同,其中第三语音的基音频率分量和谐波分量是在进行抽取操作之前抽取的,如果确定上述第一语音与上述第三语音完全相同,则还将输出表示与上述第三语音完全相同的上述第一语音的数据而不是上述识别码和差分信号。
上述语音信号处理装置可包括生成和输出基音周期数据的装置,该基音周期数据用于在上述每段中识别基音周期波形信号的原始时间长度。
上述语音信号处理装置可包括:
可变滤波器,该滤波器具有根据控制而变化的频率特征以对上述语音信号进行滤波,并由此抽取语音信号的基音频率分量;
滤波器特征确定单元,该单元基于由上述可变滤波器抽取的基音频率分量确定上述语音的基音频率,并且该单元对上述可变滤波器进行控制以获得这样的频率特征:其中,除了存在于已识别的基音频率附近的分量,其它分量均被截止。
基音周期抽取装置,基于语音信号的基音频率分量值将上述语音信号分成多个段,其中每段都由与单位基音周期相等的语音信号组成;和
基音周期长度固定单元,该单元通过在上述语音信号的上述每段中以完全相同的样本数对语音信号进行采样,生成基音周期波形信号,其中该基音周期波形信号在上述每段中的时间长度都完全相同。
上述滤波器特征确定单元可包括一个识别一周期的交叉检测单元,在此周期内,由上述可变滤波器抽取的基音频率分量达到预设值,并且基于这个识别的周期,该单元识别上述基音频率。
上述滤波器特征确定单元可包括:
平均基音周期检测单元,该单元基于语音信号,检测由滤波前语音信号表征的语音的基音周期的时间长度;
确定单元,该单元确定在由上述交叉检测单元确定的时间长度和由上述平均基音周期检测单元确定的时间长度之间是否存在预定量或更大的差别,并且,如果确定不存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征:除了存在于由上述交叉检测单元识别的基音频率附近的分量,其他分量均被截止,如果确定存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征:除了存在于从由上述平均基音周期检测单元识别的基音周期时间长度中识别的基音频率附近的分量,其他分量均被截止。
上述平均基音周期检测单元可包括:
倒谱分析单元,该单元确定滤波前语音信号的倒谱具有最大值所在的频率;
自相关分析单元,该单元确定滤波前语音信号自相关函数周期图具有最大值所在的频率;和
平均值计算单元,该单元基于由上述倒谱分析单元和上述自相关分析单元确定的频率,确定语音信号表征的语音的基音周期的平均值,并且把该已确定的平均值识别为语音基音周期的时间长度。
接着,根据第二发明的语音信号扩展装置包括:
输入装置,用于获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音信号的单位基音周期相等;差分信号表征了将被复原的第二语音波形与上述第一语音波形之间的差别;基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;
基音周期波形信号恢复装置,用于获得上述波段信息中由上述输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息复原第一基音周期波形信号;
加法装置,用于生成第二基音周期波形信号,该第二基音周期波形信号表征第一基音周期波形信号的波形与由上述差分信号表征的波形的总和,其中的第一基音周期波形信号是由上述基音周期波形信号恢复装置复原的;和
语音信号恢复装置,基于上述基音周期数据和上述第二基音周期波形数据,生成表征上述第二语音的语音信号。
此外,根据其他方面的语音信号扩展装置包括:
输入装置,用于获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音信号的单位基音周期相等。差分信号表征了将被复原的第二语音波形与上述第一语音之间的基音频率分量和谐波分量中的差别。基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;
子波段信息恢复装置,用于获得上述子波段信息的、由上述输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息和上述差分信号,确定上述第二语音的基音频率分量和谐波分量;和
语音信号恢复装置,基于上述基音周期数据和上述第二语音的基音频率分量和谐波分量,生成表征上述第二语音的语音信号,其中上述第二语音是由上述子波段信息恢复装置确定的。
第二发明也可以看作是一种语音信号压缩方法,在这种情况下,该方法包括如下步骤:
获得表征将要被压缩的第一语音波形的语音信号,并且使各段的时间长度完全相同,其中每段都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;
从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;
识别子波段信息,该子波段信息在由上述子波段抽取装置抽取的基音频率分量和谐波分量中具有随时间变化的最高相关,该子波段信息是来自表示了在用于生成差别的第二语音基音频率分量和谐波分量中随时间的变化的;
基于上述语音信号和已识别的子波段信息生成差分信号,该差分信号表征上述第一语音波形和由子波段信息表征的上述第二语音波形之间的差别;和
输出用于识别已识别的子波段信息和上述差分信号的识别码。
此外,另一种语音信号压缩方法包括如下步骤:
获得表征将要被压缩的第一语音波形的语音信号,并且使各段的时间长度完全相同,其中每段都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;
从基音周期波形信号中抽取上述第一语音的基音频率分量和谐波分量;
用于确定子波段信息的查找装置,该子波段信息在由上述子波段抽取装置抽取的基音频率分量和谐波分量中具有随时间变化的最高相关,该子波段信息是来自表示了在用于生成差别的第二语音基音频率分量和谐波分量中随时间的变化的;
基于上述第一语音的基音频率分量和谐波分量与已识别的子波段信息生成差分信号,该差分信号表征基音频率和谐波分量中上述第一语音波形和上述第二语音波形之间的差别;和
输出用于识别已识别的子波段信息和上述差分信号的识别码。
此外,根据第二发明的语音信号扩展方法包括如下步骤:
获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音信号的单位基音周期相等;差分信号表征了将被复原的第二语音波形与上述第一语音波形之间的差别;基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;
获得上述子波段信息中的、由输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息,复原第一基音周期波形信号;
生成第二基音周期波形信号,该第二基音周期波形信号表征已复原的第一基音周期波形信号的波形与由上述差分信号表征的波形的总和;和
基于上述基音周期数据和上述第二基音周期波形数据,生成表征上述第二语音的语音信号。
此外,根据第二发明的另一种语音信号扩展方法包括如下步骤:
获得识别码、差分信号和基音周期数据;其中识别码用于指定子波段信息,该子波段信息示出了在第一基音周期波形信号的基音频率分量和谐波分量中随时间的变化,该第一基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征第一语音波形的语音波形的单位基音周期相等;差分信号表征了基音频率分量和谐波分量中将被复原的第二语音波形与上述第一语音之间的差别;基音周期数据表示了与上述第二语音单位基音周期相等的段的时间长度;
获得由上述子波段信息的、由上述输入装置获得的识别码识别的子波段信息,同时基于已获得的子波段信息和上述差分信号,确定上述第二语音的基音频率分量和谐波分量;和
基于上述基音周期数据与上述已确定的基音频率分量和谐波分量,生成表征上述第二语音的语音信号。
第三发明
为获取第三发明的目的,根据第三发明的第一方面的语音合成装置包括:
用于储存韵律信息、基音周期信息和频谱信息的储存装置;其中韵律信息表征单位语音采样的韵律,基音周期信息表征采样的基音周期,频谱信息表示了基音周期波形信号的基音频率分量和谐波分量中随时间的变化,其中的基音周期波形信号是通过使各段的时间长度完全相同来生成的,其中这些段中的每个都与表征采样波形的语音信号的单位基音周期相等,其中该采样带有使采样开始对应的信息;
预测装置,用于输入表征文本的文本信息,并且基于文本信息生成表征对组成文本的单位语音的基音周期和频谱的预测结果的预测信息;
基于上述基音周期信息、频谱信息和预测信息用于识别采样的查找装置,其中该采样具有与组成上述文本的单位语音的基音周期和频谱最高相关的基音周期和频谱;和
信号合成装置,用于生成合成语音信号,该合成语音信号表征其中具有韵律的语音,其中的韵律是由使上述查找装置识别的采样对应的韵律信息表征的,在基音频率分量和谐波分量中的随时间的变化是由使上述查找装置识别的采样开始对应的频谱信息表征的,与单位基音周期相等的段的时间长度是由使上述查找装置确定的采样对应的基音周期信息表征的。
上述频谱信息可由表征对表示基音周期波形信号的基音频率分量和谐波分量中随时间变化的数值进行非线性量化的结果值的数据组成。
此外,根据本发明的第二方面的语音词典生成装置包括:
基音周期波形信号生成装置,用于获得表征单位语音波形的语音信号,使各段的时间长度完全相同,其中这些段中的每个都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;
基音周期信息生成装置,用于生成和输出表征上述段的原始时间长度的基音周期信息;
频谱信息抽取装置,基于基音周期波形信号,生成和输出示出上述语音信号的基音频率分量和谐波分量中随时间的变化的频谱信息;和
韵律信息生成方法,用于获得表征语谱图(phonogram)的语声数据,其中语谱图表征基音周期语音的发音,该装置还将确定由语声数据表征的发音韵律,并生成和输出表征已确定韵律的韵律信息。
上述频谱信息抽取装置包括:
可变滤波器,该滤波器具有根据控制而变化的频率特征以对上述语音信号进行滤波,从而抽取语音信号的基音频率分量;
滤波器特征确定装置,基于由上述可变滤波器抽取的基音频率分量来识别上述单位语音的基音频率分量,并且对上述可变滤波器进行控制以获得这样的频率特征:除了存在于已确定基音频率附近的分量,其他分量均被截止;
基音周期抽取装置,基于语音信号的基音频率分量值,将上述语音信号分成多个段,其中每段都由与单位基音周期相等的语音信号组成;和
基音周期长度固定单元,该单元通过对上述各段中的语音信号以完全相同的样本数进行采样,以生成基音周期波形信号,其各段中的时间长度完全相同。
上述滤波器特征确定装置可包括交叉检测方法,用于识别由上述可变滤波器抽取的基音频率分量达到预设值的时间长度,并且基于已识别的时间长度来识别上述基音频率。
上述滤波器特征确定装置可包括:
平均基音周期检测装置,基于滤波前的语音信号来检测由语音信号表征的语音的基音周期的时间长度;和
确定装置,用于确定在由上述交叉检测方法确定的时间长度和由上述平均基音周期检测装置识别的基音周期时间长度之间是否存在预定量或更大的差别,并且,如果确定不存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征:除了存在于由上述交叉检测装置识别的基音频率附近的分量,其他分量均被截止;如果确定存在这样的差别,对上述可变滤波器进行控制以获得这样的频率特征:除了存在于从由上述平均基音周期检测装置识别的基音周期时间长度中识别的基音频率附近的分量,其他分量均被截止。
上述平均基音周期检测装置可包括:
倒谱分析装置,用于确定由上述可变滤波器进行滤波前的语音信号的倒谱达到最大值所在的频率;
自相关分析装置,用于确定由上述可变滤波器进行滤波前的语音信号的自相关函数的周期图达到最大值所在的频率;和
平均值计算装置,基于由上述倒谱分析装置和上述自相关分析装置确定的频率来确定由语音信号表征的语音基音周期的平均值,并且将已确定的平均值确定为单位语音基音周期的时间长度。
上述频谱信息抽取装置可以生成表征对表示上述语音信号基音频率分量和谐波分量中随时间变化的数值进行非线性量化的结果,并且输出数据作为上述的频谱信息。
此外,根据本发明第三方面的语音合成方法包括如下步骤:
储存表征单位语音采样韵律的韵律信息,表征采样基音周期的基音周期信息,和表示基音周期波形信号的基音频率分量和谐波分量中随时间的变化的频谱信息,其中的基音周期波形信号是通过使各段的时间长度完全相同来生成的,这些段中的每个都与表征采样波形的语音信号的单位基音周期相等,其中采样带有使采样对应的信息;
输入表征文本的文本信息,并基于文本信息生成预测信息,该预测信息表征对由文本组成的单位语音基音周期和频谱预测的结果;
基于上述基音周期信息、频谱信息和预测信息,识别具有这样基音周期和频谱的采样:其中该基音周期和频谱与由上述文本组成的单位语音的基音周期和频谱具有最高相关;和
生成表征语音的合成的语音信号,其中,该语音具有由开始对应已识别采样的韵律信息表征的韵律,基音频率分量和谐波分量中随时间的变化是由对应已由上述查找装置确定的采样的频谱信息表征的,与单位基音周期相等的段的时间长度是由对应已由上述恢复装置识别的采样的基音周期信息表征的。
此外,根据本发明的第四方面的语音词典生成方法包括如下步骤:
获得表征单位语音波形的语音信号,并且使各段的时间长度完全相同,其中这些段中的每个都与语音信号的单位基音周期相等,由此将语音信号处理成基音周期波形信号;
生成和输出表征上述段中的原始时间长度的基音周期信息;
基于基音周期波形信号,生成和输出表示上述语音信号的基音频率分量和谐波分量中随时间的变化的频谱信息;和
获得表征语谱图的语声数据,其中语谱图表征单位语音的发音,并且确定由语声数据表征的发音的韵律,生成和输出表征已确定韵律的韵律信息。
附图说明
图1示出了根据本发明实施例的基音周期波形抽取系统的结构;
图2(a)示出了通过常规方法获得的语音频谱的一个例子,图2(b)示出了根据本发明实施例的基音周期波形抽取系统获得的基音周期波形信号频谱的一个例子;
图3是表示根据本发明实施例的语音信号压缩器的结构的框图;
图4是表示在语音的每个频率分量的强度中随时间的变化的一个例子的图;
图5是表示根据本发明实施例的语音信号扩展器的结构的框图;
图6是表示根据本发明实施例的语音词典生成系统的结构的框图;
图7是表示根据本发明实施例的语音合成系统的结构的框图;
图8说明了通过规则合成方法进行语音合成的步骤;和
图9用示意图说明了语音合成的原理。
具体实施方式
以下将结合附图说明本发明(第一、第二和第三发明)的实施例。
第一发明
图1示出了根据第一发明实施例的基音周期波形抽取系统的结构。如图中所示,该基音周期波形抽取系统包括语音输入单元1,倒谱分析单元2,自相关分析单元3,权重计算单元4,带通滤波器(BPF)系数计算单元5,带通滤波器(BPF)6,过零分析单元7,波形相关分析单元8,相位调整单元9,幅度固定单元10,基音周期长度固定单元11,插值处理单元12A和12B,傅立叶变换单元13A和13B,波形选择单元14和基音周期波形输出单元15。
例如,语音输入单元1是由记录介质驱动器(软盘驱动器,MO驱动器等)组成的,用于读取记录在记录介质(例如软盘和MO(磁光盘))及其他类似介质中的数据。
语音输入单元1输入表征语音波形的语音数据,以将语音数据提供给倒谱分析单元2、自相关分析单元3、BPF 6、波形相关分析单元8和幅度固定单元10。
此外,语音数据具有PCM(脉冲编码调制)——已调制数字信号的格式,并且表征在比语音基音周期充分短的固定周期内采样的语音。
倒谱分析单元2,自相关分析单元3,权重计算单元4,BPF系数计算单元5,BPF 6,过零分析单元7,波形相关分析单元8,相位调整单元9,幅度固定单元10,基音周期长度固定单元11,插值处理单元12A,插值处理单元12B,傅立叶变换单元13A,傅立叶变换单元13B,波形选择单元14和基音周期波形输出单元15中的每一个都是由DSP(数字信号处理器)、CPU(中央处理器)和其他类似器件组成。
而且,相同的DSP和CPU可以执行倒谱分析单元2,自相关分析单元3,权重计算单元4,BPF系数计算单元5,BPF 6,过零分析单元7,波形相关分析单元8,相位调整单元9,幅度固定单元10,基音周期长度固定单元11,插值处理单元12A,插值处理单元12B,傅立叶变换单元13A,傅立叶变换单元13B,波形选择单元14和基音周期波形输出单元15的段或全部功能。
倒谱分析单元2对由语音输入单元1提供的语音数据进行倒谱分析以识别由语音数据表征的语音的基音频率,并且生成表示已识别的基音频率的数据,将表示基音频率的数据提供给权重计算单元4。在这里,通过将频谱对数确定为频率函数并且对其进行傅立叶反变换,获得倒谱。
具体地说,当从语音输入单元1输入语音数据时,倒谱分析单元2首先将确定该语音数据的频谱,并且将此频谱转换成与频谱对数完全相等的数值(对于对数的底数没有限制,例如可以使用常用对数)。
然后,频谱分析单元2通过快速傅立叶反变换的方法(或者任何用于生成表征对离散变量进行傅立叶反变换的结果的其他方法)来确定倒谱。
将给定该倒谱最大值的频率的最小值识别为基音频率,生成表示该已识别的基音频率的数据并且将其提供给权重计算单元4。
当把语音数据从语音输入单元1提供给自相关分析单元3时,自相关分析单元3将基于语音数据波形的自相关函数来识别由语音数据表征的语音的基音频率,并且生成表示该已识别的基音频率的数据,将此数据提供给权重计算单元4。
具体地说,当把语音数据从语音输入单元1提供给自相关分析单元3时,自相关分析单元3将确定由公式1右边表征的自相关函数r(1):
[公式1]
r ( 1 ) = 1 N Σ t = 0 N - 1 - 1 { x ( t + 1 ) · x ( t ) }
式中N是语音数据采样的总数量,x(α)是从语音数据头开始的第α个采样的值。
然后,自相关分析单元3将给定函数(周期图)最大值并且超越预设的下限频率的最小值确定为基音频率,其中该函数是作为对自相关函数r(1)进行傅立叶变换的结果而获得的,并且该单元生成表示已确定基音频率的数据,并将该数据提供给权重计算单元4。
将表示基音频率的全部这两个数据提供给权重计算单元4时,权重计算单元4将确定这两个数据所示的基音频率的倒数绝对值的平均值,其中这两个数据一个来源于倒谱分析单元2,另一个来源于自相关分析单元3。然后,权重计算单元4将生成表示已确定值(即平均基音周期长度)的数据,并且将该数据提供给BPF系数计算单元5。
当把来自权重计算单元4的表示平均基音周期长度的数据和来自于过零分析单元7的后面所述的过零信号提供给BPF系数计算单元5时,BPF系数计算单元5将基于提供的数据和过零信号,确定在平均基音周期长度与基音周期信号和过零的周期之间是否存在预定值或更大值的差别。然后,如果确定不存在这样的差别,BPF系数计算单元5将对BPF 6的频率特征进行控制以使过零周期的倒数与中心频率(BPF 6通带的中心频率)相等。另一方面,如果确定存在这样的预设数值或者更大的数值的差别,BPF系数计算单元5将对BPF 6的频率特征进行控制以使平均基音周期长度的倒数与中心频率相等。
BPF 6以可变的中心频率来执行FIR(有限冲激响应)类型滤波器功能。
具体地说,BPF 6将其自己的中心频率设置为适合BPF系数计算单元5控制的数值。然后,BPF 6对由语音输入单元1提供的语音数据进行滤波,并将已滤波的语音数据(基音周期信号)提供给过零分析单元7和波形相关分析单元8。该基音周期信号是由数字数据组成的,该数字数据的采样间隔与语音数据的采样间隔完全相同。
此外,期望BPF 6的带宽满足:BPF 6通带的上限始终不高于由语音数据表征的语音的基音频率的2倍。
过零分析单元7确定由BPF 6提供的基音周期信号的瞬时值达到0的时刻(过零发生的时刻),并且将表征已确定时刻的信号(过零信号)提供给波形相关分析单元8。
但是,过零分析单元7也可以确定基音周期信号的瞬时值达到一个除0之外的预设数值的时刻,并且将表征已确定时刻的信而不是替过零信号提供给波形相关分析单元8。
把来自于语音输入单元1的语音数据和来自于带通滤波器6的基音周期信号提供给波形相关分析单元8操作,以使语音数据以达到基音周期信号的单位周期(例如一个周期)边界的时刻同步地划分。对于每个被划分的段,将确定其相位以各种方式改变的段中语音数据和段中基音周期信号之间的相关,并且把提供最高相关的语音数据相位确定为段中语音数据的语音数据相位。
具体地说,例如,当表征相位的ψ值(ψ为等于或大于0的整数)以各种不同的方式改变时,波形相关分析单元8将为每时刻每段确定由公式(2)的右边所表征的cor的值。然后,波形相关分析单元8将确定提供cor最大值的ψ(Ψ)的值,生成表征Ψ值的数据,并把该数据作为表征段中语音数据相位的相位数据提供给相位调整单元9。
[公式2]
cor = Σ i = 1 n { f ( i - φ ) · g ( i ) }
式中n是段中采样的全部数目,f(β)是从段中语音数据头开始的第β个采样的值,g(γ)是从段中基音周期信号头开始的第γ个采样的值。
此外,期望段中的时间长度与大约一个基音周期相等。随着段长度的增加,将会增加段中采样数量,从而增加基音周期波形信号的数据量,或者增加进行采样操作的时间间隔的数量,这样将使得基音周期波形信号表征的语音变得不准确。
当把来自于语音输入单元1的语音数据和来自于波形相关分析单元8的表示语音数据每段相位Ψ的数据提供给相位调整单元9时,相位调整单元9将移动每段语音数据的相位以使语音数据的相位与各段相位Ψ相等。然后,将相移语音数据提供给幅度固定单元10。
当把来自于相位调整单元9的相移语音数据提供给幅度固定单元10时,幅度固定单元10将该语音数据的每一段乘以一个比例因子以改变其幅度,并且将改变了幅度的语音数据提供给基音周期长度固定单元11。此外,生成表示段与另外应用到段中的比例因子值之间对应的比例因子数据,并将其提供给基音周期波形输出单元15。
确定与语音数据相乘的比例因子,以使语音数据每段幅度的有效值是一个公共的固定值。也就是说,如果这个固定值等于J,幅度固定单元10将让固定值J除以语音数据段的幅度有效值K以获得值(J/K)。这个值(J/K就是将应用于各段的比例因子。
当把来自于幅度固定单元10的已改变幅度的语音数据提供给基音周期长度固定单元11时,基音周期长度固定单元11将对该语音数据的每段再次进行采样(重采样),并且将重采样的语音数据提供给插值处理单元12A和12B。
此外,基音周期长度固定单元11生成表示每段原始采样数量的采样数量数据,并且将该数据提供给基音周期波形输出单元15。
而且,基音周期长度固定单元11进行重采样,其方式为在相同段中以规则的时间间隔对数据采样,这样使得语音数据每段的采样数量几乎相同。
当把来自于基音周期长度固定单元11的重采样语音数据提供给插植处理单元12A时,插植处理单元12A通过拉格朗日插值法生成表征用于在该语音数据采样间进行插值的数值的数据,并且将这个数据(拉格朗日插值数据)连同重采样语音数据一起提供给傅立叶变换单元13A和波形选择单元14。重采样语音数据和拉格朗日插值数据组成了拉格朗日插值后的语音数据。
插值处理单元12B通过格雷果里/牛顿插值法生成表征用于在由基音周期长度固定单元11提供的语音数据采样间进行插值的数值的数据(格雷果里/牛顿插值数据),并将该数据连同已采样的语音数据一起提供给傅立叶变换单元13B和波形选择单元14。重采样数据和格雷果里/牛顿插值数据组成了格雷果里/牛顿插值后的语音数据。
在拉格朗日插值和格雷果里/牛顿插值中,波形的谐波分量都将减小到相对低的水平。但是,由于这两种方法使用了不同的函数来对两点之间进行插值,根据将被插值的采样的值,谐波分量的数量在两种方法之间将会是不同的。
当把来自于插值处理单元12A(或12B)的拉格朗日插值后的(或格雷果里/牛顿插值后的)语音数据提供给傅立叶变换单元13A(或13B)时,傅立叶变换单元13A(或13B)将通过快速傅立叶变换的方法(或者任何其他用于生成表征对离散变量进行傅立叶变换的结果的数据的方法)确定该语音数据的频谱。然后,将表征已确定的频谱的数据提供给波形选择单元14。
当把来自于插值处理单元12A和12B的表征相同声音的插值后语音数据和来自于傅立叶变换单元13A和13B的该语音数据的频谱提供给波形选择单元14时,波形选择单元14将基于提供的频谱确定拉格朗日插值后的语音数据和格雷果里/牛顿插值后的语音数据中的哪一个具有更小的谐波失真。拉格朗日插值后的语音数据和格雷果里/牛顿插值后的语音数据中具有更小的谐波失真的那一个将被提供给基音周期波形输出单元15作为基音周期波形信号。
可以认为,当基音周期长度固定单元11对基音周期波形数据的每段进行重采样时,每段的波形将出现失真。但是,由于波形选择单元14在以多种方法进行插值的基音周期波形信号中,选择了具有最小谐波分量数量的基音周期波形信号,包括在最终由基音周期波形输出单元15输出的基音周期波形数据中的谐波分量的数量将减小到较低的水平。
而且,例如,波形选择单元14可以为由傅立叶变换单元13A和13B提供的两个频谱中的每个,确定其频率为基音频率2倍或更高的分量的有效值,并且将已确定的有效值较小的频谱确定为具有较小谐波失真,从而确定的语音数据的频谱。
当把来自于幅度固定单元10的比例因子数据,来自于基音周期长度固定单元11的采样数量数据以及来自于波形选择单元14的基音周期波形数据提供给基音周期波形输出单元15时,基音周期波形输出单元15将输出这三个数据和使它们之间相互对应的数据。
对于从基音周期波形输出单元15输出的基音周期波形信号,单位基音周期段的长度和幅度进行了归一化,从而消除基音周期起伏的影响。因此,可以从基音周期波形信号的频谱中获取表示共振峰的陡峭波峰,可以十分精确地从基音周期波形信号中抽取出共振峰。
具体地说,例如图2(a)所示,由于基音周期的起伏,没有消除基音周期起伏的语音数据的频谱将呈现出无明显波峰的广阔分布。
另一方面,例如如果使用这个基音周期波形抽取系统,从具有如图2(a)所示频谱的语音数据中生成基音周期波形数据,将获取如图2(b)所示的频谱作为这个基音周期波形数据的频谱。如此图所示,这个基音周期波形数据的频谱具有明显的共振峰波峰。
此外,由于从基音周期波形输出单元15输出的基音周期波形信号中消除了基音周期起伏的影响,可以从基音周期波形信号中高重复性地抽取共振峰分量。也就是说,可以很容易地从表征同一讲话者语音的基音周期波形信号中抽取完全相同的共振峰分量。因此,例如,当要通过使用码本的方法压缩语音时,将可以很容易地把在多种场合获取的讲话者的共振峰数据用于连接词中。
此外,可以使用相同的采样数量数据来识别基音周期波形信号的每一段的原始时间长度,并且可以利用比例因子数据来识别基音周期波形信号的每一段的原始幅度。因此,通过将基音周期波形信号的每一个段的长度和幅度恢复到原始语音数据中的长度和幅度,可以容易地恢复原始语音数据。
而且,这种基音周期波形抽取系统的结构不限于上面的介绍。
例如,语音输入单元1可经诸如电话线、专用线和卫星线路的通信线从外部获得语音数据。在这种情况下,仅给语音输入单元1提供由(例如)调制解调器和DSU(数据服务单元)的通信控制单元。
此外,语音输入单元1可包括声音收集装置,其由麦克、AF(音频)放大器、采样器、A/D(模拟-数字)转换器、PCM编码器等等组成。语音收集装置对表示由它的麦克收集的语音的语音信号进行放大,并且对语音信号进行采样和A/D转换器,然后对采样的语音信号进行PCM调制,从而获得语音数据。而且,由语音输入单元1获得语音数据不必一定是PCM信号。
此外,基音周期波形输出单元15可以经通信线将比例因子数据、样本数数据和基音周期波形数据提供给外部。在这种情况下,只给基音周期输出单元15提供由调制解调器、DSU等构成的通信控制单元。
此外,基音周期波形输出单元15可以将比例因子数据、样本数数据以及基音周期波形数据写入由硬盘装置或类似装置组成的外部记录介质和外部存储装置中。在这种情况下,仅给基音周期波形输出单元15提供诸如硬盘控制器的记录介质驱动器和控制电路。
此外,由插值处理单元12A和12B执行的插值方法不限于拉格朗日插值以及格雷果里/牛顿插值法,可以使用任何其它的方法。此外,这种基音周期波形抽取系统可以利用三种或更多种方法来执行对语音数据插值,并且具有最小的谐波波形失真的语音数据作为基音周期波形数据。
此外,在这种基音周期波形抽取系统中,一个插值处理单元可利用一种方法来对语音数据进行插值,并且可以象对基音周期波形数据一样直接处理语音数据。在这种情况下,这种基音周期波形抽取系统不需要具有付立叶变换单元13A或13B,也不需要具有波形选择单元14。
此外,这种波形抽取系统不一定需要对语音数据的幅度有效值进行归一化(uniformalize)。因此,幅度固定单元10不是一个必备的单元,且相位调整单元9可以将相移语音数据直接提供给基音周期长度固定单元11。
此外,这种基音周期波形抽取系统不需要具有倒谱分析单元2(或者自相关分析单元3),在这种情况下,权重计算单元4可以象平均基音周期长度一样直接处理由倒谱分析单元2(或,自相关分析单元3)确定的基频的倒数。
此外,过零分析单元7可直接地将来自BPF 6的基音周期信号提供给BPF系数计算单元5,作为过零信号。
已经在上面介绍了本发明的实施例,但是可以利用常规的计算机系统而不是专用系统来实现根据本发明的基音周期波形产生装置。
例如,从存储程序的介质(CD-ROM,MO,软磁盘等等)将执行上面介绍的语音输入单元1、倒谱分析单元2、自相关分析单元3、权重计算单元4、BPF系数计算单元5、BPF 6、过零分析单元7、波形相关分析单元8、相位调整单元9、幅度固定单元10、基音周期长度固定单元11、插值处理单元12A、插值处理单元12B、付立叶变换单元13A、付立叶变换单元13B、波形选择单元14和基音周期波形输出单元15的运行的程序安装在计算中,从而可以建造执行上面介绍的过程的基音周期波形抽取系统。
此外,例如,该程序可以公布在具有通信线的电子公告系统(BBS)上,并且经过通信线进行发布,或者该程序可以由表征该程序的信号调制的载波的方式被恢复,获得的已调制波形被发射,且接收已调制波形的装置对该已调制的波形进行解调。
然后,启动该程序,并且在OS的控制下,象其它的应用程序一样被执行,从而可以执行上面介绍的过程。
而且,如果OS执行过程的段、或者OS组成本发明的一个单元,从该段中去除的程序可以被存储在记录介质中。同样,在这种情况下,在本发明中,执行由计算机运行的每一个功能或步骤的程序被存储在记录介质中。
第二发明
下面将利用示例的语音信号压缩器和语音信号扩展器来介绍第二发明的实施例。
语音信号压缩器
图3示出根据本发明实施例的语音信号压缩器的配置。如图所示,该语音信号压缩器由语音输入单元A1、基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、算术编码单元A11和比特流形成单元A12。
例如,语音输入单元A1由记录介质驱动器(软磁盘驱动器、MO驱动等)构成,以读出被记录在记录介质(例如,软磁盘和MO(磁光盘))上的数据。
语音输入单元A1通过从存储该语音数据的记录介质中读出语音数据,获得表征语音的波形的语音数据,并且将语音数据提供给基音周期波形抽取单元A2和线性预测分析单元A6。
基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、和算术编码单元A11中的每一个都由诸如DSP(数字信号处理器)和CPU(中央处理单元)的处理器组成。
而且,基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、和算术编码单元A11的段或所有功能可以由单个处理器执行。
基音周期波形抽取单元A2将从语音输入单元A1供给的语音数据划分成多个段,每一个段相当于由该语音数据表征的语音的单位基音周期周期(例如,一个基音周期)。然后,对已划分的段进行相移和重采样,使各段的时间长度和相位实质上相同。
然后,将带有各段的时间长度和相位相同的语音数据(基音周期波形数据)供给子波段划分单元A3和差别计算单元A9。
此外,基音周期波形抽取单元A2生成示出在该语音数据的每一个段中的多个原始采样值的基音周期信息,并且将基音周期信息供给算术编码单元A11。
如图2所示,按照功能来说,基音周期波形抽取单元A2由(例如)倒谱分析单元2、自相关分析单元3、权重计算单元4、BPF(带通滤波器)系数计算单元5、带通滤波器6、过零分析单元7、波形相关分析单元8、相位调整单元9和幅度固定单元10组成。
基音周期波形抽取单元的运行和功能与在第一发明中介绍的一样。
当从相位调整单元9将相移语音数据提供给基音周期长度固定单元11时,基音周期长度固定单元11对供给的语音数据的各个段进行重采样,以使各段的时间长度实质上相同。然后,将具有各段时间长度相同的语音数据(比特波形数据)供给子波段划分单元A3和差别计算单元A9。
此外,基音周期长度固定单元11生成示出在该语音数据的每一个段中的多个原始采样值(在该语音数据的每一个段中的采样值数是在当从语音输入单元1将语音数据供给基音周期长度固定单元11时)的基音周期信息,并且将基音周期信息供给算术编码单元A11。假设对由语音数据输入单元A1获得的语音数据进行采样的时间间隔是已知的,基音周期信息相当于(functions as)示出等于该语音数据的单位基音周期周期的段的原始时间长度的信息。
子波段划分单元A3对从基音周期波形抽取单元A2供给的基音周期波形数据进行诸如DCT(离散余弦变换)的正交变换,从而生成子波段数据。然后,将生成的子波段数据供给幅度调整单元A4。
子波段数据包括示出在由基音周期波形信号表征的语音的基频分量的强度随时间的变化的数据以及示出在该语音的n个基频分量的强度随时间变化的n个数据(n是自然数)。因此,当基频分量(或者,谐波分量)的强度没有随时间变化时,子波段数据以直流信号的形式表征基频分量(或者,谐波分量)的强度。
当从子波段划分单元A3将子波段数据供给幅度调整单元A4时,幅度调整单元A4将由该子波段数据表征的基频分量和谐波分量的瞬时值乘以比例因子,以改变幅度值,并且将带有改变的幅度值的子波段数据供给非线性量化单元A5。
此外,幅度调整单元A4生成示出在子波段数据和其中的频率分量(基频或谐波分量)以及加到其上的比例因子值之间的对应关系的比例因子数据,且将该比例因子数据供给算术编码单元A11。
确定比例因子,使得由相同的子波段数据表征的频率分量的强度的最大值是一个公共固定值(例如)。即,假设该固定的值等于J,幅度调整单元A4将固定值除以特定频率分量的强度的最大值K,以计算值(J/K)。这个值(J/K)是该频率分量的瞬时值被乘以的比例因子。
当从幅度调整单元A4将带有改变的幅度值的子波段数据供给非线性量化单元A5时,非线性量化单元A5生成子波段数据,该子波段数据等于通过对由该子波段数据表征的每一个频率分量的瞬时值进行非线性压缩(具体地说,例如将瞬时值代入向上的凸函数)获得的值进行量化而得到的数据,并且将生成的子波段数据(在非线性量化之后的子波段数据)供给编码单元A7。
而且,非线性压缩的方法可以是任何的方法,在这些方法中,特别地,线性量化单元A5是这样的,使得经过量化之后的每一个频率分量的瞬时值实质上等于通过量化原始瞬时值的对数(然而,对于所有的频率分量,对数的基数是一样的(例如,相同的对数))获得的值。
线性预测分析单元A6对从语音输入单元A1供给的语音数据进行线性预测分析,从而抽取出并且识别出对具有由该语音数据表征的语音的扬声器的特定参数(例如,表征封装具有该语音的频谱的封装数据或者表征该数据的共振峰的数据)。然后,将抽取出的参数供给编码单元A7。
除了处理器之外,编码单元A7包括由硬盘装置或类似装置组成的存储装置。
对于每一个扬声器,编码单元A7存储对扬声器的特定参数以及对由线性预测分析单元A6抽取出的识别参数(例如,如果识别的参数是封装数据,则对数据进行封装)类型相同。此外,音位词典表征音位,音位构成扬声器的语音,音位与每一个扬声器的参数的相应关系一起存储在音位词典中。具体地说,音位词典存储子波段数据,该子波段数据示出在具有对每一个音位的音位的基频分量和谐波分量的强度随时间而变化。给每一个子波段数据分配对子波段数据的特定识别码。
当从非线性量化单元A5将经非线性量化的子波段数据供给编码单元A7时,并且从非线性预测分析单元A6将识别参数提供给编码单元A7时,编码单元A7识别最接近从非线性预测分析单元A6供给的识别参数的参数,该参数是存储在编码单元中参数的参数,从而选出带有对应该参数的音位词典。
如果识别的参数和存储在编码单元A7中的参数都是由封装数据组成,编码单元A7可以识别(例如)一个参数,该参数将具有与由识别的参数表征的封装有最大的相关系数的封装作为可以最接近识别参数的参数。
然后,编码单元A7识别表征一个波形的子波段数据,该波形最接近从非线性量化单元A5供给的子波段数据,该子波段数据是来自包括在选择的音位词典中的子波段数据。具体地,例如,编码单元A7执行下面介绍的过程(1)和(2)。也就是,(1)首先,相同频率分量之间的相关系数被逐一地在从非线性量化单元A5供给的子波段数据和包括在选择的音位词典中的一个音位的子波段数据之间进行确定,并且计算确定的系数的均值。(2)为包括在选择的音位词典中的所有音位的子波段数据执行过程(1),并且识别对相关系数的均值最大的子波段数据作为表征最接近从非线性量化单元A5供给的子波段数据波形的波形。
然后,编码单元A7将分配给识别的子波段数据的识别码供给算术编码单元A11。也将识别的子波段数据供给编码单元A8。
解码单元A8对从编码单元A7供给的子波段数据进行变换,从而恢复具有由该子波段数据表征的每一个频率分量的强度的基音周期波形数据。然后,恢复的基音周期波形数据被供给差别计算单元A9。
由解码单元A8对子波段数据的变换实质上与为产生该子波段数据而对音位的波形进行的变换相反。具体地,如果该子波段数据是通过对音位进行DCT来产生,解码单元A8可以对该子波段数据进行IDCT(反向DCT)。
差别计算单元A9产生表征在从基音周期波形抽取单元A2供给基音周期波形数据的瞬时值和从差别计算单元A9供给基音周期波形数据的瞬时值之间的差值的差别数据,并且将该差别数据供给量化单元A10。
除了处理器之外,量化单元A10包括诸如ROM(只读存储器)的存储装置。
量化单元A10存储一个参数,该参数示出根据用户的操作或类似操作来量化差分信号的精度(或者,表征量化后的差分信号的数据量与量化前的差分信号的数据量的比率的压缩比)。当从差别计算单元A9将差分信号提供给量化单元A10时,量化单元A10用存在量化单元A10中的参数示出的精度来量化来自差别计算单元A9的差分信号(或者,量化该值以获得由该参数表征的压缩比),并量化后的差别数据提供给算术编码单元A11。
算术编码单元A11将从编码单元A7提供的识别码、从量化单元A10提供的差分信号、从基音周期波形抽取单元A2提供的基音周期信息和从幅度调整单元A4提供的比例因子数据转换成算术码(arithmetic code),并且将算术码和带有算术码的相互对应关系一起提供给比特流形成单元A12。
比特流形成单元A12由(例如)控制电路和诸如CPU的处理器组成,控制电路根据诸如RS232C的规范来与外部进行串行通信。
比特流形成单元A12产生一比特流,该比特流表征带有相互对应关系的算术码,并且被从算术编码单元A11提供,并且输出比特流作为压缩的语音数据。
压缩的语音数据是根据基音周期波形数据来产生的,压缩的语音数据是这样的语音数据:其中,等于单位基音周期周期的各段的时间长度被归一化,并且消除了基音周期的波动影响。因此,压缩的语音数据精确地表征语音的频率分量(基频分量和谐波分量)的强度随时间的变化。
此外,压缩语音由差别数据构成,差别数据表征识别码和该语音数据之间的差别,识别码用于识别语音,对于该语音,事先准配频率分量随时间变化的采样值数据。
另一方面,例如如图4所示,由人实际产生的语音的频率分量的强度随时间变化是非常小的,在相同的扬声器的语音之间的强度的差别也是很小的。因此,与要压缩语音的扬声器相同的、表征扬声器的语音的子波段数据被事先存储在音位词典中,并且对该扬声器的特定识别参数被加入到对应关系中,从而大大地减少了差别数据的数据量。因此,也显著地减少了压缩的语音数据的数据量。
而且,在图4中,识别为“BND0”的图形示出语音的基频分量的强度,而识别为“BNDK”的图形(k是从1到7的整数)示出该语音的(k+1)阶谐波分量的强度。识别为“d1”的段是表征元音“a”的段,识别为“d2”是表征元音“i”的段,识别为“d3”是表征元音“u”的段,识别为“d4”是表征元音“e”的段.
此外,可以使用基音周期信息来识别基音周期波形信号的每个段的原始时间长度,可以使用比例因子数据来识别每一个频率分量的原始幅度。因此,通过将每个段的时间长度和基音周期波形信号的每一个频率分量的幅度恢复到原始语音数据中的时间长度和幅度,可以容易地恢复原始语音数据。
而且,这种语音信号压缩器的配置不限于以上所述。
例如,语音输入单元A1可经诸如电话线、专用线和卫星线路的通信线从外部获得语音数据。在这种情况下,仅给语音输入单元A1提供由(例如)调制解调器和DSU(数据服务单元)等等组成的通信控制单元。
此外,语音输入单元A1可包括声音收集装置,其由麦克、AF放大器、采样器、A/D(模拟-数字)转换器、PCM编码器等等组成。语音收集装置对表征由它的麦克收集的语音的语音信号进行放大,并且对语音信号进行采样和A/D转换器,然后对采样的语音信号进行PCM调制,从而获得语音数据。而且,由语音输入单元A1获得语音数据不必一定是PCM信号。
此外,这种基音周期波形抽取单元A2不一定需要具有倒谱分析单元A21(或者自相关分析单元A22),在这种情况下,权重计算单元A23直接处理由倒谱分析单元A21(或,自相关分析单元A22)确定的基频的倒数,作为平均基音周期长度。
此外,过零分析单元A26可以将从带通滤波器A25提供的基音周期信号直接地提供给BPF系数计算单元A24,作为过零信号。
此外,比特流形成单元A12可以经通信线或类似线路将压缩的语音数据提供给外部。在这种经通信线或类似线路将数据提供给外部的情况下,只给比特流形成单元A12提供(例如)由调制解调器、DSU等构成的通信控制单元。
此外,比特流形成单元A12可包括记录介质驱动器,在这种情况下,比特流形成单元A12可以将要存储在语音词典中的数据写入到在这种记录介质驱动器的记录介质的存储区域中。
而且,单个调制解调器、DSU或记录介质驱动器可构成语音输入单元A1和比特流形成单元A12。
此外,差别计算单元A9可获得由非线性量化单元A5产生的、非线性量化之后的子波段数据,并且获得由编码单元A7识别的子波段数据。
在这种情况下,差别计算单元A9可以为具有相同频率的每一组分量确定由非线性量化单元A5产生的、经非线性量化后的子波段数据表征的每一个频率分量的强度的瞬时值以及由编码单元A7识别的子波段数据表征的每一个频率分量的瞬时值之间的差别,并且生成表征每一个确定的差别的差别数据,且将该差别数据提供给量化单元A10。
此外,编码单元A7可包括存储单元,用于存储在过去从非线性量化单元A5提供的、经非线性量化后的子波段数据的最新的子波段数据。在这种情况下,每一次经非线性量化之后的子波段数据被提供给编码单元A7时,编码单元A7可确定子波段数据是否具有与存储在编码单元A7中的、非线性量化后的子波段数据的某一水平或较大相关性,如果确定子波段数据具有这样的相关水平,将表明波形与连续的波形的上一个波形相同的预定数据提供给算术编码单元A11,代替识别码和差别数据。这样,进一步减少压缩语音数据的数据量。
而且,例如,可以这样确定在最近提供的子波段数据和存储在编码单元A7中的子波段数据之间的相关水平:在相同频率分量之间的相关系数被在子波段数据之间逐一确定,并且该确定是(例如)基于确定的系数的平均值的幅度做出的。
语音信号扩展器
现在介绍根据本发明实施例的语音信号扩展器。
图5示出语音信号扩展器的一种配置。如图所示,语音信号扩展器由比特流分解单元B1、算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、语音波形恢复单元B9以及语音输出单元B10组成。
比特流分解单元B1由(例如)控制电路和诸如CPU的处理器组成,控制电路根据诸如RS232C的规范来控制与外部的串行通信。
比特流分解单元B1从外部获得由上面介绍的语音信号压缩器的比特流形成单元A12产生的比特流(或者,具有实质上与比特流形成单元A12产生的比特流相同的数据结构的比特流)。然后,将获得的比特流分解成表征识别码的算术码、表征差别数据的算术码和表征基音周期信息的算术码,并且将获得的算术码提供给算术码解码单元B2。
算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、和语音波形恢复单元B9中的每一个都由诸如DSP的处理器和CPU组成。
而且,算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、和语音波形恢复单元B9的段或所有功能可以由单个处理器执行。
算术编码解码单元B2对从比特流解码单元B1提供的算术码进行解码,以恢复识别码、差别数据、比例因子数据和基音周期信息。然后,将恢复的识别码提供给解码单元B3,将恢复的差别数据提供给差别恢复单元B4,将恢复的比例因子数据提供给幅度恢复单元B7,并将恢复的基音周期信息提供给语音波形恢复单元B9。
除了处理器之外,解码单元B3进一步包括由硬盘装置等组成的存储装置。解码单元B3存储实质上与存储在上面介绍的语音信号压缩器的编码单元A7中的音位词典相同的音位词典。
当从算术编码解码单元B2将识别码提供给解码单元B3时,解码单元B3从音位词典中查找分配了该识别码的子波段数据,并且将查找到的子波段数据提供给加法单元B5。
当从算术编码解码单元B3将差别数据提供给差别恢复单元B4时,实际上象上面介绍的语音信号压缩器的子波段划分单元A3的转换一样,差别恢复单元B4对该差别数据进行相同转换,从而生成表征该差别数据的每一个频率分量的强度的数据。然后,将生成的数据提供给加法单元B5。
对于由从解码单元B3提供的子波段数据表征的每一个频率分量,加法单元B5计算由从差别恢复单元B4提供的数据所表征的频率分量的瞬时值与相同频率分量的瞬时值之和。然后,生成表征为所有的频率分量计算的和的数据,并且将其提供给非线性反向量化单元B6。被提供给非线性反向量化单元B6的这种数据等同于通过处理根据要被扩展的语音数据产生的子波段数据而获得的、经非线性压缩的子波段数据,该处理实质上与上面介绍的语音信号压缩器的幅度调整单元A4和非线性量化单元A5执行的处理相同。
当从加法单元B5将数据提供给非线性反向量化单元B6时,非线性反向量化单元B6改变由该数据表征的每一个频率分量的瞬时值,从而生成等同于在被非线性地量化之前的子波段数据,表征要被扩展的语音数据,并且将该数据提供给幅度恢复单元B7。
当在被进行非线性量化之前,从非线性反向量化单元B6将子波段数据提供给幅度恢复单元B7时,并且从算术编码解码单元B2将比例因子数据提供给恢复单元B7时,幅度恢复单元B7将由子波段数据表征的每一个频率分量的瞬时值乘以由比例因子数据表征的比例因子的倒数,以改变幅度,并且将带有改变的幅度的子波段数据提供给子波段合成单元B8。
当从幅度恢复单元B7将带有改变的幅度的子波段数据提供给子波段合成单元B8时,子波段合成单元B8对子波段数据进行变换,该变换实质上与上面介绍的语音信号压缩器的解码单元A8执行的变换相同,从而用由子波段数据表征的每一个频率分量的强度来恢复基音周期波形数据。然后,将恢复的基音周期波形提供给语音波形恢复单元B9。
语音波形恢复单元B9改变从子波段合成单元B8提供的基音周期波形数据的每一段的时间长度,使得该时间长度等于从算术编码解码单元B2提供的基音周期信息示出的时间长度。例如,可以通过改变存在于各段中的各样值之间的距离来执行改变各段的时间长度。
然后,语音波形恢复单元B9将带有改变的每一段的时间长度的基音周期波形数据(也就是,语音数据表征恢复的语音)提供给语音输出单元B10。
语音输出单元B10包括(例如)执行PCM解码器功能的控制电路、D/A(数字-模拟)转换器、AF(音频)放大器、扬声器等。
当从语音波形恢复单元B9将表征恢复的语音的语音数据提供给语音输出单元B10时,语音输出单元B10对语音数据进行解调,对语音数据进行D/A变换和放大,并且使用获得的模拟信号来驱动扬声器,从而重播语音。
而且,这种语音信号扩展器的配置不限于上面所述。
例如,比特流分解单元B1可以通过通信线从外部获得语音数据。在这种情况下,仅将由(例如)调制解调器、DSU等组成的通信控制单元提供给比特流分解单元B1。
此外,比特流分解单元B1可以包括(例如)记录介质驱动器,且在这种情况下,比特流分解单元B1可通过从在其中存储有这种压缩的语音数据的记录介质中读出数据来获得压缩的语音数据。
此外,语音输出单元B10可经通信线或类似线路将压缩的语音输出到外部。在通过通信线将数据输出的情况下,仅将由(例如)调制解调器、DSU等组成的通信控制单元提供给语音输出单元B10。
此外,语音输出单元B10可包括记录介质驱动器,在这种情况下,语音输出单元B10可将要存储在音位词典中的数据写入到设在记录介质驱动器中的记录介质的存储区域。
而且,单个调制解调器、DSU或记录介质驱动器可构成比特流分解单元B1和语音输出单元B10。
此外,差别数据可表征确定要压缩的语音的每一个频率分量的强度和另一个语音的每一个频率分量的强度之间的差别的结果,所述另一个语音用作具有相同频率的每一组分量的参考语音(例如,差别数据被生成作为表征以这种方式获得的每一个差别,上面介绍的语音信号压缩器的差别计算单元A9确定由非线性量化单元A55产生的、经非线性量化的子波段数据表征的每一个频率分量的强度的瞬时值和由编码单元A7为具有相同频率的每一组分量而识别的子波段数据表征的每一个频率分量的强度的瞬时值之间的差别)。
在这种情况下,加法单元B5可从算术编码解码单元B2获得差别数据,为由从解码单元B3提供的子波段数据表征的每一个频率分量进行计算由从算术编码解码单元B2获得的差分数据表征的频率分量的瞬时值和相同频率分量的瞬时值的和,生成表征为所有的频率分量计算出的和的数据,且将该数据提供给非线性反向量化单元B6。
此外,表明波形与连续波形的上一个波形相同的预确定数据可包括在压缩的语音数据中,代替识别码。
在这种情况下,算术编码解码单元B2可确定预确定数据是否被包括,并且,如果确定包括预确定的数据,通知(例如)语音输出单元B10:波形与连续的波形的上一个波形相同。另一方面,例如,语音输出单元B10可包括存储单元,用于存储在过去从语音波形恢复单元B9提供的语音数据的最新的语音数据。在这种情况下,当算术编码解码单元2通知语音输出单元B10波形与在连续波形的上一个波形相同时,语音输出单元B10重播由存储在语音输出单元B10中的语音数据表征的语音。
已经介绍了本发明的实施例,但是可以使用通常的计算机系统而不是专用系统来实现根据本发明的语音信号压缩装置和语音信号扩展装置。
例如,从存储程序的介质(CD-ROM、MO、软盘等)将用于执行上面介绍的语音输入单元A1、基音周期波形抽取单元A2、子波段划分单元A3、幅度调整单元A4、非线性量化单元A5、线性预测分析单元A6、编码单元A7、解码单元A8、差别计算单元A9、量化单元A10、算术编码单元A11和比特流形成单元A12的操作的程序安装在个人计算机中,从而可以制造执行上面介绍的过程的语音信号压缩器。
此外,从存储程序的介质将用于执行上面介绍的比特流分解单元B1、算术编码解码单元B2、解码单元B3、差别恢复单元B4、加法单元B5、非线性反量化单元B6、幅度恢复单元B7、子波段合成单元B8、语音波形恢复单元B9以及语音输出单元B10的操作的程序安装在个人计算机中,从而可以制造执行上面介绍的过程的语音信号扩展器。
此外,例如,该程序可以公布在具有通信线的电子公告系统(BBS)上,并且经过通信线进行发布,或者该程序可以由表征该程序的信号调制的载波的方式被恢复,获得的已调制波形被发射,且接收已调制波形的装置解调该已调制的波形。
然后,启动该程序,并且在OS的控制下,象其它的应用程序一样被执行,从而可以执行上面介绍的过程。
而且,如果OS执行过程的段、或者OS组成本发明的一个单元,从该段中去除的程序可以被存储在记录介质中。同样,在这种情况下,在本发明中,执行由计算机运行的每一个功能或步骤的程序被存储在记录介质中。
第三发明
利用语音词典生成系统和语音合成系统作为例子来介绍第三发明的实施例。
语音词典生成系统
图6示出根据本发明实施例的语音词典生成系统的结构。如该图所示,此语音词典生成系统由语音数据输入单元A1、语声数据输入单元A2、符号串生成单元A3、基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7和数据输出单元A8。
语音数据输入单元A1和语声数据输入单元A2中的每一个都由(例如)用于读出记录在记录介质(例如,软盘和MO(磁光盘)等)的记录介质驱动器(软盘驱动、MO驱动等等)和类似装置组成。而且,可以用单个记录介质驱动器来执行语音数据输入单元A1和语声数据输入单元A2的功能。
语音数据输入单元A1获得表征语音波形的语音数据,且将语音数据提供给基音周期抽取单元A4和基音周期长度固定单元A5。
而且,语音数据具有PCM(脉冲宽度调制)的已调制数字信号的格式,并且代表被以比语音的基音周期短得多得固定周期来采样的语音。
语声数据输入单元A2输入语声数据,在语声数据中,以文本格式或其它各式示出表明语音的发音的一串音标符号(phoneticsymbol),并且将语声数据提供给符号串生成单元A3。
符号串生成单元A3由诸如CPU(中央处理单元)的处理器等组成。
符号串生成单元A3分析从语声数据输入单元A2提供的语声数据,并且生成发音符号串,该发音符号串将由语声数据表征的语音作为示出构成语音的单位语音的发音的一串发音符号。此外,符号串生成单元A3分析该语声数据,生成韵律符号串,该韵律符号串将由语声数据表征的语音作为示出单位语音的韵律的一串韵律符号。然后,符号串生成单元A3将生成的发音符号串和韵律符号串提供给数据输出单元A8。
而且,单位语音是作为构成词发音的单元的语音,例如,由一个辅音和一个元音组成的CV(辅音-元音)单元作为单位语音。
基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7中的每一个都由诸如DSP(数字信号处理器)的数据处理器以及CPU组成。
而且,可以由单一数据处理器来执行基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7的段或所有功能。
基音周期抽取单元A4由在图1中示出的、象在第一和第二发明情况下的部件(1-7)组成。基音周期抽取单元A4分析从语音数据输入单元A1提供的语音数据,识别等价于由语音数据表征的语音的单位基音周期周期(例如,一个基音周期)的段。然后,示出每一个识别的段的头部和尾部的时间的定时数据被提供给基音周期长度固定单元A5。
然后,基音周期长度固定单元A5确定在以各种方式改变的相位中的段内的语音数据以及在用于每一个划分段的段中的基音周期信号之间的相关性,并且识别提供了最大相关性的语音数据相位作为在这个段中的语音数据相位。然后,移动了在每一个段中的语音数据相位,使得相位等于识别的相位。
而且,所述段的临时长度等于大约一个基音周期将是理想的。随着所述段的长度的增加,在所述段中的采样值数目增加,因此基音周期波形数据(下面将介绍)的数据量增加,或者在其上进行采样的时间间隔的数量增加,使得由基音周期波形表征的语音变得不准确。
然后,通过对每一个相移段进行重采样,基音周期长度固定单元A5使每一个段的时间长度实质上相互相同。然后,将具有时间长度归一化的语音数据(基音周期波形数据)提供给子波段划分单元A6。
此外,基音周期长度固定单元A5产生基音周期信息,该信息示出在该语音的每一个段中的原始采样值数目(当语音数据被从语音数据输入单元A1提供给基音周期长度固定单元A5时,该语音数据的每一个段中的采样值数目),并且将基音周期信息提供给数据输出单元A8。假设对由语音数据输入单元A1获得的语音数据进行采样的时间间隔是已知的,基音周期信息起到一种作用,作为一种信息,示出等于该语音数据的单位基音周期周期的所述段的原始时间长度。
子波段划分单元A6对从基音周期长度固定单元A5提供的基音周期波形数据进行诸如DCT(离散余弦变换)的正交变换,从而生成频谱信息。然后,将生成的频谱信息提供给非线性量化单元A7。
频谱信息是这样的数据,其包括示出由基音周期波形信号表征的语音的基频分量的强度随时间变化的数据以及示出该语音的n个基频分量的强度随时间变化的n个数据(n是自然数)。因此,当语音的基频分量(或者谐波分量)的强度没有随时间变化时,频谱信息以直流信号的形式表征基频分量(谐波分量)的强度。
当从子波段单元A6将频谱信息提供给非线性量化单元A7时,非线性量化单元A7产生等于通过量化一个值获得的值的频谱信息,量化一个值是通过对由频谱信息表征的每一个频率分量的瞬时值进行非线性压缩来获得的(特别地,例如通过将瞬时值代入向上的凸函数来获得的值),并且将产生的频谱信息(经非线性量化后的频谱信息)提供给数据输出单元A8。
特别地,例如,非线性量化单元A7可以通过改变经非线性压缩后的每一个频率分量的瞬时值为实质上等于通过量化在公式1的右端示出的函数Xri(xi)获得的值来执行非线性压缩。
[公式3]
Xri(xi)=sgn(xi)·|xi|4/3·2{global gain(xi)}/4
式中,sgn(a)=(a/|a|),xi是由频谱信息表征的频率分量的瞬时值,且global_gain(xi)是用于设置所有比例的xi的函数。
此外,非线性量化单元A7产生示出被加到频谱信息上的非线性量化的特征类型的数据,这样的数据作为用于恢复对原始值的非线性量化值的数据(压缩的信息),并且将该压缩的信息提供给数据输出单元A8。
数据输出单元A8由控制电路组成,其控制对存储有语音词典的外部存储装置(例如,硬盘装置)D,诸如硬盘控制器等的访问,并且它连接到存储设备D。
当从符号串生成单元A3将发音符号串和韵律符号串提供给数据输出单元A8,从基音周期长度固定单元A5将基音周期信息提供给数据输出单元A8,并且从非线性量化单元A7将已压缩的信息和非线性压缩后的频谱信息提供给数据输出单元A8时,数据输出单元A8以一种方式将提供的发音符号串和韵律符号串、基音周期信息、压缩的信息和经非线性压缩的频谱信息存储在存储装置D的存储区中,在这种方式中,表征相同长度语音的上述串和信息具有相互的对应关系。
具有相互对应关系并且被存储在存储装置D中的发音符号串、韵律符号串、基音周期信息、压缩的信息以及经非线性压缩的频谱信息组成了语音词典。
语音合成系统
现在介绍根据本发明的语音合成系统。
图7示出这种语音合成系统的配置。如图所示,语音合成系统由文本输入单元B1、语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6、词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9和语音输出单元B10组成。
本文输入单元B1由(例如)记录介质驱动器组成。
文本输入单元B1从外部获得描述为文本合成语音的文本数据,并且将给文本数据提供给语素分析单元B2。
语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、和音源生成单元B6中的每一个都由诸如CPU的数据处理器组成。
而且,语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6的段或所有功能可以由单个数据处理器执行。
语素分析单元B2对由从文本输入单元B1提供的文本数据表征的文本进行语素分析,并将该文本分解成语素串。然后,将表征获得的语素串的数据提供给发音符号生成单元B3和韵律符号生成单元B4。
发音符号生成单元B3根据由从语素分析单元B2提供的数据表征的语素串、按照发音的顺序来生成表征发音符号(例如,诸如假名字符)的串的数据,发音符号表征构成要被合成的语音的单位语音,并且将该数据提供给频谱参数生成单元B5。
韵律符号生成单元B4根据(例如)fujisaki模型来对由从语素分析单元B2提供的数据表征的语素串进行分析,从而识别这一语素串的韵律,且生成表征韵律符号串的数据,韵律符号串表征识别的韵律,且将该数据提供给音源参数生成单元B6。
频谱参数生成单元B5识别由发音符号表征的单位语音的频谱,该发音符号由从发音符号生成单元B3提供的数据表征,且将代表已识别的频谱和已提供的发音符号的频谱信息提供给词典单元选择单元B7。
特别地,例如,频谱参数生成单元B5预先存储频谱表和频谱信息,频谱表存储用于参考的发音法号,频谱信息用码元和具有相互的对应关系的信息来表征由用于参考的发音符号表征的语音频谱。然后,从频谱查找到具有相互对应关系的频谱信息(也就是,识别由发音符号表征的单位语音的频谱,发音符号由从发音符号生成单元B3提供的数据表征),作为由从发音符号生成单元B3提供的数据表征的发音符号的关键,并且将从获得的频谱信息提供给词典单元选择单元B7。
然而,在这种情况下,除了数据处理器之外,频谱参数生成单元B5还包括诸如硬盘装置和ROM(只读存储器)的存储装置。
音源参数生成单元B6识别一个参数(例如,单位语音的基音周期,功率和持续时间),该参数表征由从韵律符号生成单元B4提供的数据表征的韵律符号表征的韵律,且将表征已识别的参数的数据韵律信息提供给词典单元选择单元B7和基音周期长度调整单元10。
特别地,例如,音源参数生成单元B6预先存储韵律表和韵律信息,韵律表存储用于参考的韵律法号,韵律信息用码元和具有相互的对应关系的信息来表征由用于参考的韵律符号表征的韵律的参数。然后,从韵律表获得具有相互对应关系的韵律信息(也就是,识别表征由韵律符号表征的韵律的参数,韵律符号由从韵律符号生成单元B4提供的数据表征),作为由从韵律符号生成单元B3提供的数据表征的韵律符号的关键,并且将从获得的韵律信息提供给词典单元选择单元B7。
然而,在这种情况下,除了数据处理器之外,音源参数生成单元B6还包括诸如硬盘装置和ROM的存储装置。而且,单个存储装置可以执行频谱参数生成单元B5的存储装置以及音源参数生成单元B6的存储装置的功能。
词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9中的每一个都由诸如DSP和CPU的数据处理器组成。
而且,可以由单个数据处理器来执行词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9的段或所有功能。同样,数据处理器执行发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6、词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9的段或所有功能。
词典单元选择单元B7连接到外部存储装置D,其存储由上面介绍的图6的语音词典生成系统生成的语音词典(或者,具有实质上与语音词典的相同的数据结构的一组数据)。这里,存储装置D存储由上面介绍的图6的语音词典生成系统生成的语音词典(或者,具有实质上与语音词典的相同的数据结构的一组数据)。即,存储装置D用符号和具有相互对应关系的信息来存储表征单元音的一串发音符号、一串韵律符号、基音周期信息、压缩的信息以及表征单位语音的经非线性压缩后的频谱信息。
当从频谱参数生成单元B5将发音符号和频谱信息提供给词典单元选择单元B7,且从音源参数生成单元B6给其提供韵律信息时,词典单元选择单元B7从语音词典中识别出一组发音符号串、韵律符号串、基音周期信息、压缩的信息和经非线性压缩后的频谱信息,所述经非线性压缩后的频谱信息表征可以最接近于由这些提供的数据表征的语音的单位语音。
特别地,例如,词典单元选择单元B7
(a)为具有存储在语音词典中的相同单位语音的频谱信息和基音周期信息而确定在该频谱信息的值和从频谱参数生成单元B5提供的频谱信息之间的相关系数,且确定该基音周期信息的值以及由从音源参数生成单元B6提供的韵律信息示出的基音周期的值之间的相关系数,且计算已确定的相关系数的平均值;和
(b)对所有的其参数存储在语音词典中的单位语音执行上述的处理(a),然后识别对于在处理(a)中计算的平均值是最大的单位语音的单位语音,作为一个单位语音,其最接近由从频谱参数生成单元B5和音源参数生成单元B6提供的参数表征的单位语音。
词典单元选择单元B7将表征识别的单位语音的频谱信息和压缩的信息提供给子波段合成单元B8。
子波段合成单元B8将由从词典单元选择单元B7提供的频谱信息表征的每一个频率分量的强度恢复到用由从词典单元选择单元B7提供的压缩信息表征的特征来进行非线性量化之前的强度值。然后,对具有恢复的强度值的频谱信息进行变换,从而恢复基音周期波形数据,其中由该频谱信息表征经非线性量化的每一个频率分量的强度。然后,将恢复的基音周期波形数据提供给基音周期长度调整单元B9,而且,该基音周期波形数据具有(例如)PCM调制的数字信号形式。
子波段合成单元B8对频谱信息进行的变换实质上与为生成该频谱信息而对音素波形进行的变换是相反关系。具体地说,例如,如果该频谱信息是通过对音素进行DCT而产生的信息,子波段合成单元B8可以对该频谱信息进行IDCT(反DCT)。
基音周期长度调整单元B9改变从子波段合成单元B8提供的基音周期波形数据的每一个段的时间长度,使其等于由从音源参数生成单元B6提供的韵律信息表征的时间长度。例如,可以通过改变在各段的采样值之间的距离来执行对每一段的时间长度的改变。
然后,基音周期长度调整单元B9将具有每一段的时间长度改变的基音周期波形数据(即,表征合成的语音的语音数据)提供给语音输出单元B10。
语音输出单元B10包括(例如)执行PCM解码的功能的控制电路、D/A(数字-模拟)转换器、AF(音频)放大器、扬声器等。
当从基音周期长度调整单元B9将表征合成的语音的语音数据提供给语音输出单元B10时,语音输出单元B10对该语音数据进行解调、进行D/A转换和放大,并且使用获得的模拟信号来驱动扬声器,从而播放合成的语音。
存储在由上面介绍的语音生成系统生成的语音词典中的频谱信息是根据语音数据来生成的,在该语音数据中,等于单位基音周期周期的各段的时间长度被归一化,且消除基音周期波动的影响。因此,该频谱信息精确地示出语音的每一个频率分量(基频分量和谐波分量)的强度随时间变化。此外,表征具有波动的单位语音的每一个段的原始时间长度被存储在该语音词典中。
因此,由上面介绍的语音合成系统利用该语音词典来合成的语音接近于由人们发出的语音。
而且,语音词典生成系统和语音合成系统的配置不限于上面介绍的配置。
例如,语音数据输入单元A1可以经诸如电话线、专用线和卫星线路的通信线从外部获得语音数据。在这种情况下,仅给语音输入单元A1提供由(例如)调制解调器、DSU(数据服务单元)等构成的通信控制单元。
此外,语音数据输入单元A1可以包括声音收集装置,其由话筒,AF放大器,采样器,A/D(模拟-数字)转换器,PCM编码器等组成。声音收集装置可以对表征由它的话筒收集的声音的语音信号进行放大、采样和A/D转换,之后,对采样的语音信号进行PCM调制,从而获得语音数据。而且,由语音输入单元A1获得的语音数据不必是PCM信号。
此外,基音周期抽取单元A4不需要包括倒谱分析单元A41(或自相关分析单元A42),且在这种情况下,权重计算单元A43可以直接地处理由倒谱分析单元A41(或自相关分析单元A42)确定的基频的倒数,作为平均基音周期长度。
此外,过零分析单元A46可以将从带通滤波器A45提供的基音周期信号直接地提供给BPF系数计算单元A44,作为过零信号。
此外,数据输出单元A8可以经通信线等将要存储在语音词典中的数据输出到外部。在经通信线输出数据的情况下,仅给数据输出单元A8提供通信控制单元,该通信控制单元由(例如)调制解调器、DSU等组成。
此外,数据输出单元A8可以包括记录介质驱动器,在此情况下,数据输出单元A8可将存储在语音词典中的数据写入到在记录介质驱动器中设置的记录介质集的存储区域中。
而且,单个调制解调器、DSU或记录介质驱动器可构成语音数据输入单元A1和数据输出单元A8。
此外,文本输入单元B1可经通信线等从外部获得文本数据。在这种情况下,仅给文本输入单元B1提供由调制解调器、DSU等组成的通信控制单元。
此外,词典单元选择单元B7可识别单位语音,单位语音可以最接近由供给其本身的数据表征的语音,这样,附加比其它信息更重要的信息。
具体地说,例如,词典单元选择单元B7可将在存储在语音词典中的频谱信息的值和从频谱参数生成单元B5的频谱信息的值之间的相关的系数α乘以大于1的权重因子β,且当计算相关系数的平均值时,使用获得的值(α·β)代替值α,用于附加比在上面介绍的处理(a)中的基音周期信息更重要的频谱信息。
上面已经介绍了本发明的实施例,但是可以使用常规的计算机系统而不是专用系统来实现本发明的语音合成装置和语音词典生成装置。
例如,从存储程序的介质(CD-ROM、MO、软盘等)将执行上面介绍的数据输入单元A1、语声数据输入单元A2、符号串生成单元A3、基音周期抽取单元A4、基音周期长度固定单元A5、子波段数据划分单元A6、非线性量化单元A7和数据输出单元A8的运行的程序安装在个人计算机中,从而可以构造执行上面介绍的处理的语音词典生成系统。
此外,从存储程序的介质中将执行上面介绍的文本输入单元B1、语素分析单元B2、发音符号生成单元B3、韵律符号生成单元B4、频谱参数生成单元B5、音源生成单元B6、词典单元选择单元B7、子波段合成单元B8、基音周期长度调整单元B9和语音输出单元B10的运行的程序存储在个人计算机中,从而可以构造执行上面介绍的处理的语音合成系统。
此外,例如,这些程序可以公布在具有通信线的电子公告系统(BBS)上,并且经过通信线进行发布,或者这些程序可以由表征该程序的信号来调制的载波的方式被恢复,获得的已调制波形被发射,且接收已调制波形的装置解调已调制的波形。
然后,启动该程序,且在OS的控制下按照其它应用程序相同的方式来执行它,从而可以执行上面介绍的处理。
而且,如果OS执行段处理,或者OS构成本发明的段部件,从中去除这样的段的程序被存储在记录介质中。同样,在这种情况下,在本发明中,用于执行由计算机执行德每一个功能或步骤的程序被存储在记录介质中。
工业应用性
如上所述,根据本发明,实现基音周期波形信号生成装置和基音周期波形信号生成方法,有效地作为对带有波动的基音周期的语音信号进行有效地编码的初步处理。同样,根据第二发明,实现有效地压缩表征语音的数据或者压缩表征具有在高音质中的波动的语音的数据的语音信号压缩装置、语音扩展装置、语音信号压缩方法和语音信号扩展方法。
此外,根据本发明,实现了合成自然语音的语音合成装置,语音词典生成装置,语音合成方法和语音词典生成方法。

Claims (10)

1.一种语音合成装置,该装置包括:
划分装置,用于将输入语音信号划分为多个单位语音采样;
信号生成装置,用于生成基音周期波形信号,所述基音周期波形信号对应于每个所述单位语音采样中的多个基音周期的每一个;
存储装置,用于采用使得韵律信息、基音周期信息和频谱信息的每一个对应于采样的方式,来存储表征每个单位语音采样的韵律的韵律信息、表征采样的基音周期的基音周期信息、以及示出基音周期波形信号的基频分量和谐波分量随时间变化的频谱信息;
预测装置,用于输入表征文本的文本信息,和根据文本信息来生成预测信息,所述预测信息表征预测构成所述文本的单位语音的基音周期和频谱的结果;
查找装置,用于根据所述基音周期信息、频谱信息和预测信息来识别采样,所述识别的采样具有与构成所述文本的单位语音的基音周期和频谱具有最大相关性的基音周期和频谱;和
信号合成装置,用于生成表征语音的合成语音信号,其中,所述语音具有由与所述查找装置识别的采样对应的韵律信息表征的韵律,基频分量和谐波分量随时间的变化是由与所述查找装置识别的采样对应的频谱信息表征的,且一个基音周期的时间长度是由与由所述查找装置识别的采样对应的基音周期信息表征的时间长度。
2.根据权利要求1的语音合成装置,其中,所述频谱信息由表征对音量进行非线性量化的结果的数据构成,所述音量表征所述基音周期波形信号的基频分量和谐波分量随时间的变化。
3.一种语音词典生成装置,该装置包括:
基音周期波形信号生成装置,用于获得表征单位语音的波形的语音信号,且使各段的时间长度相同,每一个段等于语音的单位基音周期,从而将语音信号处理成基音周期波形信号;
基音周期信息生成装置,用于生成和输出表征所述段的原始时间长度的基音周期信息;
频谱信息抽取装置,用于根据所述基音周期波形信号来生成和输出示出所述语音信号的基频分量和谐波分量随时间变化的频谱信息;和
韵律信息生成装置,用于获得表征代表单位语音的发音的语谱图的语声数据,确定由所述语声数据表征的发音的韵律,且生成和输出表征已确定的韵律的韵律信息。
4.根据权利要求3的语音词典生成装置,其中,所述频谱信息抽取装置包括:
可变滤波器,具有根据控制而变化的频率特征,以对所述语音信号进行滤波,从而抽取出所述语音的基频分量;
滤波器特征确定装置,用于根据由所述可变滤波器抽取的基频分量来识别单位语音的基频,且控制所述可变滤波器以获得频率特征:其中,截止除了在已识别的基频附近的分量之外的分量;
基音周期抽取装置,用于根据所述语音信号的基频分量的值来将所述语音分解成多个段,每一个段由等于单位基音周期的语音信号来构成;和
基音周期长度固定单元,通过对每一个段中的所述语音采样相同的采样值数目,生成基音周期波形信号,该基音周期波形信号在每一个段中时间长度相同。
5.根据权利要求4的语音词典生成装置,其中,所述滤波器特征确定装置包括交叉检测装置,用于识别一个周期,在该周期中由所述可变滤波器抽取的基频分量达到预定值,且根据所述已识别的周期来识别所述基频。
6.根据权利要求5的语音词典生成装置,其中,所述滤波器特征确定装置包括:
平均基音周期检测装置,用于在被滤波之前,根据所述语音信号来检测由所述语音信号表征的语音的基音周期的时间长度;和
确定装置,用于确定在由交叉检测装置识别的周期和由所述平均基音周期检测装置识别的基音周期的时间长度之间是否存在预定量或较大量的差别,且如果确定没有这样的差别,控制所述可变滤波器以获得频率特征:其中截止除了在由所述交叉检测装置识别的基频附近的那些分量之外的分量,并且如果确定有这样的差别,控制所述可变滤波器以获得频率特征:其中,截止除了在从由所述平均检测装置识别的基音周期的时间长度中识别出来的基频附近的那些分量之外的分量。
7.根据权利要求6的语音词典生成装置,其中,所述平均基音周期检测装置包括:
倒谱分析装置,用于确定一个频率,在该频率上,在被所述可变滤波器滤波之前,语音信号的倒谱具有最大值;
自相关分析装置,用于确定一个频率,在该频率上,在被所述可变滤波器滤波之前,所述语音信号的自相关函数的周期图具有最大值;和
平均计算装置,用于根据由倒谱分析装置和自相关分析装置确定的频率,确定由所述语音信号表征的语音的基音周期的平均值,且将确定的平均值作为所述单位语音的基音周期的时间长度。
8.根据权利要求7的语音词典生成装置,其中,所述频谱信息抽取装置生成表征对示出所述语音信号的基频分量和谐波分量随时间变化的值进行非线性量化的结果的数据,且将该数据输出作为频谱信息。
9.一种语音合成方法,其中,将表征单位语音的采样的韵律的韵律信息、表征所述采样的基音周期的基音周期信息、和示出基音周期波形信号的基频分量和谐波分量随时间变化的频谱信息连同具有与所述采样对应关系的信息一起进行存储,所述基音周期波形信号是通过使每一段都等于表征所述采样的波形的语音信号的单位基音周期的多个段的时间长度相同来生成的;
输入表征文本的文本信息,且根据所述文本信息来生成预测信息,该预测信息表征预测构成所述文本的单位语音的基音周期和频谱的结果;
根据所述基音周期信息、频谱信息和预测信息来识别一采样,该采样具有与构成所述文本的单位语音的基音周期和频谱的最大相关的基音周期和频谱;和
生成合成的语音信号表征语音,其中所述语音具有与已识别的采样有对应关系的韵律信息来表征的韵律;由具有与所述查找装置识别的采样由对应关系的频谱信息表征的、所述基频分量和谐波分量随时间的变化;和由与所述查找装置识别的采样有对应关系的基音周期信息表征的时间长度的、等于所述单位基音周期的段中的时间长度。
10.一种语音词典生成方法,其中获得表征单位语音的波形的语音信号,且使每一段都等于所述语音信号的单位基音周期的各段的时间长度相同,从而将所述语音信号处理成基音周期波形信号;
生成并且输出表征所述段中的原始时间长度的基音周期信息;
根据所述基音周期波形信号来生成和输出示出所述语音信号的基频分量和谐波分量随时间变化的频谱信息;和
获得表征语谱图的语声数据,所述语谱图表征的单位语音的发音,确定由所述语声数据表征的发音的韵律,且生成和输出表征已确定的韵律的韵律信息。
CNB2005100740685A 2001-08-31 2002-08-30 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 Expired - Lifetime CN100568343C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001263395 2001-08-31
JP263395/2001 2001-08-31
JP298610/2001 2001-09-27
JP298609/2001 2001-09-27

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB028028139A Division CN1324556C (zh) 2001-08-31 2002-08-30 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法

Publications (2)

Publication Number Publication Date
CN1702736A CN1702736A (zh) 2005-11-30
CN100568343C true CN100568343C (zh) 2009-12-09

Family

ID=19090157

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB2005100740685A Expired - Lifetime CN100568343C (zh) 2001-08-31 2002-08-30 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CNB028028252A Expired - Lifetime CN1224956C (zh) 2001-08-31 2002-08-30 基音波形信号发生设备、基音波形信号发生方法及程序

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB028028252A Expired - Lifetime CN1224956C (zh) 2001-08-31 2002-08-30 基音波形信号发生设备、基音波形信号发生方法及程序

Country Status (6)

Country Link
US (1) US20040220801A1 (zh)
EP (1) EP1422693B1 (zh)
JP (1) JP4170217B2 (zh)
CN (2) CN100568343C (zh)
DE (1) DE60229757D1 (zh)
WO (1) WO2003019530A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60232560D1 (de) 2001-08-31 2009-07-16 Kenwood Hachioji Kk Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.
JP3947871B2 (ja) * 2002-12-02 2007-07-25 Necインフロンティア株式会社 音声データ送受信方式
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
CN1848240B (zh) * 2005-04-12 2011-12-21 佳能株式会社 基于离散对数傅立叶变换的基音检测方法、设备和介质
EP1904816A4 (en) * 2005-07-18 2014-12-24 Diego Giuseppe Tognola METHOD AND SYSTEM FOR PROCESSING SIGNALS
US8165882B2 (en) * 2005-09-06 2012-04-24 Nec Corporation Method, apparatus and program for speech synthesis
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
CN101030375B (zh) * 2007-04-13 2011-01-26 清华大学 一种基于动态规划的基音周期提取方法
CN101383148B (zh) * 2007-09-07 2012-04-18 华为终端有限公司 一种获取基音周期的方法和装置
EP2360680B1 (en) * 2009-12-30 2012-12-26 Synvo GmbH Pitch period segmentation of speech signals
US9236064B2 (en) 2012-02-15 2016-01-12 Microsoft Technology Licensing, Llc Sample rate converter with automatic anti-aliasing filter
US9640172B2 (en) 2012-03-02 2017-05-02 Yamaha Corporation Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
KR101837153B1 (ko) * 2014-05-01 2018-03-09 니폰 덴신 덴와 가부시끼가이샤 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체
CN105871339B (zh) * 2015-01-20 2020-05-08 普源精电科技股份有限公司 一种灵活的可分段调制的信号发生器
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN105931651B (zh) * 2016-04-13 2019-09-24 南方科技大学 助听设备中的语音信号处理方法、装置及助听设备
CN107958672A (zh) * 2017-12-12 2018-04-24 广州酷狗计算机科技有限公司 获取基音波形数据的方法和装置
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
CN108682413B (zh) * 2018-04-24 2020-09-29 上海师范大学 一种基于语音转换的情感疏导系统
CN109346106B (zh) * 2018-09-06 2022-12-06 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法
CN111289093A (zh) * 2018-12-06 2020-06-16 珠海格力电器股份有限公司 一种空调异响噪音评判方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
EP0248593A1 (en) * 1986-06-06 1987-12-09 Speech Systems, Inc. Preprocessing system for speech recognition
JPH05307399A (ja) * 1992-05-01 1993-11-19 Sony Corp 音声分析方式
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
JP2976860B2 (ja) * 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
JP3424787B2 (ja) * 1996-03-12 2003-07-07 ヤマハ株式会社 演奏情報検出装置
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
JP3576800B2 (ja) * 1997-04-09 2004-10-13 松下電器産業株式会社 音声分析方法、及びプログラム記録媒体
JP4641620B2 (ja) * 1998-05-11 2011-03-02 エヌエックスピー ビー ヴィ ピッチ検出の精密化
US6754630B2 (en) * 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
JP3883318B2 (ja) * 1999-01-26 2007-02-21 沖電気工業株式会社 音声素片作成方法及び装置
JP2000250569A (ja) * 1999-03-03 2000-09-14 Yamaha Corp 圧縮オーディオ信号補正器、および圧縮オーディオ信号再生装置
JP4489231B2 (ja) * 2000-02-23 2010-06-23 富士通マイクロエレクトロニクス株式会社 遅延時間調整方法と遅延時間調整回路
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
DE60232560D1 (de) * 2001-08-31 2009-07-16 Kenwood Hachioji Kk Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.

Also Published As

Publication number Publication date
WO2003019530A1 (fr) 2003-03-06
JP4170217B2 (ja) 2008-10-22
DE60229757D1 (de) 2008-12-18
CN1224956C (zh) 2005-10-26
JPWO2003019530A1 (ja) 2004-12-16
EP1422693A4 (en) 2007-02-14
CN1473325A (zh) 2004-02-04
US20040220801A1 (en) 2004-11-04
EP1422693A1 (en) 2004-05-26
CN1702736A (zh) 2005-11-30
EP1422693B1 (en) 2008-11-05

Similar Documents

Publication Publication Date Title
CN100568343C (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
EP1422690B1 (en) Apparatus and method for generating pitch waveform signal and apparatus and method for compressing/decompressing and synthesizing speech signal using the same
Cook Real sound synthesis for interactive applications
US7035791B2 (en) Feature-domain concatenative speech synthesis
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
US20040073428A1 (en) Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
EP0380572A1 (en) SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS.
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
US20070011009A1 (en) Supporting a concatenative text-to-speech synthesis
Lee et al. Voice response systems
JP4407305B2 (ja) ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP3994332B2 (ja) 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
WO2004088634A1 (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
JP3994333B2 (ja) 音声辞書作成装置、音声辞書作成方法、及び、プログラム
TW526466B (en) Encoding and voice integration method of phoneme
US20110153316A1 (en) Acoustic Perceptual Analysis and Synthesis System
CN1210686C (zh) 语音发音速度调整方法
JPS61252600A (ja) Lsp型パタンマツチングボコ−ダ
US5899974A (en) Compressing speech into a digital format
JPS6187199A (ja) 音声分析合成装置
JP3806607B2 (ja) 音素データ処理装置、音素データ処理方法及びプログラム
KR100624545B1 (ko) 티티에스 시스템의 음성압축 및 합성방법
KR100477224B1 (ko) 위상 정보 저장 및 검색 방법 및 이를 이용한 단위 음소코딩 방법
Kim et al. On the Implementation of Gentle Phone’s Function Based on PSOLA Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: JVC KENWOOD CORPORATION

Free format text: FORMER OWNER: KABUSHIKI KAISHA KENWOOD;KABUSHIKI KAISHA KENWOOD

Effective date: 20140228

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20140228

Address after: Kanagawa

Patentee after: JVC KENWOOD Corp.

Address before: Tokyo, Japan

Patentee before: Kabushiki Kaisha KENWOOD

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151223

Address after: Japan's Tokyo East Shinagawa Shinagawa district four chome 12 No. 3 140-0002

Patentee after: Rakuten, Inc.

Address before: Kanagawa

Patentee before: JVC Kenwood Corp.

C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Tokyo, Japan, the world's land area in the valley of Yu Chuan Ding Ding 14, No. 1, 158-0094

Patentee after: Rakuten, Inc.

Address before: Japan's Tokyo East Shinagawa Shinagawa district four chome 12 No. 3 140-0002

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Tokyo, Japan, the world's land area in the valley of Yu Chuan Ding Ding 14, No. 1, 158-0094

Patentee before: Rakuten, Inc.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20091209