CN1224956C - 基音波形信号发生设备、基音波形信号发生方法及程序 - Google Patents

基音波形信号发生设备、基音波形信号发生方法及程序 Download PDF

Info

Publication number
CN1224956C
CN1224956C CNB028028252A CN02802825A CN1224956C CN 1224956 C CN1224956 C CN 1224956C CN B028028252 A CNB028028252 A CN B028028252A CN 02802825 A CN02802825 A CN 02802825A CN 1224956 C CN1224956 C CN 1224956C
Authority
CN
China
Prior art keywords
signal
pitch
segment
pitch waveform
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB028028252A
Other languages
English (en)
Other versions
CN1473325A (zh
Inventor
佐藤宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co ltd
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Publication of CN1473325A publication Critical patent/CN1473325A/zh
Application granted granted Critical
Publication of CN1224956C publication Critical patent/CN1224956C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Abstract

计算机对语音数据进行滤波,并根据滤波结果过零的时刻确定基音长度。只要从语音数据的对数倒频谱提取的基音长度与周期图的偏差不超过预定量,就将滤波的通带的中央频率控制为与根据过零时间确定的基音长度的倒数相等的值。接下来,计算机根据滤波结果,将语音数据分割为片断的单元基音,并将各片断的相位和采样数设为常数,以消除基音波动的影响。然后,通过多种方法对获得的基音波形数据进行内插,且将其中谐波成分较少的数据与表示每一片断的原始采样数目及幅度的数据一起输出。

Description

基音波形信号发生设备、基音波形信号发生方法及程序
技术领域
本发明涉及一种基音波形信号发生设备、基音波形信号发生方法及程序。
背景技术
在对语音信号参数化并进行处理时,经常将语音信号作为频率信息而不是波形信息来处理。例如在语音合成中,普遍应用了许多使用语音的基音及共振峰的方案。
下面将根据生成人类语音的过程来说明基音及共振峰。人类语音的生成过程通过振动声带部分,首先生成包含脉冲序列的声音。该脉冲以特定于单词的每一音素的给定周期生成,该周期称为“基音”。脉冲的频谱分布于较宽的频带中,同时在基音的整倍数间隔处排列有相对强的频谱成分。
接下来,随着脉冲通过声带,脉冲在由声带和舌头的形状所形成的空间中被滤波。滤波生成了仅强调脉冲中某一频率成分的声音。(即,产生了共振峰。)上面是语音生成过程。
在声带生成的脉冲中需强调的频率成分随着声带和舌头移动而改变。如果该变化与单词相联系,则形成了语音。因此在需要语音合成的情况下,如果声带的滤波特性得到模拟,则在理论上可以得到具有带有自然感觉的语音质量的合成语音。
由于实际上人类的声带实际上非常复杂,所以对于普通计算机可达到的能力而言,模拟人类声带及其困难。因此要在将声带简化至一定程度的模型的假设下进行人类声带的模拟。进一步,尽管基音在某种程度上可以被看作周期恒定,然而基音易于受到人类感觉或意识的影响,并在现实中轻微波动。用计算机模拟基音的这种变化几乎是不可能的。
现有的使用语音的基音及共振峰的方案在实现具有自然真实语音质量的语音合成时非常困难。
有一种语音合成方案称为“主体系统”。该方案通过对实际的人类语音的每一音素及基音进行分类,并通过将这些波形以与文本等匹配的方式联结而实现语音合成,从而建立数据库。由于该方案使用了实际的人类语音的波形,所以获得了通过模拟无法得到的自然真实的语音质量。
但是,生成的人类语音有相当多样的模式,再加上情绪表达则几近无限。因此,需要存入数据库的波形的数量将变得很庞大。所以需要一种压缩数据库中的数据量的方案。
作为压缩数据库中数据量的方案,已经提出了一种方案,在没有代表文本等中需表示的原始音素的波形的情况下,选择一个能够与该音素最近似的音素。
因为即使这种方案的实现依然使得数据库的数据量非常大,且该方案通过非自然地联结不应在第一场合使用的音素而合成语音,所以产生了合成的语音因联结质量差而不自然的问题。
为此,将一种对要存入数据库的各波形进行压缩的方案用作压缩数据库中的数据量的方案。可以想到的压缩波形的方案是将波形转换为频谱,并除去由于掩蔽效应而令人类难以听到的成分。这种方案用于压缩技术中,如MP3(MPEG1音频层3)、ATRAC(适应转换声学编码)和AAC(高级音频编码)。
但是,前面所述的基音的波动引起一个问题。
人类生成的语音的频谱具有相对较强的、以与基音的倒数相等的间隔排列的频谱。如果语音没有基音波动,则上述的使用掩蔽效应的压缩可以有效地完成。但是因为基音随说话者的感情和意识(情绪)而波动,所以在相同的说话者说出具有多个基音的相同词(音素)的情况下,基音间隔并不通常保持恒定。如果以多个基音对人类实际发出的语音进行采样以分析该频谱,则上述相对较强的频谱不会出现在分析结果中,且使用基于该频谱的掩蔽效应的压缩不能保证有效的压缩。
发明内容
本发明考虑到上述情况,目标是提供一种基音波形信号发生设备及基音波形信号发生方法,从而可以精确地确定其基音中包含波动的语音的频谱。
为了达到这个目标,根据本发明的第一个方面的基音波形信号发生设备的特征为包含:
滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;
相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;
采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和
基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。
基音波形信号发生设备可以进一步包括滤波系数确定装置(102,5),其根据基音信号和语音信号的参考频率确定滤波器的滤波系数,在这种情况下,滤波器可以根据滤波系数确定装置的决定来改变它的滤波系数。
相位调整装置可以通过对于所述基音信号的每一单位周期进行语音信号分割而确定每一所述片断,且相位调整装置可以对于每一所述片断进行相移,使相位成为根据通过将所述语音信号相移至不同相位而得到的信号与所述基音信号之间的相关度而得到的相位。
相位调整装置可以有:
相位确定装置(102,8),其对于所述基音信号的每一单位周期进行语音信号分割而确定每一所述片断,且对于每一所述片断,在根据将所述语音信号相移至不同相位而得到的信号与所述基音信号之间的相关度而进行相移后确定相位;和
装置(102,9),其将每一所述片断偏移至所述相位确定装置确定的相位,并将每一所述片断的幅度乘以一个常数以改变幅度。
该常数是例如这样的值:使各片断的幅度的有效值成为共同常数值基音波形信号发生装置可以进一步根据该常数及采样信号的采样数目,生成基音波形信号。
相位调整装置可以以这样的方式将语音信号分割为片断:使得用于所述滤波器提取的基音信号的时刻实质上变为0的点成为所述片断的起点。
根据本发明的第二个方面的基音波形信号发生设备的特征为:语音的基音被确定(102,7);根据确定的基音的值,语音信号被分割为包含语音信号的单位基音的片断(102,8);以及通过在每一片断中调整语音信号的相位而将所述语音信号处理为基音波形信号(102,9)。
根据本发明的第三个方面的基音波形信号发生方法设备的特征为:
通过对输入的语音信号进行滤波而提取基音信号(102,6);
根据提取的基音信号而将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位(102,7,8,9);
根据经过相位调整的每一片断中的相位来确定采样长度,并通过以采样长度一致地完成采样而生成采样信号(102,11);和
基于调整结果和所述采样长度的值,从所述采样信号中生成基音波形信号(102,15)。
根据本发明的第四个方面的计算机可读记录介质的特性为记录了用于使计算机可以完成如下功能的程序:
滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;
相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;
采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和
基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。
根据本发明的第五个方面的嵌于载波中的计算机数据信号的特征为提供使计算机可以完成如下功能的程序:
滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;
相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;
采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和
基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。
根据本发明的第六个方面的程序的特征是使计算机可以完成如下功能:
滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;
相位调整装置(102,7,8,9),根据由所述滤波器提取的基音信号将所述语音信号分割为片断,并根据与每一片断中的基音信号的相关度而调整相位;
采样装置(102,11),根据由所述相位调整装置进行相位调整的每一片断中的相位来确定采样长度,并通过与采样长度一致地实现采样而生成采样信号;和
基音波形信号发生装置(102,15),基于所述相位调整装置的调整结果以及所述采样长度的值,从所述采样信号中生成基音波形信号。
附图说明
图1是框图,其说明了根据本发明的第一实施例的基音波形提取系统的结构。
图2是框图,其显示了图1中基音波形提取系统的操作流程。
图3(a)和(b)显示了相移前语音数据的波形,图3(c)描绘了基音波形数据的波形图。
图4(a)是由现有技术得到的语音频谱的例子,图4(b)是由根据本发明的实施例的基音波形提取系统得到的基音波形数据频谱的例子。
图5(a)是一个由子频带数据代表的波形的例子,该子频带数据是从代表由现有方案获得的语音的语音数据中得到的;图5(b)是由子频带数据代表的波形的例子,该子频带数据是从根据本发明实施例的基音波形提取系统中获得的基音波形数据中得到的。
图6是框图,其显示了根据本发明的第二实施例的基音波形提取系统的结构。
具体实施方式
下面将参考附图说明本发明的实施例。
(第一实施例)
图1说明了根据本发明的第一实施例的基音波形提取系统的结构。如图所示,基音波形提取系统包括记录介质驱动器(如软盘驱动器、MO(磁光盘驱动器)等)101和计算机102,其中记录介质驱动器101读取在记录介质(如软盘、MO等)上记录的数据,计算机102与记录介质驱动器101相连。
计算机102包括:处理器,其包含CPU(中央处理单元)、DSP(数字信号处理器)等;易失性存储器,其包含RAM(随机存储器)等;非易失性存储器,其包含硬盘单元等;输入部分,其包含键盘等;和输出部分,其包含CRT(阴极射线管)等。计算机102有预先存储的基音波形提取程序,并通过执行该基音波形提取程序而完成下面要介绍的过程。
(第一实施例:操作)
接下来,将参考图2讨论基音波形提取程序的操作。图2显示了
图1中基音波形提取系统的操作流程。
当用户将记录了代表语音波形的语音数据的记录介质放入记录介质驱动器101,并指示计算机启动基音波形提取程序时,计算机102开始基音波形提取程序的过程。
然后,计算机102首先通过记录介质驱动器101从记录介质读取语音数据(图2的步骤1)。注意,这里假设语音数据为经过PCM(脉冲编码调制)的数字信号的形式,且语音数据代表以比语音的基音充分短的给定周期进行采样的语音。
接下来,计算机102通过对来自记录介质的语音数据进行滤波而生成经滤波的语音数据(基音信号)(步骤S2)。假设基音信号由采样间隔与语音数据的采样间隔完全相同的数字形式的数据组成。
计算机102根据下面将要讨论的基音长度以及基音信号瞬时值变为0的时间(过零时间),通过执行反馈过程而确定用来生成基音信号的滤波的特性。
即,计算机102对读取的语音数据执行例如对数倒频谱分析或基于自相关函数的分析,从而确定该语音数据代表的语音的参考频率,并得到参考频率的倒数的绝对值(即基音长度)  (步骤S3)。(作为选择,计算机102也可以通过既执行对数倒频谱分析又执行基于自相关函数的分析而确定两个参考频率,并得到这两个参考频率的倒数的绝对值的均值,作为基音长度。)
特别地,在对数倒频谱分析中,首先将读取的语音数据的强度转换为与原始值的对数实质上相等的值(对数的底是任意的),并且通过快速傅立叶变换方法(或其它任一种可以生成代表离散变量的傅立叶变换结果的数据的方法)得到经过值转换的语音数据的频谱(即对数倒频谱)。然后,给出对数倒频谱的峰值的这些频率中的最小值被指定为参考频率。
特别地,在基于自相关函数的分析中,首先通过使用读取的语音数据确定自相关函数r(l),该函数由等式1的右侧代表。然后,在使自相关函数r(l)的傅立叶变换得到的结果的函数(周期图)达到峰值的那些频率中,将超过预定的最低限值得最小值确定为参考频率。(注意,N是语音数据的总采样数,x(α)是从语音数据开头开始的第α个采样的值。)
r ( l ) = 1 N Σ t = 0 N - l - 1 { x ( t + 1 ) , x ( t ) } · · · · · · ( 1 )
同时,计算机102确定一个时刻,在该时刻基音信号的过零时间来到(步骤S4)。然后,计算机102确定基音长度与基音信号的过零周期之间是否相差一预定的量或者更多(步骤S5),并且当确定没有相差预定的量或更多时,计算机102执行上面介绍的滤波,滤波特性为带通滤波器,中心频率是过零周期的倒数(步骤S6)。相反,当确定他们相差预定的量或者更多时,执行上面介绍的滤波,滤波特性为带通滤波器,中心频率是基音长度的倒数(步骤S7)。在两种情况中,希望滤波的导通带宽应使通带的上限一直落在语音数据代表的语音的参考频率的二倍之内。
接下来,计算机102在生成的基音信号的单位周期(例如,一个周期)的边界到达到时刻(特别地,基音信号过零点时刻),分割从记录介质读取的语音数据(步骤S8)。然后,对于分割得到的每一个片断,得到通过在该片断中不同地改变语音数据的相位而得到的片断与该片断中的基音信号之间的相关度,并将提供最高相关度的语音数据的相位确定为该片断中语音数据的相位(步骤S9)。然后,对语音数据的片断进行相移,使它们相互充分同相(步骤S10)。
特别的,计算机102对于每一片断得到一个值cor,它由例如等式2的右侧表示,对于每一种情况,代表相位的φ(其中φ是非负整数)发生不同的变化。然后,将使cor值最大化的φ的值Ψ确定为代表该片断中语音数据的相位的值。结果,为该片断确定了使基音信号的相关度最大化的相位值。然后,计算机102将片断中的语音数据相移(-Ψ)。(注意,n是片断中的采样总数,f(β)是片断中从语音数据开头开始的第β个采样,g(γ)是片断中从基音信号开头开始的第γ个采样。)
cor = Σ n i = 1 { f ( i - φ ) · g ( i ) } · · · · · · ( 2 )
图3(c)显示了以上述方式对语音数据进行相移得到的数据(基音波形数据)所代表的波形的一个例子。在图3(a)中显示的相移前的语音数据的波形中,由于图3(b)中显示的基音波动的影响,由“#1”和“#2”代表的两个片断具有互不相同的相位。通过比较,由基音波形数据代表的波的片断#1和#2消除了基音波动的影响,如图3(c)所示,且相位相同。如图3(a)所示,各片断的起点值接近0。
希望片断的时间长度应约为一个基音。片断越长,片断中的采样数变得越大,于是产生了这样的问题:基音波形的数据量增加或采样间隔增加,造成基音波形数据代表的语音不准确。
接下来,计算机102通过对每一片断,将基音波形数据乘以比例常数而改变幅度,并生成幅度改变后的基音波形数据(步骤S11)。在步骤S11中,还生成比例常数数据,代表在哪一片断中乘以比例常数的何值。
与语音数据相乘的比例常数以这种方式确定:使基音波形数据的各片断的幅度的有效值成为共同的常值。即以这样的方式:常值为J,计算机102将常值J除以K得到值(J/K),其中K是基音波形数据的片断的幅度的有效值。这个值(J/K)是要在该片断中相乘的比例常数。如此为基音波形数据的每一片断确定比例常数。
然后,计算机102再次对幅度改变后的基音波形数据的各片断进行采样(重采样)。进一步,还生成了表示每一片断的原始采样数的采样数目数据(步骤S12)。
假设计算机102以这种方式执行重采样:基音波形数据的各片断中的采样数目之间近似相等,且同一片断中的采样是等间隔的。
接下来,计算机102生成数据(内插数据),它代表要内插到经重采样的基音波形数据的采样中的值(步骤S13)。经重采样的基音波形数据和内插数据组成内插后的基音波形数据。计算机102可以使用拉格朗日内插法或格里高利-牛顿内插法实现内插。
然后,计算机102输出生成的比例常数数据、采样数目数据和内插后的基音波形数据(步骤S14)。
拉格朗日内插法或格里高利-牛顿内插法都是可以将波形的谐波成分压缩至相对较少的内插方法。两种方法在用于两点间内插的函数上不同,这两种方法的谐波成分的量依待内插的采样值而不同。
所以,为了有效使用这两种方法,计算机102可以同时使用两种方法,以进一步减少基音波形数据的谐波失真。
特别地,计算机102首先生成数据(拉格朗日内插数据),该数据代表拉格朗日内插法要内插到重采样后的基音波形数据的采样中的值。重采样后的基音波形数据和拉格朗日内插数据组成拉格朗日内插后的基音波形。
同时,计算机102生成数据(格里高利-牛顿内插数据),该数据代表格里高利-牛顿内插法要内插到重采样后的基音波形数据的采样中的值。重采样后的基音波形数据和格里高利-牛顿内插数据组成格里高利-牛顿内插后的基音波形。
接下来,计算机102通过快速傅立叶变换方法(或其它任一种可以生成代表离散变量的傅立叶变换结果的数据的方法),得到拉格朗日内插后的基音波形数据的频谱以及格里高利-牛顿内插后的基音波形的频谱。
接下来,根据拉格朗日内插后的基音波形数据的频谱以及格里高利-牛顿内插后的基音波形的频谱,计算机102确定拉格朗日内插后的基音波形数据和格里高利-牛顿内插后的基音波形中哪一个具有较小的谐波失真。
对基音波形数据的每一片断进行重采样可能在每一片断的波形内部引起失真。尽管计算机102通过将谐波成分最小化的多种方法对基音波形数据进行内插并从中选择,但最终包含在由计算机102输出的基音波形数据中的谐波成分的量被抑制小。
计算机102可以获得等于或大于参考频率的二倍的成分的有效值,并将获得的有效值中较小的一个确定为具有较小谐波失真的基音波形数据的频谱,其中所述参考频率是对于每一拉格朗日内插后的基音波形数据的频谱以及格里高利-牛顿内插后的基音波形数据的频谱的参考频率。
然后,计算机102随基音波形数据输出生成的比例常数数据和采样数目数据,该基音波形数据是拉格朗日内插后的基音波形数据和格里高利-牛顿内插后的基音波形数据中谐波失真较小的一个。
对将从计算机102输出的基音波形数据片断的单位基音的长度和幅度进行标准化,并消除基音波动的影响。因此,从基音波形数据的频谱中得到表示共振峰的尖峰,使共振峰可以以高精确度从基音波形数据中提取出来。
特别的,未消除基音波动的语音数据的频谱由于基音波动,没有清楚的峰且分布广阔,例如图4(a)所示。
相反,通过使用该基音波形提取系统,从具有如图4(a)所示的频谱的语音数据中生成基音波形数据,则该基音波形数据的频谱变为例如图4(b)所示。如图所示,基音波形数据的频谱包含清楚的共振峰。
从未消除基音波动的语音数据中得到的子频带数据(即,代表在该语音数据代表的单独共振峰成分的强度中根据时间的变化的数据)显示了由于基音波动而引起的复杂的波形,它在短时期内重复变化,例如图5(a)所示。
通过对比,从代表了如图4(b)所示的频谱的语音数据中得到的子频带数据显示的波形包括许多DC成分且变化较小,例如图5(b)所示。
图5(a)(或图5(b))中的“BND0”曲线显示了由语音数据(或基音波形数据)代表的语音的参考频率成分的强度中根据时间的变化。曲线“BNDk”(其中k是从1到8的整数)显示了由语音数据(或基音波形数据)代表的语音的第(k+1)谐波成分的强度中根据时间的变化。
因为从计算机102输出的基音波形数据中消除了基音波动的影响,所以共振峰成分高度再现地从基音波形中提取出来。即可以容易地从代表来自同一说话者的语音的基音波形数据中提取基本相同的共振峰成分。因此,在使用例如电码本的方法压缩语音的情况下,可以方便地使用在多种机会中得到的说话者的共振峰数据的混合。
进一步,可以使用采样数目数据确定基音波形数据的每一片断的原始时间长度,且可以使用比例常数数据确定基音波形数据的每一片断的原始幅度。因此可以通过还原基音波形数据的每一片断的长度和幅度,方便地还原原始语音数据。
基音波形提取系统的结构不限于上面的说明。
例如,计算机102可以通过通讯电路,如电话电路、专用电路或卫星电路,从外界获得语音数据。在这种情况,计算机102应具有通讯控制部分,该部分包含例如调制解调器或DSU(数据服务单元)等。在这种情况下,不需要记录介质驱动器101。
计算机102可以具有声音采集器,它包含麦克风、AF(音频)放大器、采样器、A/D(模数)转换器和PCM编码器等。声音采集器应通过放大代表麦克风采集的语音的语音信号,完成对语音信号的采样及A/D转换,并将采样的语音信号进行PCM调制,从而得到语音数据。计算机102获得到语音数据不必必须是PCM信号。
计算机102可以通过通讯电路向外界提供比例常数数据、采样数目数据和基音波形数据。在这种情况,计算机102也应有包含调制解调器、DSU等的通讯控制部分。
计算机102可以通过记录介质驱动器101,将比例常数数据、采样数目数据和基音波形数据写在置于记录介质驱动器101中的记录介质上。作为选择,它也可以写在包含硬盘单元等的外部存储设备上。在这种情况下,计算机102应具有控制电路,如硬盘控制器。
由计算机102执行的内插方法不限于拉格朗日内插和格里高利-牛顿内插,而可以是其它方法。计算机102可以以三种或更多种方法对语音数据进行内插,并将谐波失真最小的选为基音波形数据。计算机102可以有单独的内插部分,用来以单一类型的方法对语音数据进行内插,并直接将数据作为基音波形数据处理。
进一步,计算机102不必将语音数据的幅度度的有效值设置得相互相等。
计算机102可以不执行对数倒频谱分析或基于自相关函数的分析,在这种情况下,由对数倒频谱分析和基于自相关函数的分析之一而得到的参考频率的倒数应直接作为基音长度。
由计算机102相移的语音数据的每一片断中的语音数据量不必是(-Ψ);例如,计算机102可以在每一片断中将语音数据相移(-Ψ+δ),其中δ是对于代表初相的各片断所公用的实数。计算机102分割语音数据的语音信号的位置不必再基音信号过零的时刻,而可以是例如基音信号变为一个非零的预定值的时刻。
如果初相α是0且在基音信号过零时刻分割语音数据,则每一片断的起点的值变得接近0,从而通过将语音数据分割为单独片断而使包括在每一片断中的噪声量变小。
计算机102不必是专用系统,而可以是个人电脑等。基音波形提取程序可以从存储基音波形提取程序的介质(CD-ROM、MO、软盘等)安装入计算机102,或者基音波形提取程序可以上载到通讯电路的电子布告栏(BBS)并通过通讯电路分发。载波可以与代表基音波形提取程序的信号进行调制,获得的调制波可以被传送,且接受该调制波的设备可以通过对调制波进行解调而恢复基音波形提取程序。
随着基音波形提取程序在OS的控制下以与其它应用程序相同的方式启动,并由计算机102执行,可以执行上述过程。在OS共享部分上述过程的情况下,可以从记录介质中存储的基音波形提取程序中除去控制该过程的部分。
(第二实施例)
图6显示了根据本发明的第二实施例的基音波形提取系统的结构。如图所示,基音波形提取系统包含:语音输入部分1、对数倒频谱分析部分2、自相关分析部分3、权重计算部分4、BPF系数计算部分5、BPF(带通滤波器)6、过零分析部分7、波形相关分析部分8、相位调整部分9、幅度固定部分10、基音信号固定部分11、内插部分12A和12B、傅立叶变换部分13A和13B、波形选择部分14和基音波形输出部分15。
语音输入部分1包含例如类似第一实施例中的记录介质驱动器101的记录介质驱动器等。
语音输入部分1输入代表语音的波形的语音数据,并将其提供至对数倒频谱分析部分2、自相关分析部分3、BPF6、波形相关分析部分8和幅度固定部分10。
注意,语音数据的形式为PCM调制的数字信号,且代表以比语音的基音充分短的给定周期进行采样的语音。
对数倒频谱分析部分2、自相关分析部分3、权重计算部分4、BPF系数计算部分5、BPF(带通滤波器)6、过零分析部分7、波形相关分析部分8、相位调整部分9、幅度固定部分10、基音信号固定部分11、内插部分12A、内插部分12B、傅立叶变换部分13A、傅立叶变换部分13B、波形选择部分14和基音波形输出部分15中的每一个由专用电子电路或DSP或CPU等组成。
可以由相同的DSP或CPU执行对数倒频谱分析部分2、自相关分析部分3、权重计算部分4、BPF系数计算部分5、BPF(带通滤波器)6、过零分析部分7、波形相关分析部分8、相位调整部分9、幅度固定部分10、基音信号固定部分11、内插部分12A、内插部分12B、傅立叶变换部分13A、傅立叶变换部分13B、波形选择部分14和基音波形输出部分15的所有或一些功能。
基音波形提取系统通过使用对数倒频谱分析和基于自相关函数的分析,确定基音的长度。
即,对数倒频谱分析部分2首先对语音输入部分1提供的语音数据进行对数倒频谱分析,以确定该语音数据代表的语音的参考频率,生成表示该确定的参考频率的数据,并将其提供给权重计算部分4。
特别地,由于语音数据是从语音输入部分1提供的,所以对数倒频谱部分2首先将该语音数据的强度转换为与原始值的对数实质上相等的值。(对数的底可以任选。)
接下来,对数倒频谱分析部分2通过快速傅立叶变换方法(或其它任一种可以生成代表离散变量的傅立叶变换结果的数据的方法)得到经过值转换的语音数据的频谱(即对数倒频谱)。
然后,将给出对数倒频谱的峰值的那些频率中的最小值确定为参考频率,生成代表确定的参考频率的数据,并将该数据提供给权重计算部分4。
同时,当语音输入部分1提供语音数据时,自相关分析部分3根据语音数据的波形的自相关函数,确定语音数据代表的语音的参考频率,生成代表确定的参考频率的数据,并将其提供给权重计算部分4。
特别地,当语音输入部分1提供语音数据时,自相关分析部分3首先确定前面提到的自相关函数r(l)。然后,在给出自相关函数r(l)的傅立叶变换得到的结果的周期图的峰值的那些频率中,将超过预定的低限值的最小值确定为参考频率,生成代表确定的参考频率的数据,并将其提供给权重计算部分4。
由于总共提供了两条代表参考频率的数据,对数倒频谱分析部分2和自相关分析部分3各提供一条,所以权重计算部分4获得由这两条数据代表的参考频率的倒数的绝对值的均值。然后,生成代表所得值的数据(即平均基音长度),并将其提供给BPF系数计算部分5。
随着权重计算部分4提供代表平均基音长度的数据且过零分析部分7提供以后将讨论的过零信号,BPF系数计算部分5确定基音长度、基音信号及过零周期之间是否相差一预定量或者更多。当确定它们没有这么多时,控制BPF6的频率特性,将过零周期的倒数设置为中心频率(BPF6的通带的中心频率)。反过来,当确定它们相差该预定量或者更多时,控制BPF6的频率特性,将平均基音长度的倒数设为中心频率。
BPF6实现中心频率可变的FIR(有限冲击响应)型滤波器的功能。
特别地,BPF6根据BPF系数计算部分5的控制设置它的中心频率。然后,语音输入部分1提供的语音数据被滤波,且滤波后的语音数据(基音信号)被提供给过零分析部分7和波形相关分析部分8。基音信号包含的数据的数字形式的采样间隔与语音数据的采样间隔实质上相同。
希望BPF6的带宽应使BPF6的通带的上限总是落在代表语音数据的语音的参考频率的二倍之内。
过零分析部分7确定BPF6提供的基音信号的瞬时值变为0的时刻(过零时间),且向BPF系数计算部分5提供代表确定的时刻的信号(过零信号)。以这种方式确定语音数据的基音的长度。
注意,过零分析部分7可以确定基音信号的瞬时值变为非零的预定值的时刻,并向BPF系数计算部分5提供代表确定的时间的信号,取代过零信号。
波形相关分析部分8从语音输入部分1得到语音数据,并从波形相关分析部分8得到基音信号,它在基音信号的单位周期(例如一个周期)的边界到来时分割语音。然后,对于由分割形成的每一片断,得到通过在该片断中不同地改变语音数据的相位的片断和该片断中的基音信号之间的相关度,且将提供最高相关度的语音数据的相位确定为该片断中语音数据的相位。以这种方式为每一片断确定语音数据的相位。
特别地,对于每一片断,波形相关分析部分8确定例如前面提到的值Ψ,生成代表值Ψ的数据并将其提供给相位调整部分9,作为代表该片断中语音数据的相位的相位数据。希望片断相位的时间长度应约为一个基音。
当语音输入部分1提供语音数据,且波形相关分析部分8提供代表语音数据的每一片断的相位Ψ的数据时,相位调整部分9通过对各片断中的语音数据的相位移相(-Ψ),将相位设置为互相相等。然后,将相移后的语音数据(即基音波形数据)提供给幅度固定部分10。
接下来,在相位调整部分9提供基音波形数据时,幅度固定部分10通过对每一片断将基音波形数据与比例常数相乘而改变幅度,并将幅度改变后的基音波形数据提供给基音信号固定部分11。进一步,还生成了比例常数数据,并将其提供给基音波形输出部分15,该比例常数数据指示在哪一片断中乘以比例常数的何值。以这种方式确定与语音数据相乘的比例常数。假设与语音数据相乘的比例常数的确定使得基音波形数据的各片断的幅度的有效值变为共同的常值。
在幅度固定部分10提供幅度改变后的基音波形数据时,基音信号固定部分11再次对幅度改变后的基音波形数据的各片断进行采样(重采样),并将重采样的基音波形数据提供给内插部分12A和12B。
进一步,基音信号固定部分11生成指示每一片断的原始采样数的采样数目数据,并将其提供给基音波形输出部分15。
假设基音信号固定部分11以这样的方式执行重采样:基音波形数据的各片断中的采样数变得互相近似相等,且同一片断中的采样间距相等。
内插部分12A和12B使用两种类型的内插方法,实现对基音波形数据的内插。
即,在基音信号固定部分11提供重采样时,内插部分12A生成数据,该数据代表拉格朗日内插法要内插到重采样后的基音波形数据的采样中的值,并将该数据(拉格朗日内插数据)与重采样的基音波形数据一起提供给傅立叶变换部分13A和波形选择部分14。重采样的基音波形数据和拉格朗日内插数据组成拉格朗日内插后的基音波形数据。
同时,内插部分12B生成数据(格里高利-牛顿内插数据),该数据代表格里高利-牛顿内插法要内插到基音信号固定部分11提供的基音波形数据的采样中的值,并将该数据与重采样的基音波形数据一起提供给傅立叶变换部分13B和波形选择部分14。重采样的基音波形数据和格里高利-牛顿内插数据组成格里高利-牛顿内插后的基音波形数据。
在内插部分12A(或12B)提供拉格朗日内插后的基音波形数据(或格里高利-牛顿内插后的基音波形数据)时,傅立叶变换部分13A(或13B)通过快速傅立叶变换方法(或其它任一种可以生成代表离散变量的傅立叶变换结果的数据的方法)得到该基音波形数据的频谱。然后,代表获得到频谱的数据被提供给波形选择部分14。
当内插部分12A和12B提供了代表相同语音的内插后的基音波形数据,且傅立叶变换部分13A和13B提供了那些基音波形数据的频谱时,波形选择部分根据提供的频谱,确定拉格朗日内插后的基音波形数据和格里高利-牛顿内插后的基音波形数据中哪一个的谐波失真较小。然后,将拉格朗日内插后的基音波形数据和格里高利-牛顿内插后的基音波形数据中被确定为谐波失真较小的一个被提供给基音波形输出部分15。
当幅度固定部分10提供比例常数数据,基音信号固定部分11提供采样数目数据且波形选择部分14提供基音波形数据时,基音波形输出部分输出这三条互相关联的数据。
将要从基音波形输出部分15输出的基音波形数据片断的单位基音的长度和幅度也被标准化,且消除了基音波动的影响。因此,从基音波形数据的频谱中得到表示共振峰的尖峰,使共振峰可以以高精确度从基音波形数据中提取出来。
因为从基音波形输出部分15输出的基音波形数据中消除了基音波动的影响,所以以高精确度从基音波形数据中提取出共振峰成分。
进一步,可以使用采样数目数据确定基音波形的每一片断的原始时间长度,且可以使用比例常数数据确定基音波形数据的每一片断地原始幅度。
基音波形提取系统的结构也不限于上面的说明。
例如,语音输入部分1可以通过通讯电路,如电话电路、专用电路或卫星电路从外界获得语音数据。在这种情况,语音输入部分1应具有通讯控制部分,该部分包含例如调制解调器或DSU等。
语音输入部分1可以具有声音采集器,它包含麦克风、AF放大器、采样器、A/D转换器和PCM编码器等。声音采集器通过放大代表麦克风采集的语音的语音信号,完成对语音信号的采样及A/D转换,并将采样的语音信号进行PCM调制,从而应得到语音数据。语音输入部分1获得的语音数据不必是PCM信号。
基音波形输出部分15可以通过通讯电路向外界提供比例常数数据、采样数数据和基音波形数据。在这种情况,基音波形输出部分15应有包含调制解调器、DSU等的通讯控制部分。
基音波形输出部分15可以将比例常数数据、采样数数据和基音波形数据写在外部记录介质或包含硬盘单元等的外部存储设备上。在这种情况下,基音波形输出部分15应具有记录介质驱动器和控制电路,如硬盘控制器。
内插部分12A和12B实现的内插不限于拉格朗日内插和格里高利-牛顿内插方法,而可以是其它方法。基音波形提取系统可以以三种或更多种方法对语音数据进行内插,并将谐波失真最小的选为基音波形数据。
进一步,基音波形提取系统可以有单一的内插部分,用来以单一类型的方法对语音数据进行内插,并直接将数据作为基音波形数据处理。在这种情况下,基音波形提取系统既不需要傅立叶变换部分13A或13B,也不需要波形选择部分14。
进一步,基音波形提取系统不必将语音数据的幅度度的有效值设置得相互相等。因此,幅度固定部分10不是必需的结构,且相位调整部分9可以立即将经相移的语音数据提供给基音信号固定部分11。
该基音波形提取系统不必有对数倒频谱分析部分2(或自相关分析部分3),在这种情况下,权重计算部分4可以直接将对数倒频谱分析部分2(或自相关分析部分3)得到的参考频率的倒数作为平均基音长度。
过零分析部分7可以提供来自BPF6的基音信号,将其作为BPF系数计算部分5的过零信号。
如上所述,本发明实现了一种基音波形信号发生设备及基音波形信号发生方法,可以准确地确定基音中包含波动的语音的频谱。
本发明不限于上述实施例,可以作出多种改进及应用。
根据巴黎公约,本专利申请要求2001年8月31日向日本专利局提交的日本专利申请2001-263395的优先权,并且该日本专利申请的内容在此引入作为参考。

Claims (9)

1.一种基音波形信号发生设备,其特征在于包括:
滤波器(102,6),通过对输入语音信号进行滤波而提取基音信号;
相位调整装置(102,7,8,9),该相位调整装置通过在基音信号穿过一预定值时分割语音信号,在由所述滤波器提取的基音信号的单位周期的边界到来时,将所述语音信号分割为多个片断;并且该相位调整装置通过得到基音信号和由在每个片断中不同地改变语音信号的相位所获得的基音信号之间的相关度,通过确定提供最高相关度的语音信号的相位,并且通过以使得每个片断中的语音信号相互同相的方式对多个片断进行相位移相,而调整多个片断的相位;
采样装置(102,11),该采样装置以各片断中的采样数变得互相近似相等并且同一片断中的采样间距相等的方式,对由所述相位调整装置调整了相位的每个片断执行采样,生成采样信号;和
基音波形信号发生装置(102,15),该基音波形信号发生装置从所述采样信号中生成基音波形信号,其中基音波形信号包括采样信号、指定所述相位调整装置的调整结果的数据、和指定每个片断的原始长度的数据。
2.根据权利要求1所述的基音波形信号发生设备,进一步包括滤波系数确定装置(102,5),其
将语音信号的参考频率的倒数确定为基音长度;
确定基音信号的过零周期;
确定基音长度和该周期是否彼此相差一预定量或者更多;以及
以如下方式确定所述滤波器的滤波系数,所述方式为:当确定基音长度和该周期不彼此相差该预定量或者更多时,滤波器的中心频率为该周期的倒数,而当确定基音长度和该周期彼此相差该预定量或者更多时,滤波器的中心频率为基音长度的倒数;并且
所述基音波形信号发生设备的特征还在于所述滤波器相对于所述滤波系数确定装置的确定而改变其滤波系数。
3.根据权利要求2所述的基音波形信号发生设备,其中所述滤波系数确定装置确定语音信号的对数倒频谱,并且确定给出对数倒频谱的峰值的那些频率的最小值为参考频率;或者所述滤波系数确定装置确定语音信号的周期图,并且确定超过给出周期图的峰值的那些频率中的预定低限值的最小值为参考频率。
4.根据权利要求1所述的基音波形信号发生设备,其中所述相位调整装置包括:
装置(102,9),其将每一所述片断进行相位移相,并将每一所述片断的幅度乘以一个常数以改变幅度。
5.根据权利要求4所述的基音波形信号发生设备,其中所述常数是这样的值:使各片断的幅度的有效值成为共同常数值。
6.根据权利要求5所述的基音波形信号发生设备,其中所述基音波形信号发生装置生成包括指定所述常数的信号的所述基音波形信号。
7.根据权利要求1所述的基音波形信号发生设备,其中所述相位调整装置以这样的方式将所述语音信号分割为所述片断:使得用于所述滤波器提取的基音信号的时刻实质上变为0的点成为所述片断的起点。
8.一种基音波形信号发生设备,其特征为:通过对代表语音的输入语音信号进行滤波而确定语音的基音(102,7),该语音信号以确定的基音值穿过一预定值的方式被分割为包括语音信号的多个单位基音的多个片断(102,8),以及通过得到基音信号和由在每个片断中不同地改变语音信号的相位所获得的基音信号之间的相关度,通过确定提供最高相关度的语音信号的相位,并且通过以使得每个片断中的语音信号相互同相的方式对多个片断进行相位移相,从而通过在每一片断中调整语音信号的相位,而将所述语音信号处理为基音波形信号(102,9)。
9.一种基音波形信号发生方法,其特征为:
通过对输入的语音信号进行滤波而提取基音信号(102,6);
通过在基音信号穿过一预定值时分割基音信号,在提取的基音信号的单位周期的边界到来时,将所述语音信号分割为多个片断;并且通过得到基音信号和由在每个片断中不同地改变语音信号的相位所获得的基音信号之间的相关度,通过确定提供最高相关度的语音信号的相位,并且通过以使得每个片断中的语音信号相互同相的方式对多个片断进行相位移相,而调整多个片断的相位(102,7,8,9);
以各片断中的采样数变得互相近似相等并且同一片断中的采样间距相等的方式,对相位进行了调整的每个片断执行采样,生成采样信号(102,11);和
从所述采样信号中生成基音波形信号,其中基音波形信号包括采样信号、指定所述相位调整装置的调整结果的数据、和指定每个片断的原始长度的数据(102,15)。
CNB028028252A 2001-08-31 2002-08-30 基音波形信号发生设备、基音波形信号发生方法及程序 Expired - Lifetime CN1224956C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001263395 2001-08-31
JP263395/2001 2001-08-31
JP263395/01 2001-08-31

Publications (2)

Publication Number Publication Date
CN1473325A CN1473325A (zh) 2004-02-04
CN1224956C true CN1224956C (zh) 2005-10-26

Family

ID=19090157

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB2005100740685A Expired - Lifetime CN100568343C (zh) 2001-08-31 2002-08-30 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
CNB028028252A Expired - Lifetime CN1224956C (zh) 2001-08-31 2002-08-30 基音波形信号发生设备、基音波形信号发生方法及程序

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB2005100740685A Expired - Lifetime CN100568343C (zh) 2001-08-31 2002-08-30 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法

Country Status (6)

Country Link
US (1) US20040220801A1 (zh)
EP (1) EP1422693B1 (zh)
JP (1) JP4170217B2 (zh)
CN (2) CN100568343C (zh)
DE (1) DE60229757D1 (zh)
WO (1) WO2003019530A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60234195D1 (de) 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
JP3947871B2 (ja) * 2002-12-02 2007-07-25 Necインフロンティア株式会社 音声データ送受信方式
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
CN1848240B (zh) * 2005-04-12 2011-12-21 佳能株式会社 基于离散对数傅立叶变换的基音检测方法、设备和介质
US8089349B2 (en) * 2005-07-18 2012-01-03 Diego Giuseppe Tognola Signal process and system
US8165882B2 (en) * 2005-09-06 2012-04-24 Nec Corporation Method, apparatus and program for speech synthesis
JP5233986B2 (ja) * 2007-03-12 2013-07-10 富士通株式会社 音声波形補間装置および方法
CN101030375B (zh) * 2007-04-13 2011-01-26 清华大学 一种基于动态规划的基音周期提取方法
CN101383148B (zh) * 2007-09-07 2012-04-18 华为终端有限公司 一种获取基音周期的方法和装置
EP2360680B1 (en) * 2009-12-30 2012-12-26 Synvo GmbH Pitch period segmentation of speech signals
US9236064B2 (en) 2012-02-15 2016-01-12 Microsoft Technology Licensing, Llc Sample rate converter with automatic anti-aliasing filter
US9640172B2 (en) 2012-03-02 2017-05-02 Yamaha Corporation Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
KR101860143B1 (ko) * 2014-05-01 2018-05-23 니폰 덴신 덴와 가부시끼가이샤 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체
CN105871339B (zh) * 2015-01-20 2020-05-08 普源精电科技股份有限公司 一种灵活的可分段调制的信号发生器
CN105448289A (zh) * 2015-11-16 2016-03-30 努比亚技术有限公司 一种语音合成、删除方法、装置及语音删除合成方法
CN105931651B (zh) * 2016-04-13 2019-09-24 南方科技大学 助听设备中的语音信号处理方法、装置及助听设备
CN107958672A (zh) * 2017-12-12 2018-04-24 广州酷狗计算机科技有限公司 获取基音波形数据的方法和装置
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
CN108682413B (zh) * 2018-04-24 2020-09-29 上海师范大学 一种基于语音转换的情感疏导系统
CN109346106B (zh) * 2018-09-06 2022-12-06 河海大学 一种基于子带信噪比加权的倒谱域基音周期估计方法
CN111289093A (zh) * 2018-12-06 2020-06-16 珠海格力电器股份有限公司 一种空调异响噪音评判方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
EP0248593A1 (en) * 1986-06-06 1987-12-09 Speech Systems, Inc. Preprocessing system for speech recognition
JPH05307399A (ja) * 1992-05-01 1993-11-19 Sony Corp 音声分析方式
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
JP2976860B2 (ja) * 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
JP3424787B2 (ja) * 1996-03-12 2003-07-07 ヤマハ株式会社 演奏情報検出装置
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP3576800B2 (ja) * 1997-04-09 2004-10-13 松下電器産業株式会社 音声分析方法、及びプログラム記録媒体
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
EP0993674B1 (en) * 1998-05-11 2006-08-16 Philips Electronics N.V. Pitch detection
US6754630B2 (en) * 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
JP3883318B2 (ja) * 1999-01-26 2007-02-21 沖電気工業株式会社 音声素片作成方法及び装置
JP2000250569A (ja) * 1999-03-03 2000-09-14 Yamaha Corp 圧縮オーディオ信号補正器、および圧縮オーディオ信号再生装置
JP4489231B2 (ja) * 2000-02-23 2010-06-23 富士通マイクロエレクトロニクス株式会社 遅延時間調整方法と遅延時間調整回路
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
DE60234195D1 (de) * 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit

Also Published As

Publication number Publication date
EP1422693A4 (en) 2007-02-14
JPWO2003019530A1 (ja) 2004-12-16
JP4170217B2 (ja) 2008-10-22
WO2003019530A1 (fr) 2003-03-06
DE60229757D1 (de) 2008-12-18
EP1422693A1 (en) 2004-05-26
EP1422693B1 (en) 2008-11-05
CN100568343C (zh) 2009-12-09
US20040220801A1 (en) 2004-11-04
CN1473325A (zh) 2004-02-04
CN1702736A (zh) 2005-11-30

Similar Documents

Publication Publication Date Title
CN1224956C (zh) 基音波形信号发生设备、基音波形信号发生方法及程序
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1308916C (zh) 采用频带复现增强源编码
CN1174368C (zh) 修改复合波形的泛音含量的方法
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
CN1096148C (zh) 信号编码方法和装置
CN1324558C (zh) 编码设备,解码设备以及音频数据分配系统
CN1125010A (zh) 检测和产生听觉信号中的瞬态条件的方法和系统
CN1194336C (zh) 波形产生方法
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1297222A (zh) 信息处理设备、方法和记录媒体
CN1747608A (zh) 音频信号处理装置和方法
CN101604528B (zh) 信息处理设备和方法
CN1692402A (zh) 声音合成方法以及声音合成装置
CN1689069A (zh) 声音编码设备和声音编码方法
CN1527995A (zh) 编码设备和解码设备
CN101053019A (zh) 使用复值滤波器组的音频信号的编码和解码
CN1622195A (zh) 语音合成方法和语音合成系统
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1849648A (zh) 编码装置和译码装置
CN1261713A (zh) 接收装置和方法,通信装置和方法
CN1465044A (zh) 声信号编码方法和设备、解码方法和设备及记录介质
CN1669065A (zh) 声音-语调校准方法
CN1163868C (zh) 一种转换话音重现速率的方法及其装置
CN1514931A (zh) 语音信号内插的装置、方法和程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: JVC KENWOOD CORPORATION

Free format text: FORMER OWNER: KABUSHIKI KAISHA KENWOOD;KABUSHIKI KAISHA KENWOOD

Effective date: 20140228

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20140228

Address after: Kanagawa

Patentee after: JVC KENWOOD Corp.

Address before: Tokyo, Japan

Patentee before: Kabushiki Kaisha KENWOOD

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151223

Address after: Japan's Tokyo East Shinagawa Shinagawa district four chome 12 No. 3 140-0002

Patentee after: Rakuten, Inc.

Address before: Kanagawa

Patentee before: JVC Kenwood Corp.

C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Tokyo, Japan, the world's land area in the valley of Yu Chuan Ding Ding 14, No. 1, 158-0094

Patentee after: Rakuten, Inc.

Address before: Japan's Tokyo East Shinagawa Shinagawa district four chome 12 No. 3 140-0002

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Tokyo, Japan, the world's land area in the valley of Yu Chuan Ding Ding 14, No. 1, 158-0094

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20051026