CN100583235C - 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统 - Google Patents
分析基频信息的方法以及实现所述分析方法的话音转换方法和系统 Download PDFInfo
- Publication number
- CN100583235C CN100583235C CN200480014488.8A CN200480014488A CN100583235C CN 100583235 C CN100583235 C CN 100583235C CN 200480014488 A CN200480014488 A CN 200480014488A CN 100583235 C CN100583235 C CN 100583235C
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- information
- voice signal
- function
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 title claims abstract description 32
- 238000006243 chemical reaction Methods 0.000 title claims description 48
- 238000001228 spectrum Methods 0.000 claims abstract description 81
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 6
- 230000009466 transformation Effects 0.000 claims description 38
- 230000001131 transforming effect Effects 0.000 claims description 32
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
一种用于对包含在话音采样中的基频信息进行分析的方法,其特征在于它包括:至少一个分析步骤(2),用于对分组成帧的话音采样进行分析,从而获得每一采样帧的频谱相关信息和基频相关信息;模型确定步骤(20),用于确定代表所有采样的频谱和基频的公共特性的模型;以及基频预测函数确定步骤(30),用于仅根据频谱相关信息、基于所述模型和话音采样确定基频预测函数。
Description
技术领域
本发明涉及一种用于对包含在话音采样中的基频信息进行分析的方法以及一种实现所述分析方法的话音转换方法和系统。
背景技术
根据要产生的声音的性质,语音、尤其是话音的产生,需要声带的振动,这意味着:声带的振动产生具有一个基本周期的周期性结构的语音信号,该基本周期的倒数被称为基频。
在诸如话音转换之类的某些应用中,话音呈现(aural rendering)至关重要,并且,为了获得可接受的音质,需要有效地控制与韵律有关的参数,包括基频。
当前,存在许多种方法可用于对包含在话音采样中的基频信息进行分析。
这些分析能够确定基频特性和对其进行建模。例如,现有的某些方法能够针对话音采样的整个数据库确定基频的斜率或幅度范围。
知道这些参数之后,例如,通过对源和目标说话者之间的基频调整,就能够修改语音信号,从而全面地考虑目标说话者的基频的均值和变化。
但是,这些分析只能够获得一般的表示形式,而不是能够定义参数的基频表示形式,因此并不重要,尤其是对于那些发声风格不同的说话者。
发明内容
本发明的目的是通过定义一种用于对话音采样的基频信息进行分析的方法来克服该问题,从而能够定义参数可被定义的基频表示形式。
为此,本发明的主题是一种用于对包含在话音采样中的基频信息进行分析的方法,特征在于它至少包括:
-分析步骤,用于对分组成帧的话音采样进行分析,从而得到每一采样帧的频谱相关信息和基频相关信息;
-模型确定步骤,用于确定代表所有采样的频谱和基频的公共特性的模型;以及
-基频预测函数确定步骤,用于仅根据频谱相关信息、基于所述模型和话音采样来确定基频预测函数。
根据这种分析方法的其它特性:
-所述分析步骤用于以倒谱系数形式提供所述频谱相关信息;
-所述分析步骤包括:
-建模子步骤,用于根据谐波信号与噪声信号之和,对话音采样进行建模;
-频率参数估计子步骤,用于估计话音采样的频率参数,至少是基频;
-同步分析子步骤,用于同步分析每一采样帧的基频;以及
-频谱参数估计子步骤,用于估计每一采样帧的频谱参数;
-它还包括归一化步骤,用于将每一采样帧的基频相对于已分析的采样的基频的均值进行归一化;
-所述模型确定步骤对应于通过混合高斯密度来确定模型;
-所述模型确定步骤包括:
-用于确定与混合高斯密度相对应的模型的子步骤;以及
-参数估计子步骤,用于基于所述采样和所述模型的频谱信息和基频信息之间的最大相似度估计,来估计混合高斯密度的参数;
-在已知所述采样的频谱信息的前提下,基于所述基频实现的估计量来实现所述预测函数确定步骤;
-所述基频预测函数确定步骤包括条件期望确定子步骤,用于在已知所述频谱信息的前提下,基于根据所述模型得到所述频谱信息的后验概率,来确定实现所述基频实现的条件期望,所述条件期望形成所述估计量。
本发明还涉及一种话音信号转换方法,用于将源说话者所发出的话音信号转换为转换话音信号,所述转换话音信号的特性与目标说话者的话音信号的特性相似,该方法至少包括:
-变换函数确定步骤,用于确定将源说话者的频谱特性变换成目标说话者的频谱特性的函数,该步骤是基于源说话者和目标说话者的话音采样而实现的;以及
-变换步骤,用于借助所述变换函数对要转换的源说话者话音信号的频谱信息进行变换;
特征在于,它还包括:
-基频预测函数确定步骤,仅根据目标说话者的频谱相关信息确定基频预测函数,所述预测函数是借助于上面定义的分析方法而获得的;以及
-预测步骤,通过将所述基频预测函数应用于源说话者的话音信号的所述已变换的频谱信息,从而预测待转换的话音信号的基频。
根据这种转换方法的其它特性:
-所述变换函数确定步骤是在已知源频谱特性的前提下,基于目标频谱特性实现的估计量而实现的;
-所述变换函数确定步骤包括:
-建模子步骤,用于根据谐波信号与噪声信号的和模型,对
源和目标话音采样进行建模;
-校准子步骤,用于校准源和目标采样;以及
-变换函数确定子步骤,用于在已知源频谱特性的前提下,基于对目标频谱特性实现的条件期望进行计算,来确定所述变换函数,该条件期望构成了所述估计量;
-所述变换函数是谱包络变换函数;
-它还包括分析步骤,用于分析待转换的话音信号,以提供所述频谱相关信息和基频相关信息;
-它还包括合成步骤,用于基于至少已变换的频谱信息和预测的基频信息来形成转换话音信号。
本发明还涉及一种话音信号转换系统,用于把源说话者所发出的话音信号转换成转换话音信号,所述转换话音信号的特性相似于目标说话者的话音信号的特性,所述系统至少包括:
-变换函数确定模块,用于确定将源说话者的频谱特性变换成目标说话者的频谱特性的函数,该模块在其输入端接收源说话者和目标说话者的话音采样;以及
-变换模块,用于通过应用由所述变换函数确定模块所提供的变换函数,将待转换的源说话者的话音信号的频谱信息进行变换,
其特征在于,它还包括:
-基频预测函数确定模块,仅根据频谱相关信息为目标说话者确定基频预测函数,以基于目标说话者的话音采样实现分析方法;以及
-基频预测模块,通过将由所述基频预测函数确定模块所确定的所述预测函数应用于由所述变换模块所提供的所述已变换的频谱信息,来预测待转换的所述话音信号的基频。
根据本系统的其它特性:
-它还包括:
-分析模块,用于分析待转换的话音信号,以在其输出端提供待转换的话音信号的频谱相关信息和基频相关信息;以及
-合成模块,用于基于至少由该模块所提供的已变换频谱信息和由该模块所提供的预测的基频信息,来形成转换话音信号。
-所述变换函数确定模块用于提供谱包络变换函数;
-它用于实现上面定义的话音转换方法。
附图说明
通过阅读下面仅作为示例的描述和附图,本发明将更加易于理解,其中:
图1是根据本发明的分析方法的流程图;
图2是用于实现根据本发明的分析方法的话音转换方法的流程图;以及
图3是用于实现图2所示的本发明方法的话音转换系统的功能框图。
具体实施方式
图1中所示的根据本发明的方法是基于包含自然语音序列的话音采样的数据库而实现的。
该方法从分析步骤2开始,步骤2用于对通过分组成帧的采样点进行分析,从而得到每个采样帧的频谱相关信息,尤其是谱包络相关信息和基频相关信息。
在所述实施例中,该分析步骤2基于使用声音信号模型,该模型的形式是根据通常被称为“HNM”(谐波加噪声模型)的模型的谐波信号和噪声信号之和。
另外,所述实施例基于用离散倒谱表示的谱包络。
事实上,倒谱表示形式能够从语音信号中分离出与来自所得源分量的声道(vocal tract)相关的分量,后者对应于声带振动并且特征在于基频。
这样,分析步骤2包括建模子步骤4,用于将每个话音信号帧建模为代表该信号的周期性分量的谐波部分以及代表摩擦噪声和声门激发(glottal excitation)变化的噪声部分,该谐波部分由L个具有幅度Al、相位φl的谐波正弦信号之和组成。
因此,这可以表示为以下公式:
s(n)=h(n)+b(n)
其中
因此h(n)表示信号s(n)的谐波近似。
步骤2还包括子步骤5,用于估计每一帧的频率参数,尤其是基频,例如采用自相关方法。
在常规方式中,该HNM分析提供了最大话音频率。作为一个变量,该频率可以被任意定义,或通过其它已知手段来估计。
子步骤5之后是子步骤6,用于同步分析每一帧的基频,从而估计谐波部分的参数和信号噪声的参数。
在所述实施例中,该同步分析对应于确定谐波参数,通过将全部信号及其谐波分解(在所述实施例中,对应于估计的噪声信号)之间的加权最小二乘方准则最小化。以E表示的该准则等于:
在该式中,w(n)是分析窗,Ti是当前帧的基本周期。
因此,分析窗以基本周期标记为中心,并且其持续时间为该周期的两倍。
分析步骤2最后包括子步骤7,用于估计信号的谱包络分量的参数,使用例如正则化的离散倒谱方法和临界波段尺度(Bark-scale)变换,尽可能如实地再现人耳的属性。
因此,分析步骤2为n阶语音信号采样的每帧提供包含基频信息的表示为xn的标量和包含倒谱系数序列形式的频谱信息的表示为yn的矢量。
更好地,分析步骤2之后是步骤10,用于将每帧的基频值相对于基频均值进行归一化,从而在每个话音采样帧中用归一化的基频值代替该基频值,根据下面的公式:
在该公式中,Fo moy对应于全部已分析的数据库的基频值的均值。
这种归一化使得能够修改基频标量的变化范围,以使其与倒谱系数的变化范围一致。
归一化步骤10之后是模型确定步骤20,用于确定代表所有已分析的采样的公共倒谱和基频特性的模型。
所述实施例包括根据混合高斯密度模型(通常被称为“GMM”)的基频和离散倒谱的概率模型,该模型的参数是基于归一化的基频和离散倒谱的联合密度进行估计的。
在常规方式中,随机变量的概率密度通常被表示成p(z),根据混合高斯密度模型GMM,以下面的数学方式表示:
其中 0≤αi≤1
在该公式中,N(z;μi;∑i)是均值为μi协方差矩阵为∑i的正态分布概率密度,系数αi为混合系数。
因此,系数αi对应于通过第i个混合高斯分量产生随机变量z的先验概率。
在更具体的方式中,模型确定步骤20包括子步骤22,用于对表示为y的倒谱和表示为x的归一化基频的联合密度进行建模,表示为:
p(z)=p(y,x),其中
在这些公式中,x=[x1,x2,…xN]为包含N个话音采样帧的归一化基频信息的标量序列,y=[y1,y2,…yN]为相应的倒谱系数矢量的序列。
然后,步骤20包含参数估计子步骤24,用于估计概率密度p(z)的GMM参数(α,μ,∑)。该估计可以通过例如借助已知的常规算法“EM”(期望值最大化算法)来实现,对应于迭代法,通过迭代法可以得到语音采样数据和高斯混合模型之间的最大似然估计量。
GMM模型初始参数的确定借助于常规的矢量量化技术来获得。
因此模型确定步骤20提供了用倒谱系数表示的代表公共频谱特性的混合高斯概率密度参数,以及已分析的话音采样的基频。
该方法还包括步骤基频预测函数确定30,用于基于模型和话音采样,仅根据通过信号倒谱提供的频谱信息来确定基频预测函数。
在给定话音采样的倒谱的条件下,基于基频实现的估计量确定该预测函数,所述估计量在所描述的实施例中是由条件期望形成的。
为此,基频预测函数确定步骤30包括条件期望确定子步骤32,用于在已知倒谱提供的频谱相关信息的前提下,确定基频的条件期望。该条件期望表示为F(y)并且由下面的公式来确定:
其中
其中
在这些方程中,Pi(y)对应于由高斯混合模型的第i个分量产生倒谱矢量y的后验概率,所述高斯混合模型由步骤20中的协方差矩阵∑i和正态分布μi定义。
这样,通过确定条件期望,可以根据倒谱信息获得基频预测函数。
作为变量,在步骤30中实现的估计量可以是最大后验准则,其被称为“MAP”,并且对应于仅用于最代表源矢量的模型实现的期望计算。
因此,很清楚的是,根据本发明的分析方法能够基于模型和话音采样,仅根据所述实施例中由倒谱提供的频谱信息来获得基频预测函数。
这种类型的预测函数能够仅根据语音信号的频谱信息来确定该信号的基频值,从而能够进行基频的相关预测,尤其是对于不在已分析的话音采样中的声音。
下面参考图2在话音转换的上下文中描述根据本发明的分析方法的使用。
话音转换包括修改被称为“源说话者”的参考说话者的话音信号,从而使所产生的信号听起来是由被称为“目标说话者”的不同说话者所发出的。
该方法是使用由源说话者和目标说话者所发出的的话音采样数据库来实现的。
在常规方式中,这种类型的方法包括变换函数确定步骤50,用于为源说话者的话音采样的频谱特性确定变换函数,以使它们相似于目标说话者的话音采样的频谱特性。
在所述实施例中,变换函数确定步骤50基于HNM分析,HNM分析能够确定源和目标说话者的话音信号谱包络特性之间的关系。
为此,需要与相同的话音序列的声学实现相对应的源和目标话音记录。
变换函数确定步骤50包括建模子步骤52,用于根据谐波和噪声信号的HNM和模型对话音采样进行建模。
子步骤52之后是子步骤54,该步骤能够借助例如常规校准算法“DTW”(Dynamic Time Warping,动态时间校准)来校准源和目标信号。
变换函数确定步骤50还包括子步骤56,用于确定代表源和目标说话者话音采样频谱的公共特性的模型,如GMM模型。
在所述实施例中,使用了包括64个分量以及含有源和目标倒谱参数的信号矢量的GMM模型,从而可以定义频谱变换函数,其对应于被表示为t的目标频谱参数实现的估计量,在已知被表示为s的源频谱参数的前提下。
在所述实施例中,被表示为F(s)的该变换函数由下面公式以条件期望的形式表示:
其中
其中
通过源和目标参数之间的最大相似度来精确地确定该函数,可以通过EM算法来获得。
作为变量,可以根据最大后验准则形成该估计量。
因此,所定义的函数能够修改源说话者产生的语音信号的谱包络,以使其与目标说话者的谱包络相似。
在最大化之前,可以借助例如矢量量化算法来将代表源和目标的公共频谱特性的GMM模型的参数进行初始化。
并行地,在基频预测函数确定步骤60中实现根据本发明的分析方法,其中只分析目标说话者的话音采样。
如图1所述,采用根据本发明的基频预测函数确定步骤60,能够只基于频谱信息获得目标说话者的基频预测函数。
转换方法还包括分析步骤65,在该步骤中对源说话者发出的、待转换的话音信号进行分析,所述待转换的信号与步骤50和60中所使用的话音信号不同。
该分析步骤65借助例如根据HNM模型的分解来实现,从而提供以倒谱系数形式表示的频谱信息、基频信息以及最大频率和相位话音信息。
步骤65之后是步骤70,在该步骤中,通过向步骤65中定义的倒谱系数应用步骤50中确定的变换函数,将待转换的话音信号的频谱特性进行变换。
具体而言,步骤70修改待转换的话音信号的谱包络。
在步骤70结束之后,将待转换的源说话者信号的采样的每个采样帧与已变换的、特性相似于目标说话者的采样的频谱特性的频谱信息关联起来。
该转换方法还包括用于预测源说话者的话音采样的基频的步骤80,通过将在步骤60中使用根据本发明的方法而确定的预测函数仅应用到与待转换的源说话者话音信号相关联的已变换的频谱信息上。
事实上,由于源说话者的话音采样和特性类似于目标说话者采样频谱特性的已转换的频谱信息相关联,所以,步骤60中所定义的预测函数使得能够获得基频的相关预测。
在常规方式中,该转换方法包括输出信号合成步骤90,在所述例子中用HNM合成来实现,该HNM合成基于步骤70中所提供的变换的谱包络信息、步骤80中所产生的预测的基频信息以及步骤65中所提供的最大频率和相位话音信息直接提供转换话音信号。
这样,用于实现根据本发明的分析方法的转换方法使得能够得到话音转换,其实现频谱修改和基频预测,从而获得高质量的话音呈现。
具体而言,可以基于源说话者和目标说话者所发出的同样的话音采样来评估这种类型的方法的有效性。
借助所述方法对源说话者所发出的话音信号进行转换,并且,对已转换的信号和由目标说话者所发出的信号之间的相似度进行评估。
例如,以用于将已转换的信号从目标信号分开的声距与用于将目标信号从源信号分开的声距之间的比值的形式来计算这种相似度。
在基于倒谱系数或借助于这些倒谱系数而获得的信号幅度谱来计算声距时,借助于根据本发明的方法所转换的信号所获得的比值在0.3至0.5之间。
图3示出了用于实现图2所述的方法的话音转换系统的功能框图。
该系统在其输入端使用由源说话者所发出的话音采样的数据库100和由目标说话者所发出的至少包含相同话音采样的数据库102。
变换函数确定模块104使用这两个数据库,该模块104确定用于将源说话者频谱特性变换为目标说话者频谱特性的函数。
变换函数确定模块104用于实现图2所述方法的步骤50,从而确定谱包络变换函数。
另外,该系统还包括基频预测函数确定模块106,用于仅根据频谱相关信息确定基频预测函数。为此,基频预测函数确定模块106在其输入端只接收包含在数据库102中的目标说话者的话音采样。
模块106用于实现图2所述方法的步骤60,对应于图1所述的根据本发明的分析方法。
模块104所提供的变换函数和模块106所提供的预测函数优选存储在一起,以便后续使用。
话音转换系统在其输入端接收话音信号110,话音信号110对应于源说话者所发出的并且要被转换的语音信号。
信号110被引入信号分析模块112,用于实现例如HNM分解并使信号110的频谱信息解离为倒谱系数和基频信息的形式。模块112还提供了通过应用HNM模型而获得的最大频率和相位话音信息。
因此模块112实现前面所述方法的步骤65。
这种分析可能提前执行,并且将信息存储用于后续使用。
然后,模块112所提供的倒谱系数被引入变换模块114中,该模块114用于应用模块104所确定的变换函数。
这样,变换模块114实现图2所述的方法的步骤70,并提供特性相似于目标说话者的频谱特性的已变换的倒谱系数。
这样,模块114实现了话音信号110的谱包络的修改。
然后,模块114所提供的已变换的倒谱系数被引入基频预测模块116中,该模块116用于实现模块106所确定的预测函数。
这样,模块116实现图2所述的方法的步骤80,并且在输出端提供仅基于已变换的频谱信息而预测的基频信息。
该系统还包括合成模块118,合成模块118在其输入端接收从模块114产生的并且对应于谱包络的已变换的倒谱系数、从模块116产生的预测的基频信息以及由模块112提供的最大频率和相位话音信息。
这样,模块118实现图2所述的方法的步骤90,并且提供信号120,除信号120的频谱和基频特性已被修改从而与目标说话者的频谱和基频特性相似之外,信号120对应于源说话者的话音信号110。
所述系统可以通过各种方式实现,尤其是借助与声音获取硬件模块相连的适当计算机程序。
当然,还可设想除所述实施例以外的其他实施例。
具体而言,可以用本领域技术人员所知的其它技术和模型来代替HNM和GMM模型,例如LSF(线性谱频率)和LPC(线性预测编码)技术,或者共振峰相关的参数。
Claims (15)
1.一种用于对包含在话音采样中的基频信息进行分析的方法,其特征在于它至少包括:
-分析步骤(2),用于对分组成帧的所述话音采样进行分析,从而获得每一采样帧的谱包络信息和基频信息;
-模型确定步骤(20),用于通过混合高斯密度来确定代表所有采样的频谱和基频的公共特性的模型;以及
-基频预测函数确定步骤(30),用于通过在已知所述谱包络信息的前提下,基于从所述模型获得该谱包络信息的后验概率,确定所述基频的条件期望,从而仅根据谱包络信息并基于所述模型和话音采样来确定用于确定基频的基频预测函数,其中所述基频预测函数是用于估计所述基频的估计量,所述条件期望形成所述估计量。
2.根据权利要求1所述的方法,其特征在于:所述分析步骤(2)用于提供倒谱系数形式的所述谱包络信息。
3.根据权利要求1所述的方法,其特征在于:所述分析步骤(2)包括:
-建模子步骤(4),用于根据谐波信号与噪声信号之和来对话音采样进行建模;
-基频估计子步骤(5),用于估计所述话音采样的基频;
-同步分析子步骤(6),用于对每一采样帧的基频进行同步分析;以及
-谱包络参数估计子步骤(7),用于估计每一采样帧的所述谱包络的参数。
4.根据权利要求1所述的方法,其特征在于:还包括归一化步骤(10),用于将每一采样帧的基频相对于所述已分析的采样的基频的均值进行归一化。
5.根据权利要求1所述的方法,其特征在于:所述模型确定步骤(20)包括:
-用于确定与混合高斯密度相对应的模型的子步骤(22);以及
-参数估计子步骤(24),用于基于所述采样和所述模型的频谱信息和基频信息之间的最大相似度估计,来估计混合高斯密度的参数。
6.一种用于将源说话者所发出的话音信号转换为转换话音信号的方法,所述转换话音信号的频谱特性全面地考虑目标说话者的话音信号的频谱特性,该方法至少包括:
-变换函数确定步骤(50),用于确定将所述源说话者的频谱特性变换为所述目标说话者的频谱特性的函数,该步骤是基于所述源说话者和所述目标说话者的话音采样而实现的;以及
-变换步骤(70),用于借助所述变换函数将所述源说话者的待转换话音信号的频谱信息进行变换,
其特征在于它还包括:
-基频预测函数确定步骤(60),用于仅根据所述目标说话者的谱包络信息确定基频预测函数,借助权利要求1至5中的任一项所述的分析方法来获得所述基频预测函数;以及
-预测步骤(80),用于通过向所述源说话者的话音信号的已变换频谱信息应用所述基频预测函数,从而预测待转换的所述话音信号的基频。
7.根据权利要求6所述的方法,其特征在于:在已知所述源频谱特性的前提下,基于所述目标频谱特性实现的估计量来实现所述变换函数确定步骤(50)。
8.根据权利要求7所述的方法,其特征在于:所述变换函数确定步骤(50)包括:
-建模子步骤(52),用于根据谐波信号与噪声信号的和模型对所述源和目标话音采样进行建模;
-校准子步骤(54),用于校准源和目标采样;以及
-确定子步骤(56),用于在已知所述源频谱特性的前提下,基于计算所述目标频谱特性实现的条件期望来确定所述变换函数,该条件期望形成所述估计量。
9.根据权利要求6所述的方法,其特征在于:所述变换函数是谱包络变换函数。
10.根据权利要求6所述的方法,其特征在于:它还包括分析步骤(65),用于分析待转换的所述话音信号,以提供所述谱包络信息和基频信息。
11.根据权利要求6至10的任一项所述的方法,其特征在于:它还包括合成步骤(90),用于至少基于所述已变换的频谱信息和所述预测的基频信息来形成转换话音信号。
12.一种用于将源说话者所发出的话音信号(110)转换成转换话音信号的系统,所述转换话音信号的频谱特性全面地考虑目标说话者的话音信号的频谱特性,所述系统至少包括:
-变换函数确定模块(104),用于确定将所述源说话者的频谱特性变换为所述目标说话者的频谱特性的函数,该模块在其输入端接收源说话者(100)和目标说话者(102)的话音信号;以及
-变换模块(114),用于通过由所述变换函数确定模块(104)所提供的所述变换函数对所述待转换的源说话者的话音信号的频谱信息进行变换,
其特征在于它还包括:
-基频预测函数确定模块(106),用于仅根据所述目标说话者的谱包络信息确定基频预测函数,以基于所述目标说话者的话音采样(102)来实现权利要求1至5的任一项所述的分析方法;以及
-基频预测模块(116),用于通过向由所述变换模块(114)所提供的所述已变换频谱信息应用由所述基频预测函数确定模块(106)所确定的所述基频预测函数,来预测所述待转换的话音信号(110)的基频。
13.根据权利要求12所述的系统,其特征在于它还包括:
-分析模块(112),用于分析所述待转换的话音信号(110),以在其输出端提供所述待转换的话音信号的谱包络信息和基频信息;以及
-合成模块(118),用于至少基于由变换模块(114)所提供的所述已变换的频谱信息和由基频预测模块(116)所提供的所述预测的基频信息来形成转换话音信号。
14.根据权利要求12所述的系统,其特征在于:所述变换函数确定模块(104)用于提供谱包络变换函数。
15.根据权利要求12至14的任一项所述的系统,其特征在于:该系统用于实现根据权利要求6至9中的任一项所述的话音转换方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR03/03790 | 2003-03-27 | ||
FR0303790A FR2853125A1 (fr) | 2003-03-27 | 2003-03-27 | Procede d'analyse d'informations de frequence fondamentale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d'analyse. |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1795491A CN1795491A (zh) | 2006-06-28 |
CN100583235C true CN100583235C (zh) | 2010-01-20 |
Family
ID=32947218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480014488.8A Expired - Fee Related CN100583235C (zh) | 2003-03-27 | 2004-03-02 | 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7643988B2 (zh) |
EP (1) | EP1606792B1 (zh) |
JP (1) | JP4382808B2 (zh) |
CN (1) | CN100583235C (zh) |
AT (1) | ATE395684T1 (zh) |
DE (1) | DE602004013747D1 (zh) |
FR (1) | FR2853125A1 (zh) |
WO (1) | WO2004088633A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
CN101064104B (zh) * | 2006-04-24 | 2011-02-02 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
US20080167862A1 (en) * | 2007-01-09 | 2008-07-10 | Melodis Corporation | Pitch Dependent Speech Recognition Engine |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
US8131550B2 (en) * | 2007-10-04 | 2012-03-06 | Nokia Corporation | Method, apparatus and computer program product for providing improved voice conversion |
JP4577409B2 (ja) * | 2008-06-10 | 2010-11-10 | ソニー株式会社 | 再生装置、再生方法、プログラム、及び、データ構造 |
CN102063899B (zh) * | 2010-10-27 | 2012-05-23 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN102664003B (zh) * | 2012-04-24 | 2013-12-04 | 南京邮电大学 | 基于谐波加噪声模型的残差激励信号合成及语音转换方法 |
ES2432480B2 (es) * | 2012-06-01 | 2015-02-10 | Universidad De Las Palmas De Gran Canaria | Método para la evaluación clínica del sistema fonador de pacientes con patologías laríngeas a través de una evaluación acústica de la calidad de la voz |
US9570087B2 (en) * | 2013-03-15 | 2017-02-14 | Broadcom Corporation | Single channel suppression of interfering sources |
CN109524023A (zh) * | 2016-01-22 | 2019-03-26 | 大连民族大学 | 一种对基频估计实验验证的方法 |
WO2018138543A1 (en) * | 2017-01-24 | 2018-08-02 | Hua Kanru | Probabilistic method for fundamental frequency estimation |
CN108766450B (zh) * | 2018-04-16 | 2023-02-17 | 杭州电子科技大学 | 一种基于谐波冲激分解的语音转换方法 |
CN108922516B (zh) * | 2018-06-29 | 2020-11-06 | 北京语言大学 | 检测调域值的方法和装置 |
CN111179902B (zh) * | 2020-01-06 | 2022-10-28 | 厦门快商通科技股份有限公司 | 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质 |
CN112750446B (zh) * | 2020-12-30 | 2024-05-24 | 标贝(青岛)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
CN115148225B (zh) * | 2021-03-30 | 2024-09-03 | 北京猿力未来科技有限公司 | 语调评分方法、语调评分系统、计算设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
EP0970466B1 (en) * | 1997-01-27 | 2004-09-22 | Microsoft Corporation | Voice conversion |
-
2003
- 2003-03-27 FR FR0303790A patent/FR2853125A1/fr active Pending
-
2004
- 2004-03-02 WO PCT/FR2004/000483 patent/WO2004088633A1/fr active IP Right Grant
- 2004-03-02 AT AT04716265T patent/ATE395684T1/de not_active IP Right Cessation
- 2004-03-02 DE DE602004013747T patent/DE602004013747D1/de not_active Expired - Lifetime
- 2004-03-02 JP JP2006505682A patent/JP4382808B2/ja not_active Expired - Fee Related
- 2004-03-02 EP EP04716265A patent/EP1606792B1/fr not_active Expired - Lifetime
- 2004-03-02 CN CN200480014488.8A patent/CN100583235C/zh not_active Expired - Fee Related
- 2004-03-02 US US10/551,224 patent/US7643988B2/en not_active Expired - Fee Related
Non-Patent Citations (5)
Title |
---|
A system for voice conversion based on probabilisticclassification and a harmonic plus noise model. STYLIANOU Y ET AL.ICASSP '98,Vol.1 No.23. 1998 |
A system for voice conversion based on probabilisticclassification and a harmonic plus noise model. STYLIANOU Y ET AL.ICASSP'98,Vol.1 No.23. 1998 * |
Fundamental frequency estimation and tracking usingmaximum likelihood harmonic matching and HMMs. DOVAL B ET AL.STATISTICAL SIGNAL AND ARRAY PROCESSING.,Vol.4 No.27. 1993 |
Fundamental frequency estimation and tracking usingmaximum likelihood harmonic matching and HMMs. DOVAL B ET AL.STATISTICAL SIGNAL AND ARRAY PROCESSING,Vol.4 No.27. 1993 * |
Stochastic modeling of spectral adjustment for highquality pitch modification. KAIN A ET AL.ICASSP 2000,Vol.2 No.5. 2000 |
Also Published As
Publication number | Publication date |
---|---|
JP2006521576A (ja) | 2006-09-21 |
ATE395684T1 (de) | 2008-05-15 |
JP4382808B2 (ja) | 2009-12-16 |
US7643988B2 (en) | 2010-01-05 |
CN1795491A (zh) | 2006-06-28 |
FR2853125A1 (fr) | 2004-10-01 |
EP1606792A1 (fr) | 2005-12-21 |
US20060178874A1 (en) | 2006-08-10 |
WO2004088633A1 (fr) | 2004-10-14 |
DE602004013747D1 (de) | 2008-06-26 |
EP1606792B1 (fr) | 2008-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
US7765101B2 (en) | Voice signal conversation method and system | |
CN100583235C (zh) | 分析基频信息的方法以及实现所述分析方法的话音转换方法和系统 | |
US6741960B2 (en) | Harmonic-noise speech coding algorithm and coder using cepstrum analysis method | |
US7257535B2 (en) | Parametric speech codec for representing synthetic speech in the presence of background noise | |
US6954745B2 (en) | Signal processing system | |
EP1995723B1 (en) | Neuroevolution training system | |
US7035790B2 (en) | Speech processing system | |
Ding et al. | Simultaneous estimation of vocal tract and voice source parameters based on an ARX model | |
CN110648684B (zh) | 一种基于WaveNet的骨导语音增强波形生成方法 | |
WO2019163848A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
JP2006521576A5 (zh) | ||
US6125344A (en) | Pitch modification method by glottal closure interval extrapolation | |
JPH08248994A (ja) | 声質変換音声合成装置 | |
JPH08305396A (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
Korse et al. | Entropy Coding of Spectral Envelopes for Speech and Audio Coding Using Distribution Quantization. | |
JP3490324B2 (ja) | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 | |
Arroabarren et al. | Glottal spectrum based inverse filtering. | |
KR100484666B1 (ko) | 성도특성 변환을 이용한 음색변환장치 및 방법 | |
Koishida et al. | Spectral representation of speech based on mel‐generalized cepstral coefficients and its properties | |
Orphanidou et al. | Voice morphing using the generative topographic mapping | |
Agiomyrgiannakis et al. | Stochastic modeling and quantization of harmonic phases in speech using wrapped gaussian mixture models | |
Ramadan | Compressive sampling of speech signals | |
Richards et al. | Dynamic constraint weighting in the context of articulatory parameter estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100120 Termination date: 20170302 |