CN101432799A - 基于高斯混合模型的变换中的软校准 - Google Patents

基于高斯混合模型的变换中的软校准 Download PDF

Info

Publication number
CN101432799A
CN101432799A CNA200780014971XA CN200780014971A CN101432799A CN 101432799 A CN101432799 A CN 101432799A CN A200780014971X A CNA200780014971X A CN A200780014971XA CN 200780014971 A CN200780014971 A CN 200780014971A CN 101432799 A CN101432799 A CN 101432799A
Authority
CN
China
Prior art keywords
sequence
vector
eigenvector
data
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200780014971XA
Other languages
English (en)
Other versions
CN101432799B (zh
Inventor
J·蒂安
J·尼尔米南
V·博帕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101432799A publication Critical patent/CN101432799A/zh
Application granted granted Critical
Publication of CN101432799B publication Critical patent/CN101432799B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

提供了用于在基于高斯混合模型(GMM)的矢量变换以及其它矢量变换中执行软校准的系统和方法。软校准可以针对源特征矢量和目标特征矢量配对来指派校准概率。继而使用矢量配对以及相关联的概率来计算转换函数,这例如是通过根据联合矢量和校准概率来计算GMM训练参数,以创建用于将语音从源说话者转换到目标说话者的声音转换函数。

Description

基于高斯混合模型的变换中的软校准
背景技术
本公开涉及例如使用基于高斯混合模型(GMM)技术的标量变换或矢量变换,以用于生成声音转换函数。声音转换是源说话者的声音(例如,音调、发音)到目标说话者的声音的自适应特性。近年来,对高效地生成其它相关转换模型的声音转换系统和应用的兴趣显著提高。这种系统的一个应用涉及个性化文本转语音(TTS)系统中的声音转换的用户。如果没有声音转换技术和对来自不同说话者的语音矢量的有效变换,则只能通过耗时、昂贵的过程(诸如,大量的录音和人工注解)来创建新的声音。
公知的基于GMM的矢量变换可以用在声音转换和其它变换应用中,这是通过:根据源说话者和目标说话者的特征矢量来生成联合特征矢量,接着通过使用该联合矢量来训练GMM参数,并且最终创建源声音和目标声音之间的转换函数。典型的声音转换系统包括三个主要步骤:特征提取、源说话者和目标说话者的已提取特征之间的校准、以及对经校准的源矢量和目标矢量的GMM训练。在典型的系统中,源矢量序列和目标矢量序列之间的矢量校准必须在训练GMM参数之前或创建转换函数之前执行。例如,如果录制了来自两个不同说话者的一组相同的讲话,则在试图建立转换函数之前,必须在两个录音中识别相应的讲话。这个概念被称为源矢量和目标矢量的校准。
传统的矢量校准技术通常是例如通过专家来人工执行,或者通过动态时间弯曲(DTW)过程来自动地执行。然而,人工和DTW二者都具有明显的缺点,这些缺点对矢量变换的整体质量和效率可能具有负面影响。例如,这两种方案都依赖于“硬校准”的概念。也即,对于每个目标矢量,将每个源矢量确定为精确地与一个目标矢量完全校准,或者确定为根本没有被校准,反之亦然。
参考图1,在源矢量序列110和目标矢量序列120之间示出了传统硬校准方案的例子。矢量序列110和120分别包含特征矢量集合x1-x16和y1-y16,其中每个特征矢量(语音矢量)可以表示例如较大声音片段中的基本语音声音。这些矢量序列110和120可以是等价的(也即,包含许多相同语音特征),例如对说着相同单词或短语两个不同的人进行录音所形成的矢量序列。如图1中所示,即使是等价的矢量序列也常常包含不同数量的矢量,并且也可能在序列中的不同位置具有等价的语音特征(例如x16和y12)。例如,源说话者对某些声音发音可能比目标说话者要慢,或者在声音之间停顿的比目标说话者稍长,等等。因此,在源矢量和目标矢量之间的一对一的硬校准常常结果导致丢弃某些特征矢量(例如,x4、x5、x10...),或者导致对特征矢量的复制或插值以为校准匹配创建额外配对。其结果是,小的校准错误可能被放大成更大的错误,并且整个校准过程可能变得更加复杂和高代价。最后,在许多情况下硬校准可能是完全不可能的。即使是最好的专家或任何DTW自动装置常常也不能将从话音中提取的特征矢量完全校准。因此,硬校准意味着即使其被完美无缺地执行也仍然存在某种程度的错误。
作为由硬校准方案引起的校准错误放大的例子,图2示出将要为了矢量变换而进行校准的源序列210和目标序列220的框图。在这个例子中,序列210和220虽然是相同的,但是在不同的奇偶位上被两取一地抽取。因此,就像在许多现实世界情景中一样,完美的一对一的特征矢量匹配是不可能的,因为被完美地校准的源矢量-目标矢量配对是不可获得的。使用硬校准方案,每个目标矢量与其最近的源矢量配对,并且在此后将该配对假设为完全、完美地校准。因此,可能无法检测到或者考虑校准错误,因为在校准过程中没有考虑其它附近的矢量。结果,硬校准方案可以生成引入噪声到数据模型中,增加校准误差,并且导致校准过程的更大的复杂性。
因此,需要一种对数据序列进行校准以用于矢量变换(诸如用于声音转换的、基于GMM的变换)的方法和系统。
发明内容
根据前述背景知识,下面给出本发明的简化概要,目的是提供对本发明的某些方面的基本理解。该概要不是对本发明的详尽的纵览,并非意在标识本发明的关键和重要元素或者描绘本发明的范围。以下概要仅仅以简化形式提供本发明的某些概念,以作为下文提供的更详细描述的前序。
根据本发明的一个方面,源矢量和目标矢量之间的校准可以在变换过程期间执行,所述变换例如是在源说话者和目标说话者之间的基于高斯混合模型(GMM)的语音矢量变换。在生成变换模型和转换函数之前,通过使用软校准方案对源矢量和目标矢量进行校准,使每个源矢量-目标矢量配对无需一对一地完全校准。反之,可以标识包括单个源矢量或目标矢量的多个矢量配对以及针对每个配对的校准概率。可以基于该矢量配对和相关联的概率来生成联合特征矢量的序列。
根据本发明的另一方面,诸如GMM模型和矢量转换函数之类的变换模型可以基于源矢量和目标矢量以及所估计的校准概率来计算。变换模型参数可以通过估计算法(例如,最大期望算法)来确定。根据这些参数,可以生成模型训练和转换特征,以及用于变换后续源矢量和目标矢量的转换函数。
因此,根据本发明公开的一些方面,例如,在声音转换中使用的基于GMM的变换中,可通过使用软校准来改进自动矢量校准。所公开的软校准技术可以降低校准误差,并且在执行矢量变换时可以提高效率和质量。
附图说明
在总体上概括描述了本发明之后,现在将参考附图(附图未必是按比例绘制的),其中:
图1是说明用于在矢量变换中使用的传统硬校准方案的线框图;
图2是说明用于在矢量变换中使用的传统硬校准方案的方框图;图2说明了跟踪设备的方框图;
图3是根据本发明的方面说明计算设备的方框图;
图4是根据本发明的方面示出用于在源矢量序列和目标矢量序列之间执行软校准的说明性步骤的流程图;
图5是根据本发明的方面说明用于在矢量变换中使用的软校准方案的线框图;以及
图6是根据本发明的方面说明用于在矢量变换中使用的软校准方案的方框图。
具体实施方式
在对各种实施例的以下描述中,对附图进行了参考,这些附图构成了描述的一部分,并且在附图中通过说明的方式示出了可以实践本发明的各种实施例。应当理解,可以使用其它实施例,并且在不偏离本发明的范围和精神的情况下,可以做出结构上和功能上的修改。
图3说明了根据本发明说明性实施例的、可以使用的通用计算设备301的方框图。设备301可具有处理器303,用于控制计算设备及其关联部件(包括RAM 305、ROM 307、输入/输出模块309和存储器315)的整体操作。
I/O 309可包括设备301的用户可用来提供输入的麦克风、键盘、触摸屏、以及/或者触笔,并且还可包括用于提供音频输出的一个或多个扬声器,以及用于提供文本、音频视频和/或图形输出的视频显示设备。
存储器315可存储由设备301使用的软件,诸如操作系统317、应用程序319以及相关联的数据321。例如,根据本发明的说明性实施例,由设备301使用的一个应用程序321可包括计算机可执行指令,该指令用于执行此处所描述的矢量校准方案和声音转换算法。
参考图4,示出了描述生成在例如GMM矢量变换中所使用的转换函数的流程图。在这个例子中,函数可以与声音转换/语音转换相关,并且可涉及表示源说话者和目标说话者语音特性的矢量变换。然而,本公开不限于这种使用。例如,任何基于高斯混合模型(GMM)的变换,或者需要标量校准或矢量校准的其它数据变换均可与本公开结合使用。除了基于GMM的技术之外,本公开还可涉及使用其它技术的矢量变换和数据转换,例如基于码本的矢量变换和/或声音转换。
在步骤401中,接收源特征矢量和目标特征矢量。在这个例子中,特征矢量可对应于由源说话者和目标说话者所产生的相同讲话,该讲话被录音并被划分为数字化表示的数据矢量。更具体地,源矢量和目标矢量每个都可以基于说话者声音的某个特性,诸如音调或线性频谱(LSF)。在这个例子中,与源说话者相关联的特征矢量可以由变量x=[x1,x2,x3...xt...xm]来表示,而与目标说话者相关联的特征矢量可由变量y=[y1,y2,y3...yt...yn]来表示,其中xt和yt是时刻t处的语音矢量。
在步骤402中,例如通过计算设备301来估计不同源矢量-目标矢量配对的校准概率。在这个例子中,可以通过使用与隐式马尔可夫模型(HMM)相关的技术来估计校准概率,其中,隐式马尔可夫模型是一种统计模型,涉及从数据分布模型中的可观察参数中提取未知的或者隐式的参数。例如,源矢量序列和目标矢量序列中的每个不同的矢量都可以由从左到右的有限状态机来生成,该状态机每个时间单元改变一次状态。这种有限状态机可称为马尔可夫模型。另外,校准概率还可以是训练权重,例如表示用以生成用于基于GMM的变换的训练参数的值。因此,校准概率无需表示成某概率范围(例如,0到1,或者0到100)内的值,而可以是对应于在转换中使用的训练权重方案中的某个权重的值。
在源矢量序列和目标矢量序列中较小的矢量集合可以表示或属于音素(phoneme)或语音的基本单位。音素可以对应于实现单词意思的最小声音单位。例如,与单词“took”中的音素‘t’或者单词“hook”中的音素‘h’相对,单词“book”中的音素‘b’实现所说单词的意思。因此来自源矢量序列和目标矢量序列的短矢量序列或者甚至是单个矢量(也称为“特征矢量”)可对应于这些‘b’、‘t’和‘h’声音,或者对应于其它的基本语音声音。特征矢量甚至可表示诸如音帧之类的比音素更小的声音单元,从而使在变换中所捕获的时间和发音信息甚至可以更为精确。在一个例子中,单个特征矢量可表示短的语音段,例如10毫秒的语音段。接着,类似大小的特征矢量结合可以一起表示一个音素。特征矢量还可表示语音的边界段,诸如在较大语音段中的两个音素之间的过渡。
每个HMM子单词可以由一个或多个状态来表示,并且HMM子单词模型的整个集合可以级联以形成复合HMM模型,其包括联合特征矢量的状态序列M或多个状态。例如,可以通过级联一组用于语内(intra-lingual)语言语音转换的、基于独立于说话者的音素的HMM来生成复合HMM模型。作为另一例子,甚至可以通过级联用于进行语间(cross-lingual)语言声音转换的、基于一组独立于语言的音素的HMM来生成复合HMM模型。在状态序列M的每个状态j中,源在时刻t处的第j个状态占用的概率可以标记为LSj(t),而在相同时刻t处相同状态j的目标占用概率可以标记为LTj(t)。这些值中的每个都可以例如由计算设备301通过使用前后(forward-backward)算法来计算,该算法对于本领域的普通技术人员来说是公知的,其用于计算被观察事件序列的概率(特别是在HMM模型的上下文中)。在这个例子中,可通过以下公式来计算源的第j个状态占用的前向概率:
αj(t)=P(x1,...,xt,x(t)=j|M)=[N-1i=2αi(t-1)*aij]*bj(xt)(公式1)
并且可通过以下公式来计算源的第j个状态占用的反向概率:
βj(t)=P(xt+1,...,xn|x(t)=j,M)=N-1j=2aij*bj(xt+1)*βi(t+1)(公式2)
因此,源在时刻t处的第j个状态占用的总概率可以用以下公式来计算:
LSj(xt)=(αj(t)*βj(t))/P(x|M)(公式3)
可以类似地计算源序列和目标序列中的各个时刻和状态处的占用概率。也即,可将对应于上面公式1-公式3的公式应用于目标说话者的特征矢量。另外,可以使用这些值来计算源矢量-目标矢量配对被校准的概率。在这个例子中,对于被潜在地校准了的源矢量-目标矢量配对(例如,xp T和yq T,其中xp是时刻p处来自源说话者的特征矢量,而yq是时刻q处来自目标说话者的特征矢量),可以通过使用以下公式来计算校准概率(PApq),其表示特征矢量xp和yq被校准的概率:
PA(xp,yq)
Ll=1PA(xp,yq|x(p)=l,y(q)=l)
Ll=1(PA(xp|x(p)=l)*PA(yq|y(q)=l))
Ll=1LSl(xp)*LTl(yq)   (公式4)
在步骤403中,基于源矢量-目标矢量以及基于源矢量和目标矢量配对的校准概率来生成联合特征矢量。在这个例子中,联合矢量可定义为zk=zpq=[xp T,yq T,PApq]T。因为在本发明中所描述的联合特征矢量可以被软校准,所以联合概率PApq不需要像在其它校准方案中那样只能是0或1。相反,在软校准方案中,校准概率PApq可以是任何值,而不仅仅是表示非校准或校准的布尔值(例如0或1)。因此,可以使用非布尔概率值(例如在0到1之间连续范围中的非整数值)以及布尔值来表示源矢量和目标矢量配对之间的校准似然性。另外,如上所述,校准概率还可表示诸如训练权重之类的权重,而不是映射为特定概率。
在步骤404中,基于在步骤403中所确定的联合特征矢量,例如由计算设备301来计算转换模型参数。在混合模型的上下文中,确定模型函数或转换函数的恰当参数常常被称为“估计”或者类似的“缺失数据”问题。也即,可将在该模型中所观察到的数据点(也即,源矢量序列和目标矢量序列)假设为具有用于对数据进行建模的分布的成员身份。虽然这种成员身份开始是未知的,但是结合被表示为所选转换函数在各个模型分布中的成员身份的数据点,可以通过选择该所选转换函数的合适参数来进行计算。这些参数可以是例如用于基于GMM变换的训练参数。
在这个例子中,可以使用最大期望算法来计算GMM训练参数。在这个两步算法中,可以用以下公式在期望步骤中估量先验概率:
Pl,pq=P(l|zpq)=(Ppq|l*P(l))/P(zpq)
P(zpq)=Ll=1P(zpq|l)*P(l)
^Pl,pq=PA(xp,yq)*Pl,pq   (公式5)
在这个例子中,可通过以下公式来计算最大化步骤:
^P(l)=(1/m*n)*np=1 mq=1^Pl,pq
^ulnp=1 mq=1^Pl,pq*zpq/np=1 mq=1^Pl,pq
^∑lnp=1 mq=1^Pl,pq*(zpq-^ul)*(zpq-^ul)T/
np=1 mq=1^Pl,pq  (公式6)
注意,在某些实施例中,在步骤404中,可以生成用于GMM训练和转换的不同特征集合。也即,软校准特征矢量无需与GMM训练和转换特征相同。
最后,在步骤405中,生成转换模型(例如转换函数),其可以将特征从源模型x转换到标模型y。在这个例子中的转换函数可以通过以下公式来表示:
F ( x ) = E ( y | x ) = Σ l = 1 l p l ( x ) * ( u l y ^ + Σ l yx ^ ( Σ l xx ^ ) - 1 ( x - u l x ^ ) )   (公式7)
现在,可以使用该转换函数或建模函数来将其它的源矢量(例如,来自说话者的语音信号)变换成目标矢量。在应用于声音转换时,基于软校准GMM的矢量变换可以用来将语音矢量变换到相应的个性化目标说话者,例如作为文本转语音(TTS)应用的一部分。参考图5,所示框图示出了与生成源矢量序列和目标矢量序列的校准概率估计相关的本公开的方面。源特征矢量序列510包括五个语音矢量511-515,而目标特征矢量序列520只包括三个语音矢量521-523。如上所述,这个例子可说明源和目标具有不同数量的特征矢量的其它常见矢量变换情形。在这种情况下,许多传统方法在矢量校准期间可能需要对特征矢量进行丢弃、复制或插值,从而使两个序列都包含相同数量的矢量并且可以一对一地配对。
然而,如上所述,本发明的方面描述了源矢量和目标矢量的软校准,而不是需要硬性的一对一的匹配。在这个例子中,状态矢量530包含三个状态531-533。将源序列矢量511-515连接到状态序列531的每个线可以表示在时刻t处源矢量511-515对状态531的占用概率。当根据隐式马尔可夫模型(HMM)或类似的建模系统来生成状态序列时,状态序列530可具有对应于每个时间单位t的状态531-533。如图5所示,源特征矢量511-515以及目标特征矢量521-523二者中的一个或多个可以某个校准概率占用状态531。在这个例子中,可通过级联状态序列530中的所有状态来生成复合HMM模型。
因此,如上面参考图4所描述的,虽然可以在单个已校准配对上来形成状态序列530中的状态,诸如[xp T,yq T,PAqp]T,但是本公开不限于单个已校准配对以及状态的概率估计。例如,状态序列530中的状态531形成自5个源序列511-515、3个目标矢量521-523、以及每个潜在校准的源矢量-目标矢量配对的概率估计。
参考图6,示出的方框图描述与源矢量序列和目标矢量序列相关的本公开的方面。在这个例子中,选择了简化的源矢量序列610和目标矢量序列620来说明本公开相比于传统硬校准方法(诸如图2所示方法)的潜在优点。在这个例子中,源矢量序列610和目标矢量序列620是相同的,不同之处在于:已经对不同序列610和620上的不同奇偶位应用了两取一抽取。例如可以这样来进行这种抽取:减少来自源和目标的语音信号的输出采样率,从而使采样值需要较少的存储空间。
回想参考图2所描述的传统硬校准。在该传统一对一映射中,每个目标特征矢量仅与其最近的源特征矢量进行校准。该传统系统假设:完全且完美地对附近的配对进行了校准,因此,可能无法检测到或者考虑较小的校准误差,因为没有考虑其它附近的矢量。结果,硬校准最终可能不太准确并且更易受校准误差的影响。
返回图6,在这个简单的例子中,以相等的概率(0.5)将每个目标数量采样与源矢量序列中距其最近的两个特征矢量进行配对。并非总是对通过软校准生成的转换特征进行一对一配对,而且还可考虑其它相关的特征矢量。因此,使用软校准的转换可以更为准确并且更不易受初始校准误差的影响。
根据本公开的另一方面,可使用诸如图2和图6中的并行测试数据来比较经过硬校准/软校准的GMM性能。例如,可以使用均方误差(MSE)计算来相对于目标特征对并行数据的硬校准和软校准之后的转换特征进行基准测试(benchmark)或求值。作为公知的误差计算方法,MSE是标准误差平方和偏差平方的和的平方根。MSE提供了对于采样估计的所有所期望误差的测量。例如,在声音转换的上下文中,可以计算诸如音素或线频谱(LSF)之类的不同语音特性的MSE,并且可对其进行比较,以便相对于基于软校准的GMM变换来确定硬校准的整体GMM性能。通过针对音素特性而单独地对每个语音段执行十取一抽取和配对过程从而避免段间配对,可以使比较更为鲁棒。。相反,LSF比较可能仅需要针对整个数据集应用一次十取一抽取和配对过程,因为LSF在数据集中的语音和非语音段上是连续的。
除了在这个例子中通过使用软校准所获得的潜在优点之外,在更为复杂的现实世界特征矢量变换中,还可以实现其它优点。当使用较为复杂的矢量数据时(例如,具有较大初始校准误差以及不同数量的源特征矢量和目标特征矢量),硬校准技术常常需要在校准期间对矢量进行丢弃、复制或插值。这种操作可以增加变换的复杂度和成本,并且还有可能放大初始校准误差从而对变换质量产生负面影响。相反,软校准技术在校准期间可以不需要对矢量进行丢弃、复制或插值,其可以提高变换质量和效率。
尽管示出了具体化本发明各种方面的、在此描述的说明性系统和方法,本领域的普通技术人员应当理解,本发明不限于这些实施例。本领域的普通技术人员可以进行修改,特别是按照上述教导进行修改。例如,上述实施例中的组件中的每个可以单独地或结合起来或者与其它实施例中的组件进行子结合来进行使用。还应当意识到并理解,在不偏离本发明的真正精神和范围的情况下,可以进行修改。因此,本描述被认为对本发明是说明性而不是限制性的。

Claims (20)

1.一种用于将第一序列的特征矢量与第二序列的特征矢量进行时间校准的方法,其包括步骤:
接收与源相关联的第一序列的特征矢量;
接收与目标相关联的第二序列的特征矢量;以及
生成第三序列的联合特征矢量,其中每个联合特征矢量的生成是基于:
来自所述第一序列的第一矢量;
来自所述第二序列的第一矢量;以及
第一概率值,所述第一概率值表示来自所述第一序列的所述第一矢量与来自所述第二序列的所述第一矢量被校准到其各自序列中的相同特征的概率。
2.根据权利要求1所述的方法,其中所述第一序列与所述第二序列包含不同数量的特征矢量。
3.根据权利要求1所述的方法,其中所述第一序列对应于由第一说话者产生的多个讲话,而所述第二序列对应于由第二说话者产生的相同的多个讲话。
4.根据权利要求1所述的方法,其中所述第三序列的联合矢量包括隐式马尔可夫模型。
5.根据权利要求1所述的方法,其中所述概率是非布尔值。
6.根据权利要求1所述的方法,其中为了生成所述第三序列的联合特征矢量,对于所述第三序列中的每个联合特征矢量而言,来自所述第一序列的所述矢量和来自所述第二序列的所述矢量是不同的矢量。
7.根据权利要求1所述的方法,其中至少一个所述联合特征矢量的生成还基于:
来自所述第一序列的第二矢量;
来自所述第二序列的第二矢量;以及
第二概率值,所述第二概率值表示来自所述第一序列的所述第二矢量和来自所述第二序列的所述第二矢量被校准到其各自序列中的相同特征的概率。
8.存储有计算机可执行指令的一个或多个计算机可读介质,当所述指令在计算机系统上被执行时,其执行一种方法,所述方法包括:
接收与源相关联的第一序列的特征矢量;
接收与目标相关联的第二序列的特征矢量;以及
生成第三序列的联合特征矢量,其中每个联合特征矢量是基于:
来自所述第一序列的第一矢量;
来自所述第二序列的第二矢量;以及
概率值,所述概率值表示所述第一矢量和所述第二矢量被校准到其各自序列中的相同特征的概率。
9.根据权利要求8所述的计算机可读介质,其中所述第一序列与所述第二序列包含不同数量的特征矢量。
10.根据权利要求8所述的计算机可读介质,其中所述第一序列对应于由第一说话者产生的多个讲话,而所述第二序列对应于由第二说话者产生的相同的多个讲话。
11.根据权利要求8所述的计算机可读介质,其中所述第三序列的联合矢量包括隐式马尔可夫模型。
12.根据权利要求8所述的计算机可读介质,其中所述概率是非布尔值。
13.根据权利要求8所述的计算机可读介质,其中为了生成所述第三序列的联合特征矢量,对于所述第三序列中的每个联合特征矢量而言,来自所述第一序列的所述矢量和来自所述第二序列的所述矢量是不同的矢量。
14.根据权利要求8所述的计算机可读介质,其中至少一个所述联合特征矢量的生成还基于:
来自所述第一序列的第二矢量;
来自所述第二序列的第二矢量;以及
第二概率值,所述第二概率值表示来自所述第一序列的所述第二矢量和来自所述第二序列的所述第二矢量被校准到其各自序列中的相同特征的概率。
15.一种数据变换方法,其包括:
接收与第一源相关联的第一数据序列;
接收与第二源相关联的第二数据序列;
识别多个数据配对,每个数据配对包括来自所述第一数据序列的项和来自所述第二数据序列的项;
确定多个校准概率,每个校准概率与所述多个数据配对中的一个配对相关联;以及
基于所述多个数据配对和所述相关联的多个校准概率来确定数据变换函数。
16.根据权利要求15所述的方法,其中确定所述数据变换函数包括根据高斯混合模型(GMM)和基于码本的技术之一来计算参数,所述参数与所述数据变换相关联。
17.根据权利要求16所述的方法,其中对所述参数的估计包括执行最大期望算法。
18.根据权利要求15所述的方法,其中所述多个校准概率中的至少一个是非布尔值。
19.根据权利要求15所述的方法,其中所述第一数据序列对应于由第一源说话者产生的多个讲话,所述第二数据序列对应于由第二源说话者产生的多个讲话,并且数据变换函数包括声音转换函数。
20.根据权利要求19所述的方法,还包括:
接收与所述第一源相关联的第三数据序列,所述第三数据序列对应于由所述第一源说话者产生的语音矢量;以及
将所述声音转换函数应用于所述第三数据序列。
CN200780014971XA 2006-04-26 2007-04-04 基于高斯混合模型的变换中的软校准 Expired - Fee Related CN101432799B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/380,289 2006-04-26
US11/380,289 US7505950B2 (en) 2006-04-26 2006-04-26 Soft alignment based on a probability of time alignment
PCT/IB2007/000903 WO2007129156A2 (en) 2006-04-26 2007-04-04 Soft alignment in gaussian mixture model based transformation

Publications (2)

Publication Number Publication Date
CN101432799A true CN101432799A (zh) 2009-05-13
CN101432799B CN101432799B (zh) 2013-01-02

Family

ID=38649848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780014971XA Expired - Fee Related CN101432799B (zh) 2006-04-26 2007-04-04 基于高斯混合模型的变换中的软校准

Country Status (5)

Country Link
US (1) US7505950B2 (zh)
EP (1) EP2011115A4 (zh)
KR (1) KR101103734B1 (zh)
CN (1) CN101432799B (zh)
WO (1) WO2007129156A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
US20220335925A1 (en) * 2019-08-21 2022-10-20 Dolby Laboratories Licensing Corporation Systems and methods for adapting human speaker embeddings in speech synthesis

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848924B2 (en) * 2007-04-17 2010-12-07 Nokia Corporation Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US8727991B2 (en) 2011-08-29 2014-05-20 Salutron, Inc. Probabilistic segmental model for doppler ultrasound heart rate monitoring
KR102212225B1 (ko) * 2012-12-20 2021-02-05 삼성전자주식회사 오디오 보정 장치 및 이의 오디오 보정 방법
US10176819B2 (en) * 2016-07-11 2019-01-08 The Chinese University Of Hong Kong Phonetic posteriorgrams for many-to-one voice conversion
CN109614148B (zh) * 2018-12-11 2020-10-02 中科驭数(北京)科技有限公司 数据逻辑运算方法、监测方法及装置
US11410684B1 (en) * 2019-06-04 2022-08-09 Amazon Technologies, Inc. Text-to-speech (TTS) processing with transfer of vocal characteristics

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US7386454B2 (en) 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN104217721B (zh) * 2014-08-14 2017-03-08 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
US20220335925A1 (en) * 2019-08-21 2022-10-20 Dolby Laboratories Licensing Corporation Systems and methods for adapting human speaker embeddings in speech synthesis
US11929058B2 (en) * 2019-08-21 2024-03-12 Dolby Laboratories Licensing Corporation Systems and methods for adapting human speaker embeddings in speech synthesis

Also Published As

Publication number Publication date
EP2011115A2 (en) 2009-01-07
EP2011115A4 (en) 2010-11-24
WO2007129156A2 (en) 2007-11-15
KR20080113111A (ko) 2008-12-26
CN101432799B (zh) 2013-01-02
US7505950B2 (en) 2009-03-17
US20070256189A1 (en) 2007-11-01
KR101103734B1 (ko) 2012-01-11
WO2007129156A3 (en) 2008-02-14

Similar Documents

Publication Publication Date Title
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
JP4218982B2 (ja) 音声処理
US9099082B2 (en) Apparatus for correcting error in speech recognition
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
KR20120054845A (ko) 로봇의 음성인식방법
EP1995723A1 (en) Neuroevolution training system
JPH11242494A (ja) 話者適応化装置と音声認識装置
JP2016218309A (ja) 音声認識装置及びコンピュータプログラム
JP2694062B2 (ja) 多辺マルコフで単語をモデル化する方法と装置
JPH09160584A (ja) 音声適応化装置および音声認識装置
JP3189598B2 (ja) 信号合成方法および信号合成装置
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
US20070129946A1 (en) High quality speech reconstruction for a dialog method and system
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JPH1195786A (ja) パターン認識方法および装置とパターン認識プログラムを格納した記録媒体
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
Sathiarekha et al. A survey on the evolution of various voice conversion techniques
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20130404