CN104424943B - 语音处理系统和方法 - Google Patents

语音处理系统和方法 Download PDF

Info

Publication number
CN104424943B
CN104424943B CN201410419320.0A CN201410419320A CN104424943B CN 104424943 B CN104424943 B CN 104424943B CN 201410419320 A CN201410419320 A CN 201410419320A CN 104424943 B CN104424943 B CN 104424943B
Authority
CN
China
Prior art keywords
voice
expression
cluster
speaker
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410419320.0A
Other languages
English (en)
Other versions
CN104424943A (zh
Inventor
陈浪舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201810145526.7A priority Critical patent/CN108364639A/zh
Publication of CN104424943A publication Critical patent/CN104424943A/zh
Application granted granted Critical
Publication of CN104424943B publication Critical patent/CN104424943B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据,所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。

Description

语音处理系统和方法
技术领域
此处一般描述的本发明实施例涉及文本转语音系统和方法。
背景技术
文本转语音系统是响应于接收到文本文件而输出音频语音或音频语音文件的系统。
文本转语音系统广泛用于多种应用,例如电子游戏、电子图书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动报警系统。
不断需要使系统被听起来更像人类声音。
附图说明
现在将参考附图描述根据非限制性实施例的系统和方法,其中:
图1是根据实施例用于训练声学模型的框架;
图2是示出根据实施例用于训练语音处理系统的方法的流程图;
图3是示出参考图2描述的一个步骤的流程图;
图4是示出参考图2描述的另一步骤的流程图;
图5是示出根据实施例训练语音处理系统的方法的流程图;
图6是示出根据实施例训练语音处理系统的方法的流程图;
图7是示出根据实施例训练语音处理系统的方法的流程图;
图8是示出参考图7描述的一个步骤的流程图;
图9是根据实施例的语音处理方法的流程图;
图10是示出如何选择声音特性的系统的示意图;
图11是图10中的系统上的变形;
图12是示出根据实施例的系统自适应的流程图;
图13是示出根据进一步的实施例的系统自适应的流程图;
图14是示出适合于系统自适应的各种数据类型的收集的示意图;
图15是示出如何在不同说话者之间移植表达的绘图;
图16是示出表达语音移植的声学空间图;
图17是示出使用自适应数据的表达移植的方法的示意图;
图18是用于提取表达合成向量的系统的示意图,是系统中的表达导出部分的示意图;
图19是用于使用不同级别的知识信息提取表达特征的系统的示意图;
图20是用于使用级联神经网络提取表达特征以建立不同知识级别模型的系统的示意图;
图21是系统中表达导出部分的示意图;
图22是文本转语音系统的示意图;
图23是示出语音处理系统执行的步骤的流程图;
图24是高斯概率函数的示意图;
图25是可被训练的文本转语音系统的示意图;以及
图26是特定实施例使用的决策树的示意图。
具体实施方式
在一个实施例中,提供一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据;所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值,将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音,其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。所述第一语音因素可包括说话者;表达(expression);噪声;诸如“the king”、“the wolf”之类的角色声音;或其它任何语音因素。表达包括独立于说话者的语音属性。表达的实例包括情绪,例如高兴、悲伤等;强调和说话风格。表达也可对应于上述一者以上的组合。中性语音是没有任何表达的语音,例如,没有情绪或强调的语音。未被标记语音数据是这样一种数据:例如,对于该数据,如果第一语音因素为表达,则不知道哪种表达对应于语音数据的给定部分。
在一个实施例中,第一聚类集包括至少一个子聚类。第一参数集可以是被应用的权重,其中使得每个子聚类有一个权重,并且其中所述权重依赖于所述第一语音因素。这些权重可以是聚类自适应训练(CAT)权重。每个子聚类可包括至少一个决策树,所述决策树基于与语言、语音或音韵差别中的至少一者相关的问题。聚类决策树之间和子聚类中的决策树之间可能存在结构差别。
在一个实施例中,第一参数集是依赖于所述第一语音因素的约束似然性线性回归变换。
在一个实施例中,第一语音因素是说话者,并且所述语音数据进一步包括来自以中性语音说话的一个或多个说话者的语音数据。
在一个实施例中,语音数据进一步包括对应于第二语音因素的不同值的数据。第二语音因素可包括说话者、表达、噪声、口音或其它任何语音因素。第二语音因素的值可以未知。
在一个实施例中,所述方法进一步包括接收对应于所述已接收的语音数据的文本数据;从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;从语音数据提取表达特征并形成在第二空间中构建的表达特征合成向量;训练机器学习算法,所述机器学习算法的训练输入是表达语言特征向量,其训练输出是对应于语音数据和文本数据的表达特征合成向量。文本数据对应于语音数据,使得语音数据对应于包括文本数据的文本的说话。
在一个实施例中,第二空间是第一说话者的声学空间,并且所述方法被配置为将表达合成特征向量移植到第二说话者的声学空间。这表示,语音与第二说话者的声音合成,但是表达预测对应于第一说话者。
在一个实施例中,所述方法包括根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不同值适应语音,其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第二聚类集所共同遵循的单个最大似然性准则联合执行。
所述第二聚类集可包括至少一个子聚类。所述第二参数集可以是被应用的权重,其中使得每个子聚类有一个权重,所述权重可依赖于所述第二语音因素。这些权重可以是聚类自适应训练(CAT)权重。
所述第二参数集可以是依赖于所述第二语音因素的约束似然性线性回归变换。
在一个实施例中,训练所述声学模型进一步包括:使用从以中性语音说话的说话者处接收的语音数据训练第一声学子模型;并且使用对应于所述第二语音因素的不同值的语音数据训练第二声学子模型。
在一个实施例中,所述声学模型包括,将声学单元与语音向量序列相关联的概率分布函数。所述概率分布可从高斯分布、泊松分布、伽玛分布、学生t分布或拉普拉斯分布中选择。
在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的文本转语音方法,所述方法包括:输入具有所述语音因素目标值的自适应数据;使声学模型适应所述语音因素目标值;输入文本;将所述输入文本分为声学单元序列;使用所述声学模型将所述声学单元序列转换为语音向量序列;以及将所述语音向量序列输出为具有所述语音因素目标值的音频,其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及与所述语音因素相关的语音因素聚类集,并且其中与所述语音因素相关的所述语音因素参数集和所述语音因素聚类集未被标记,从而对于给定的一个或多个聚类以及给定的一个或多个参数,与其相关的所述语音因素的值未知。在所述声学模型的自适应之前,所述第一聚类集和所述第一参数集未被标记。所述自适应数据可包括音频。在一个实施例中,所述语音因素为表达,并且所述声学模型进一步包括与说话者相关的参数集以及与说话者相关的聚类集;所述表达参数集和所述说话者参数集与所述表达聚类集和所述说话者聚类集不重叠。在进一步的实施例中,所述方法被配置为通过结合使用从第一说话者的语音获取的表达参数以及从第二说话者的语音获取的表达参数,将表达从第一说话者移植到第二说话者。
在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的文本转语音方法,所述方法包括:输入具有所述语音因素目标值的自适应数据;使声学模型适应所述语音因素目标值;输入文本;将所述输入文本分为声学单元序列;使用声学模型将所述声学单元序列转换为语音向量序列;并且将所述语音向量序列输出为具有所述语音因素目标值的音频,其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及与所述语音因素相关的语音因素聚类集,并且其中所述声学模型使用这样一种方法训练,此方法包括:接收语音数据;所述语音数据包括对应于语音因素的不同值的数据,并且其中所述语音数据未被标记,从而对于给定的语音数据项,所述语音因素的值未知;根据所述语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述语音因素的不同值适应语音,其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。
在所述声学模型的自适应之前,所述第一聚类集和所述第一参数集未标记。所述自适应数据可包括音频。在一个实施例中,所述语音因素为表达,并且所述声学模型进一步包括与说话者相关的参数集以及与说话者相关的聚类集;并且所述表达参数集和所述说话者参数集与所述表达聚类集和所述说话者聚类集不重叠。在进一步的实施例中,所述方法被配置为通过结合使用从第一说话者的语音获取的表达参数以及从第二说话者的语音获取的表达参数,将表达从第一说话者移植到第二说话者。这表示,所述自适应数据可包括来自以表达说话的第一说话者的数据。由此,合成以同一表达说话的不同说话者的声音。
在一个实施例中,提供一种文本转语音方法,所述方法包括:接收输入文本;将所述输入文本分为声学单元序列;使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型包括与说话者声音相关的第一参数集和与表达相关的第二参数集,并且其中所述第一和第二参数集不重叠;以及将所述语音向量序列输出为音频,所述方法进一步包括通过以下方式确定与表达相关的所述参数中的至少某些:从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;以及将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。所述第一和第二参数可以未标记,从而对于给定的第二参数,其对应的表达未知,并且对于给定的第一参数,其对应的说话者声音未知。第一和第二参数集的一者或两者可以未被标记。在一个实施例中,第二空间是第一说话者的声学空间,并且所述方法被配置为将表达合成特征向量移植到第二说话者的声学空间。
在一个实施例中,所述声学模型被训练为使得第一聚类集和第一参数集根据共同的最大似然性准则进行估计。在另一个实施例中,所述声学模型被训练为使得第二聚类集和第二参数集根据共同的最大似然性准则进行估计。
在一个实施例中,提供一种训练用于文本转语音系统的声学模型的系统,所述系统包括:输入端,其用于接收对应于第一语音因素的不同值的语音数据,其中所述语音数据未标记,从而对于给定的数据项,所述第一语音因素的值未知;处理器,其被配置为:根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音,其中所述聚簇和所述第一参数估计根据所述第一参数估计和所述聚簇为第一聚类集所共同遵循的单个最大似然性准则联合执行。
在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的系统,所述系统包括:用于接收具有所述语音因素目标值的自适应数据的输入端;用于接收文本的输入端;以及处理器,其被配置为使声学模型适应所述语音因素目标值;将所述输入文本划分为声学单元序列;使用所述声学模型将所述声学单元序列转换为语音向量序列;以及将所述语音向量序列输出为具有所述语音因素目标值的音频,其中所述声学模型包括与所述语音因素相关的第一参数集,以及与所述语音因素相关的第一聚类集,并且其中与所述语音因素相关的所述第一参数集和所述第一聚类集未标记,从而对于给定的一个或多个聚类以及给定的一个或多个参数,所述第一语音因素的值未知。
在一个实施例中,提供一种文本转语音系统,所述系统包括用于接收输入文本的文本输入端;处理器,其被配置为将所述输入文本划分为声学单元序列;使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型包括与说话者声音相关的第一参数集,以及与表达相关的第二参数集,并且其中所述第一和第二参数集不重叠;并且将所述语音向量序列输出为音频;通过以下方式确定与表达相关的所述参数中的至少某些:从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;以及将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。所述第一和第二参数可以未标记,从而对于给定的第二参数,其对应的表达未知,并且对于给定的第一参数,其对应的说话者声音未知。第一和第二参数集的一者或两者可以未标记。在一个实施例中,第二空间是第一说话者的声学空间,并且所述方法被配置为将表达合成特征向量移植到第二说话者的声学空间。
在一个实施例中,提供一种语音合成训练方法以基于训练数据同时建立表达和说话者的模型,在所述训练数据中,表达或说话者或者表达信息和说话者信息未标记。在一个实施例中,从混合表达信息和说话者信息的未标记数据中提取独立的表达信息和说话者信息。在一个实施例中,表达聚簇过程和参数估计被整合为单一过程。表达聚簇过程和参数估计过程可通过共同的最大似然性(ML)准则同时执行。所述方法的输出可包括,针对每个表达聚类的与说话者无关的表达CAT权重向量,和针对每个说话者的与表达无关的说话者CAT权重向量。所述方法的输出可包括,针对每个表达聚类的与说话者无关的CAT权重向量,和针对每个说话者的与表达无关的说话者约束最大似然性线性回归(CMLLR)变换。所述方法的输出可包括,针对每个表达聚类的与说话者无关的表达CMLLR变换,和针对每个说话者的与表达无关的CAT权重向量。所述方法的输出可包括,针对每个表达聚类的与说话者无关的表达CMLLR变换,和针对每个说话者的与表达无关的说话者CMLLR变换。
在一个实施例中,提供一种文本转语音系统,所述系统包括:
输入端,其用于接收输入文本;以及
处理器,其被配置为
将所述输入文本划分为声学单元序列;
使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型包括与说话者声音相关的第一参数集和第一聚类集,以及与表达相关的第二参数集和第二聚类集,并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠,并且
将所述语音向量序列输出为音频,
通过以下方式确定与表达相关的所述参数中的至少某些:
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;以及
将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。
根据实施例的方法可在通用计算机的硬件中或在软件上实现。根据本发明实施例的进一步的方法可在硬件和软件的组合中实现。根据实施例的方法也可由单个处理装置或分布式处理装置网络实现。
由于根据实施例的某些方法可通过软件实现,因此某些实施例包含在任何适当的载体介质上被提供给通用计算机的计算机代码。载体介质可包括任何存储介质,例如软盘、CD ROM、磁器件或可编程存储器件,或者任何临时介质,例如任何信号,如电信号、光信号或微波信号。
附录中讨论了用于训练文本转语音系统声学模型的聚类自适应训练(CAT)方法和约束最大似然性线性回归(CMLLR)方法的细节。其中也描述使用CAT和CMLLR方法的说话者和表达因素分解(SEF)。这些方法可用于建立语音数据因素(例如,说话者和表达)的模型。
图1示出根据实施例的训练框架。在该实施例中,未标记数据的表达和/或说话者聚类在单个过程中与SEF整合。
SEF可通过手动标记不同说话者和表达的训练数据来实现。但是很遗憾,对于某些复杂且极为多样化的训练数据(例如,有声读物数据),将表达或说话者标签手动添加到数据的成本非常大,并且由于数据非常多样,经常存在较差的注释间协定。例如,合成一个电子图书可能需要TTS系统通过不同说话者的声音带表达地阅读故事。直接建模每个说话者和表达的组合通常不切实际,因为表达训练数据并非总是对于每个说话者可用。在这些情况下,根据说话者或表达标记或聚簇训练数据必须作为训练模型的一部分被执行。
在图1的实施例中,使用说话者信息而非表达信息标记训练数据。在该实施例中,表达聚簇和表达相关参数估计根据最大似然性准则同时执行,即:
方程1
其中E={e1,e2,...,ek}是表达相关聚类;Λe(E)={λe 1,λe 2,...,λe k}是表达相关参数,它们本身依赖于表达相关聚类;Λs={λ1 s,λs 2,...,λs l}是说话者相关参数;U={u1,u2...un}是训练话语;H是训练数据的转录(transcription);M是聚类平均矩阵。
在图1的框架中,训练话语U={u1,u2...un}和说话者参数Λs={λ1 s,λs 2,...,λs l}被输入(25)到单个、无监督(unsupervised)SEF过程(27)。此过程同时产生表达聚类和表达相关参数Λe(E)={λe 1,λe 2,...,λe k}以最大化U的似然性。表达相关参数然后被输出(29)。
在此方法中,整个过程(包括表达聚簇和表达相关参数的确定两者)使用最大似然性准则执行。这样确保训练准则中的一致性。进一步地,当涉及多个说话者数据时,表达聚簇结果不受说话者因素的影响。这样确保说话者和表达聚类的有效因素分解,因为说话者信息与表达聚簇过程明确隔离。此方法可基于最大似然性准则与其它因素分解方法结合使用。与其它用于潜变量模型的基于最大似然性的准则一样,辅助函数得到最大化。但是,辅助函数对于不同的因素分解方法不同。
下面讨论根据该实施例的基于CAT和CMLLR因素分解方法。但是,在该实施例的方法中,可使用任何基于最大似然性的因素分解方法。
在一个实施例中,采用附录中描述的基于CAT的因素分解实现无监督说话者和表达因素分解。在该实施例中,对于训练话语E={e1,e2,...,ek}的特定分区,辅助函数(请参阅附录以获取详细信息)可表示为:
方程2
其中充分统计为
方程3
方程4
方程5
其中是分量m在时间t上的占用概率,μ(m,1)是偏置聚类中分量m的平均向量。
在无监督SEF中,查找训练数据的分区和与该分区关联的表达相关CAT权重向量,以使得辅助函数最大化。
在一个实施例中,使用k型算法完成此操作。聚类,即训练数据的分区,以及权重向量同时进行计算。K-means聚簇在本领域中是公知的,在此不做详细描述,只是计算被划分为分配步骤和更新步骤。
在分配步骤中,使用以下准则将表达聚类e(i)分配给每个话语i。
方程6
在更新步骤中,表达CAT权重向量使用以下方程重新计算
方程7
分配步骤和更新步骤被迭代执行,直到收敛。
在该实施例中,表达聚簇是基于SEF的辅助函数,其中说话者因素被明确去除;这样可实现与说话者无关的表达聚簇。表达聚簇和CAT权重向量估计基于最大似然性准则被整合为单个过程,并且在训练过程中没有不一致,当涉及多个说话者数据时,表达聚簇结果不受说话者因素的影响。说话者信息与表达聚簇过程明确隔离。
参考图2至9的流程图解释根据该实施例的训练方法。
在图2的步骤S401,接收多个音频语音输入。在该实施例中,接收所有使用中性表达的说话者的音频语音以及某些使用不同的表达说话的说话者的音频语音。在该示例性实例中,使用4个说话者。
接下来,在步骤S403,针对4个均使用中性表达说话的声音的每一个训练并生成声学模型。在该实施例中,4个模型中的每一者仅使用来自一个声音的数据训练。S403将参考图3的流程图更详细地介绍。
在图3中的步骤S303,针对4个声音的每一个训练并生成声学模型。在该实施例中,4个模型中的每一者仅使用来自一个声音的数据训练。
在图3中的步骤S305,聚类P的数量被设为V+1,其中V是声音的数量(4)。
在步骤S307,一个聚类(聚类1)被确定为偏置聚类。偏置聚类的决策树和关联的聚类平均向量使用在步骤S303生成最佳模型的声音进行初始化。在该实例中,每个声音被赋予一个标签“声音A”、“声音B”、“声音C”和“声音D”,在此,假设声音A生成最佳模型。协方差矩阵、多空间概率分布(MSD)的空间权重及其参数共享结构也被初始化为声音A模型的那些相应参数。
从表示所有上下文的单个根节点开始,以局部优化的方式构建每个二进制决策树。在该实施例中,按照上下文,使用以下基本成分:语音、语言和音韵。当创建每个节点时,选择有关上下文的下一最优问题。基于哪个问题导致似然性最大增加以及在训练实例中生成的终端节点来选择问题。此过程参考附录中的图26详细地进行描述。
在步骤S309,将特定的声音标签分配给聚类2、...、P中的每一者,例如,聚类2、3、4和5分别用于说话者B、C、D和A。请注意,由于声音A被用于初始化偏置聚类,因此它被分配给最后一个要初始化的聚类。
在步骤S311,CAT内插权重集仅根据所分配的声音标签被设为1或0,如:
方程8
在该实施例中,每个说话者、每个流具有整体权重。
在步骤S313,依次对于每个聚类2、...、(P-1),根据以下方式初始化聚类。使用在步骤S303训练的关联声音的单说话者模型,对齐关联声音的声音数据(例如,用于聚类2的声音B)。在给定这些对齐的情况下,计算统计数据,并估计该聚类的决策树和平均值。使用步骤S311中的加权集将聚类的平均值计算为聚类平均的归一化加权和,即,在实际中,这样导致给定上下文的平均值为,该上下文的偏置聚类平均和聚类2中该上下文的声音B模型平均的加权和(在这两种情况下,权重均为1)。
在步骤S315,然后使用来自全部4个声音的所有数据,以及重新估计的关联平均和方差参数,重构偏置聚类的决策树。
在添加声音B、C和D的聚类之后,同时使用全部4个声音重新估计偏置聚类。
在步骤S317,现在仅使用来自声音A的数据初始化聚类P(声音A),就像步骤S313描述的针对其它聚类所做的那样。
一旦聚类像上述那样被初始化,则根据以下方式更新/训练CAT模型:
在步骤S319,从聚类1至P逐个聚类地重构决策树,其中CAT权重保持固定。在步骤S321,在CAT模型中估计新的平均和方差。接下来在步骤S323,针对每个聚类估计新CAT权重。在一个实施例中,过程环回S321,直到收敛。参数和权重使用最大似然性计算(通过使用Baum-Welch算法的辅助函数执行)进行估计,从而更好地估计所述参数。
如上所述,参数经由迭代过程估计。
在进一步的实施例中,在步骤S323,过程环回步骤S319以便在每个迭代期间重构决策树,直到收敛。
过程然后返回图2中的步骤S405,其中接着针对表达训练模型。在该实施例中,说话者声音中的表达使用聚类自适应训练(CAT)进行建模,其方式与S403针对说话者声音建模的方式相同。但是,与说话者声音不同的是,表达信息在训练数据中未标记。
首先,在步骤S405,初始化“表达聚类”。将参考图4对此进行更详细地介绍。
然后收集说话者中至少一者的数据,其中说话者的声音具有表达。可以只从一个说话者收集数据,其中说话者提供多个数据样本,每个样本展现出不同的表达,或者多个说话者提供具有不同表达的语音数据样本。在该实施例中,假设为了训练系统展现表达而提供的语音样本来自其数据被收集以在步骤S403训练初始CAT模型的说话者。
在步骤S453,初始化表达聚类。在一个实施例中,使用自动表达聚簇过程完成此操作,该自动表达聚簇采用所谓的受监督(supervised)说话者和表达因素分解。在一个实施例中,使用基于声学特征的聚簇。但是,也可使用其它聚簇方法。在基于声学特征的聚簇中,每个语音向量被表示为声学特征向量并且基于特征向量的距离测量,根据准则执行聚簇。在一个实施例中,训练话语U={u1,u2...un}根据以下准则被分组为表达聚类E={e1,e2,...,ek}:
方程9
其中vj是从话语j提取的声学特征,ci是来自聚类i的平均值。
使用这些自动聚簇结果作为说话者标签,执行说话者和表达因素分解。确定每个表达标签的表达相关参数,这些参数最大化训练数据的似然性,
方程10
在步骤S455,在初始表达子空间中执行无监督因素分解,即,将步骤S453确定的初始表达聚类E和表达相关CAT权重向量Λe(E)输入方程1。使用结合上面的方程6-7描述的k-means型聚簇,同时重新计算表达聚类和表达相关权重向量。
接下来在步骤S457针对每个表达聚类构建决策树。最后,在步骤S459基于所有数据重新估计权重。
在根据上面所述初始化表达聚类之后,在步骤S407针对所有聚类(偏置、说话者和表达)重新估计高斯平均和方差。
在步骤S409,在一个实施例中,表达聚类保持固定,并且重新估计表达聚类的权重以使其满足方程10。在另一实施例中,表达权重和聚类都被同时重新估计以使其满足方程1。在任一实施例中,决策树然后在步骤S411重新计算。接下来,过程环回步骤S407重新估计模型参数,然后在步骤S409重新估计权重或权重和聚类,接着在步骤S411重构决策树,直到收敛。在一个实施例中,重复若干次循环S407-S411。
接下来,在步骤S413针对所有聚类,偏置,说话者和表达重新估计模型方差和平均。在步骤S415,重新估计说话者聚类的权重,然后在步骤S417重构决策树。过程然后环回步骤S413,并且重复此循环,直到收敛。过程环回步骤S407并且重复涉及表达的循环,直到收敛。过程继续,直到同时针对这两个循环联合达到收敛。
在上述实施例中,在表达CAT权重和聚类模型被训练之后,以类似的方式重新估计说话者CAT权重向量和聚类模型。但是,如果对计算有时间限制,则可跳过此步骤。在该实施例中,过程包括以下步骤:
1.使用选定的中性语音构建说话者聚类模型,迭代地更新说话者决策树、说话者CAT权重向量和说话者聚类模型,直到收敛。
2.使用基于声学特征的表达聚簇,将训练语音分组为PE聚类,其中PE是表达CAT权重向量的维度。
3.使说话者CAT权重向量保持固定。对于每个表达聚类,将该聚类的CAT权重设为1,否则设为0。
4.针对每个表达聚类构建决策树。
5.对于每个离散的表达状态,基于方程10重新估计表达CAT权重向量。
6.更新所有聚类的聚类模型参数。
7.移至4,直到收敛。
8.对于每个话语i,累积表达统计数据如方程2。
9.k-means型聚簇,基于ML准则重新执行表达聚簇和表达CAT权重估计。
10.重构每个表达聚类的决策树。
11.通过固定的说话者CAT权重向量,重新估计表达CAT权重向量。
12.更新所有聚类的聚类模型参数。
13.移至10,直到收敛。
在上述训练过程中,步骤2-7执行表达聚簇加受监督SEF过程。此过程构建初始表达空间,并且在步骤8基于此初始表达空间累积无监督SEF的充分统计数据。最后,在步骤9至13执行无监督SEF训练。
在另一实施例中,使用基于CMLLR的因素分解执行无监督SEF。在该实施例中,辅助函数方程49(请参阅附录)变为
方程11
其中s(i)是话语i的说话者指标,P(m,s(i))和μ(m,s(i))是高斯分量m的精确矩阵和平均向量,它们分别通过说话者相关变换进行变换,即,
方程12
方程13
充分统计数据β(i)、kE(i,l)、GE(i,l,n)被定义为:
方程14
方程15
方程16
与上述基于CAT的因素分解类似,k-means型算法可被用于根据与训练数据的分区关联的表达和CMLLR变换查找该分区,以便最大化辅助函数。
在分配步骤中,对于每个话语i,通过以下方式为其分配表达聚类e(i):
方程17
在更新步骤中,可将每个表达聚类的CMLLR变换估计为:
方程18
其中α是二次方程的根。
方程19
统计数据被定义为:
方程20
方程21
方程22
参考图5的流程图介绍根据该实施例的训练方法。
在步骤S1001,接收多个音频语音输入。在该实施例中,接收使用中性表达的说话者的音频语音以及以不同的表达说话的一些说话者的音频语音。
接下来,在步骤S1003,使用所有训练数据训练声学模型。该声学模型变为规范模型。通过这种方式训练规范模型在本领域中是公知的,此处不再讨论。
在步骤S1007,针对以中性表达说话的每个声音估计CMLLR变换。这在附录中参考方程61-68进行了描述。
在步骤S1009,初始化表达聚类。在一个实施例中,使用受监督说话者和表达因素分解的技术执行此操作。这包括上面参考方程9描述的自动表达聚簇。一旦通过这种方式确定表达聚类,便使用附录中关于方程61至68的标准CMLLR技术估计初始表达CMLLR变换。
在步骤S1011,执行无监督说话者和表达因素分解。使用方程1同时估计表达聚簇和CMLLR表达变换。
在步骤S1013,使用方程61至68重新估计说话者变换。
接下来,过程环回步骤S1011,并且重复此循环,直到收敛。
在一个实施例中,重复若干次循环S1011-S1013。
接下来,在步骤S1015重新训练规范模型。
过程环回步骤S1011,并且重复此循环,直到收敛。然后重复若干次循环S1011-S1015。
在另一实施例中,采用CAT和CMLLR的组合训练模型。
作为实例,我们讨论其中采用CAT建立表达模型,使用CMLLR建立说话者模型的情况。但是,根据该实施例,也可使用相反的组合。
在该实例中,辅助函数变为:
方程23
其中
方程24
方程25
再次,使用k-means型算法执行无监督SEF的参数估计。在分配步骤中,对于每个话语i,通过以下方式为其分配表达聚类e(i):
方程26
在更新步骤中,使用以下方程重新计算每个表达聚类的表达CAT权重向量:
方程27
参考图6的流程图介绍根据该实施例的训练方法。
在步骤S1101,接收多个音频语音输入。在该实施例中,接收使用中性表达的所有说话者的音频语音以及使用不同的表达说话的一些说话者的音频语音。
接下来,在步骤S1103,使用来自以中性表达说话的说话者的所有训练数据训练声学模型。该声学模型变为规范模型。
在步骤S1107,针对以中性表达说话的所有声音估计CMLLR变换。根据结合附录中的方程61至68描述的方法执行此操作。
在步骤S1109,初始化表达聚类。根据结合图4的流程图描述的方法继续。
在一个实施例中,在步骤S1111,使初始化的表达聚类保持不变,并且重新估计表达聚类的CAT权重以满足方程10。在另一实施例中,在步骤S1111同时重新估计表达权重和聚类两者以满足方程1。在任一实施例中,然后在步骤S1113重新计算决策树。接下来,过程环回步骤S1111以及估计模型参数的过程,然后在步骤S1113重构决策树,直到收敛。在一个实施例中,重复若干次循环S1111-S1113。
接下来,在步骤S1115,重新计算CMLLR说话者变换。过程然后环回步骤S1111。在一个实施例中,重复若干次循环S1111-S1115。
在上面,我们描述了采用三种因素分解方法的实施例:CAT、CMLLR和CAT与CMLLR的组合。但是,可将无监督SEF方法应用于任何基于最大似然性的因素分解方法。下面描述一般情况。
一般性的最大似然性因素分解的辅助函数可表示为:
方程28
其中ΓS和ΓE分别表示说话者相关参数和表达相关参数。ΓS和ΓE的形式针对不同类型的模型而有所不同。例如,对于CAT,它们是CAT权重向量。对于CMLLR,它们是CMLLR变换,并且对于上述两种方法的组合,ΓS是CMLLR变换,ΓE是CAT权重向量。Φ(m)是分量m的高斯参数。Φ(m)由CAT方法中的平均向量矩阵和方差矩阵构成。但是,对于正规HMM,它包括平均向量和协方差矩阵。于是方程28可被写为
方程29
其中ΔE(i,ΓS)是用于表达估计的话语i的充分统计数据。在上述CAT方法中,充分统计数据为在CMLLR情况下,它们通过β(i)、kE(i,l)和GE(i,l,n)给出。如上所述,在CMLLR和CAT的组合中,它们变为需要指出,ΔE(i,ΓS)是说话者相关参数ΓS的函数,因为说话者因素必须从ΔE(i,ΓS)的计算中明确去除。
在此一般实施例中,可如下描述k-means型算法:
在分配步骤中,将表达聚类e(i)分配给每个话语i,如下所示:
方程30
在更新步骤中,将估计为
方程31
上述实施例的框架是一般框架并且可使用各种以最大似然性为准则的因素分解技术实现。尽管上面给出的实例涉及说话者和表达的因素分解,但是在一个实施例中,可将同一技术用于两个以上因素,例如,噪声环境、说话者和表达。在具有三个因素的实施例中,基于CAT的因素分解可使用以下表达式实现:
方程32
其中N指示噪声环境。
在该实施例中,辅助方程(方程49)可被重写为
方程33
其中是噪声的CAT权重向量,并且
在一个实施例中,然后使用上面详细描述的k-means型算法估计表达参数。
在上述实施例中,语音数据中的表达信息未标记,而说话者数据被标记。但是在一个实施例中,一个以上语音因素可未标记。例如,说话者和表达两者可以都未标记。
当说话者和表达都未标记时,不可以同时估计说话者变换和表达变换。相反,它们必须以迭代的方式更新。
在该实施例中,使用辅助函数方程2同时计算表达聚簇和表达相关参数。用于计算说话者聚簇和说话者相关参数的对应表达式为
方程34
图7示出当为系统提供的语音数据在说话者和表达方面均未标记时,根据实施例的建模流程图。该图对应于进行说话者数据和表达数据两者的因素分解的CAT方法。但是根据该实施例,也可使用CMLLR或基于ML准则的其它方法。
在步骤S1201,接收多个音频语音输入。在该实施例中,接收使用中性表达的所有说话者的音频语音以及使用不同的表达说话的一些说话者的音频语音。
在S1203,初始化说话者聚类。图8示出说话者聚类初始化的流程图。在步骤S1305,使用自动聚簇方法获取初始说话者聚类S={S1,S2,...,Sk}。当说话者信息未知时,使用自动说话者自适应方法来自动地将说话者ID分配给每个训练话语。自动说话者聚簇方法非常多,并且在本领域中是众所周知的。在一个实例中,根据以下方程,根据基于语音向量的距离测量的准则执行聚簇:
方程35
在步骤S1307,将说话者聚类之一指定为偏置聚类。
在步骤S1309,将声音标签分配给聚类中的每一者。将对应于用来初始化偏置聚类的说话者聚类的声音标签分配给最后一个要初始化的聚类。
步骤S1311-S1325像图3中的步骤S311-325那样继续。
现在返回到图7,在步骤1205,说话者聚类和参数保持不变,表达聚类根据图4中描述的那样进行初始化。
在初始化表达聚类之后,在步骤S1207针对所有聚类(偏置、说话者和表达)重新估计高斯平均和方差。
在一个实施例中,在步骤S1209,表达和说话者聚类保持不变,并且使用方程10重新估计表达聚类的权重。在另一实施例中,说话者聚类保持不变,而使用方程1同时重新估计表达权重和聚类。这包括最大化方程2。
在任一实施例中,在步骤S1211重新计算决策树。
接下来,过程环回S1207,执行模型参数,接着是步骤S1209中的表达权重,在步骤S1211重构决策树,直到收敛。在一个实施例中,重复若干次循环S1207-S1209。
接下来在步骤S1213,针对所有聚类(偏置、说话者和表达)重新估计模型方差和平均。在步骤S1215,针对说话者聚类重新估计权重和/或聚类,并且在步骤S1217重构决策树。表达聚类和变换保持不变,并且最大化方程34以获取新的说话者聚类和变换。
过程然后环回步骤S1213,并且重复此循环,直到收敛。然后过程环回步骤S1207,重复涉及表达的循环,直到收敛。过程继续,直到同时针对这两个循环联合达到收敛。
接下来,将参考图9描述根据实施例训练的系统执行的文本转语音合成。
图9是根据实施例训练的文本转语音系统的过程的流程图。
在步骤S201,输入文本。该文本可经由键盘、触摸屏、文本预测器等输入。
在步骤S203,文本然后被转换为声学单元序列。这些声学单元可以是音素或字素。这些单元可能上下文相关,例如,不仅考虑已选择的音素,而且还考虑前面和后面的音素的三音素。使用本领域中公知的技术将文本转换为声学单元序列,此处不做进一步介绍。
在步骤S204,选择期望的说话者。
在步骤S206,选择期望的表达。
表达和说话者的选择可通过各种方式执行。下面将参考图11-21对此进行讨论。
在步骤S206,系统查找以可访问的方式存储的平均和方差。
在步骤S209,系统查找期望的说话者和属性的参数。对于CAT训练的系统,这包括平均和方差的权重。在CMLLR训练的系统中,这包括规范模型的平均和方差的变换。本领域的技术人员将理解,说话者和属性相关参数可在步骤S207中查找平均之前或之后进行查找。
因此,在步骤S209之后,可以获取说话者和属性相关平均,即,使用平均并应用参数,这些然后在步骤S211用于声学模型。然后在步骤S213输出语音。
在训练数据被标记的情况下,相关说话者或表达可直接从用于训练模型的说话者和/或表达中选择。这是因为说话者变换或聚类权重对于训练说话者和表达是已知的。例如,可经由图10所示的用户界面执行此选择操作。在此,显示器253示出可被选择单元251选择的不同表达。类似的用户界面可用于选择不同的说话者。本领域的技术人员将理解,也可使用其它显示方法。
但是,在训练数据中的表达和/或说话者信息未标记的情况下,此方法不可行,因为相关的变换或聚类权重对于说话者和/或表达而言也未标记。如果需要没有针对其训练模型的新说话者或新表达,则此方法也不可行。
在一个实施例中,说话者和表达选择经由用户界面手动执行。在图10的用户界面中,用户例如通过使用鼠标拖拉屏幕上的点,使用键盘输入数字等来直接选择说话者或表达相关参数。在图10中,选择单元251(包括鼠标、键盘等)使用显示器253选择参数。在该实例中,显示器253具有两个雷达图,一个用于表达,一个用于显示参数的声音。用户可使用选择单元251在对应于各个(未标记)聚类的参数之间更改。在CAT训练方法中,其中参数为聚类权重,该选择单元经由雷达图更改各个聚类的支配度。在CMLLR训练方法中,其中参数为说话者变换和表达变换,该选择单元选择不同的变换。本领域的技术人员将理解,可使用其它显示方法。
在另一实施例中,必须通过使模型适应标记的自适应数据来获取特定说话者或表达的CMLLR变换或CAT聚类权重。
需要注意,训练模型所需的训练数据量非常大。因此,标记训练数据可能很难且很昂贵。但是,自适应所需的数据量很小。因此,标记自适应数据的成本很小。对于新说话者,只需少量中性语音便可执行说话者自适应,而从自适应数据提取的表达信息可被任何新说话者共享。
在一个实施例中,输入自适应数据以选择期望的说话者或表达。在一个实施例中,自适应数据包括音频数据。
图12示出适应具有音频数据的已知说话者和/或表达的系统的一个实例。首先,在步骤501接收输入目标自适应音频数据。
如果系统正适应于表达,则除非音频数据的说话者是用于训练模型的说话者中的一个,否则还必须输入以中性情绪说话的说话者的样本。但是请注意,音频表达数据的说话者不必对应于用于输出合成语音的期望的说话者;表达数据可以独立于说话者数据从一个说话者“移植”到另一说话者。将在下文详细对此进行讨论。
接下来,在步骤503,调整规范模型的CAT权重,即,之前被训练的聚类的权重,或适当的CMLLR变换,以最佳匹配目标自适应数据。此过程包括最大化自适应数据的似然性。说话者聚类权重被调整以匹配中性音频数据的说话者。情绪聚类权重然后进行自适应以匹配表达数据。
在另一实施例中,可继续使CAT模型适应音频自适应数据,如参考图13介绍的那样。
像在图12中那样,首先,在步骤S601接收目标声音,针对以目标表达说话的声音收集数据。首先,在步骤S603调整中性说话者聚类的权重以最佳匹配目标声音。
然后,在步骤S607将新表达聚类添加到用于目标表达的现有表达聚类。接下来,在步骤S609初始化新聚类的决策树,如参考图4,从步骤S455开始描述的那样。然后在步骤S611重新估计和重建所有聚类的权重、模型参数和决策树,如参考图2描述的那样。
系统可生成的任何说话者声音都可以以目标表达输出。同样,系统可生成的任何表达可以以目标说话者声音输出。
需要注意,模型要适应的说话者或表达可以是模型已针对其进行训练的说话者或表达,也可以是新的说话者或表达。
根据实施例的训练的系统允许执行以下合成:
1.任何说话者声音可使用对应于该声音的最终的说话者参数集与任何属性的组合来合成,上述任何属性例如是根据上面参考图13或14描述的自适应方法针对其执行系统自适应的表达。因此,在针对说话者1仅存在“高兴”数据的情况下,假如系统已针对至少一个其它声音适应了“生气”数据,则系统可以以“生气表达”输出说话者1的声音。
2.在通过CAT训练的系统中,可通过将权重向量设为任意位置,从CAT模型所跨的声学空间合成随机的声音,并且模型所适应的任何属性可被应用于此新的声音。
3.该系统也可用于输出具有2个或更多不同属性的声音。例如,可输出具有2个不同属性例如,表达和口音的说话者声音。
为了建立可组合在一起的不同属性例如,口音和表达的模型,整合两个待组合的不同属性,如上面参考方程32描述的那样。
在此布置中,一个聚类集可用于不同说话者,另一聚类集可用于表达,并且最终一个聚类集用于噪声。在一个实施例中,采用CAT因素分解。返回参考图2,将按照参考图4介绍的那样初始化表达聚类,还会将噪声聚类初始化为附加的聚类组,如参考图4针对表达介绍的那样。在图2中,存在训练表达的单独循环,然后存在训练说话者的单独循环。如果声音具有两个分量,例如,噪声和表达),则具有涉及噪声的单独循环和涉及表达的单独循环。
上述实施例的框架允许联合训练模型和执行模型自适应,从而增强了所生成语音的可控制性和质量。上面的框架还允许自适应数据或训练数据的范围要求更宽松。例如,图14所示的自适应数据配置可在下面的情况下使用:
3个女性说话者——fs1;fs2和fs3
3个男性说话者——ms1;ms2和ms3
其中fs1和fs2具有美国口音并且被记录为以中性表达说话,fs3具有中国口音并且被记录为以3组数据说话,其中一个数据集显示中性表达,一个数据集显示高兴表达,一个数据集显示生气表达。男性说话者ms1具有美国口音并且仅被记录为以中性表达说话,男性说话者ms2具有苏格兰口音并且被记录为以生气、高兴和悲伤的表达说话的3个数据集。第三个男性说话者ms3具有中国口音并且被记录为以中性表达说话。上述系统允许以6个说话者声音中的任一者,以及所记录的口音和表达组合中的任一者输出声音数据。
在一个实施例中,声音属性与说话者之间存在重叠,从而使得用于聚簇的数据分组对于每个声音特性而言都是独有的。
图15示出如何关联说话者声音和表达的可视化绘图。图15的绘图以三维的形式绘出,并且可扩展为更高维度层次。
说话者沿z轴被绘出。在该简化绘图中,说话者权重被定义为单维,实际上,可能存在2个或更多在对应数量轴上表示的说话者权重。
表达在x-y平面上表示。当表达1位于x轴,表达2位于y轴上时,示出对应于生气和悲伤的权重。使用此布置,可生成“生气的”说话者和“悲伤的”说话者b所需的权重。通过在x-y平面上导出对应于新的表达或属性的点,可看出如何将新的表达或属性应用于现有说话者。
图16示出上面参考声学空间介绍的原理。此处示出二维声学空间以允许变换可视化。但是实际上,声学空间在许多维度上延伸。
在表达CAT模型中,给定表达的平均向量为:
方程36
其中μxpr是表示以表达xpr说话的说话者的平均向量,是表达xpr的分量k的CAT权重,μk是分量k的分量k平均向量。
唯一的表达相关部分是权重。因此,两个不同表达(xpr1和xpr2)之间的差别就是平均向量的移位
方程37
这在图16中示出。
因此,为了将表达2(xpr2)的特性移向不同的说话者声音(spk2),只需将适当的Δ添加到spk2说话者模型的平均向量。在该实例中,适当的Δ从这样的说话者导出,其中该以xpr2说话的说话者的数据是可用的。该说话者被称为Spk1。Δ根据Spk1导出,作为以期望的表达xpr2说话的Spk1的平均向量与以表达xpr说话的Spk1的平均向量之间的差。表达xpr是说话者1和说话者2共有的表达。例如,如果中性表达的数据可同时用于Spk1和Spk2,则xpr可以是中性表达。但是,它可以是任何对于这两个说话者匹配或密切匹配的表达。在一个实施例中,为了确定对于Spk1和Spk2密切匹配的表达,可针对可用于说话者的不同表达构建Spk1和Spk2之间的距离函数,并且该距离函数可最小化。该距离函数可从欧几里得距离、巴特查里亚距离或Kullback-Leibler距离中选择。
然后可将适当的Δ添加到spk2的最佳匹配的平均向量,如下所示:
方程38
上面的实例主要使用基于CAT的技术,但是原则上,识别Δ可应用于允许输出不同类型表达的任何类型的统计模型。
图17示出根据实施例如何在合成阶段执行受监督自适应。从表达自适应数据174提取合成语音的表达信息,该表达自适应数据是自然的带表达的语音。在该实施例中,表达自适应数据来自训练说话者之一,该说话者在图17中被标记为“说话者1”,因此,说话者CAT权重是已知的。在给出说话者CAT权重175的情况下,将表达自适应数据投影到表达空间中的点172,该点与表达CAT权重向量175关联以最大化表达自适应数据的似然性。然后,所生成的表达CAT权重在不同的说话者之间共享。如图17所示,对于新说话者“说话者2”(仅为其提供中性语音177),执行说话者自适应以在说话者空间中查找点173,该点最大化说话者自适应数据的似然性。最后,将表达CAT权重175与说话者CAT权重178连结176,以针对“说话者2”生成与来自“说话者1”的数据相同的表达的合成语音179。
在另一实施例中,使用SEF作为训练具有表达的文本转语音系统的一部分,这被视为将文本数据点映射到多维连续空间中一点的过程。
将参考图18描述训练。训练数据263提供有文本和对应于文本输入的语音。
假设训练数据263中的每个话语包含独有的表达信息。该独有的表达信息可根据语音数据确定,并且可读取自语音转录(transcription),即,也称为文本数据。在训练数据中,语音语句和文本语句像图18所示的那样同步。
提供“表达语言特征提取”框265,该框将训练数据中的每个文本语句转换为被称为表达语言特征向量的向量。
可通过表达语言特征提取框265将任何文本语句转换为语言特征,并且所有可能的表达语言特征构建第一空间255,该空间可被称为表达语言空间。每个训练语句转录可被视为该表达语言空间中的一点。表达语言特征向量应该捕捉文本语句中的情绪信息。
在训练以及从文本提取表达语言特征期间,提供“表达合成特征提取”框257,该框将每个语音语句转换为被称为表达合成特征向量的向量。
可通过“表达合成特征提取”框257将任何语音语句转换为表达合成特征,并且所有可能的表达合成特征构建表达合成空间259。对表达合成特征的要求是,它应该捕捉原始语音语句中的独有表达信息,而该表达信息可在合成过程中重新生成。
在给出来自训练数据转录的语言特征和来自训练语音语句的合成特征的情况下,根据该实施例的方法和系统训练变换261以将语言特征空间255中的语言特征向量变换为合成特征空间259中的合成特征向量。
在合成阶段,“表达语言特征提取”框265将待合成文本转换为语言特征空间255中的语言特征向量,然后通过变换框261,将语言特征映射到表达合成空间259中的合成特征。该合成特征向量包含原始文本数据中的情绪信息,并且可被合成器直接用于合成表达语音。
在一个实施例中,使用诸如神经网络(NN)之类的机器学习方法提供变换框261并训练从表达语言空间255到表达合成空间259的变换。对于训练数据263中的每个语句,使用语音数据生成合成特征空间259中的表达合成特征,并且使用语音数据转录生成语言特征空间255中的表达语言特征。当使用训练数据的语言特征作为NN输入并且使用训练数据的合成特征作为目标输出时,可更新NN的参数以学习从语言特征空间到合成特征空间的映射。
“语言特征提取”框265将文本转换为语言特征向量。该特征向量应该包含区分信息,即,如果两个文本数据包含不同的情绪,则它们的语言特征应该在语言特征空间中可区分。
在一个实施例中,可使用词袋Bag-of-word(BoW)技术生成语言特征。BoW方法将文本数据表达为词频向量。向量的维度等于词汇表大小并且每个元素包含特定词在词汇表中的频率。可应用各种完善的BoW技术,例如潜在语义分析(LSA)、概率性潜在语义分析(pLSA)、潜在狄利克雷分布(LDA)等。通过这些技术,可在极低维度中压缩维度等于词汇表大小的原始词频向量。
在进一步的实施例中,为了更准确地建立文本数据中情绪信息的模型,使用来自文本数据的各级知识生成语言特征。
在一个实施例中,不仅词级信息,而且诸如完整上下文音素序列之类的更低级信息,以及诸如词性(POS)、叙事风格之类的更高级信息都要被使用以生成语言特征。
为了将来自不同级别的信息组合在一起,在一个实施例中,使用并行结构,如图19所示。在并行结构中,不同级别上的特征单独进行提取,然后将这些不同级别上的特征连结为一个大向量,以作为变换框的输入。
图19示出根据实施例可在系统中使用的用于提取语言特征的并行结构。在步骤S5301将文本数据转换为词频向量。接下来,在S5305使用以词为单位的LDA模型5303将词频向量转换为词级特征向量。在步骤S5305,通过推理过程估计变化的后验狄利克雷参数。
同时,在步骤S5307将文本数据转换为完整上下文音素序列。在步骤S5311中使用以完整上下文音素为单位的LDA模型309将上述完整上下文音素序列转换为完整上下文音素级特征向量。
然后,在S5313将词级特征向量和完整上下文音素级特征向量连结为语言特征以形成语言特征向量。
图19用于示出如何提取语言特征的实例。在进一步的实施例中,诸如POS、叙事风格之类的更高级知识以及来自文本数据的其它任何有用信息可被整合到语言特征。
进一步地,也可使用LDA之外的BoW方法提取语言特征。
根据不同级别的信息确定的语言特征也可使用层级结构组合。在此类层级结构的一个实施例中,具有不同级别知识的语言特征被集成到具有NN级联的系统中,如图20所示。
在图20,语言特征1和语言特征2表示根据不同级别知识确定的语言特征,例如,词级特征、完整上下文音素级特征等。
特征1被用作NN1的输入351。然后,NN1的输出353与特征2组合作为NN2的输入355以在输出端357生成声学特征。
现在返回图18,使用表达合成特征提取框257表示语音数据的表达信息。说话者相关声学空间259中的每个点表示语音中的独有表达信息。
在一个实施例中,上述文本转语音系统使用“表达权重”将表达引入语音。上面参考图18至20描述的表达导出部分可直接输出这些表达相关权重。
这样允许表达相关HMM参数被表示为聚类模型的线性内插,并且使用每个聚类HMM模型的内插权重用于表示表达信息。
因此,训练数据可按组分类,并且可使用组中的所有训练语句估计该组的相关CAT权重。如果将N个训练语句分类为M个组(M<<N),则训练数据可被表示为CAT权重空间中的M个点。
在一个实施例中,联合训练被用作将语言特征映射到合成特征的变换的NN以及用于构建说话者相关声学空间的CAT模型。联合训练过程将在下面进行描述。
1.初始CAT模型训练使用说话者和表达因素分解来生成初始规范模型M0和初始CAT权重集Λ0,该权重集由所有训练语句的CAT权重构成,将迭代数目设为i=0。
2.在给出训练语句的表达语言特征和训练语句的CAT权重集Λi的情况下,使用最小平方误差准则训练迭代i的NN,即NNi。针对各个说话者单独执行此操作,从而针对每个说话者训练从语言空间到声学空间的说话者相关映射。
3.使用训练语句的表达语言特征作为输入,NNi生成训练语句Oi的输出CAT权重集。针对来自每个说话者的每个话语执行此操作。
4.Λi+1=Oi。在给出Λi+1的情况下,重新训练CAT规范模型Mi+1以最大化训练数据的似然性。
5.i=i+1如果算法收敛,则移至6,否则移至2
6.结束。
通过上述过程,NN和CAT模型联合更新,这样可提高合成阶段的性能。
上述训练方法允许不同的说话者以不同的方式表达同一情绪,在此方法中,针对每个说话者单独训练映射。但是,由于用来生成初始规范模型的说话者和表达因素分解,可按照上面参考图14至17描述的方法,将来自一个说话者的表达合成向量(通过语音数据训练的映射获取)移植到另一说话者。
在另一实施例中,与说话者无关的语言空间-声学空间映射在上述步骤2训练。这包括合并不同说话者的所有训练样本以训练所有说话者共有的NN。
此联合训练过程不限于NN和CAT模型。一般而言,从语言特征空间到NN之外的合成特征空间的变换以及用于构建CAT之外的合成特征空间的方法可在同一框架中使用联合训练来更新。例如,联合训练过程可用于CMLLR。
上面步骤1采用的说话者和表达因素分解可包括无监督或受监督的说话者和表达因素分解。上述根据实施例的无监督说话者和表达因素分解不需要标记训练数据,并且进一步确保当涉及多个说话者数据时,表达聚簇结果不受说话者因素的影响。因此,无监督SEF生成的表达聚类完全独立于说话者,并且使得表达能够有效地从一个说话者的声学空间移植到另一说话者的声学空间。此过程将在下面详细地进行描述。
上面描述了系统的训练。现在参考图21描述文本转语音合成。
图21所示的合成系统包括表达语言特征提取框401,该框从表达语言空间403中的对话部分所生成的响应中提取表达特征向量,如参考训练描述的那样。在合成阶段提取该向量的过程与训练阶段中描述的过程完全相同。
然后经由变换框405将表达特征向量映射到表达合成空间407中的表达合成向量。该表达合成空间形成针对其训练表达映射的说话者的声学空间的一部分。变换框405已按照上述方式进行训练。
然后在合成器409合成输出语音时使用所确定的表达合成向量。在一个实施例中,该向量首先被移植到另一说话者411的声学空间。该实施例将在下面进行描述。如上所述,在一个实施例中,变换框405将表达语言特征向量直接映射为说话者相关声学空间407中的CAT权重。
需要注意,当采用SEF训练模型时,说话者相关声学空间被划分为说话者空间和表达空间。上述说话者相关声学空间是已针对其训练表达映射的说话者的声学空间。但是,由于模型使用说话者和表达因素分解(SEF)进行训练,以此方式确定的表达合成向量与说话者无关。因此,在一个实施例中,它可被移植到第二说话者的声学空间,从而使得第二说话者的声音可与根据文本预测的表达进行合成。这样,表达可从一个说话者移植到另一说话者。移植过程参考上面的图14-17进行描述。
通过使用SEF训练而构建的语言空间和表达合成空间均与说话者无关。但是,说话者空间和构建语言空间与表达合成空间之间的映射的非线性变换并非与说话者无关。因此,在合成阶段,使用说话者无关语言特征,以及使用第一说话者的说话者数据所训练的非线性变换,我们使用表达预测获取第一说话者的表达合成空间中的一点。然后,由于表达空间在使用SEF训练的模型中与说话者无关,因此该表达可被移植到第二说话者。因此,第二说话者可以用与第一说话者相同的风格读取文本。
在根据一个实施例的方法中,无需准备特殊的训练数据或者需要人类互动以评估训练数据。进一步地,待合成文本被直接转换为语言特征向量。该语言特征向量包含比单个情绪ID多很多的情绪信息。变换框将语言特征向量转换为具有同一情绪的表达合成特征。进一步地,该合成特征可用于合成与原始文本数据具有相同情绪的语音。
如果在表达合成特征空间中,每个训练语句与独有的合成特征向量相关,则通过变换(例如,NN)学习每个语句中的独有情绪信息。这样可为用户提供非常丰富的待合成情绪资源。
在根据一个实施例的方法中,无需准备特殊的训练数据或者要求人类交互以评估训练数据。进一步地,待合成文本被直接转换为语言特征向量。该语言特征向量包含比单个情绪ID多很多的情绪信息。变换框将语言特征向量转换为具有同一情绪的表达合成特征。进一步地,该合成特征可用于通过多个说话者合成与原始文本数据具有相同情绪的语音。
如果在表达合成特征空间中,每个训练语句与独有的合成特征向量相关,则通过变换,例如NN,学习每个语句中的独有情绪信息。这样可为用户提供非常丰富的待合成情绪资源。
当在合成特征空间中时,训练语句可被分类为组,一个组中的所有训练语句共享情绪信息。通过此方式,改进了变换的训练,因为需要学习的模式数量减少。因此,被估计的变换可更有鲁棒性。在根据本发明实施例的方法中,通过选择基于语句的合成特征或基于组的合成特征以及针对训练数据调整组的数量,可更轻松地实现表达性与合成性能的鲁棒性之间的平衡。
在上述方法中,可避免困难的决策情绪识别,这样会减少误差。NN的可能输出是无限的。这表示所提出的方法潜在地可生成无限个不同的合成特征,这些合成特征与不同的待合成情绪相关。进一步地,上述方法可轻松实现表达性与鲁棒性之间的平衡。
在上述合成过程中,文本数据的情绪信息不需要已知,或者被人类明确识别,或者来自其它源。训练完全自动执行。
在上述实施例中,多维连续表达语音合成空间被定义为,使得该空间中的每个点定义表达语音合成系统的参数。另外,训练映射过程,此过程可将文本特征映射到表达空间中的一点,该点进而定义表达语音合成过程的参数。
为了阐述使用CAT因素分解方法的无监督说话者和表达因素分解(SEF)方法,使用此方法训练两个系统,其中使用来自四个有声读物的28小时的训练数据,其中未标记情感表达信息。一个系统根据传统的模型训练,其中使用基于声学特征的自动化表达聚簇,然后再分别单独执行受监督SEF。另一系统根据一个实施例使用无监督SEF训练,其中表达聚簇和SEF被组合为单个过程。执行ABX测试以比较两个系统生成的语音。ABX测试在本领域中是公知的。需要听众选择哪些合成声音听起来最像参考人声。该测试同时使用用于训练模型的说话者和测试说话者执行。用于训练说话者的ABX测试结果在表1中示出,用于测试说话者的ABX测试结果在表2中示出。
说话者 传统方法 所提出的方法 P
1 45.0% 55.0% 0.007
2 48.4% 51.6% 0.241
3 43.3% 56.7% <0.001
4 47.9% 52.1% 0.168
全部 45.7% 54.3% <0.001
表1 用于训练说话者的ABX测试
说话者 传统方法 所提出的方法 P
1 45.9% 54.1% 0.029
2 45.2% 54.8% 0.014
全部 46.0% 54.0% 0.02
表2 用于测试说话者的ABX测试
其中百分比指示选择声音的听众的百分比,P指示p值。P值在本领域中是公知的,此处不再描述。小于0.025的p值指示显著性差异。
实验结果指示所提出的方法明显优于传统的受监督SEF方法。
根据上述实施例的方法和系统可用作表达语音合成、文本转语音合成、电子图书阅读、语音-语音转换或其中可采用语音的其它情况的一部分。
尽管已经描述了特定实施例,但是这些实施例仅作为实例给出,并非旨在限制本发明的范围。实际上,此处描述的新颖方法和系统可以多种其它形式实现;此外,在不偏离本发明精神的情况下,可对此处描述的方法和系统做出各种形式上的省略、替换和更改。所附权利要求及其等同物旨在将这些形式和修改涵盖在落入本发明的范围和精神内。
附录
图22示出文本转语音系统1。文本转语音系统1包括处理器3,其执行程序5。文本转语音系统1进一步包括存储装置7。存储装置7存储程序5用于将文本转换为语音的数据。文本转语音系统1进一步包括输入模块11和输出模块13。输入模块11连接到文本输入端15。文本输入端15接收文本。文本输入端15例如可以是键盘。备选地,文本输入端15可以是用于从外部存储介质或网络接收文本数据的装置。在一个实施例中,该系统进一步包括表达导出部分。该部分的作用将参考图18-21进行描述。
与输出模块13连接的是音频输出端17。音频输出端17用于输出从输入到文本输入端15的文本转换而来的语音信号。音频输出端17例如可以是直接音频输出(例如,扬声器),或者是用于音频数据文件(可被发送到存储介质、网络等)的输出。
在使用中,文本转语音系统1通过文本输入端15接收文本。在处理器3上执行的程序5使用存储装置7中存储的数据,将文本转换为语音数据。语音经由输出模块13被输出到音频输出端17。
将参考图23描述简化的过程。在第一步骤S101,输入文本。该文本可经由键盘、触摸屏、文本预测器等输入。文本然后被转换为声学单元序列。这些声学单元可以是音素或字素。这些单元可能上下文相关,例如,不仅考虑已选择的音素,而且还考虑前面和后面的音素的三音素。文本使用本领域中公知的技术被转换为声学单元序列,此处不再进一步介绍。
在步骤S105,查找将声学单元与语音参数相关联的概率分布。在该实施例中,概率分布可以是通过平均和方差定义的高斯分布。但是可以使用其它分布,例如泊松分布、学生-t分布、拉普拉斯分布或伽玛分布,其中某些分布由平均和方差之外的变量定义。
不可能每个声学单元与语音向量或“观测量”之间都具有确定的一对一的对应关系以使用本领域的术语。许多声学单元以类似的方式发音,并受到周围声学单元、它们在词或语句中的位置的影响,或者由不同的说话者以不同的方式发音。因此,每个声学单元只是以一定概率关联到语音向量,并且文本转语音系统计算大量概率并在给出声学单元序列的情况下选择最可能的观测序列。
图24示出高斯分布。图24可被视为声学单元与语音向量相关联的概率分布。例如,被示出为X的语音向量具有对应于音素或其它声学单元的概率P1,其具有图24中所示的分布。
高斯的形状和位置通过其平均和方差定义。这些参数在训练系统期间确定。
这些参数然后在步骤S107,在声学模型中使用。在此描述中,声学模型是隐马尔可夫模型(HMM)。但是也可使用其它模型。
语音系统的文本将存储许多概率密度函数,这些函数将声学单元(例如,音素、字素、词或其一部分)与语音参数相关联。由于一般使用高斯分布,因此这些统称为高斯量或分量。
在隐马尔可夫模型或其它类型的声学模型中,必须考虑与特定声学单元关联的所有潜在语音向量的概率。然后考虑最可能对应于声学单元序列的语音向量序列。这暗示,考虑两个单元彼此影响的方式,在所有声学单元序列上进行整体优化。因此,当考虑声学单元序列时,特定声学单元的最可能的语音向量可能不是最佳语音向量。
在某些实施例中,可能存在多个不同的状态,其每一个都将使用高斯分布来建模。例如,在一个实施例中,文本转语音系统包括多个流。此类流可选自以下中的一个或多个:频谱参数(Spectrum)、基频对数(Log F0)、基频对数的一次微分(ΔLog F0)、基频对数的二次微分(Δ-ΔLog F0)、频带非周期性参数(BAP)、持续时间等。这些流也可被进一步分为多个类别,例如静音(sil)、短暂停顿(pau)和语音(spe)等。在一个实施例中,来自每个流和类别的数据将使用HMM进行建模。HMM可包括不同数量的状态,例如在一个实施例中,可使用5个状态HMM为来自一些上述流和类别的数据建模。针对每个HMM状态确定高斯分量。
一旦确定语音向量序列,便在步骤S109输出语音。
图25示出用于训练在文本转语音系统中使用的声学模型的系统。图25中的系统与参考图22描述的系统类似。因此,为了避免任何不必要的重复,将使用相同的参考标号表示相同的特征。
除了参考图22描述的特征之外,图25还包括音频输入端24和音频输入模块22。当训练系统时,有必要具有音频输入,该音频输入匹配经由文本输入端15输入的文本。
在基于隐马尔可夫模型(HMM)的语音处理系统中,HMM经常被表示为
M=(A,B,П) 方程39
其中是状态转变概率分布,是状态输出概率分布,是初始状态概率分布,其中N是HMM中的状态数目。
HMM在文本转语音系统中的使用方式是本领域中公知的,此处不再描述。
在下面描述的实施例中,状态转变概率分布A和初始状态概率分布根据本领域中公知的程序确定。因此,本描述中的其余部分将涉及状态输出概率分布。
当训练传统的文本转语音系统时,目标是估计最大化给定观测序列的似然性的模型参数集。
一般而言,在文本转语音系统中,来自模型集M中第mth个高斯分量的状态输出向量或语音向量o(t)为
p(ot|m,M)=N(ot;μm,∑m) 方程40
其中μm和∑m是第mth个高斯分量的平均和协方差。
由于不可能单纯以解析的方式基于所谓的最大似然性(ML)准则获取上述模型,因此传统上使用被称为期望最大化(EM)算法(经常被称为Baum-Welch算法)的迭代方法解决问题。在此,导出辅助函数(“Q”函数)
方程42
其中γm(t)是在给出当前模型参数M’的情况下生成观测o(t)的分量m的后验概率,M是新参数集。在每次迭代之后,参数集M’被最大化Q(M,M’)的新参数集M替代。p(o(t),m|M)是诸如GMM、HMM等之类的生成模型。
此模型可集成语音数据的因素,例如说话者、表达或噪声环境,或者语音数据的某些其它因素。该模型然后具有以下的状态输出向量:
方程43
其中m∈{1,.......,MN}、t∈{1,.......T}和s∈{1,.......,S}分别是分量、时间和说话者、或表达、或噪声环境、或者语音数据的某些其它因素的指标,并且其中MN、T和S分别是分量、框架和说话者(或表达、或噪声环境、或者语音数据的某些其它因素)的总数。在下面的讨论中,假设语音因素为说话者。
的确切形式将依赖于所应用的任何说话者相关变换。下面讨论两种此类说话者相关方法。但是,也可使用其它方法。
聚类自适应训练(CAT)是训练和合成各种数据的有效方法。CAT最初为了语音识别而发开。此方法已被修正,以支持统计语音合成中增加的上下文重要性。
在传统的CAT方法中,通过将权重应用于已被放入聚类的模型参数来适应不同的说话者。针对每个聚类使用单独的决策树。这样产生模型的相交形式以实现上下文,允许更精细地表示上下文,而不会显著增加模型参数数量。
在一个实施例中,用于所述树的决策基于语言、语音和音韵变化。在一个实施例中,针对每个作为聚类成员的分量具有一个决策树。音韵、语音和语言上下文影响最终的语音波形。语音上下文一般影响声道,音韵(例如,音节)和语言(例如,词性)上下文影响韵律,例如持续时间(节奏)和基频(音调)。每个聚类可包括一个或多个子聚类,其中每个子聚类包括至少一个所述决策树。
可考虑上面的内容以取出每个子聚类的权重或每个聚类的权重向量,权重向量的分量是每个子聚类的权重。
下面的配置示出标准实施例。为了对该数据进行建模,在该实施例中,使用5个状态HMM。对于该实例:数据被分为三个类别:静音、短暂停顿和语音。在该特定实施例中,按照以下方式分配决策树和每个子聚类的权重:
在该特定实施例中,针对每个聚类使用以下流:
Spectrum:1个流、5个状态、每个状态1个决策树x 3个类别
LogF0:3个流、每个流5个状态、每个状态和流1个决策树x 3个类别
BAP:1个流、5个状态、每个状态1个决策树x 3个类别
Duration(持续时间):1个流、5个状态、1个决策树x 3个类别(每个决策树跨所有状态共享)
总计:3x26=78个决策树
对于上述内容,将以下权重应用到每个声音特性(例如,说话者)的每个流:
Spectrum:1个流、5个状态、每个流1个权重x 3个类别
LogF0:3个流、每个流5个状态、每个流1个权重x 3个类别
BAP:1个流、5个状态、每个流1个权重x 3个类别
Duration(持续时间):1个流、5个状态、每个状态和流1个权重x3个类别
总计:3x10=30个权重
如该实例中所示,可以为不同的决策树(Spectrum)分配相同的权重,也可以为同一决策树(duration)分配一个以上权重,或者具有其它任何组合。如此处使用的那样,被应用相同权重的决策树被考虑形成子聚类。
每个聚类模型包含一组高斯平均参数,高斯方差在所有聚类上共享。
这样,对于CAT模型:
方程44
方程45
其中μc(m,i)是用于分量m的聚类I的平均,v(m)∈{1,.......,V}表示分量m的协方差矩阵所属的协方差决策树中的叶节点,V是方差决策树叶节点的总数目。
方程43可被重写为:
p(ot(s),M(m),∑v(m))=N(ot;M(m)λ(s),∑v(m)) 方程46
其中
M(m)=[μ(m,1)…μ(m,P)] 方程47
是分量m的P聚类平均向量的矩阵。因此,在CAT模型中,要使用的平均向量是所有聚类平均的线性内插。
只需将该表示形式扩展为包括带有每个表达状态的多元回归类。回归类在本领域中是公知的,因此此处不再讨论。
与标准CAT方法一样,第一聚类被指定为偏置聚类,因此
方程48
CAT模型的训练可被划分为三部分:聚类模型训练、CAT权重估计和决策树构建。
该模型的辅助函数可表示为:
方程49
其中C是独立于M的常数。
这样,使用上述方程并在方程10中代入方程5和6,辅助函数示出模型参数可被拆分为三个不同的部分。
第一部分是规范模型的参数,即,说话者无关平均{μn}和说话者无关协方差{∑k},其中指标n和k指示下面将描述的平均和方差决策树的叶节点。第二部分是说话者相关权重其中s指示说话者,i指示聚类指标参数。第三部分是说话者相关聚类的平均μc(m,x)
一旦辅助函数以上述方式表示,便依次相对于每个变量进行最大化,从而获取说话者和声音特性参数、说话者相关参数以及声音特性相关参数的ML值。
为了执行CAT训练的第一部分,估计聚类模型参数,将方程49的辅助函数相对于高斯平均向量μn求微分,如下所示:
方程50
其中
方程51
为累积统计数据
方程52
通过以常见方式最大化方程(将导数设为零),针对μn的ML估计(即,)得出以下公式
方程53
需要指出,μn的ML估计也依赖于μk,其中k不等于n。指标n用于表示平均向量决策树的叶节点,而指标k表示协方差决策树的叶节点。因此,有必要通过对所有μn进行迭代,直到收敛来执行优化。
这可通过求解以下方程以优化所有μn来执行。
方程54
但是,如果训练数据很小或者N很大,则方程15的系数矩阵不能具有满秩(fullrank)。可使用奇异值分解或其它公知的矩阵因数分解技术避免此问题。
然后执行相同的过程以执行协方差的ML估计,即,将方程49中示出的辅助函数相对于∑k求微分,从而得出:
方程55
其中
方程56
说话者相关权重和说话者相关线性变换的ML估计也可以相同的方式获取,即,将辅助函数相对于需要ML估计的参数求微分,然后将微分值设为0。
训练的第二部分包括估计CAT权重向量。将辅助函数相对于λ(s)求微分,并且设为等于0,从而得出
方程57
其中μc(m,l)是分量m的偏置聚类的平均向量。
此过程以迭代的方式执行。
CAT训练模型的第三部分是决策树构建。按照逐个聚类构建聚类相关决策树。当构建聚类的决策树(包括树结构)时,高斯平均向量和协方差矩阵固定。
从表示所有上下文的单个根节点开始,以局部最优的方式构建每个二进制决策树。在该实施例中,根据上下文,使用以下基本成分:语音、语言和音韵。当创建每个节点时,选择有关上下文的下一最优问题。基于哪个问题导致似然性的最大增加以及在训练实例中生成的终端节点来选择问题。
然后搜索终端节点集以查找可使用其最优问题分割的节点,从而向训练数据提供总似然性最大增加。假如此增加超过阈值,则使用最优问题分割节点,创建两个新的终端节点。当由于任何进一步的分割不会超过应用于似然性分割的阈值而导致无法形成新的终端节点时,此过程停止。
此过程例如在图26中示出。平均决策树中的第n个终端节点根据问题q被分为两个新的终端节点此分割实现的似然性增益可按照以下公式计算:
方程58
其中S(n)表示与节点n关联的分量集。需要注意,不包括相对于μn固定的项。
决策树的构建基于以下假设:即当构建一个聚类的决策树时,其它聚类的参数固定。μn的最大似然性通过方程53给出。因此,节点n的似然性可被重写为:
方程59
因此,通过将节点n分割为而增益的似然性由下式给出:
方程60
并且决策树生成算法根据最大化此函数的分割来分割节点。
因此,使用上述方程,可以构建每个聚类的决策树,其中决策树被布置为首先在决策树中询问最优问题,并且根据分割的似然性以层级顺序设置决策。然后将权重应用于每个聚类。
也可使用类似的原理针对方差构建决策树。
约束最大似然性线性回归(CMLLR)是针对多个说话者训练模型的另一技术。通过使用线性回归技术将每个说话者的观测向量与规范模型的对应项进行关联,来针对不同的说话者训练该模型。
模型的训练包括首先使用来自所有训练数据的数据训练规范模型。在一个实施例中,使用标准的最大期望算法执行此操作。然后针对每个单独的说话者训练CMLLR变换参数。
CMLLR变换参数包括一组说话者相关线性变换W(s)=[b(s)TA(s)T]T,其变化规范模型的平均μm和协方差∑m,其中A和b分别为变换矩阵和偏置向量。
使用这些变换,观测向量的概率可表示为:
p(ot|W(s),μm,∑m)=N(A(s)ot+b(s);μm,∑m) 方程61
为了使用最大似然性准则估计CMLLR变换参数W,使用辅助函数CMLLR的参数估计按逐个行的方式执行。对于特定行辅助函数可被重写为:
方程62
其中的第i个行向量的扩展余因子行向量,Xi是独立于目标CMLLR变换的项。在对角协方差矩阵的情况下,统计数据β(s)、G(s)(i)和k(s)(i)定义如下
方程63
方程64
方程65
其中ζ(t)是扩展观测向量[1 o(t)T]T
相对于求微分,得出
方程66
将方程66的右侧设为0,可被计算为
方程67
其中α是以下二次方程的根
方程68
该二次方程有两个根。最后的解是最大化辅助函数的那个根。
对于某些任务,有必要同时对一个以上因素建模。例如,合成阅读电子图书的声音可能需要合成若干个具有表达语音的声音。但是,直接针对说话者和表达的每个组合,或者针对表达,构建模型通常不切实际,因为表达训练数据可能不是对于每个说话者都可用。
使用因素分解技术可提供此问题的解决方案,这些技术在使用具有多个属性和说话者的训练数据时,单独地为说话者和表达建模。因素分解技术可基于CAT、CMLLR、CAT和CMLLR的组合,或者其它最大似然性技术。
基于CAT训练方法的说话者和表达因素分解(SEF)涉及使用CAT权重向量表示说话者信息和表达信息两者,即,使用CAT权重向量的某些维度建立说话者模型,使用其另一些维度建立表达模型。对应于中性说话者的参数和对应于表达的参数被放入单独的聚类中。方程43然后可被重写为
方程69
其中λs和λe分别是建立说话者模型和表达模型的CAT权重向量;是分量m的聚类平均矩阵,它们分别与表达CAT权重向量和说话者CAT权重向量关联;μ(m,1)是偏置聚类中分量m的平均向量。
SEF也可在上述CMLLR训练框架中实现。此方法涉及两个线性变换的级联,其中一个用于建立说话者模型,另一个用于建立表达模型,即,观测向量进行以下变换
方程70
这样,方程43变为
p(ot|Ws,We,μ(m),∑(m))=N(As.(Ae.ot|be)|bs;μ(m),∑(m)) 方程70a
SEF也可通过组合CAT和CMLLR来应用。在这种情况下,说话者信息可通过CMLLR变换建模,而表达信息可通过CAT权重向量建模。因此,观测向量的概率函数变为
方程71
备选地,CMLLR可用于建立表达模型,而CAT权重向量可用于建立说话者模型。在此情况下,观测向量的概率函数变为
方程72

Claims (16)

1.一种训练用于文本转语音系统的声学模型的方法,
所述方法包括:
接收语音数据,
所述语音数据包括对应于第一语音因素的不同值的数据,
并且其中所述语音数据未标记,从而对于语音数据的给定项,所述第一语音因素的值未知;
根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及
估计与该第一聚类集相关的第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;
其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。
2.根据权利要求1的方法,其中所述第一参数集包括依赖于所述第一语音因素的聚类自适应训练权重。
3.根据权利要求1的方法,其中所述第一参数集为依赖于所述第一语音因素的约束似然性线性回归变换。
4.根据权利要求1的方法,其中所述第一语音因素是说话者,并且所述语音数据进一步包括来自以中性语音说话的一个或多个说话者的语音数据。
5.根据权利要求1的方法,其中所述第一语音因素为表达。
6.根据权利要求5的方法,进一步包括:
接收对应于所述已接收语音数据的文本数据;
从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言特征向量;
从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成向量;以及
训练机器学习算法,所述机器学习算法的训练输入是表达语言特征向量,其训练输出是对应于所述语音数据和所述文本数据的表达特征合成向量。
7.根据权利要求1的方法,其中所述语音数据进一步包括对应于第二语音因素的不同值的数据。
8.根据权利要求7的方法,其中第二语音因素的值未知;
并且,其中所述方法进一步包括:
根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及
估计与该第二聚类集相关的第二参数集以使得所述声学模型能够针对所述第二语音因素的不同值适应语音;
其中所述第一和第二参数集与所述第一和第二聚类集不重叠,并且
其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第二聚类集两者所共同遵循的单个最大似然性准则联合执行。
9.根据权利要求8的方法,其中所述第二参数集包括依赖于所述第二语音因素的聚类自适应训练权重。
10.根据权利要求8的方法,其中所述第二参数集为依赖于所述第二语音因素的约束似然性线性回归变换。
11.根据权利要求4的方法,其中所述语音数据进一步包括对应于第二语音因素的不同值的数据,并且其中训练所述声学模型进一步包括:
根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及
估计与该第二聚类集相关的第二参数集以使得所述声学模型能够针对所述第二语音因素的不同值适应语音;
其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第二聚类集两者所共同遵循的单个最大似然性准则联合执行,
并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠。
12.根据权利要求11的方法,其中所述第二语音因素为表达。
13.根据权利要求1的方法,其中所述声学模型包括将声学单元与语音向量序列相关联的概率分布函数。
14.一种文本转语音方法,所述方法包括:
接收输入文本;
将所述输入文本划分为声学单元序列;
使用声学模型将所述声学单元序列转换为语音向量序列,其中所述声学模型使用根据权利要求12的方法训练;以及
将所述语音向量序列输出为音频,
所述方法进一步包括通过以下方式确定所述第二参数集中的至少某些:
从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言特征向量;以及
将所述表达语言特征向量映射为在第二空间中构建的表达合成特征向量。
15.一种训练用于文本转语音系统的声学模型的系统,所述系统包括:
输入端,其用于接收对应于第一语音因素的不同值的语音数据,
其中所述语音数据未标记,从而对于给定的数据项,所述第一语音因素的值未知;
处理器,其被配置为:
根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及
估计与该第一聚类集相关的第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;
其中所述聚簇和所述第一参数估计根据所述第一参数估计和所述聚簇为第一聚类集两者所共同遵循的单个最大似然性准则联合执行。
16.一种载体介质,包括被配置为使计算机执行根据权利要求1的方法的计算机可读代码。
CN201410419320.0A 2013-08-23 2014-08-22 语音处理系统和方法 Expired - Fee Related CN104424943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810145526.7A CN108364639A (zh) 2013-08-23 2014-08-22 语音处理系统和方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB1315139.4A GB2517503B (en) 2013-08-23 2013-08-23 A speech processing system and method
GB1315139.4 2013-08-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201810145526.7A Division CN108364639A (zh) 2013-08-23 2014-08-22 语音处理系统和方法

Publications (2)

Publication Number Publication Date
CN104424943A CN104424943A (zh) 2015-03-18
CN104424943B true CN104424943B (zh) 2019-07-12

Family

ID=49355862

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201410419320.0A Expired - Fee Related CN104424943B (zh) 2013-08-23 2014-08-22 语音处理系统和方法
CN201810145526.7A Pending CN108364639A (zh) 2013-08-23 2014-08-22 语音处理系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810145526.7A Pending CN108364639A (zh) 2013-08-23 2014-08-22 语音处理系统和方法

Country Status (5)

Country Link
US (1) US10140972B2 (zh)
EP (3) EP3282444A1 (zh)
JP (1) JP2015057651A (zh)
CN (2) CN104424943B (zh)
GB (1) GB2517503B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
US9805028B1 (en) * 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
JP6483578B2 (ja) * 2015-09-14 2019-03-13 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2017135148A1 (ja) * 2016-02-02 2017-08-10 日本電信電話株式会社 音響モデル学習方法、音声認識方法、音響モデル学習装置、音声認識装置、音響モデル学習プログラムおよび音声認識プログラム
US9864743B2 (en) * 2016-04-29 2018-01-09 Fujitsu Limited Textual emotion detection
CN107516511B (zh) * 2016-06-13 2021-05-25 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
US20180082679A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10810380B2 (en) * 2016-12-21 2020-10-20 Facebook, Inc. Transliteration using machine translation pipeline
US10475438B1 (en) * 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
WO2019044401A1 (ja) * 2017-08-29 2019-03-07 大学共同利用機関法人情報・システム研究機構 Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
US10565982B2 (en) 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
US10553203B2 (en) 2017-11-09 2020-02-04 International Business Machines Corporation Training data optimization for voice enablement of applications
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
EP3739572A4 (en) * 2018-01-11 2021-09-08 Neosapience, Inc. METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM
US10937438B2 (en) * 2018-03-29 2021-03-02 Ford Global Technologies, Llc Neural network generative modeling to transform speech utterances and augment training data
EP3690875B1 (en) * 2018-04-12 2024-03-20 Spotify AB Training and testing utterance-based frameworks
CN109192200B (zh) * 2018-05-25 2023-06-13 华侨大学 一种语音识别方法
CN110634466B (zh) 2018-05-31 2024-03-15 微软技术许可有限责任公司 具有高感染力的tts处理技术
CN111192568B (zh) * 2018-11-15 2022-12-13 华为技术有限公司 一种语音合成方法及语音合成装置
WO2020136948A1 (ja) * 2018-12-26 2020-07-02 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
WO2020173912A1 (en) * 2019-02-27 2020-09-03 3Shape A/S Method for generating objects using an hourglass predictor
CN111881253B (zh) * 2019-04-15 2024-04-16 阿里巴巴集团控股有限公司 同义实体对的确定方法及装置
JP7143955B2 (ja) * 2019-08-19 2022-09-29 日本電信電話株式会社 推定装置、推定方法、および、推定プログラム
KR20210136598A (ko) * 2020-05-08 2021-11-17 한국과학기술원 다언어 다화자 개성 표현 음성 합성을 위한 전자 장치 및 그의 동작 방법
CN111916049B (zh) * 2020-07-15 2021-02-09 北京声智科技有限公司 一种语音合成方法及装置
US11341953B2 (en) * 2020-09-21 2022-05-24 Amazon Technologies, Inc. Synthetic speech processing
CN113299295B (zh) * 2021-05-11 2022-12-30 支付宝(杭州)信息技术有限公司 声纹编码网络的训练方法及装置
US20230099732A1 (en) * 2021-09-30 2023-03-30 Microsoft Technology Licensing, Llc Computing system for domain expressive text to speech
CN113887216A (zh) * 2021-10-20 2022-01-04 美的集团(上海)有限公司 词向量增量方法、电子设备及计算机存储介质
US20230214454A1 (en) * 2022-01-04 2023-07-06 International Business Machines Corporation Intelligent expansion of reviewer feedback on training data
CN116821594B (zh) * 2023-05-24 2023-12-05 浙江大学 基于频谱选择机制的图神经网络工业控制系统异常检测方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2583074B2 (ja) 1987-09-18 1997-02-19 日本電信電話株式会社 音声合成方法
JP2003271171A (ja) * 2002-03-14 2003-09-25 Matsushita Electric Ind Co Ltd 音声合成方法、音声合成装置および音声合成プログラム
US7684988B2 (en) * 2004-10-15 2010-03-23 Microsoft Corporation Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
US8244534B2 (en) * 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
GB2484615B (en) * 2009-06-10 2013-05-08 Toshiba Res Europ Ltd A text to speech method and system
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
US20130185070A1 (en) * 2012-01-12 2013-07-18 Microsoft Corporation Normalization based discriminative training for continuous speech recognition
CN102568476B (zh) * 2012-02-21 2013-07-03 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
GB2501062B (en) * 2012-03-14 2014-08-13 Toshiba Res Europ Ltd A text to speech method and system
GB2505400B (en) 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Integrated automatic expression prediction and speech synthsis from text;CHEN LANGZHOU ET AL;<ICASSP>;20130526;摘要,正文第3小节,第4.2小节,第4.3小节,第6小节
Statistical Parametric Speech Synthesis Based on Speaker and Language Factorization;ZEN ET AL;<IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING>;20120801;摘要,正文第二部分,第四部分,第五部分
Statistical parametric speech synthesis;Heiga Zen et al;<speech connmunication>;20091231;1039-1064

Also Published As

Publication number Publication date
CN108364639A (zh) 2018-08-03
EP2846327A1 (en) 2015-03-11
US20150058019A1 (en) 2015-02-26
EP2860725A1 (en) 2015-04-15
GB201315139D0 (en) 2013-10-09
JP2015057651A (ja) 2015-03-26
EP2846327B1 (en) 2018-05-30
US10140972B2 (en) 2018-11-27
GB2517503B (en) 2016-12-28
CN104424943A (zh) 2015-03-18
EP3282444A1 (en) 2018-02-14
GB2517503A (en) 2015-02-25

Similar Documents

Publication Publication Date Title
CN104424943B (zh) 语音处理系统和方法
JP6092293B2 (ja) テキスト読み上げシステム
JP5768093B2 (ja) 音声処理システム
CN103310784B (zh) 文本到语音的方法和系统
US20180203946A1 (en) Computer generated emulation of a subject
JP5398909B2 (ja) テキスト音声合成方法及びシステム
CN103971393A (zh) 计算机生成的头部
CN108831435B (zh) 一种基于多情感说话人自适应的情感语音合成方法
KR102311922B1 (ko) 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
US9324316B2 (en) Prosody generator, speech synthesizer, prosody generating method and prosody generating program
CN111696522B (zh) 基于hmm和dnn的藏语语音识别方法
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN113611293B (zh) 一种蒙古语数据集扩充方法
Savargiv et al. Study on unit-selection and statistical parametric speech synthesis techniques
CN117894293A (zh) 语音合成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190712

Termination date: 20200822

CF01 Termination of patent right due to non-payment of annual fee