CN103578462A - 语音处理系统 - Google Patents
语音处理系统 Download PDFInfo
- Publication number
- CN103578462A CN103578462A CN201310301682.5A CN201310301682A CN103578462A CN 103578462 A CN103578462 A CN 103578462A CN 201310301682 A CN201310301682 A CN 201310301682A CN 103578462 A CN103578462 A CN 103578462A
- Authority
- CN
- China
- Prior art keywords
- vector
- model
- space
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title description 8
- 238000000034 method Methods 0.000 claims abstract description 98
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000009826 distribution Methods 0.000 claims abstract description 30
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 92
- 239000002131 composite material Substances 0.000 claims description 54
- 238000003066 decision tree Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 11
- 230000033764 rhythmic process Effects 0.000 claims description 8
- 238000002386 leaching Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 abstract description 18
- 238000003786 synthesis reaction Methods 0.000 abstract description 17
- 238000013528 artificial neural network Methods 0.000 description 20
- 230000036651 mood Effects 0.000 description 15
- 230000002996 emotional effect Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013216 cat model Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000005194 fractionation Methods 0.000 description 6
- 238000004138 cluster model Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000002609 medium Substances 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000005055 memory storage Effects 0.000 description 3
- 238000010189 synthetic method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000012120 mounting media Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种文语转换方法,该方法包括:接收输入文本;将所述输入文本分割为声单元序列;利用声学模型将所述声单元序列转换为语音矢量序列,其中所述模型具有多个模型参数,模型参数描述将声单元与语音矢量相关联的概率分布;以及将所述语音矢量序列输出为音频,该方法还包括通过如下步骤确定所述模型参数的至少部分:从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;以及将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
Description
相关申请的交叉引用
本申请基于在2012年7月18日提交的英国专利申请No.1212783.3,并要求其优先权,其整体内容在此引入作为参考。
技术领域
本文所述实施例总体涉及语音处理系统和方法。
背景技术
语音处理系统通常落入两个主要组:文语转换系统;和语音识别系统。
文语转换系统是这样的系统,其中响应于接收到文本文件而输出音频语音或音频语音文件。文语转换系统用于多个应用中,诸如电子游戏、电子书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动警告系统。
发明内容
为了解决对能够输出具有一定表达程度的语音的系统的持续需要这一问题,本发明实施例提供一种语音处理系统。
在一实施例中,提供文语转换方法,该方法包括:
接收输入文本;
将所述输入文本分割为声单元序列;
利用声学模型将所述声单元序列转换为语音矢量序列,其中所述模型具有多个模型参数,所述模型参数用于描述将声单元与语音矢量相关联的概率分布;以及
将所述语音矢量序列输出为音频,
该方法还包括通过如下步骤确定所述模型参数的至少部分:
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;以及
将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
在实施例中,将表达语言特征矢量映射到表达合成特征矢量包括,使用机器学习算法,例如,神经网络。
第二空间可以是多维连续空间。这允许平滑改变输出音频中的表达。
在一实施例中,从所述输入文本提取表达特征包括多个提取过程,所述多个提取过程在所述文本的不同信息级别执行。例如,不同信息级别可选自基于单词的语言特征提取级别以生成基于单词的语言特征、选自基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、选自基于部分语音(POS)的语言特征提取级别以生成基于POS的特征、以及选自基于叙事风格的语言特征提取级别以生成叙事风格的信息。
在一个实施例中,当从多个信息级别提取表达特征时,多个提取过程中的每个生成特征矢量,该方法还包括连接从不同信息级别生成的语言特征矢量,以生成与第二空间映射的语言特征矢量。
在另一个实施例中,当从多个信息级别提取表达特征时,将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。
在一个实施例中,从第一空间映射到第二空间使用全情境信息。在另一个实施例中,声学模型从输入文本接收全情境信息,并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。在另一个实施例中,在映射步骤中使用全情境信息,并且还与映射步骤分离地接收全情境信息作为声学模型的输入。
在一些实施例中,所述声学模型的模型参数被表达为相同类型的模型参数的加权和,并且权重在第二空间中表示。例如,将所述模型参数表示为高斯平均值的加权和。在另一个实施例中,将参数聚为群集,并且合成特征矢量包括用于每个群集的权重。
每个群集可包括至少一个决策树,所述决策树基于与语言、语音或韵律差异中至少一个相关的问题。另外,在群集的决策树之间可能存在结构差异。
在一些实施例中,提供一种训练文语转换系统的方法,该方法包括:
接收训练数据,所述训练数据包括文本数据和对应于所述文本数据的语音数据;
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;
从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成矢量;
训练机器学习算法,该机器学习算法的训练输入为表达语言特征矢量,并且训练输出为对应于训练输入的表达合成特征矢量。
在一实施例中,机器学习算法为神经网络。
该方法还包括将表达合成特征矢量输出到语音合成器,所述语音合成器包括声学模型,其中所述模型具有多个模型参数,所述模型参数描述用于将声单元与语音矢量相关联的概率分布。在该配置中,联合训练声学模型的参数和诸如神经网络的机器学习算法。例如,所述声学模型的模型参数可以被表达为相同类型的模型参数的加权和,并且权重在第二空间中表示。在该配置中,可以联合训练在第二空间表示的权重和神经网络。
在一些实施例中,提供文语转换设备,该设备包括:
接收器,用于接收输入文本;
处理器,适于:
将所述输入文本分割为声单元序列;以及
利用声学模型将所述声单元序列转换为语音矢量序列,其中所述模型具有多个模型参数,所述模型参数描述声单元与语音矢量相关联的概率分布;以及
音频输出,其适于将所述语音矢量序列输出为音频,
所述处理器还适于通过如下步骤确定所述模型参数的至少部分:
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;以及
将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
由于根据实施例的一些方法可通过软件实现,一些实施例包括在任何合适的载体介质上提供到通用计算机的计算机代码。该载体介质可以包括任意存储介质,诸如软盘、CD ROM、磁盘或可编程存储装置,或者任意瞬态介质,诸如,例如电、光或微波信号的任意信号。
附图说明
下文将参考附图描述根据非限制性实施例的系统和方法,其中:
图1为文语转换系统的示意图;
图2的流程图示出通过已知语音处理系统执行的步骤;
图3为高斯概率函数的示意图;
图4为根据一实施例的合成方法的示意图;
图5为根据一实施例的训练方法的示意图;
图6示出用于从多个信息级别提取表达特征矢量的并行系统;
图7示出用于从多个信息级别提取表达特征矢量的分级系统;
图8为用于CAT方法中的求和的示意图;
图9为用于提取合成矢量的基于CAT的系统的示意图;
图10为根据一实施例的合成方法的示意图;
图11示出用于根据实施例的方法的变换块和输入矢量;
图12的流程图示出用于训练基于CAT的系统的训练过程;以及
图13示出如何建立决策树以将参数聚为群集用于基于CAT的方法。
具体实施方式
首先,将说明关于文语转换系统的根据实施例的系统。
图1示出文语转换系统1。文语转换系统1包括执行程序5的处理器3。文语转换系统1还包括存储装置7。存储装置7存储程序5使用的数据,以将文本转换为语音。文语转换系统1还包括输入模块11和输出模块13。输入模块11被连接到文本输入15。文本输入15接收文本。文本输入15可以例如为键盘。可选地,文本输入15可以为用于从外部存储介质或网络接收文本数据的装置。
音频的输出17连接到输出模块13。音频输出17用于输出从输入到文本输入15中的文本转换的语音信号。音频输出17可以例如为直接音频输出,例如扬声器,或者是可以被发送到存储介质、网络等的音频数据文件输出。
在使用中,文语转换系统1通过文本输入15接收文本。在处理器3上执行的程序5利用存储在存储装置7中的数据将文本转换为语音数据。语音经输出模块13被输出到音频输出17。
现在将参考图2描述简化的过程。在第一步骤,S101,输入文本。可通过键盘、触摸屏、文本预测器等输入文本。然后将该文本转换为声单元序列。这些声单元可以为音素或字素。这些单元可以是情境相关的,例如三音素,其不仅考虑已经选择的音素,还考虑之前和之后的音素。利用现有技术中熟知的技术(下文将不再对其进行说明)将所述文本转换为声单元序列。
在步骤S105,查找用于将声单元与语音参数相关联的概率分布。在该实施例中,概率分布为通过均值和方差定义的高斯分布。不过可以使用其它分布,诸如Poisson、Student-t、Laplacian或Gamma分布,其中的一些通过除均值和方差之外的变量定义。
不可能每个声单元都具有与语音矢量或“观察值”的确定一对一关系,以使用本领域的术语。很多声单元发声方式类似,受到周围声单元、其在单词或语句中的位置的影响,或者通过不同的发声者或表达而被不同地发声。从而,每个声单元仅具有与语音矢量相关联的概率,文语转换系统计算多个概率并在给定声单元序列下选择最可能的观察值序列。
图3中示出高斯分布。可以将图3看作声单元与语音矢量相关联的概率分布。例如,示出为X的语音矢量具有对应于音素或其它声单元的概率P1,其具有图3所示的分布。
高斯分布的形状和位置通过其均值和方差定义。这些参数在系统训练期间确定。
然后在步骤S107在声学模型中使用这些参数。在该说明书中,声学模型为隐藏Markov模型(Hidden Markov Model)(HMM)。然而,还可以使用其它模型。
语音系统的文本将存储用于将声单元(即音素、字素、单词或其部分)与语音参数相关联的多个概率密度函数。由于通常使用高斯分布,其通常被称为高斯分布或分量。
在Hidden Markov Model或其它类型的声学模型中,必须考虑与特定声单元相关联的全部潜在语音矢量的概率。然后,考虑与声单元序列最有可能对应的语音矢量序列。这意味着通过考虑两个单元相互影响的方式在整个声单元序列上进行整体优化。从而,当考虑声单元序列时,用于特定声单元的最可能的语音矢量可能不是最佳语音矢量。
一旦确定语音矢量序列,在步骤S109输出语音。
图4为根据实施例的文语转换系统的示意图。
在文本输入201处输入文本。然后,在部分203,从输入文本提取表达特征。例如,文本的人类阅读者将从文本自身获知是否应该以焦急的声音、快乐的声音等阅读文本。所述系统在不要求人交互以指示应如何输出文本的情况下从文本自身也导出该信息。
下文将更详细描述如何自动采集该信息。然而,输出为位于第一多维空间中的具有数值的特征矢量。该输出然后被映射到第二连续多维表达合成空间205。可以直接使用第二连续多维空间中的值以在合成器207中修改声学模型。合成器207还接收文本作为输入。
在根据实施例的方法中,将表达TTS视为将文本数据映射到多维连续空间中的点的过程。在该多维连续空间中,每个点表示直接与合成处理相关联的特定表达信息。
多维连续空间包含无限数目的点;从而提出的方法潜在地可以处理无限数目的不同类型的情绪,并以更加丰富的表达信息合成语音。
首先,将描述根据实施例对方法和系统的训练。
将参考图5描述所述训练。训练数据251提供有文本和对应于该文本输入的语音。
假设训练数据251中的每个发声包含唯一的表达信息。该唯一的表达信息可以从语音数据中确定,并且可以从语音的标音(transcription)(即,也为文本数据)读取。在训练数据中,如图5所示同步化语音语句和文本语句。
提供“表达语言特征提取”块253,其将训练数据中的每个文本语句转换为将称为表达语言特征矢量的矢量。
可以通过表达语言特征提取块253将任何文本语句转换为语言特征,并且全部可能的表达语言特征构成将称为表达语言空间的第一空间255。训练语句的每个标音可视为该表达语言空间中的点。表达语言特征矢量应捕捉文本语句中的情绪信息。
在训练期间,除了从文本提取表达语言特征,还提供“表达合成特征提取”块257,其将每个语音语句转换为将称为表达合成特征矢量的矢量。
通过“表达合成特征提取”块257可将任何语音语句转换为表达合成特征,并且全部可能的表达合成特征构成表达合成空间259。对该表达合成特征的要求为,其应捕捉原始语音语句的唯一表达信息;同时,该表达信息可以在合成过程中再生成。
给定来自训练数据的标音的语言特征和来自训练语音语句的合成特征,根据实施例的方法和系统训练转换块261以将语言特征空间255中的语言特征矢量转换为合成特征空间259中的合成特征矢量。
在合成阶段,“表达语言特征提取”块253将有待合成的文本转换为语言特征空间255中的语言特征矢量,然后通过转换块261,将语言特征映射到表达合成空间259中的合成特征。该合成特征矢量包含原始文本数据中的情绪信息,并且可以由合成器207(图4)直接使用,以合成表达语音。
在一实施例中,使用机器学习方法,例如神经网络(NN),来提供变换块261,并训练从表达语言空间255到表达合成空间259的转换。对于训练数据251中的每个语句,使用语音数据以生成合成特征空间259中的表达合成特征矢量,并且使用语音数据的标音以生成语言特征空间255中的表达语言特征。使用训练数据的语言特征作为NN的输入,并使用训练数据的合成特征作为目标输出,可以更新NN的参数以学习从语言特征空间到合成特征空间的映射。
“语言特征提取”块253将文本数据转换为语言特征矢量。该特征矢量应包含差别信息,即,如果两个文本数据包含不同情绪,其语言特征在语言特征空间中应是可区分的。
在一个实施例中,使用单词包(BoW)技术以生成语言特征。BoW方法将文本数据表示为单词频率的矢量。矢量的维度等于词汇表的大小,每个元素包含词汇表中特定单词的频率。可以应用不同的成熟开发的BoW技术,例如潜在语义分析(LSA)、概率潜在语义分析(pLSA)、潜在Dirichlet分配(LDA)等。通过这些技术,可以在非常低的维度中压缩维度等于词汇表大小的原始单词频率矢量。
在另一个实施例中,为了更精确地在文本数据中建模情绪信息,使用来自文本数据的不同级别的知识以生成语言特征。
在一个实施例中,不仅使用单词级别信息,还使用更低级别信息(诸如全情境音素序列)和更高级别信息(诸如部分语音(POS)、叙述风格)以生成语言特征。
为了将来自不同级别的信息组合到一起,在一个实施例中,如图6所示使用并行结构。在并行结构中,分离地提取不同级别的特征,然后将不同级别的特征连接成一个大矢量,以作为转换块的输入。
图6示出可用于根据实施例的系统中的用于提取语言特征的并行结构。在步骤S301中将文本数据转换为单词频率矢量。然后,在步骤S305使用将单词作为单元的LDA模型303以将单词频率矢量转换为单词级别特征矢量。在步骤S305,通过推断过程估计变分后狄利克雷参数。
同时,在步骤S307将文本数据转换为全情境音素的序列。在S311利用将全情境音素作为单元的LDA模型309将该全情境音素序列转换为全情境音素级别特征矢量。
然后,在S313中将单词级别特征矢量和全情境音素级别特征矢量连接为语言特征以形成语言特征矢量。
图6用于示出如何提取语言特征的实例。在另一个实施例中,可以将更高级别知识,诸如POS、叙事风格以及来自文本数据的任何其它有用信息集成到语言特征中。
另外,还可以使用除LDA以外的BoW方法来提取语言特征。
还可以利用分级结构组合从不同信息级别确定的语言特征。在这样的分级结构的一个实施例中,如图7所示,将具有不同知识级别的语言特征组合到具有NN的级连的系统中。
在图11中,语言特征1和语言特征2表示从不同知识级别确定的语言特征,例如,单词级别特征、全情境音素级别特征等。
特征1用作NN1的输入351。然后,将NN1的输出353与作为NN2的输入355的特征2组合以在输出357生成声特征。
返回到图5,使用表达合成特征提取块257以表示语音数据的表达信息。表达合成特征空间259中的每个点表示语音中的唯一表达信息。
在根据实施例的方法和系统中,表达合成特征满足两个要求:
要求1-给定语音数据,相关联的合成特征必须获取该语音数据的表达信息。
要求2-必须在合成阶段使用在表达合成特征中记录的表达信息,以生成具有相同表达性的语音,即,合成特征确定合成参数。
可以构建与合成参数相关联的基。然后,可以将用于每个特定表达性程度的合成参数投影到该基上。这通过其在该投影中的坐标定义了表达合成参数的表示。
在一个实施例中,使用群集适应性训练(CAT)。这里,将群集HMM模型定义为基,并且将与表达性相关的HMM参数投影到该基上(请参考附录)。
这使得可以将与表达性相关的HMM参数表示为对群集模型的线性内插,并且使用每个群集HMM模型的内插权重来表示表达信息。
如图8所示,CAT模型包含偏置群集HMM模型和P-1非偏置群集HMM模型。对于特定高斯分量,假设方差和在先值(prior)在全部群集中相同,而通过对全部群集均值的线性内插确定均值参数。
给定观察矢量,分量m的概率密度函数可以表示为:
其中M(m)=[μ(m,1) μ(m,2) μ(m,P)]为来自不同群集模型的分量m的均值矢量的矩阵,Σ(m)是全部群集共用的分量m的方差。
Λ(e)=[1 λ(e,2) λ(e,P)]是情绪e的CAT权重矢量。群集1是偏置模型,并且用于偏置模型的CAT权重被固定为1。
当使用CAT模型以进行表达语音合成时,在CAT权重中记录情绪相关信息。在训练过程中,使用情绪相关训练数据,通过最大似然标准训练情绪相关CAT权重。在合成阶段,使用情绪相关CAT权重以合成具有特定情绪的语音。
CAT权重适于用作提出的方法中的表达合成特征矢量。其满足上述提出的合成特征的两个要求,即,其包含语音数据的情绪信息,并且可以使用特定情绪的CAT权重以合成具有相同情绪的语音。包含全部可能CAT权重的CAT权重空间可以用作提出方法中的合成特征空间。给定CAT规范模型(即,偏置HMM模型和群集HMM模型),可以通过最大化语音语句的似然度将每个训练语句表示为CAT权重空间中的点。图9示出CAT权重空间的概念。
在CAT权重空间中,可以将每个训练语句表示为包含该语句的唯一情绪信息的点。如果在训练数据中存在N个语句,在CAT权重空间中,可以使用N个点来表示训练数据。另外,可以假设,CAT空间中彼此接近的训练语句包含类似的情绪信息。
从而,可以将训练数据分类到组中,并且可以利用该组中的全部训练语句估计与组相关的CAT权重。如果N个训练语句被分类到M组中(M<<N),则可以将训练数据表示为CAT权重空间中的M个点。
在一实施例中,可以联合地训练NN和CAT模型,其中NN用作为用于将语言特征映射到合成特征的转换,CAT模型用于构成表达合成特征空间。可以如下描述联合训练过程
1.初始CAT模型训练,以生成初始规范模型M0和初始CAT权重集Λ0,初始CAT权重集由用于全部训练语句的CAT权重构成,其中设置迭代数i=0。
2.给定训练语句的表达语言特征和训练语句的CAT权重集Λi,利用最小平方误差标准训练用于迭代i的NN,即NNi。
3.利用训练语句的表达语言特征作为输入,NNi生成训练语句Oi的输出CAT权重集。
4.Λi+1=Oi。给定Λi+1,重训练CAT规范模型Μi+1,以最大化训练数据的似然度。
5.i=i+1,如果算法收敛,则前进到6,否则前进到2。
6.结束
通过上述过程,联合地更新NN和CAT模型,这可以在合成阶段改善性能。
该联合训练过程不限于NN和CAT模型。通常,可以在相同构架中利用联合训练来更新除NN以外的从语言特征空间到合成特征空间的变换以及除CAT以外的构成合成特征空间的方法。
上文描述了系统的训练。现在将参考图10描述文本至语音的合成。
图10所示的合成系统包括表达语言特征提取块401,其在参照训练所描述的表达语言空间403中提取表达特征矢量。在合成阶段提取该矢量的过程与在训练阶段所述的过程相同。
然后通过转换块405将表达特征矢量映射到表达合成空间407中的表达合成矢量。如上所述已经训练了转换块405。
然后在作为合成器409的对输出语音的合成中直接使用确定的表达合成矢量。如上所述,在一个实施例中,转换块405将表达语言特征矢量直接映射为表达合成特征空间407中的CAT权重。
在一个实施例中,将有待合成的文本直接发送到合成器409。在该配置中,合成器409接收有待合成的文本,以确定与情境相关的信息。在其它实施例中,从表达语言空间到表达合成特征空间的映射可以使用与情境相关的信息。这可以作为由合成器直接接收的信息的补充或替换。
在根据一实施例的方法中,不需要准备特别的训练数据或要求人介入以估计训练数据。另外,将有待合成的文本直接转换为语言特征矢量。该语言特征矢量包括比单个情绪ID多得多的情绪信息。转换块将语言特征矢量转换为具有相同情绪的表达合成特征。另外,可以使用该合成特征以合成具有与原始文本数据中相同的情绪的语音。
如果在表达合成特征空间中,每个训练语句与唯一合成特征矢量相关联,通过转换(例如NN)来学习每个语句中的唯一情绪信息。这可以为用户提供非常丰富的情绪资源用于合成。
可以将当在合成特征空间中时的训练语句分组,并且一个组中的全部训练语句共享情绪信息。通过该方式,由于将有待学习的模式数目减少,改善了对转换的训练。从而,估计的转换具有更高的鲁棒性。在根据实施例的方法中,选择基于语句的合成特征或基于组的合成特征,调节用于训练数据的组数,可以更容易地实现用于合成性能的鲁棒性和表达性之间的平衡。
在上述方法中,可以避免困难的决定情绪识别,这将减少误差。NN的可能输出是无穷的。这表示,提出的方法潜在地可以生成与用于合成的不同情绪相关联的无穷个不同合成特征。另外,上述方法可以容易地实现表达性与鲁棒性之间的平衡。
在上述合成过程中,文本数据的情绪信息不需要由人或从其它源获知或清楚地识别。训练是完全自动的。上述方法旨在,在不需要人来为训练数据标记情绪的情况下构建表达合成系统。在合成过程期间,不需要对来源于输入文本的情绪进行任何分类。提出的方法可以减少表达合成系统的训练成本。同时在合成过程中生成更多表达语音。
在上述实施例中,定义多维连续表达语音合成空间,使得空间中的每个点定义表达语音合成系统的参数。另外,训练映射过程,该过程可以将文本特征映射到表达空间中的点,表达空间中的点又定义了表达语音合成过程的参数。
为示出合成方法,基于4.8k训练语句训练用于表达合成的实验系统。
训练具有一个偏置模型和4个群集模型的CAT模型。对训练语音中的每个语句训练各个CAT权重。同时,将训练数据分类为20组,还训练基于组的CAT权重。基于语句的CAT权重和基于组的CAT权重都被表示为相同CAT权重空间(即所提出的方法中的声学空间)中的点。
训练语音的标音的每个语句被表示为20维LDA变分后特征矢量,并且其用于构建语音特征。还使用训练语句的叙述方式构建语言特征。其为1维值以指示语句是直接语音、叙述语音或载体语音。该实验中所使用的语言特征还包括来自在前语句和最后语句的语言信息。在该实验中,利用并行结构构建语言特征。
通过多层感知(MLP)神经网络训练从语言空间到声学空间的非线性转换。训练2组NN,一组为将语言特征映射到基于语句的CAT权重,另一组为将语言特征映射到基于组的CAT权重。
图11示出在该实验中使用的语言特征和声学特征的结构。
通过经CrowdFlower收听测试来评估所合成的语音的表达性。使用由人读取的原始表达语音数据作为参考,要求收听者选择语音语句的2个合成版本的哪个听起来更接近参考。
在实验中比较了五个不同的系统。
1.sup_sent:通过受控训练而生成的基于语句的CAT权重
2.sup_grp:通过受控训练而生成的基于组的CAT权重
3.nn_sent:通过所提出的方法生成的基于语句的CAT权重
4.nn_grp:通过所提出的方法生成的基于组的CAT权重
5.rand:从训练语句随机选择的CAT权重。
表1示出表达性测试结果
sup_grp | sup_sent | nn_grp | nn_sent | rand | P value |
52.3 | 47.7 | O.107 | |||
63.9 | 36.1 | <O.001 | |||
55.0 | 45.O | 0.004 | |||
61.8 | 38.2 | <O.OOl | |||
57.2 | 42.8 | <O.OOl |
实验结果示出,基于所提出的方法,基于语句的CAT权重和基于组的CAT权重显著好于随机CAT权重。这表示,所提出的方法部分地获取了语句中的正确情绪信息。同时,对于基于组的CAT权重,受控训练的CAT权重和通过所提出方法生成的CAT权重的差别不显著(p>0.025)。这表示在基于组的CAT权重中,所提出方法的性能接近其上边界,即,受控训练。
附录
在一些实施例中,表达合成特征空间包括有待在语音合成中使用的分量的权重。
在一些实施例中,将存在多个不同状态,其每个将利用高斯分布建模。例如,在一实施例中,文语转换系统包括多个流。这样的流可以选自以下参数的一个或多个:光谱参数(光谱)、基本频率的对数(Log F0)、LogF0的一阶微分(Delta Log F0)、Log F0的二阶微分(Delta-Delta Log F0)、频带非周期性参数(BAP)、时长等。该流还可以被分为多个类,诸如安静(sil)、短停顿(pau)和语音(spe)等。在实施例中,将利用HMM建模来自每个流和类的数据。HMM可包括不同数目的状态,例如,在一实施例中,可以使用5个状态HMM对来自上述流和类中的一些的数据进行建模。对每个HMM状态确定高斯分量。
将具有特定表达特性的高斯分布的均值表示为高斯分布的与表达特性无关的均值的加权和。从而,
公式1
其中为具有表达特性s的分量m的均值,i∈{1,.......,P}为具有总群集数P的群集的指数,为用于表达特性s和回归类q(m)的第i群集的与表达特性有关的内插权重;μc(m,i)为群集i中分量m的均值。在一个实施例中,群集的一个,通常群集i=1,全部权重通常被设置为1.0。该群集称为“偏置群集”。每个群集包括至少一个决策树。对于群集中的每个分量存在决策树。为了简化表达,c(m,i)∈{1,.......,N}指示用于第i群集的均值矢量决策树中的分量m的一般叶节点指数,其中N为全部群集的决策树上的叶节点的总数。下文将详细描述决策树。
在利用CAT的实施例中,表达合成空间为表达特性加权的空间,并且表达语言空间映射到表达合成空间。
将与表达特性无关的均值聚为群集。在一实施例中,每个群集包括至少一个决策树,在所述树中使用的决策基于语言、音素和节律变化。在一实施例中,作为群集成员的每个分量具有一决策树。节律、音素和语言情境影响最终语音波形。音素情境通常影响声道,而节律(例如音节)和语言(例如单词语音的部分)情境影响诸如时长(节奏)和基频(音调)的节律。每个群集可包括一个或多个子群集,其中每个子群集包括所述决策树的至少一个。
根据实施例可以使用如下配置。为建模该数据,在该实施例中,使用5个状态HMM。在该实例中,将数据分为三类:安静,短停顿和语音。在该特定实施例中,对决策树的分配和每个子群集的权重如下所述。
在该特定实施例中,每个群集使用如下流:
光谱:1流,5状态,每个状态1树×3类
LogF0:3流,每个流5状态,每个状态和流1树×3类
BAP:1流,5状态,每个状态1树×3类
音长:1流,5状态,1树×3类(在全部状态中共用每个树)
总计:3x26=78个决策树
对于上述,对每个声音特性(例如,发声者或表达)的每个流施加下述权重:
光谱:1流,5状态,每个流1权重×3类
LogF0:3流,每个流5状态,每个流1权重×3类
BAP:1流,5状态,每个流1权重×3类
音长:1流,5状态,每个状态和流1权重×3类
总计:3x10=30权重
如在该实例中所示,可以对不同决策树(光谱)分配相同权重,或对相同决策树(时长)分配多于一个权重,或任意其它组合。如这里所用,考虑将被施加相同加权的决策树以形成子群集。
下面,将描述如何导出表达特性权重。在基于隐藏Markov模型(HMM)的语音处理系统中,经常将HMM表示为:
M=(A,B,Π) 公式2
在文语转换系统中如何使用HMM在现有技术中是熟知的,在此将不再描述。
在当前实施例中,根据现有技术熟知的过程确定状态转变概率分布A和初始状态概率分布。从而,该说明书的剩余部分将涉及状态输出概率分布。
通常,在表达文语转换系统中,模型集M中的用于表达特性s的第m高斯分量的状态输出矢量或语音矢量o(t)为
其中μ(s) m和Σ(s) m是用于表达特性s的第m高斯分量的均值和方差。
训练常规文语转换系统时的目标为估计模型参数集M,其最大化给定观察序列的似然度。在常规模型中,存在一个单个发声者或表达,从而对于全部分量m,模型参数集为μ(s) m=μm,且Σ(s) m=Σm。
由于仅分析地基于所谓最大似然度(ML)标准不可能获得上述模型集,通过使用期望值最大化(EM)算法(其经常被称为Baum-Welch算法)的迭代方法常规地解决所述问题。这里,导出辅助函数(“Q”函数):
公式4
其中γm(t)为给定当前模型参数M′时生成观察值o(t)的分量m的后验概率,并且M为新参数集。在每个迭代之后,参数集M′由最大化Q(M,M’)的新参数集M替换。p(o(t),m│M)为诸如GMM、HMM等的生成模型。
在当前实施例中,使用具有如下状态输出矢量的HMM:
公式5
其中m∈{1,.......,MN}、t∈{1,.......,T}和s∈{1,.......,S}为分别用于分量、时间和表达的指数,其中MN、T和S分别为分量、帧和表达的总数。
出于将在下文说明的原因,在该实施例中,协方差被聚为群集并布置到决策树中,其中v(m)∈{1,.......,V}表示分量m的协方差矩阵所属于的协方差决策树中的叶节点,并且V为协方差决策树叶节点的总数。
使用上述,可以将辅助函数表示为:
公式6
其中C为与M无关的常数。
CAT的参数估计可以分为3部分:
第一部分为用于群集模型的高斯分布的参数,即,与表达无关的均值{μn}以及与表达无关的协方差{Σk},上述指数n和k指示均值和方差决策树的叶节点,其将在下文描述。第二部分为与表达相关的权重其中s指示表达,i为群集指数参数,以及q(m)为用于分量m的回归类指数。第三部分为与群集相关的决策树。
一旦辅助函数以上述方式表示,该辅助函数然后又关于每个变量被最大化,以获得与表达无关的以及与表达相关的参数的ML值。
具体是,为了确定均值的ML估计,执行下述过程。
首先,如下相对于μn对公式4的辅助函数进行微分:
其中
应注意,μn的ML估计还取决于μk,其中k不等于n。指数n用于表示均值矢量的决策树的叶节点,而指数k表示协方差决策树的叶节点。从而,需要通过在全部μn上迭代直到收敛以执行优化。
这可以通过求解下面的公式同时优化全部μn而执行。
然而,如果训练数据较小,或N过大,公式11的系数矩阵不能具有满秩。通过使用奇异值分解或其它熟知的矩阵因数分解技术可以避免该问题。
然后执行相同的过程,以执行对协方差的ML估计,即,相对于Σk对公式(6)所示的辅助函数进行微分,以给出:
其中
公式13
还可以以相同方式获得与表达相关的权重的ML估计,即,相对于要求ML估计的参数对辅助函数微分,然后将微分值设置为0。
对于与表达相关的权重,这获得
公式14为没有偏置群集的CAT权重估计,通过偏置群集,可以将CAT权重估计重写为
其中μc(m,1)为用于偏置群集模型的分量m的均值矢量,Mm为用于分量m的非偏置均值矢量的矩阵。
参数估计的第三部分为决策树构建。逐个群集地构建与群集相关的决策树。当构建一群集的决策树时,固定其它群集的参数,包括树结构、高斯均值矢量和协方差矩阵。
每个二进制决策树以局部优化的方式从表示全部情境的单个根节点开始构建。在该实施例中,通过情境,使用下面的基,音素、语言和节律。当创建每个节点,选择关于情境的下一个优化问题。基于哪个问题导致在训练实例中生成的似然度和终端节点的最大增加而选择问题。
然后,搜索终端节点的集,以找到可以利用其优化问题而将其拆分开的节点,以对训练数据提供总似然度的最大增加。假设该增加超过阈值,利用优化问题将节点分开,并且创建两个新终端节点。当由于任何进一步的拆分都不会超过施加到似然度拆分的阈值,从而不能形成新的终端节点时,停止所述过程。
其中S(n)表示与节点n相关联的一组分量。注意,不包括相对于μn为常数的项。
通过公式10给出μn的最大似然度。从而,上述可以写为:
从而,利用上述,可以对每个群集构建决策树,其中所述树被设置为,使得首先在树中询问最优问题,并且根据拆分的似然度以分级顺序设置所述决策。然后对每个群集施加加权。
公式19
公式20
其中D为与{μk}无关的常数。从而似然度的增量为
公式21
在实施例中,以迭代方式执行该过程。参考图12的流程图说明该基础系统。
在步骤S1310,接收多个音频语音的输入。在该说明性实例中,使用4个表达。
然后,在步骤S1303,利用具有不同表达的训练数据训练与表达无关的声学模型。
如下初始化并训练群集适应性模型:
在步骤S1305,将群集P的数目设置为V+1,其中V为可获得数据(4)的不同表达的数目。
在步骤S1307,确定一个群集(群集1)作为偏置群集。利用在步骤S1303中生成与表达无关的模型的声音,初始化用于偏置群集的决策树和相关联的群集均值矢量。对于与表达无关的模型,还初始化协方差矩阵、用于多空间概率分布(MSD)的空间权重及其参数共享结构。
在步骤S1309,对2、...P群集的每个分配具体表达标签,例如群集2、3、4和5分别对应表达A、B、C、D。
在步骤S311,根据分配的表达标签,将一组CAT内插权重简单地设为1或0:
在该实施例中,每个表达、每个流具有全局权重。对于每个表达/流组合设置3组权重:安静、语音和停顿。
在步骤S1313,对于每个群集2,...,(P-1),如下初始化群集。利用在步骤S1303中训练的与表达无关的模型对准用于相关联的声音的声音数据,例如用于群集2的声音B。在如此对准的情况下,计算统计值,并且估计群集的决策树和均值。在步骤S1311利用权重集将给定情境的均值计算为群集均值的加权和,即,在实际中,这给出,给定情境的均值为该情境的偏置群集均值和群集2中该情境的声音A模型均值的加权和(在两种情况中权重为1)。
一旦如上所述初始化群集,就如下更新/训练CAT模型。
在步骤S1319,从群集1到P逐群集地构建决策树,其中保持CAT权重不变。在步骤S1321,在CAT模型中估计新的均值和方差。然后在步骤S1323,对每个群集估计新的CAT权重。在实施例中,过程循环回到S321直到收敛。利用通过使用Baum-Welch算法的辅助函数执行的最大似然度计算来估计参数和权重,以获得对所述参数的更好的估计。
如前所述,通过迭代过程估计参数。
在另一个实施例中,在步骤S1323,过程循环回步骤S1319,使得在每个迭代中重构决策树直到收敛。
另外,可以基于多维连续空间中的发声级别点,利用表达表示来优化CAT系统。这里可以重复上述过程。然而,以计算用于每个语音发声的点而不是每个表达标记来替换步骤S1323。同样,可以迭代更新模型参数、空间(权重)中的点和决策树。
图13示出群集1到P,其为决策树形式。在该简化实例中,在群集1中仅有四个终端节点,在群集P中仅有三个终端节点。重要的是,注意到,
决策树不需要是对称的,即,每个决策树可以具有不同数目的终端节点。单纯地通过在第一决策中获得最大拆分的对数似然度拆分来确定树中终端节点的数目和分支的数目,然后以导致更大拆分的问题的顺序询问问题。一旦获得的拆分低于阈值,则对节点的拆分结束。
尽管描述了特定实施例,这些实施例仅以实例的方式示出,而不限制本发明的范围。实际上,这里所述的新颖的方法和设备可以以多种其它方式实施;另外,在不偏离本发明精神的情况下,可以进行在这里所述的实施例的形式中的各种省略、替换和变化。所附权利要求及其等同物旨在包括将落入本发明范围和精神内的这样的修改形式。
Claims (19)
1.一种文语转换方法,该方法包括:
接收输入文本;
将所述输入文本分割为声单元序列;
利用声学模型将所述声单元序列转换为语音矢量序列,其中所述模型具有多个模型参数,所述模型参数描述将声单元与语音矢量相关联的概率分布;以及
将所述语音矢量序列输出为音频,
该方法还包括通过如下步骤确定至少部分所述模型参数:
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;以及
将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
2.根据权利要求1所述的方法,其中将所述表达语言特征矢量映射到表达合成特征矢量包括使用机器学习算法。
3.根据权利要求1所述的方法,其中所述第二空间为多维连续空间。
4.根据权利要求1所述的方法,其中从所述输入文本提取表达特征包括多个提取过程,所述多个提取过程在所述文本的不同信息级别执行。
5.根据权利要求4所述的方法,其中所述不同信息级别选自:基于单词的语言特征提取级别以生成基于单词的语言特征矢量、基于全情境音素的语言特征提取级别以生成基于全情境音素的语言特征、基于部分语音(POS)的语言特征提取级别以生成基于POS的特征、以及基于叙事风格的语言特征提取级别以生成叙事风格信息。
6.根据权利要求4所述的方法,多个提取过程中的每个生成特征矢量,该方法还包括连接从不同信息级别生成的语言特征矢量,以生成与第二空间映射的语言特征矢量。
7.根据权利要求4所述的方法,其中,将表达语言特征矢量映射到表达合成特征矢量包括对应于不同信息级别的每个的多个分级阶段。
8.根据权利要求1所述的方法,其中所述映射使用全情境信息。
9.根据权利要求1所述的方法,其中所述声学模型从输入文本接收全情境信息,并且将该信息与从声学模型中的表达合成特征矢量导出的模型参数组合。
10.根据权利要求1所述的方法,其中所述声学模型的模型参数被表示为相同类型的模型参数的加权和,并且在第二空间中表示所述权重。
11.根据权利要求10所述的方法,其中被表示为相同类型的模型参数的加权和的所述模型参数为高斯均值。
12.根据权利要求10所述的方法,其中将相同类型的参数聚为群集,并且所述合成特征矢量包括用于每个群集的权重。
13.根据权利要求12所述的方法,其中每个群集包括至少一个决策树,所述决策树基于与语言、语音或韵律差异中的至少一个相关联的问题。
14.根据权利要求13所述的方法,其中群集的决策树之间存在结构上的差异。
15.一种训练文语转换系统的方法,该方法包括:
接收训练数据,所述训练数据包括文本数据和对应于所述文本数据的语音数据;
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;
从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合成矢量;
训练机器学习算法,该机器学习算法的训练输入为表达语言特征矢量,并且其训练输出为对应于训练输入的表达特征合成矢量。
16.根据权利要求15的方法,还包括将表达合成特征矢量输出到语音合成器,所述语音合成器包括声学模型,其中所述模型具有多个模型参数,所述模型参数描述将声单元与语音矢量相关联的概率分布。
17.根据权利要求16所述的方法,其中联合训练声学模型的参数和机器学习算法。
18.根据权利要求16所述的方法,其中所述声学模型的模型参数被表示为相同类型的模型参数的加权和,权重在第二空间中表示,并且其中联合训练在第二空间中表示的权重和机器学习算法。
19.一种文语转换设备,该设备包括:
接收器,用于接收输入文本;
处理器,适于:
将所述输入文本分割为声单元序列;以及
利用声学模型将所述声单元序列转换为语音矢量序列,其中所述模型具有多个模型参数,所述模型参数描述将声单元与语音矢量相关联的概率分布;以及
音频输出,其适于将所述语音矢量序列输出为音频,
所述处理器还适于通过如下步骤确定至少部分所述模型参数:
从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征矢量;以及
将所述表达语言特征矢量映射到在第二空间中构建的表达合成特征矢量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1212783.3 | 2012-07-18 | ||
GB1212783.3A GB2505400B (en) | 2012-07-18 | 2012-07-18 | A speech processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103578462A true CN103578462A (zh) | 2014-02-12 |
Family
ID=46799804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310301682.5A Pending CN103578462A (zh) | 2012-07-18 | 2013-07-18 | 语音处理系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140025382A1 (zh) |
JP (2) | JP5768093B2 (zh) |
CN (1) | CN103578462A (zh) |
GB (1) | GB2505400B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105355193A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105529023A (zh) * | 2016-01-25 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
CN106971709A (zh) * | 2017-04-19 | 2017-07-21 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
CN107430859A (zh) * | 2015-04-08 | 2017-12-01 | 谷歌公司 | 将输入映射到表单域 |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN108417205A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语义理解训练方法和系统 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN110097890A (zh) * | 2019-04-16 | 2019-08-06 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN110599998A (zh) * | 2018-05-25 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 一种语音数据生成方法及装置 |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
US11361751B2 (en) | 2018-10-10 | 2022-06-14 | Huawei Technologies Co., Ltd. | Speech synthesis method and device |
CN115831089A (zh) * | 2021-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
US9558743B2 (en) * | 2013-03-15 | 2017-01-31 | Google Inc. | Integration of semantic context information |
GB2517503B (en) | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
KR102222122B1 (ko) * | 2014-01-21 | 2021-03-03 | 엘지전자 주식회사 | 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기 |
US9846836B2 (en) * | 2014-06-13 | 2017-12-19 | Microsoft Technology Licensing, Llc | Modeling interestingness with deep neural networks |
US10127901B2 (en) * | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
US20160343366A1 (en) * | 2015-05-19 | 2016-11-24 | Google Inc. | Speech synthesis model selection |
JP6580911B2 (ja) * | 2015-09-04 | 2019-09-25 | Kddi株式会社 | 音声合成システムならびにその予測モデル学習方法および装置 |
CN105206258B (zh) * | 2015-10-19 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 声学模型的生成方法和装置及语音合成方法和装置 |
CN105185372B (zh) * | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN106708789B (zh) * | 2015-11-16 | 2020-07-14 | 重庆邮电大学 | 一种文本处理方法及装置 |
JP6523998B2 (ja) * | 2016-03-14 | 2019-06-05 | 株式会社東芝 | 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
EP3393083B1 (en) * | 2017-04-20 | 2021-09-29 | Nokia Technologies Oy | Method and device for configuring a data transmission and processing system |
JP6806619B2 (ja) * | 2017-04-21 | 2021-01-06 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、音声合成方法、及び音声合成プログラム |
KR102071582B1 (ko) | 2017-05-16 | 2020-01-30 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
WO2018212584A2 (ko) * | 2017-05-16 | 2018-11-22 | 삼성전자 주식회사 | 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치 |
CN107481713B (zh) * | 2017-07-17 | 2020-06-02 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN107464554B (zh) * | 2017-09-28 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
JP6647475B2 (ja) * | 2017-11-29 | 2020-02-14 | 三菱電機株式会社 | 言語処理装置、言語処理システムおよび言語処理方法 |
KR102136464B1 (ko) * | 2018-07-31 | 2020-07-21 | 전자부품연구원 | 어텐션 메커니즘 기반의 오디오 분할 방법 |
KR102147496B1 (ko) * | 2018-08-30 | 2020-08-25 | 네이버 주식회사 | 유사 댓글의 연속 입력을 차단하기 위한 방법 및 시스템 |
CN109308892B (zh) * | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
KR20200119217A (ko) * | 2019-04-09 | 2020-10-19 | 네오사피엔스 주식회사 | 사용자 인터페이스를 통해 텍스트에 대한 합성 음성을 생성하는 방법 및 시스템 |
US11417313B2 (en) | 2019-04-23 | 2022-08-16 | Lg Electronics Inc. | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
WO2020235696A1 (ko) * | 2019-05-17 | 2020-11-26 | 엘지전자 주식회사 | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 |
CN111862984B (zh) * | 2019-05-17 | 2024-03-29 | 北京嘀嘀无限科技发展有限公司 | 一种信号输入方法、装置、电子设备和可读存储介质 |
CN111383628B (zh) * | 2020-03-09 | 2023-08-25 | 第四范式(北京)技术有限公司 | 一种声学模型的训练方法、装置、电子设备及存储介质 |
CN111833843B (zh) * | 2020-07-21 | 2022-05-10 | 思必驰科技股份有限公司 | 语音合成方法及系统 |
CN113112987B (zh) * | 2021-04-14 | 2024-05-03 | 北京地平线信息技术有限公司 | 语音合成方法、语音合成模型的训练方法及装置 |
CN113823257B (zh) * | 2021-06-18 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 语音合成器的构建方法、语音合成方法及装置 |
CN114613353B (zh) * | 2022-03-25 | 2023-08-08 | 马上消费金融股份有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN115098647B (zh) * | 2022-08-24 | 2022-11-01 | 中关村科学城城市大脑股份有限公司 | 用于文本表征的特征向量生成方法、装置和电子设备 |
CN115457931B (zh) * | 2022-11-04 | 2023-03-24 | 之江实验室 | 一种语音的合成方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007098560A1 (en) * | 2006-03-03 | 2007-09-07 | The University Of Southern Queensland | An emotion recognition system and method |
CN101276584A (zh) * | 2007-03-28 | 2008-10-01 | 株式会社东芝 | 韵律图样产生装置、语音合成装置及其方法 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0772900A (ja) * | 1993-09-02 | 1995-03-17 | Nippon Hoso Kyokai <Nhk> | 音声合成の感情付与方法 |
US6324532B1 (en) * | 1997-02-07 | 2001-11-27 | Sarnoff Corporation | Method and apparatus for training a neural network to detect objects in an image |
JP3159242B2 (ja) * | 1997-03-13 | 2001-04-23 | 日本電気株式会社 | 感情生成装置およびその方法 |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
US6236966B1 (en) * | 1998-04-14 | 2001-05-22 | Michael K. Fleming | System and method for production of audio control parameters using a learning machine |
US6327565B1 (en) * | 1998-04-30 | 2001-12-04 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on eigenvoices |
US6178402B1 (en) * | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
WO2002067194A2 (en) * | 2001-02-20 | 2002-08-29 | I & A Research Inc. | System for modeling and simulating emotion states |
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
JP2003233388A (ja) * | 2002-02-07 | 2003-08-22 | Sharp Corp | 音声合成装置および音声合成方法、並びに、プログラム記録媒体 |
JP2004086001A (ja) * | 2002-08-28 | 2004-03-18 | Sony Corp | 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム |
US7313523B1 (en) * | 2003-05-14 | 2007-12-25 | Apple Inc. | Method and apparatus for assigning word prominence to new or previous information in speech synthesis |
CN101176146B (zh) * | 2005-05-18 | 2011-05-18 | 松下电器产业株式会社 | 声音合成装置 |
JP5031269B2 (ja) * | 2005-05-30 | 2012-09-19 | 京セラ株式会社 | 文書表示装置及び文書読み上げ方法 |
EP2030132A4 (en) * | 2006-06-02 | 2010-07-14 | Telcordia Tech Inc | INDEXING AND RECOVERING MEDIA CROSSED FROM A CONCEPT AND RECOVERING VOICE DOCUMENTS |
US8024193B2 (en) * | 2006-10-10 | 2011-09-20 | Apple Inc. | Methods and apparatus related to pruning for concatenative text-to-speech synthesis |
JP2009025658A (ja) * | 2007-07-20 | 2009-02-05 | Oki Electric Ind Co Ltd | 音声合成装置、音声合成システム |
US8229729B2 (en) * | 2008-03-25 | 2012-07-24 | International Business Machines Corporation | Machine translation in continuous space |
JPWO2009125710A1 (ja) * | 2008-04-08 | 2011-08-04 | 株式会社エヌ・ティ・ティ・ドコモ | メディア処理サーバ装置およびメディア処理方法 |
US8401849B2 (en) * | 2008-12-18 | 2013-03-19 | Lessac Technologies, Inc. | Methods employing phase state analysis for use in speech synthesis and recognition |
WO2010104040A1 (ja) * | 2009-03-09 | 2010-09-16 | 国立大学法人豊橋技術科学大学 | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム |
JP5457706B2 (ja) * | 2009-03-30 | 2014-04-02 | 株式会社東芝 | 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 |
US8825485B2 (en) * | 2009-06-10 | 2014-09-02 | Kabushiki Kaisha Toshiba | Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language |
JP5293460B2 (ja) * | 2009-07-02 | 2013-09-18 | ヤマハ株式会社 | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
CN101770454A (zh) * | 2010-02-13 | 2010-07-07 | 武汉理工大学 | 短文本特征空间扩展方法 |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
GB2480108B (en) * | 2010-05-07 | 2012-08-29 | Toshiba Res Europ Ltd | A speech processing method an apparatus |
CN102385858B (zh) * | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
JP3173022U (ja) * | 2011-11-01 | 2012-01-19 | サイバークローン株式会社 | 音声合成を伴う動く画像システム |
GB2505400B (en) * | 2012-07-18 | 2015-01-07 | Toshiba Res Europ Ltd | A speech processing system |
-
2012
- 2012-07-18 GB GB1212783.3A patent/GB2505400B/en active Active
-
2013
- 2013-07-15 US US13/941,968 patent/US20140025382A1/en not_active Abandoned
- 2013-07-18 CN CN201310301682.5A patent/CN103578462A/zh active Pending
- 2013-07-18 JP JP2013149244A patent/JP5768093B2/ja active Active
-
2015
- 2015-06-18 JP JP2015122790A patent/JP2015180966A/ja not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007098560A1 (en) * | 2006-03-03 | 2007-09-07 | The University Of Southern Queensland | An emotion recognition system and method |
CN101276584A (zh) * | 2007-03-28 | 2008-10-01 | 株式会社东芝 | 韵律图样产生装置、语音合成装置及其方法 |
Non-Patent Citations (1)
Title |
---|
HEIGA ZEN ET AL: "Statistical parametric speech synthesis", 《SPEECH COMMUNICATION》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN105869641A (zh) * | 2015-01-22 | 2016-08-17 | 佳能株式会社 | 语音识别装置及语音识别方法 |
CN107430859A (zh) * | 2015-04-08 | 2017-12-01 | 谷歌公司 | 将输入映射到表单域 |
CN105355193B (zh) * | 2015-10-30 | 2020-09-25 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105355193A (zh) * | 2015-10-30 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105529023B (zh) * | 2016-01-25 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105529023A (zh) * | 2016-01-25 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
US11289069B2 (en) | 2017-04-19 | 2022-03-29 | Tencent Technology (Shenzhen) Company Limited | Statistical parameter model establishing method, speech synthesis method, server and storage medium |
WO2018192424A1 (zh) * | 2017-04-19 | 2018-10-25 | 腾讯科技(深圳)有限公司 | 统计参数模型建立方法、语音合成方法、服务器和存储介质 |
CN106971709B (zh) * | 2017-04-19 | 2021-10-15 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
CN106971709A (zh) * | 2017-04-19 | 2017-07-21 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
US10978042B2 (en) | 2017-09-28 | 2021-04-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for generating speech synthesis model |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN108417205A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语义理解训练方法和系统 |
CN110599998A (zh) * | 2018-05-25 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 一种语音数据生成方法及装置 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
CN110599998B (zh) * | 2018-05-25 | 2023-08-18 | 阿里巴巴集团控股有限公司 | 一种语音数据生成方法及装置 |
US11361751B2 (en) | 2018-10-10 | 2022-06-14 | Huawei Technologies Co., Ltd. | Speech synthesis method and device |
CN110097890A (zh) * | 2019-04-16 | 2019-08-06 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN110097890B (zh) * | 2019-04-16 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
CN115831089A (zh) * | 2021-12-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
CN115831089B (zh) * | 2021-12-27 | 2023-12-01 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
JP2015180966A (ja) | 2015-10-15 |
US20140025382A1 (en) | 2014-01-23 |
JP2014056235A (ja) | 2014-03-27 |
GB2505400A (en) | 2014-03-05 |
GB201212783D0 (en) | 2012-08-29 |
GB2505400B (en) | 2015-01-07 |
JP5768093B2 (ja) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103578462A (zh) | 语音处理系统 | |
CN103310784B (zh) | 文本到语音的方法和系统 | |
US10140972B2 (en) | Text to speech processing system and method, and an acoustic model training system and method | |
Huang et al. | Joint optimization of masks and deep recurrent neural networks for monaural source separation | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
CN103366733A (zh) | 文本到语音的系统 | |
Morgan | Deep and wide: Multiple layers in automatic speech recognition | |
Singer et al. | The MITLL NIST LRE 2011 language recognition system | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN103971393A (zh) | 计算机生成的头部 | |
Diakoloukas et al. | Maximum-likelihood stochastic-transformation adaptation of hidden Markov models | |
US10157608B2 (en) | Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product | |
Li et al. | Multi-task learning of structured output layer bidirectional LSTMs for speech synthesis | |
CN113611293A (zh) | 一种蒙古语数据集扩充方法 | |
Yanagisawa et al. | Noise robustness in HMM-TTS speaker adaptation | |
GB2508411A (en) | Speech synthesis by combining probability distributions from different linguistic levels | |
Karanasou et al. | I-vectors and structured neural networks for rapid adaptation of acoustic models | |
Toman et al. | Structural KLD for cross-variety speaker adaptation in HMM-based speech synthesis | |
Coto-Jiménez et al. | Speech Synthesis Based on Hidden Markov Models and Deep Learning. | |
Nakashika et al. | Speaker adaptive model based on Boltzmann machine for non-parallel training in voice conversion | |
D'souza et al. | Voice conversion using Gaussian Mixture Models | |
Zhang et al. | Subspace-GMM acoustic models for under-resourced languages: feasibility study | |
Khorram et al. | Context-dependent deterministic plus stochastic model | |
홍두화 | On Applying Nonlinear Regression Models to Statistical Parametric Speech Synthesis | |
Mohammadi | Speaker adaptation with minimal data in statistical speech synthesis systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140212 |