CN1222924C - 声音个性化的语音合成器 - Google Patents
声音个性化的语音合成器 Download PDFInfo
- Publication number
- CN1222924C CN1222924C CN02806151.9A CN02806151A CN1222924C CN 1222924 C CN1222924 C CN 1222924C CN 02806151 A CN02806151 A CN 02806151A CN 1222924 C CN1222924 C CN 1222924C
- Authority
- CN
- China
- Prior art keywords
- teller
- parameter
- speech
- data
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 13
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000006978 adaptation Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 51
- 238000010189 synthetic method Methods 0.000 claims description 22
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 9
- 210000004704 glottis Anatomy 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000009897 systematic effect Effects 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 abstract description 7
- 230000003278 mimic effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 20
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 238000000513 principal component analysis Methods 0.000 description 6
- 230000001195 anabolic effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241001280173 Crassula muscosa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Stereophonic System (AREA)
- Machine Translation (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
将语音合成器个性化,使声音类似于或能模仿单个讲话人的语音特征。单个讲话人提供可从少量语音中抽取的一定量的注册数据18,而且由系统修改基础合成参数12以便能更好地模拟新的讲话人36的参数。更具体地说,可以将合成参数12分解成特定讲话人语音参数30,例如与上下文无关的参数,和非特定讲话人语音参数32,例如与上下文有关的参数。用从新的讲话人处得到的注册数据18对特定讲话人语音参数30进行适配。适配后,把特定讲话人语音参数30和非特定讲话人语音参数进行组合从而提供个性化的合成参数群42。
Description
技术领域
本发明主要涉及语音合成。更确切地说,本发明涉及使语音合成器的输出个性化以便在特定讲话人提供了注册数据后能模拟或模仿出该讲话人细微差异的系统和方法。
背景技术
在很多使用文本-语音转换(text-to-speech,TTS)合成器的领域中,都期望使合成器的输出声音能模拟特定讲话人的特征。目前,花费在开发语音合成器方面的很多努力都在于使合成的声音尽可能人性化。尽管在这方面不断有进展,但是目前合成器产生的准自然语音表现的是用于构建合成器的语音数据资料库中包含的混合音素变体。当前,没有有效的方法能生产模仿特定讲话人特性的语音合成器,也无法让讲话人花费一些时间记录他或她的语言实例以便用其构成合成器。尽管非常期望能够仅用少量从特定讲话人得到的注册数据(enrollment data)将现有语音合成器定型或个性化,但是,迄今为止还不存在这种技术。
最近设计的语音合成器已经能将主要是文本格式的信息转换成合成语音。通常,这些合成器是以合成方法为基础并与某些合成参数相关联。通常,通过操作人的实际语音链接单元产生合成参数,所述实际语音已经过预记录、数字化和分段,从而使包含在该语音中的单个音素变体,能够与记录过程中使用的文本相关联或是标记成与所述文本相对应。虽然目前普遍使用的有各种不同的合成方法,但是一种示例性实例是源滤波法。源滤波法把人的语音模仿成源波形集群,所述源波形集群是通过滤波器群提供的。源波形可以是简单的脉冲或正弦波形,或是更复杂的谐波高品质波形。滤波器修改源波形并使其着色以便模仿发音清晰的语音。
在源滤波合成方法中,通常在源波形的复杂性和滤波器的特性之间存在相反的关联性。如果使用复杂的波形,则一般使用相当简单的滤波器模式就足够了。相反,如果使用简单的源波形,则通常应采用较复杂的滤波器结构。现有的语音合成器实例已经利用了全频谱源滤波器的关系,其范围从简单源、复杂滤波器到复杂源、简单滤波器。为了说明本发明的原理,在此将描述声门源、共振峰轨迹滤波合成法。熟悉本领域的技术人员应当认识到这仅仅是一种源滤波合成法的范例,本发明也可以采用大量其他的方法。此外,尽管在此说明的是源滤波合成方法,但是其他合成方法,如非源滤波方法也属于本发明的范围。
发明内容
按照本发明,通过提供一个基础合成器来构成个性化语音合成器,所述基础合成器采用了预定的合成方法并具有可供合成方法使用以产生合成语音的初始参数群。从讲话人那里获取注册数据,并用该注册数据修改初始参数群,由此使基础合成器个性化,从而模仿讲话人的语音特性。
按照本发明的另一方面,将初始参数群分解成特定讲话人语音参数(speaker dependent parameters)和非特定讲话人语音参数(speakerindependent parameters)。然后用从新的讲话人处获得的注册数据与特定讲话人语音参数相配,把得到的特定讲话人系统适配参数与非特定讲话人语音参数进行组合从而产生供语音合成器使用的个性化合成参数群。
按照本发明的另一方面,通过将初始参数群分解成两组,即:与上下文不相关(context independent)的参数和与上下文相关(context dependent)的参数,可以获得前面所述的特定讲话人语音参数和非特定讲话人语音参数。就此而言,根据在不同上下文的参数中是否存在可检测的变化,便可确定所述参数与上下文无关还是与上下文有关。当给定的音素变体发出不同的声音时,根据出现的相邻音素变体,可将与该变体相关的合成参数分解成可识别的与上下文有关的参数(那些随相邻音素变体变化的参数)。同样也把音素变体分解成与上下文无关的参数,该参数在相邻音素变体发生变化时不产生明显变化。
本发明把与上下文无关的参数和特定讲话人语音参数联系起来;并把与上下文有关的参数和非特定讲话人语音参数联系起来。因此,用注册数据与和上下文无关的参数相适配,并将这些参数与和上下文有关的参数重新组合形成适配的合成参数。在优选实施例中,将参数分解成与上下文无关的参数和与上下文有关的参数以便使与上下文无关参数的数量小于与上下文有关参数的数量。由于仅对与上下文无关的参数(数量很少)进行自适应处理,所以可以利用参数的数量差。因此,可用最小的计算量得到极好的个性化结果。
按照本发明的另一方面,可以用极小量的注册数据进行上面讨论的自适应处理。的确,并不需要注册数据包含所有与上下文无关的参数实例。通过使用由本发明的受让人开发的本征语音技术可以用最小量的数据完成自适应处理。本征语音技术包括使用与上下文无关的参数构建超级矢量(supervector),然后对其进行,例如主分量分析(PCA)等维度精简(dimensionality reduction)的处理,以形成本征空间。本征空间借助相当少的维度表示由原始语音合成器中所有与上下文无关的参数覆盖的空间。一旦生成本征空间,就可以用该本征空间并利用新的讲话人语音中的短样本来判断新的讲话人的与上下文无关的参数。新的讲话人发出一些数字化的、分段的和经标记构成注册数据的注册语音。从注册数据中抽取与上下文无关的参数并使这些抽取的参数似然最大化,从而限制本征空间。
即使是新的讲话人未提供足够量的包含所有与上下文无关参数的语音,本征语音技术也允许系统判断所有新的讲话人的与上下文无关的参数。因为本征空间最初是由一些来自新的讲话人的与上下文无关的参数构建的,所以上述判断是可行的。当将新的讲话人的注册数据限制在本征空间内时(无论用多么不完整的参数群都是有效的),系统将推测出遗漏的参数是在本征空间内对应于新的讲话人位置的参数。
本发明所用的技术实际上适用于合成方法的任何方面。目前优选的实施例采用了使共振峰轨迹与源滤波模式的滤波器相关联的技术。该技术也可以用于和源表述相关联或是和其他语音模型参数相关联的特定讲话人语音参数,这些参数包括韵律参数、持续时间和倾斜度参数。此外,如果使用本征语音技术,则可以将该技术用于叠合结构中,由此可以反复指定本征空间并且在提供附加的注册数据时可以改善该本征空间。
为了更完整地理解本发明,在下面的描述中将结合附图说明本发明的目的和优点。
附图说明
图1是本发明所述个性化语音合成器的方框图;
图2是表示在构成个性化合成器或将现有合成器个性化过程中包含的基本步骤的流程图;
图3是表示本发明一个实施例的数据流示意图,其中将合成参数分解成与讲话人相关的参数和与讲话人不相关的参数;
图4是表示另一个优选实施例的详细数据流程示意图,其中从音素变体的共振峰轨迹中抽取与上下文不相关的参数和与上下文相关的参数;
图5是表示本征语音技术在使用自适应参数或判断参数时的方框图;
图6是表示判断特定讲话人语音参数的本征矢量技术的流程图。
具体实施方式
参照图1,用标号10表示示例性语音合成器。语音合成器使用了合成参数群12和预定合成方法14,利用该合成方法把输入数据例如文本转换成合成语音。按照本发明的一个方面,个性化器件16提取注册数据18并根据合成参数12进行运算使合成器模拟一个讲话人的语音特征。个性化器件16可根据合成参数12的种类在很多不同的域内进行运算。例如,如果合成参数包括共振峰轨迹等频率参数,则可以将个性化器件设置得能够修改共振峰轨迹,其修改方式是使得最终合成的语音更象提供注册数据18的个体。
本发明提供一种使语音合成器个性化以及构成个性化语音合成器的方法。在图2中示出的基本方法从提供基础合成器的步骤20开始。基础合成器可以以各种不同合成方法中的任何一种为基础。尽管存在其他同样可供本发明使用的合成方法,但在此将描述源滤波法。除了提供基础合成器20之外,该方法还包括获取注册数据22。然后在步骤24中用所述注册数据修改基础合成器。当利用本发明将现有合成器个性化时,获取注册数据的步骤通常是在构建基础合成器之后进行。当然,还可以在构建基础合成器之前或同时获取注册数据。因此,在图2中示出了两条可选的流路(a)和(b)。
图3更详细地示出了本优选实施例。在图3中,从语音数据资料库26产生合成参数12,合成方法14以合成参数12为依据运行。当构建基础合成器时,一般的做法是,让一个或多个指定的讲话人通过朗读准备好的文本来提供实际语音的实例。这样,可以将所提供的语调(utterances)与文本相关联。通常,将语音数据数字化并将其分成与文本中离散的符号对应的小段。在本优选实施例中,将语音数据分成同样大小的单个音素变体段,以便保存相邻音素变体的上下文。然后用这些音素变体来构建合成参数12。在本优选实施例中,分别从每个音素变体单元中抽取声门脉冲和共振峰轨迹等时间和频率参数。
一旦形成合成参数,便开始进行分解过程28。将合成参数12分解成特定讲话人语音参数30和非特定讲话人语音参数32。分解过程可以这样来分离参数,即,利用数据分析技术或是通过计算与上下文无关的音素共振峰轨迹以及考虑每个音素变体单元共振峰轨迹是与上下文无关的共振峰轨迹和与上下文有关的共振峰轨迹两项之和。这一技术将在后面结合图4进行更全面地说明。
一旦将特定讲话人语音参数和非特定讲话人语音参数彼此隔离,则将根据特定讲话人语音参数完成自适应过程34。自适应过程使用了由新的讲话人36提供的用于确定合成器的注册数据18。当然,如果需要的话,新的讲话人36可以是提供语音数据资料库26的讲话人之一。然而,通常新的讲话人将不会有机会参与语音数据资料库的创建,而是在资料库初始建立后成为合成系统的用户。
存在多种不同的可用于自适应过程34的技术。显然,自适应过程与特定合成器使用的合成参数类别有关。一种可能的自适应方法包括用取自新的讲话人36的特定讲话人语音参数代替从讲话人数据资料库26取得的原始确定的参数。如果需要的话,可以用旧参数和新参数的混合平均值或加权平均值提供对应于从新的讲话人36那里得到的特定讲话人语音参数38并且按照从语音数据资料库26中获得的保留参数合理地保留特定讲话人语音参数38。在理想的情况下,新的讲话人36能提供足够量的注册数据18使所有与上下文无关的参数或者至少最重要的参数能适应新的讲话人的语音噪扰。然而,在许多情况下,从新的讲话人那里只能得到少量的数据,而且不代表所有与上下文无关的参数。正如下面将更全面讨论的那样,本发明的另一方面提供一种本征语音技术,其中特定讲话人语音参数可以仅与最少量的注册数据相适应。
在特定讲话人语音参数适配后,进行组合过程40。组合过程40把非特定讲话人语音参数32与和相应的讲话人相关的参数38重新结合并生成个性化的合成参数群42。组合过程40实际上是利用分解过程28反向工作的。换句话说,分解过程28和组合过程40是彼此相反的。
一旦生成个性化合成参数后,便可以用这些合成参数借助于合成方法14产生个性化语音。在图3中,应注意的是,合成方法14出现在两个位置,这表示在合成参数12时使用的方法可以与个性化合成参数42时使用的方法相同,其主要区别在于参数12产生基础合成器的合成语音,而参数42产生模拟或模仿新的讲话人36的合成语音。
图4更详细地表示本发明的一个实施例,其中所述合成方法是采用共振峰轨迹(formant trajectory)或其他类似的频域参数的源滤波法。用标号50表示注册语音数据的示例性链接单元,其包含位于相邻音素变体54和56之间上下文中的给定音素变体52。按照该实例的源滤波模型,合成器通过向滤波器群提供声门源波形58便可以产生合成语音,其中所述声门源波形对应于形成语音的音素变体的共振峰轨迹60。
正如前面结合图3所述的那样,可以将合成参数(在此为共振峰轨迹)分解成特定讲话人语音参数和非特定讲话人语音参数。因此,本实施例将共振峰轨迹60分解成与上下文无关的参数62和与上下文有关的参数64。应注意的是,与上下文无关的参数对应于特定讲话人语音参数;而与上下文有关的参数对应于非特定讲话人语音参数。自适应过程或判断过程34使用注册数据18产生适配参数或判断参数66。然后,将这些参数与和上下文相关的参数64进行组合构成适配的共振峰轨迹68。然后,用适配的共振峰轨迹构建滤波器,使声门源波形58通过滤波器产生合成语音,此时合成的音素变体更接近模拟或模仿新的讲话人。
正如上面特别提到的,如果新的讲话人的注册数据足以判断所有与上下文无关的共振峰轨迹,则用新的讲话人的与上下文无关的信息代替原来的与上下文无关的信息便能足以使合成器输出的声音个性化。相反,如果没有足够的注册数据来判断所有与上下文无关的共振峰轨迹,优选实施例将采用本征语音技术来判断遗漏的轨迹。
图5中表示的是本征语音技术,该技术始于步骤70中所示根据多个指定讲话人的与上下文无关的参数构建超级矢量(supervector)。如果需要的话,可以在用语音数据资料库26生成基础合成器之前构建超级矢量。在构建超级矢量时,应合理选择讲话者的不同断面,对于每个讲话人构建一个超级矢量。每个超级矢量包括按预定顺序链接的供合成器使用的所有音素中所有与上下文无关的参数。音素参数链接的顺序并不重要,只要该顺序符合所有指定的讲话人即可。
接着,在步骤72中,进行维度精简的过程。主分量分析(PCA)是这种精简技术之一。精简的过程生成本征空间74,与用于构建本征空间的本征矢量相比,本征空间74的维度较低。因此,本征空间表示减小了维度的矢量空间,相对于该空间可确定所有指定讲话人的与上下文无关的参数。
然后,从新的讲话人36处获取注册数据18,并如步骤76所示判断新的讲话人在本征空间74中的位置。优选实施例采用最大似然技术来判断新的讲话人在本征空间中的位置。应认识到,注册数据18并不必要包括所有音素的实例。可利用出现的任何音素数据来判断新的讲话人在本征空间74中的位置。实际上,即使是很短语调的注册数据也足以判断新的讲话人在本征空间74中的位置。因此,如在步骤78中那样,通过将遗漏的参数限制在先前判断的本征空间的位置上,便能够生成任何遗漏的音素数据。本征空间包括了特定讲话人的发音如何不同的情况。如果一个新的讲话人注册数据的语音象是Scarlet0’Hara所说的“明天是另一天”,则有理由假设该讲话人的其他语调应该也具有与Scarlet O’Hara类似的声音。在这种情况下,可以将新的讲话人在本征空间中的位置标记为“Scarlet O’Hara”。其他具有类似发音特点的讲话人同样落在本征空间中的相同位置附近。
在图6中示出了构建本征空间的过程,所述本征空间表示来自多个指定讲话人的与上下文无关(特定讲话人)的参数。图中假设T个指定的讲话人120提供了构建本征空间的指定数据122(training data)的资料库。然后如步骤124所示,用这些指定数据产生特定讲话人语音参数。在步骤124中为每个讲话人构建一个模型,每个模型代表该讲话人全部与上下文无关的参数。
在用来自T个讲话人的所有指定数据指定了与各讲话人有关的参数后,在步骤128中构建超级矢量群。因此,相对于T个讲话人中的每个人存在一个超级矢量130。每个讲话人的超级矢量包括该讲话人的与上下文无关的参数序列表。将该表链接即可确定超级矢量。可以用任何方便的序列识别这些参数。该序列不是标准的,但是一旦一个序列得到适配,那么必须使所有T个讲话人都随之得到适配。
在为每个指定讲话人构建了超级矢量之后,可以在步骤132使用主分量分析或某些其他维度精简技术。如在步骤134中所示,主分量分析可根据T个超级矢量得出T个本征矢量。因此,如果已经使用了120个指定讲话人,系统将产生120个本征矢量。这些本征矢量确定了本征空间。
尽管在步骤132中最多产生的本征矢量为T个,但是实际上可以丢弃一些本征矢量,而仅保留前面的N个本征矢量。因此,在步骤136中,我们选择性地抽取T个本征矢量中的N个来构成步骤138中所示减小的参数本征空间。由于较高级别的本征矢量通常包含的是在判断讲话人时不太重要的信息,所以可以将它们丢弃。将本征空间减小到比所有指定讲话人小得多便可以形成固有数据压缩,这在用有限的存储器和处理器资源构建实际系统时是很有益的。
在构建了本征空间之后,可以用该本征空间来判断新的讲话人的与上下文无关的参数。从新的讲话人的注册数据中抽取与上下文无关的参数。然后,用最大似然技术将抽取的参数限制到本征空间。
本发明的最大似然技术在本征空间138内确定了一个点166,该点代表的是和与上下文无关的参数对应的超级矢量,所述参数具有与新的讲话人相关的最大可能性。为了便于说明,将最大似然过程示于图6中的线168下方。
实际上,不管注册数据实际的有效性有多高,最大似然技术都将选择最符合新的讲话人注册数据本征空间内的超级矢量。
在图6中,用一组本征矢量174、175和178代表本征空间138。通过用每个本征矢量乘以用W1、W2…Wn表示的相应本征值可以在本征空间中示出与来自新的讲话人的注册数据对应的超级矢量170。这些本征值最初是未知的。最大似然技术可确定这些未知本征值的值。正如下面将更全面解释的,通过寻找本征空间中最能代表新的讲话人的与上下文无关的参数的最佳结果(solution)便可选定这些值。
在将本征值与本征空间138中的相应本征矢量相乘和将所得结果相加之后,便可得到适配的与上下文无关的参数群180。超级矢量180中的值表示最佳结果,即,其具有能表示本征空间中与新的讲话人的上下文无关参数的最大似然性。
从以上描述中可以看出,本发明开发了通过分解不同的变化源(例如特定讲话人和非特定讲话人语音信息)并采用讲话人适配技术来解决语音个性化的问题。本发明一个有利的方面在于,用于表征特定讲话人系统部分的参数数量实际上可以少于用于表征非特定讲话人系统部分的参数数量。这意味着,使合成器适应于单个讲话人的声音所需的注册数据数量相当低。而且,尽管优选实施例特别关注的方面集中在共振峰轨迹上,但是并不意味着本发明仅限于使用共振峰轨迹。还可以使用持续时间和倾斜度等韵律参数以及其他音韵参数借助听觉判断单个声音的特征。通过使现有合成器个性化或是构建新的个性化合成器等快速和有效的方式,本发明能很好地适应对个性化有兴趣的各种不同文本-语音转换领域。这些领域包括传递因特网声频内容、玩具、游戏的系统,对话系统,软件代理等。
尽管以上结合优选实施例描述了本发明,但是应当意识到,在不脱离与所附权利要求相关的本发明构思的情况下,可以对本发明作出某些改进。
Claims (17)
1.一种将语音合成器个性化的方法,其特征在于,包括:
获得用参数群表示的语音数据资料库,所述参数群可供所述产生合成语音的语音合成器使用;
将所述参数群分解成特定讲话人语音参数群和非特定讲话人语音参数群;
从新的讲话人处获取注册数据并用所述注册数据和与所述特定讲话人系统的参数进行适配,由此产生适配的特定讲话人语音参数;
把所述非特定讲话人语音参数和所述适配的特定讲话人语音参数进行组合以构建供所述语音合成器在产生合成语音时使用的个性化合成参数。
2.根据权利要求1所述的方法,其特征在于,非特定讲话人语音参数数量超过特定讲话人语音参数数量。
3.根据权利要求1所述的方法,其特征在于,所述分解步骤是通过识别与上下文有关的信息和采用所述与上下文有关的信息表示的所述非特定讲话人语音参数,以及识别与上下文无关的信息和采用所述与上下文无关的信息表示的所述特定讲话人语音参数实现的。
4.根据权利要求1所述的方法,其特征在于,所述语音数据包括频率参数群,所述频率参数群对应于与人的语音相关联的共振峰轨迹。
5.根据权利要求1所述的方法,其特征在于,所述语音数据包括时间域参数群,所述时间域参数群对应于与人的语音相关联的声门源信息。
6.根据权利要求1所述的方法,其特征在于,所述语音数据包括的参数群对应于与人的语音相关联的韵律信息。
7.根据权利要求1所述的方法,其特征在于,进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间并用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。
8.根据权利要求1所述的方法,其特征在于,进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间,而且如果仅用所述注册数据并不能代表合成器使用的所有音素的话,用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。
9.一种构建个性化语音合成器的方法,其特征在于,包括:
提供基础合成器,所述合成器采用预定的合成方法并且具有供所述合成方法使用以产生合成语音的初始参数群;
将所述初始参数群表示成特定讲话人语音参数和非特定讲话人语音参数;
从讲话人处获取注册数据;和
用所述注册数据修改所述特定讲话人语音参数并由此将所述基础合成器个性化,使之能模仿所述讲话人的语音特性。
10.一种个性化的语音合成器,其特征在于,包括:
合成处理器,该合成处理器包含完成预定合成方法的指令群,其使得合成参数数据库运行,所述合成参数表示成特定讲话人语音参数和非特定讲话人语音参数;
包含合成参数数据库的存储器,所述合成参数表示成特定讲话人语音参数和非特定讲话人语音参数;
输入端,其提供从指定讲话人得到的注册数据;和
接受所述注册数据的自适应模块,该模块用所述注册数据修改所述特定讲话人语音参数,从而将所述指定讲话人的所述参数个性化。
11.根据权利要求10所述的合成器,其特征在于,所述合成参数是与上下文不相关的参数。
12.根据权利要求10所述的合成器,其特征在于,所述合成参数是与上下文相关的参数。
13.根据权利要求10所述的合成器,其特征在于,所述输入端包括话筒,所述话筒从所述指定讲话人提供的语调中获取所述注册数据。
14.根据权利要求10所述的合成器,其特征在于,所述注册数据包括从所述指定讲话人的语调中取出的抽取参数,而且其中所述自适应模块通过将从所述指定讲话人的语调中抽取的参数限定到一个本征空间来判断所述注册数据中未发现的声单元。
15.一种语音合成系统,其特征在于,包括:
语音合成器,该语音合成器通过使合成参数的数据库运行来完成预定的合成方法,所述数据库中的合成参数为特定讲话人语音参数和非特定讲话人语音参数;
接受来自指定讲话人注册数据的个性化器件,所述个性化器件从所述合成参数中抽取特定讲话人语音参数,然后用所述注册数据修改所述特定讲话人语音参数。
16.根据权利要求15所述的系统,其特征在于,所述个性化器件将所述合成参数分解成特定讲话人语音参数和非特定讲话人语音参数,然后用所述注册数据修改与所述特定讲话人系统参数。
17.根据权利要求15所述的系统,其特征在于,进一步包括参数判断系统,所述参数判断系统采用了指定讲话人群指定的本征空间,并通过将所述注册数据限定到所述本征空间而利用所述本征空间对注册数据中遗漏的声单元的参数进行判断。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/792,928 US6970820B2 (en) | 2001-02-26 | 2001-02-26 | Voice personalization of speech synthesizer |
US09/792,928 | 2001-02-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1496554A CN1496554A (zh) | 2004-05-12 |
CN1222924C true CN1222924C (zh) | 2005-10-12 |
Family
ID=25158507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN02806151.9A Expired - Fee Related CN1222924C (zh) | 2001-02-26 | 2002-02-25 | 声音个性化的语音合成器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6970820B2 (zh) |
EP (1) | EP1377963A4 (zh) |
JP (1) | JP2004522186A (zh) |
CN (1) | CN1222924C (zh) |
WO (1) | WO2002069323A1 (zh) |
Families Citing this family (170)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8095581B2 (en) * | 1999-02-05 | 2012-01-10 | Gregory A Stobbs | Computer-implemented patent portfolio analysis method and apparatus |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CN1156819C (zh) * | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
GB0229860D0 (en) * | 2002-12-21 | 2003-01-29 | Ibm | Method and apparatus for using computer generated voice |
US8005677B2 (en) * | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US8886538B2 (en) * | 2003-09-26 | 2014-11-11 | Nuance Communications, Inc. | Systems and methods for text-to-speech synthesis using spoken example |
US8103505B1 (en) * | 2003-11-19 | 2012-01-24 | Apple Inc. | Method and apparatus for speech synthesis using paralinguistic variation |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
US7716052B2 (en) * | 2005-04-07 | 2010-05-11 | Nuance Communications, Inc. | Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis |
US8412528B2 (en) * | 2005-06-21 | 2013-04-02 | Nuance Communications, Inc. | Back-end database reorganization for application-specific concatenative text-to-speech systems |
EP1736962A1 (en) * | 2005-06-22 | 2006-12-27 | Harman/Becker Automotive Systems GmbH | System for generating speech data |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8650035B1 (en) * | 2005-11-18 | 2014-02-11 | Verizon Laboratories Inc. | Speech conversion |
FR2902542B1 (fr) * | 2006-06-16 | 2012-12-21 | Gilles Vessiere Consultants | Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede |
US8204747B2 (en) * | 2006-06-23 | 2012-06-19 | Panasonic Corporation | Emotion recognition apparatus |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080201141A1 (en) * | 2007-02-15 | 2008-08-21 | Igor Abramov | Speech filters |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008132533A1 (en) * | 2007-04-26 | 2008-11-06 | Nokia Corporation | Text-to-speech conversion method, apparatus and system |
US8131549B2 (en) * | 2007-05-24 | 2012-03-06 | Microsoft Corporation | Personality-based device |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20090177473A1 (en) * | 2008-01-07 | 2009-07-09 | Aaron Andrew S | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20100153116A1 (en) * | 2008-12-12 | 2010-06-17 | Zsolt Szalai | Method for storing and retrieving voice fonts |
US8954328B2 (en) * | 2009-01-15 | 2015-02-10 | K-Nfb Reading Technology, Inc. | Systems and methods for document narration with multiple characters having multiple moods |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
TW201236444A (en) | 2010-12-22 | 2012-09-01 | Seyyer Inc | Video transmission and sharing over ultra-low bitrate wireless communication channel |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN103650002B (zh) * | 2011-05-06 | 2018-02-23 | 西尔股份有限公司 | 基于文本的视频生成 |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US8423366B1 (en) * | 2012-07-18 | 2013-04-16 | Google Inc. | Automatically training speech synthesizers |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014092666A1 (en) | 2012-12-13 | 2014-06-19 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Sirketi | Personalized speech synthesis |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
GB201315142D0 (en) * | 2013-08-23 | 2013-10-09 | Ucl Business Plc | Audio-Visual Dialogue System and Method |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
BR112016016310B1 (pt) * | 2014-01-14 | 2022-06-07 | Interactive Intelligence Group, Inc | Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros |
US9412358B2 (en) * | 2014-05-13 | 2016-08-09 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10014007B2 (en) * | 2014-05-28 | 2018-07-03 | Interactive Intelligence, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US10255903B2 (en) * | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
KR20150145024A (ko) * | 2014-06-18 | 2015-12-29 | 한국전자통신연구원 | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
CN105096934B (zh) * | 2015-06-30 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 构建语音特征库的方法、语音合成方法、装置及设备 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN108369803B (zh) * | 2015-10-06 | 2023-04-04 | 交互智能集团有限公司 | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 |
CN106571145A (zh) * | 2015-10-08 | 2017-04-19 | 重庆邮电大学 | 一种语音模仿方法和装置 |
CN105185372B (zh) * | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
KR102225918B1 (ko) * | 2018-08-13 | 2021-03-11 | 엘지전자 주식회사 | 인공 지능 기기 |
CN111369966A (zh) * | 2018-12-06 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 一种用于个性化语音合成的方法和装置 |
WO2020153717A1 (en) * | 2019-01-22 | 2020-07-30 | Samsung Electronics Co., Ltd. | Electronic device and controlling method of electronic device |
KR102287325B1 (ko) | 2019-04-22 | 2021-08-06 | 서울시립대학교 산학협력단 | 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법 |
KR102430020B1 (ko) * | 2019-08-09 | 2022-08-08 | 주식회사 하이퍼커넥트 | 단말기 및 그것의 동작 방법 |
US11062692B2 (en) | 2019-09-23 | 2021-07-13 | Disney Enterprises, Inc. | Generation of audio including emotionally expressive synthesized content |
KR20210072374A (ko) * | 2019-12-09 | 2021-06-17 | 엘지전자 주식회사 | 발화 스타일을 제어하여 음성 합성을 하는 인공 지능 장치 및 그 방법 |
CN113314096A (zh) * | 2020-02-25 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
US20220310058A1 (en) * | 2020-11-03 | 2022-09-29 | Microsoft Technology Licensing, Llc | Controlled training and use of text-to-speech models and personalized model generated voices |
CN112712798B (zh) * | 2020-12-23 | 2022-08-05 | 思必驰科技股份有限公司 | 私有化数据获取方法及装置 |
CN112802449B (zh) * | 2021-03-19 | 2021-07-02 | 广州酷狗计算机科技有限公司 | 音频合成方法、装置、计算机设备及存储介质 |
CN118098199A (zh) * | 2024-04-26 | 2024-05-28 | 荣耀终端有限公司 | 个性化语音合成方法、电子设备、服务器和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5165008A (en) * | 1991-09-18 | 1992-11-17 | U S West Advanced Technologies, Inc. | Speech synthesis using perceptual linear prediction parameters |
JP3968133B2 (ja) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5729694A (en) * | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
US5893902A (en) * | 1996-02-15 | 1999-04-13 | Intelidata Technologies Corp. | Voice recognition bill payment system with speaker verification and confirmation |
US6073096A (en) * | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
WO1999045530A1 (en) * | 1998-03-03 | 1999-09-10 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
US6253181B1 (en) * | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
US6341264B1 (en) * | 1999-02-25 | 2002-01-22 | Matsushita Electric Industrial Co., Ltd. | Adaptation system and method for E-commerce and V-commerce applications |
US6571208B1 (en) * | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US6836758B2 (en) * | 2001-01-09 | 2004-12-28 | Qualcomm Incorporated | System and method for hybrid voice recognition |
-
2001
- 2001-02-26 US US09/792,928 patent/US6970820B2/en not_active Expired - Lifetime
-
2002
- 2002-02-25 JP JP2002568360A patent/JP2004522186A/ja not_active Withdrawn
- 2002-02-25 EP EP02709673A patent/EP1377963A4/en not_active Withdrawn
- 2002-02-25 WO PCT/US2002/005631 patent/WO2002069323A1/en not_active Application Discontinuation
- 2002-02-25 CN CN02806151.9A patent/CN1222924C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20020120450A1 (en) | 2002-08-29 |
EP1377963A1 (en) | 2004-01-07 |
CN1496554A (zh) | 2004-05-12 |
JP2004522186A (ja) | 2004-07-22 |
WO2002069323A1 (en) | 2002-09-06 |
US6970820B2 (en) | 2005-11-29 |
EP1377963A4 (en) | 2005-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1222924C (zh) | 声音个性化的语音合成器 | |
Sisman et al. | An overview of voice conversion and its challenges: From statistical modeling to deep learning | |
Morgan | Deep and wide: Multiple layers in automatic speech recognition | |
Kuhn et al. | Rapid speaker adaptation in eigenvoice space | |
CN1121679C (zh) | 用于语音合成的运行时声频单元选择方法和系统 | |
US5905972A (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
WO2021061484A1 (en) | Text-to-speech processing | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
Jemine | Real-time voice cloning | |
Hono et al. | Sinsy: A deep neural network-based singing voice synthesis system | |
Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
CN1835074A (zh) | 一种结合高层描述信息和模型自适应的说话人转换方法 | |
US20070294082A1 (en) | Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers | |
Le et al. | First steps in fast acoustic modeling for a new target language: application to Vietnamese | |
US7133827B1 (en) | Training speech recognition word models from word samples synthesized by Monte Carlo techniques | |
US6236966B1 (en) | System and method for production of audio control parameters using a learning machine | |
KR20100068530A (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Kim | Singing voice analysis/synthesis | |
Baljekar | Speech synthesis from found data | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
Sakai et al. | A probabilistic approach to unit selection for corpus-based speech synthesis. | |
Qin et al. | HMM-based emotional speech synthesis using average emotion model | |
CN113539236A (zh) | 一种语音合成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |