CN1222924C - 声音个性化的语音合成器 - Google Patents

声音个性化的语音合成器 Download PDF

Info

Publication number
CN1222924C
CN1222924C CN02806151.9A CN02806151A CN1222924C CN 1222924 C CN1222924 C CN 1222924C CN 02806151 A CN02806151 A CN 02806151A CN 1222924 C CN1222924 C CN 1222924C
Authority
CN
China
Prior art keywords
teller
parameter
speech
data
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN02806151.9A
Other languages
English (en)
Other versions
CN1496554A (zh
Inventor
杰-克劳德·约库阿
佛罗伦特·佩罗宁
罗兰德·科恩
帕特里克·恩古因
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1496554A publication Critical patent/CN1496554A/zh
Application granted granted Critical
Publication of CN1222924C publication Critical patent/CN1222924C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereophonic System (AREA)
  • Machine Translation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

将语音合成器个性化,使声音类似于或能模仿单个讲话人的语音特征。单个讲话人提供可从少量语音中抽取的一定量的注册数据18,而且由系统修改基础合成参数12以便能更好地模拟新的讲话人36的参数。更具体地说,可以将合成参数12分解成特定讲话人语音参数30,例如与上下文无关的参数,和非特定讲话人语音参数32,例如与上下文有关的参数。用从新的讲话人处得到的注册数据18对特定讲话人语音参数30进行适配。适配后,把特定讲话人语音参数30和非特定讲话人语音参数进行组合从而提供个性化的合成参数群42。

Description

声音个性化的语音合成器
技术领域
本发明主要涉及语音合成。更确切地说,本发明涉及使语音合成器的输出个性化以便在特定讲话人提供了注册数据后能模拟或模仿出该讲话人细微差异的系统和方法。
背景技术
在很多使用文本-语音转换(text-to-speech,TTS)合成器的领域中,都期望使合成器的输出声音能模拟特定讲话人的特征。目前,花费在开发语音合成器方面的很多努力都在于使合成的声音尽可能人性化。尽管在这方面不断有进展,但是目前合成器产生的准自然语音表现的是用于构建合成器的语音数据资料库中包含的混合音素变体。当前,没有有效的方法能生产模仿特定讲话人特性的语音合成器,也无法让讲话人花费一些时间记录他或她的语言实例以便用其构成合成器。尽管非常期望能够仅用少量从特定讲话人得到的注册数据(enrollment data)将现有语音合成器定型或个性化,但是,迄今为止还不存在这种技术。
最近设计的语音合成器已经能将主要是文本格式的信息转换成合成语音。通常,这些合成器是以合成方法为基础并与某些合成参数相关联。通常,通过操作人的实际语音链接单元产生合成参数,所述实际语音已经过预记录、数字化和分段,从而使包含在该语音中的单个音素变体,能够与记录过程中使用的文本相关联或是标记成与所述文本相对应。虽然目前普遍使用的有各种不同的合成方法,但是一种示例性实例是源滤波法。源滤波法把人的语音模仿成源波形集群,所述源波形集群是通过滤波器群提供的。源波形可以是简单的脉冲或正弦波形,或是更复杂的谐波高品质波形。滤波器修改源波形并使其着色以便模仿发音清晰的语音。
在源滤波合成方法中,通常在源波形的复杂性和滤波器的特性之间存在相反的关联性。如果使用复杂的波形,则一般使用相当简单的滤波器模式就足够了。相反,如果使用简单的源波形,则通常应采用较复杂的滤波器结构。现有的语音合成器实例已经利用了全频谱源滤波器的关系,其范围从简单源、复杂滤波器到复杂源、简单滤波器。为了说明本发明的原理,在此将描述声门源、共振峰轨迹滤波合成法。熟悉本领域的技术人员应当认识到这仅仅是一种源滤波合成法的范例,本发明也可以采用大量其他的方法。此外,尽管在此说明的是源滤波合成方法,但是其他合成方法,如非源滤波方法也属于本发明的范围。
发明内容
按照本发明,通过提供一个基础合成器来构成个性化语音合成器,所述基础合成器采用了预定的合成方法并具有可供合成方法使用以产生合成语音的初始参数群。从讲话人那里获取注册数据,并用该注册数据修改初始参数群,由此使基础合成器个性化,从而模仿讲话人的语音特性。
按照本发明的另一方面,将初始参数群分解成特定讲话人语音参数(speaker dependent parameters)和非特定讲话人语音参数(speakerindependent parameters)。然后用从新的讲话人处获得的注册数据与特定讲话人语音参数相配,把得到的特定讲话人系统适配参数与非特定讲话人语音参数进行组合从而产生供语音合成器使用的个性化合成参数群。
按照本发明的另一方面,通过将初始参数群分解成两组,即:与上下文不相关(context independent)的参数和与上下文相关(context dependent)的参数,可以获得前面所述的特定讲话人语音参数和非特定讲话人语音参数。就此而言,根据在不同上下文的参数中是否存在可检测的变化,便可确定所述参数与上下文无关还是与上下文有关。当给定的音素变体发出不同的声音时,根据出现的相邻音素变体,可将与该变体相关的合成参数分解成可识别的与上下文有关的参数(那些随相邻音素变体变化的参数)。同样也把音素变体分解成与上下文无关的参数,该参数在相邻音素变体发生变化时不产生明显变化。
本发明把与上下文无关的参数和特定讲话人语音参数联系起来;并把与上下文有关的参数和非特定讲话人语音参数联系起来。因此,用注册数据与和上下文无关的参数相适配,并将这些参数与和上下文有关的参数重新组合形成适配的合成参数。在优选实施例中,将参数分解成与上下文无关的参数和与上下文有关的参数以便使与上下文无关参数的数量小于与上下文有关参数的数量。由于仅对与上下文无关的参数(数量很少)进行自适应处理,所以可以利用参数的数量差。因此,可用最小的计算量得到极好的个性化结果。
按照本发明的另一方面,可以用极小量的注册数据进行上面讨论的自适应处理。的确,并不需要注册数据包含所有与上下文无关的参数实例。通过使用由本发明的受让人开发的本征语音技术可以用最小量的数据完成自适应处理。本征语音技术包括使用与上下文无关的参数构建超级矢量(supervector),然后对其进行,例如主分量分析(PCA)等维度精简(dimensionality reduction)的处理,以形成本征空间。本征空间借助相当少的维度表示由原始语音合成器中所有与上下文无关的参数覆盖的空间。一旦生成本征空间,就可以用该本征空间并利用新的讲话人语音中的短样本来判断新的讲话人的与上下文无关的参数。新的讲话人发出一些数字化的、分段的和经标记构成注册数据的注册语音。从注册数据中抽取与上下文无关的参数并使这些抽取的参数似然最大化,从而限制本征空间。
即使是新的讲话人未提供足够量的包含所有与上下文无关参数的语音,本征语音技术也允许系统判断所有新的讲话人的与上下文无关的参数。因为本征空间最初是由一些来自新的讲话人的与上下文无关的参数构建的,所以上述判断是可行的。当将新的讲话人的注册数据限制在本征空间内时(无论用多么不完整的参数群都是有效的),系统将推测出遗漏的参数是在本征空间内对应于新的讲话人位置的参数。
本发明所用的技术实际上适用于合成方法的任何方面。目前优选的实施例采用了使共振峰轨迹与源滤波模式的滤波器相关联的技术。该技术也可以用于和源表述相关联或是和其他语音模型参数相关联的特定讲话人语音参数,这些参数包括韵律参数、持续时间和倾斜度参数。此外,如果使用本征语音技术,则可以将该技术用于叠合结构中,由此可以反复指定本征空间并且在提供附加的注册数据时可以改善该本征空间。
为了更完整地理解本发明,在下面的描述中将结合附图说明本发明的目的和优点。
附图说明
图1是本发明所述个性化语音合成器的方框图;
图2是表示在构成个性化合成器或将现有合成器个性化过程中包含的基本步骤的流程图;
图3是表示本发明一个实施例的数据流示意图,其中将合成参数分解成与讲话人相关的参数和与讲话人不相关的参数;
图4是表示另一个优选实施例的详细数据流程示意图,其中从音素变体的共振峰轨迹中抽取与上下文不相关的参数和与上下文相关的参数;
图5是表示本征语音技术在使用自适应参数或判断参数时的方框图;
图6是表示判断特定讲话人语音参数的本征矢量技术的流程图。
具体实施方式
参照图1,用标号10表示示例性语音合成器。语音合成器使用了合成参数群12和预定合成方法14,利用该合成方法把输入数据例如文本转换成合成语音。按照本发明的一个方面,个性化器件16提取注册数据18并根据合成参数12进行运算使合成器模拟一个讲话人的语音特征。个性化器件16可根据合成参数12的种类在很多不同的域内进行运算。例如,如果合成参数包括共振峰轨迹等频率参数,则可以将个性化器件设置得能够修改共振峰轨迹,其修改方式是使得最终合成的语音更象提供注册数据18的个体。
本发明提供一种使语音合成器个性化以及构成个性化语音合成器的方法。在图2中示出的基本方法从提供基础合成器的步骤20开始。基础合成器可以以各种不同合成方法中的任何一种为基础。尽管存在其他同样可供本发明使用的合成方法,但在此将描述源滤波法。除了提供基础合成器20之外,该方法还包括获取注册数据22。然后在步骤24中用所述注册数据修改基础合成器。当利用本发明将现有合成器个性化时,获取注册数据的步骤通常是在构建基础合成器之后进行。当然,还可以在构建基础合成器之前或同时获取注册数据。因此,在图2中示出了两条可选的流路(a)和(b)。
图3更详细地示出了本优选实施例。在图3中,从语音数据资料库26产生合成参数12,合成方法14以合成参数12为依据运行。当构建基础合成器时,一般的做法是,让一个或多个指定的讲话人通过朗读准备好的文本来提供实际语音的实例。这样,可以将所提供的语调(utterances)与文本相关联。通常,将语音数据数字化并将其分成与文本中离散的符号对应的小段。在本优选实施例中,将语音数据分成同样大小的单个音素变体段,以便保存相邻音素变体的上下文。然后用这些音素变体来构建合成参数12。在本优选实施例中,分别从每个音素变体单元中抽取声门脉冲和共振峰轨迹等时间和频率参数。
一旦形成合成参数,便开始进行分解过程28。将合成参数12分解成特定讲话人语音参数30和非特定讲话人语音参数32。分解过程可以这样来分离参数,即,利用数据分析技术或是通过计算与上下文无关的音素共振峰轨迹以及考虑每个音素变体单元共振峰轨迹是与上下文无关的共振峰轨迹和与上下文有关的共振峰轨迹两项之和。这一技术将在后面结合图4进行更全面地说明。
一旦将特定讲话人语音参数和非特定讲话人语音参数彼此隔离,则将根据特定讲话人语音参数完成自适应过程34。自适应过程使用了由新的讲话人36提供的用于确定合成器的注册数据18。当然,如果需要的话,新的讲话人36可以是提供语音数据资料库26的讲话人之一。然而,通常新的讲话人将不会有机会参与语音数据资料库的创建,而是在资料库初始建立后成为合成系统的用户。
存在多种不同的可用于自适应过程34的技术。显然,自适应过程与特定合成器使用的合成参数类别有关。一种可能的自适应方法包括用取自新的讲话人36的特定讲话人语音参数代替从讲话人数据资料库26取得的原始确定的参数。如果需要的话,可以用旧参数和新参数的混合平均值或加权平均值提供对应于从新的讲话人36那里得到的特定讲话人语音参数38并且按照从语音数据资料库26中获得的保留参数合理地保留特定讲话人语音参数38。在理想的情况下,新的讲话人36能提供足够量的注册数据18使所有与上下文无关的参数或者至少最重要的参数能适应新的讲话人的语音噪扰。然而,在许多情况下,从新的讲话人那里只能得到少量的数据,而且不代表所有与上下文无关的参数。正如下面将更全面讨论的那样,本发明的另一方面提供一种本征语音技术,其中特定讲话人语音参数可以仅与最少量的注册数据相适应。
在特定讲话人语音参数适配后,进行组合过程40。组合过程40把非特定讲话人语音参数32与和相应的讲话人相关的参数38重新结合并生成个性化的合成参数群42。组合过程40实际上是利用分解过程28反向工作的。换句话说,分解过程28和组合过程40是彼此相反的。
一旦生成个性化合成参数后,便可以用这些合成参数借助于合成方法14产生个性化语音。在图3中,应注意的是,合成方法14出现在两个位置,这表示在合成参数12时使用的方法可以与个性化合成参数42时使用的方法相同,其主要区别在于参数12产生基础合成器的合成语音,而参数42产生模拟或模仿新的讲话人36的合成语音。
图4更详细地表示本发明的一个实施例,其中所述合成方法是采用共振峰轨迹(formant trajectory)或其他类似的频域参数的源滤波法。用标号50表示注册语音数据的示例性链接单元,其包含位于相邻音素变体54和56之间上下文中的给定音素变体52。按照该实例的源滤波模型,合成器通过向滤波器群提供声门源波形58便可以产生合成语音,其中所述声门源波形对应于形成语音的音素变体的共振峰轨迹60。
正如前面结合图3所述的那样,可以将合成参数(在此为共振峰轨迹)分解成特定讲话人语音参数和非特定讲话人语音参数。因此,本实施例将共振峰轨迹60分解成与上下文无关的参数62和与上下文有关的参数64。应注意的是,与上下文无关的参数对应于特定讲话人语音参数;而与上下文有关的参数对应于非特定讲话人语音参数。自适应过程或判断过程34使用注册数据18产生适配参数或判断参数66。然后,将这些参数与和上下文相关的参数64进行组合构成适配的共振峰轨迹68。然后,用适配的共振峰轨迹构建滤波器,使声门源波形58通过滤波器产生合成语音,此时合成的音素变体更接近模拟或模仿新的讲话人。
正如上面特别提到的,如果新的讲话人的注册数据足以判断所有与上下文无关的共振峰轨迹,则用新的讲话人的与上下文无关的信息代替原来的与上下文无关的信息便能足以使合成器输出的声音个性化。相反,如果没有足够的注册数据来判断所有与上下文无关的共振峰轨迹,优选实施例将采用本征语音技术来判断遗漏的轨迹。
图5中表示的是本征语音技术,该技术始于步骤70中所示根据多个指定讲话人的与上下文无关的参数构建超级矢量(supervector)。如果需要的话,可以在用语音数据资料库26生成基础合成器之前构建超级矢量。在构建超级矢量时,应合理选择讲话者的不同断面,对于每个讲话人构建一个超级矢量。每个超级矢量包括按预定顺序链接的供合成器使用的所有音素中所有与上下文无关的参数。音素参数链接的顺序并不重要,只要该顺序符合所有指定的讲话人即可。
接着,在步骤72中,进行维度精简的过程。主分量分析(PCA)是这种精简技术之一。精简的过程生成本征空间74,与用于构建本征空间的本征矢量相比,本征空间74的维度较低。因此,本征空间表示减小了维度的矢量空间,相对于该空间可确定所有指定讲话人的与上下文无关的参数。
然后,从新的讲话人36处获取注册数据18,并如步骤76所示判断新的讲话人在本征空间74中的位置。优选实施例采用最大似然技术来判断新的讲话人在本征空间中的位置。应认识到,注册数据18并不必要包括所有音素的实例。可利用出现的任何音素数据来判断新的讲话人在本征空间74中的位置。实际上,即使是很短语调的注册数据也足以判断新的讲话人在本征空间74中的位置。因此,如在步骤78中那样,通过将遗漏的参数限制在先前判断的本征空间的位置上,便能够生成任何遗漏的音素数据。本征空间包括了特定讲话人的发音如何不同的情况。如果一个新的讲话人注册数据的语音象是Scarlet0’Hara所说的“明天是另一天”,则有理由假设该讲话人的其他语调应该也具有与Scarlet O’Hara类似的声音。在这种情况下,可以将新的讲话人在本征空间中的位置标记为“Scarlet O’Hara”。其他具有类似发音特点的讲话人同样落在本征空间中的相同位置附近。
在图6中示出了构建本征空间的过程,所述本征空间表示来自多个指定讲话人的与上下文无关(特定讲话人)的参数。图中假设T个指定的讲话人120提供了构建本征空间的指定数据122(training data)的资料库。然后如步骤124所示,用这些指定数据产生特定讲话人语音参数。在步骤124中为每个讲话人构建一个模型,每个模型代表该讲话人全部与上下文无关的参数。
在用来自T个讲话人的所有指定数据指定了与各讲话人有关的参数后,在步骤128中构建超级矢量群。因此,相对于T个讲话人中的每个人存在一个超级矢量130。每个讲话人的超级矢量包括该讲话人的与上下文无关的参数序列表。将该表链接即可确定超级矢量。可以用任何方便的序列识别这些参数。该序列不是标准的,但是一旦一个序列得到适配,那么必须使所有T个讲话人都随之得到适配。
在为每个指定讲话人构建了超级矢量之后,可以在步骤132使用主分量分析或某些其他维度精简技术。如在步骤134中所示,主分量分析可根据T个超级矢量得出T个本征矢量。因此,如果已经使用了120个指定讲话人,系统将产生120个本征矢量。这些本征矢量确定了本征空间。
尽管在步骤132中最多产生的本征矢量为T个,但是实际上可以丢弃一些本征矢量,而仅保留前面的N个本征矢量。因此,在步骤136中,我们选择性地抽取T个本征矢量中的N个来构成步骤138中所示减小的参数本征空间。由于较高级别的本征矢量通常包含的是在判断讲话人时不太重要的信息,所以可以将它们丢弃。将本征空间减小到比所有指定讲话人小得多便可以形成固有数据压缩,这在用有限的存储器和处理器资源构建实际系统时是很有益的。
在构建了本征空间之后,可以用该本征空间来判断新的讲话人的与上下文无关的参数。从新的讲话人的注册数据中抽取与上下文无关的参数。然后,用最大似然技术将抽取的参数限制到本征空间。
本发明的最大似然技术在本征空间138内确定了一个点166,该点代表的是和与上下文无关的参数对应的超级矢量,所述参数具有与新的讲话人相关的最大可能性。为了便于说明,将最大似然过程示于图6中的线168下方。
实际上,不管注册数据实际的有效性有多高,最大似然技术都将选择最符合新的讲话人注册数据本征空间内的超级矢量。
在图6中,用一组本征矢量174、175和178代表本征空间138。通过用每个本征矢量乘以用W1、W2…Wn表示的相应本征值可以在本征空间中示出与来自新的讲话人的注册数据对应的超级矢量170。这些本征值最初是未知的。最大似然技术可确定这些未知本征值的值。正如下面将更全面解释的,通过寻找本征空间中最能代表新的讲话人的与上下文无关的参数的最佳结果(solution)便可选定这些值。
在将本征值与本征空间138中的相应本征矢量相乘和将所得结果相加之后,便可得到适配的与上下文无关的参数群180。超级矢量180中的值表示最佳结果,即,其具有能表示本征空间中与新的讲话人的上下文无关参数的最大似然性。
从以上描述中可以看出,本发明开发了通过分解不同的变化源(例如特定讲话人和非特定讲话人语音信息)并采用讲话人适配技术来解决语音个性化的问题。本发明一个有利的方面在于,用于表征特定讲话人系统部分的参数数量实际上可以少于用于表征非特定讲话人系统部分的参数数量。这意味着,使合成器适应于单个讲话人的声音所需的注册数据数量相当低。而且,尽管优选实施例特别关注的方面集中在共振峰轨迹上,但是并不意味着本发明仅限于使用共振峰轨迹。还可以使用持续时间和倾斜度等韵律参数以及其他音韵参数借助听觉判断单个声音的特征。通过使现有合成器个性化或是构建新的个性化合成器等快速和有效的方式,本发明能很好地适应对个性化有兴趣的各种不同文本-语音转换领域。这些领域包括传递因特网声频内容、玩具、游戏的系统,对话系统,软件代理等。
尽管以上结合优选实施例描述了本发明,但是应当意识到,在不脱离与所附权利要求相关的本发明构思的情况下,可以对本发明作出某些改进。

Claims (17)

1.一种将语音合成器个性化的方法,其特征在于,包括:
获得用参数群表示的语音数据资料库,所述参数群可供所述产生合成语音的语音合成器使用;
将所述参数群分解成特定讲话人语音参数群和非特定讲话人语音参数群;
从新的讲话人处获取注册数据并用所述注册数据和与所述特定讲话人系统的参数进行适配,由此产生适配的特定讲话人语音参数;
把所述非特定讲话人语音参数和所述适配的特定讲话人语音参数进行组合以构建供所述语音合成器在产生合成语音时使用的个性化合成参数。
2.根据权利要求1所述的方法,其特征在于,非特定讲话人语音参数数量超过特定讲话人语音参数数量。
3.根据权利要求1所述的方法,其特征在于,所述分解步骤是通过识别与上下文有关的信息和采用所述与上下文有关的信息表示的所述非特定讲话人语音参数,以及识别与上下文无关的信息和采用所述与上下文无关的信息表示的所述特定讲话人语音参数实现的。
4.根据权利要求1所述的方法,其特征在于,所述语音数据包括频率参数群,所述频率参数群对应于与人的语音相关联的共振峰轨迹。
5.根据权利要求1所述的方法,其特征在于,所述语音数据包括时间域参数群,所述时间域参数群对应于与人的语音相关联的声门源信息。
6.根据权利要求1所述的方法,其特征在于,所述语音数据包括的参数群对应于与人的语音相关联的韵律信息。
7.根据权利要求1所述的方法,其特征在于,进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间并用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。
8.根据权利要求1所述的方法,其特征在于,进一步包括用从指定讲话人群得到的特定讲话人语音参数构建本征空间,而且如果仅用所述注册数据并不能代表合成器使用的所有音素的话,用所述本征空间以及所述注册数据与所述特定讲话人语音参数进行适配。
9.一种构建个性化语音合成器的方法,其特征在于,包括:
提供基础合成器,所述合成器采用预定的合成方法并且具有供所述合成方法使用以产生合成语音的初始参数群;
将所述初始参数群表示成特定讲话人语音参数和非特定讲话人语音参数;
从讲话人处获取注册数据;和
用所述注册数据修改所述特定讲话人语音参数并由此将所述基础合成器个性化,使之能模仿所述讲话人的语音特性。
10.一种个性化的语音合成器,其特征在于,包括:
合成处理器,该合成处理器包含完成预定合成方法的指令群,其使得合成参数数据库运行,所述合成参数表示成特定讲话人语音参数和非特定讲话人语音参数;
包含合成参数数据库的存储器,所述合成参数表示成特定讲话人语音参数和非特定讲话人语音参数;
输入端,其提供从指定讲话人得到的注册数据;和
接受所述注册数据的自适应模块,该模块用所述注册数据修改所述特定讲话人语音参数,从而将所述指定讲话人的所述参数个性化。
11.根据权利要求10所述的合成器,其特征在于,所述合成参数是与上下文不相关的参数。
12.根据权利要求10所述的合成器,其特征在于,所述合成参数是与上下文相关的参数。
13.根据权利要求10所述的合成器,其特征在于,所述输入端包括话筒,所述话筒从所述指定讲话人提供的语调中获取所述注册数据。
14.根据权利要求10所述的合成器,其特征在于,所述注册数据包括从所述指定讲话人的语调中取出的抽取参数,而且其中所述自适应模块通过将从所述指定讲话人的语调中抽取的参数限定到一个本征空间来判断所述注册数据中未发现的声单元。
15.一种语音合成系统,其特征在于,包括:
语音合成器,该语音合成器通过使合成参数的数据库运行来完成预定的合成方法,所述数据库中的合成参数为特定讲话人语音参数和非特定讲话人语音参数;
接受来自指定讲话人注册数据的个性化器件,所述个性化器件从所述合成参数中抽取特定讲话人语音参数,然后用所述注册数据修改所述特定讲话人语音参数。
16.根据权利要求15所述的系统,其特征在于,所述个性化器件将所述合成参数分解成特定讲话人语音参数和非特定讲话人语音参数,然后用所述注册数据修改与所述特定讲话人系统参数。
17.根据权利要求15所述的系统,其特征在于,进一步包括参数判断系统,所述参数判断系统采用了指定讲话人群指定的本征空间,并通过将所述注册数据限定到所述本征空间而利用所述本征空间对注册数据中遗漏的声单元的参数进行判断。
CN02806151.9A 2001-02-26 2002-02-25 声音个性化的语音合成器 Expired - Fee Related CN1222924C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/792,928 US6970820B2 (en) 2001-02-26 2001-02-26 Voice personalization of speech synthesizer
US09/792,928 2001-02-26

Publications (2)

Publication Number Publication Date
CN1496554A CN1496554A (zh) 2004-05-12
CN1222924C true CN1222924C (zh) 2005-10-12

Family

ID=25158507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02806151.9A Expired - Fee Related CN1222924C (zh) 2001-02-26 2002-02-25 声音个性化的语音合成器

Country Status (5)

Country Link
US (1) US6970820B2 (zh)
EP (1) EP1377963A4 (zh)
JP (1) JP2004522186A (zh)
CN (1) CN1222924C (zh)
WO (1) WO2002069323A1 (zh)

Families Citing this family (170)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8095581B2 (en) * 1999-02-05 2012-01-10 Gregory A Stobbs Computer-implemented patent portfolio analysis method and apparatus
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
GB0229860D0 (en) * 2002-12-21 2003-01-29 Ibm Method and apparatus for using computer generated voice
US8005677B2 (en) * 2003-05-09 2011-08-23 Cisco Technology, Inc. Source-dependent text-to-speech system
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
US20060136215A1 (en) * 2004-12-21 2006-06-22 Jong Jin Kim Method of speaking rate conversion in text-to-speech system
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US8412528B2 (en) * 2005-06-21 2013-04-02 Nuance Communications, Inc. Back-end database reorganization for application-specific concatenative text-to-speech systems
EP1736962A1 (en) * 2005-06-22 2006-12-27 Harman/Becker Automotive Systems GmbH System for generating speech data
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8650035B1 (en) * 2005-11-18 2014-02-11 Verizon Laboratories Inc. Speech conversion
FR2902542B1 (fr) * 2006-06-16 2012-12-21 Gilles Vessiere Consultants Correcteur semantiques, syntaxique et/ou lexical, procede de correction, ainsi que support d'enregistrement et programme d'ordinateur pour la mise en oeuvre de ce procede
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080201141A1 (en) * 2007-02-15 2008-08-21 Igor Abramov Speech filters
US8886537B2 (en) * 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090177473A1 (en) * 2008-01-07 2009-07-09 Aaron Andrew S Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
TW201236444A (en) 2010-12-22 2012-09-01 Seyyer Inc Video transmission and sharing over ultra-low bitrate wireless communication channel
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN103650002B (zh) * 2011-05-06 2018-02-23 西尔股份有限公司 基于文本的视频生成
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014092666A1 (en) 2012-12-13 2014-06-19 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Sirketi Personalized speech synthesis
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
GB201315142D0 (en) * 2013-08-23 2013-10-09 Ucl Business Plc Audio-Visual Dialogue System and Method
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
BR112016016310B1 (pt) * 2014-01-14 2022-06-07 Interactive Intelligence Group, Inc Sistema para sintetizar discurso para um texto provido e método para gerar parâmetros
US9412358B2 (en) * 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10014007B2 (en) * 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) * 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
KR20150145024A (ko) * 2014-06-18 2015-12-29 한국전자통신연구원 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN108369803B (zh) * 2015-10-06 2023-04-04 交互智能集团有限公司 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
CN106571145A (zh) * 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置
CN105185372B (zh) * 2015-10-20 2017-03-22 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
KR102225918B1 (ko) * 2018-08-13 2021-03-11 엘지전자 주식회사 인공 지능 기기
CN111369966A (zh) * 2018-12-06 2020-07-03 阿里巴巴集团控股有限公司 一种用于个性化语音合成的方法和装置
WO2020153717A1 (en) * 2019-01-22 2020-07-30 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device
KR102287325B1 (ko) 2019-04-22 2021-08-06 서울시립대학교 산학협력단 외형 이미지를 고려한 음성 합성 장치 및 음성 합성 방법
KR102430020B1 (ko) * 2019-08-09 2022-08-08 주식회사 하이퍼커넥트 단말기 및 그것의 동작 방법
US11062692B2 (en) 2019-09-23 2021-07-13 Disney Enterprises, Inc. Generation of audio including emotionally expressive synthesized content
KR20210072374A (ko) * 2019-12-09 2021-06-17 엘지전자 주식회사 발화 스타일을 제어하여 음성 합성을 하는 인공 지능 장치 및 그 방법
CN113314096A (zh) * 2020-02-25 2021-08-27 阿里巴巴集团控股有限公司 语音合成方法、装置、设备和存储介质
US20220310058A1 (en) * 2020-11-03 2022-09-29 Microsoft Technology Licensing, Llc Controlled training and use of text-to-speech models and personalized model generated voices
CN112712798B (zh) * 2020-12-23 2022-08-05 思必驰科技股份有限公司 私有化数据获取方法及装置
CN112802449B (zh) * 2021-03-19 2021-07-02 广州酷狗计算机科技有限公司 音频合成方法、装置、计算机设备及存储介质
CN118098199A (zh) * 2024-04-26 2024-05-28 荣耀终端有限公司 个性化语音合成方法、电子设备、服务器和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
US5893902A (en) * 1996-02-15 1999-04-13 Intelidata Technologies Corp. Voice recognition bill payment system with speaker verification and confirmation
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
WO1999045530A1 (en) * 1998-03-03 1999-09-10 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6341264B1 (en) * 1999-02-25 2002-01-22 Matsushita Electric Industrial Co., Ltd. Adaptation system and method for E-commerce and V-commerce applications
US6571208B1 (en) * 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition

Also Published As

Publication number Publication date
US20020120450A1 (en) 2002-08-29
EP1377963A1 (en) 2004-01-07
CN1496554A (zh) 2004-05-12
JP2004522186A (ja) 2004-07-22
WO2002069323A1 (en) 2002-09-06
US6970820B2 (en) 2005-11-29
EP1377963A4 (en) 2005-06-22

Similar Documents

Publication Publication Date Title
CN1222924C (zh) 声音个性化的语音合成器
Sisman et al. An overview of voice conversion and its challenges: From statistical modeling to deep learning
Morgan Deep and wide: Multiple layers in automatic speech recognition
Kuhn et al. Rapid speaker adaptation in eigenvoice space
CN1121679C (zh) 用于语音合成的运行时声频单元选择方法和系统
US5905972A (en) Prosodic databases holding fundamental frequency templates for use in speech synthesis
WO2021061484A1 (en) Text-to-speech processing
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
Jemine Real-time voice cloning
Hono et al. Sinsy: A deep neural network-based singing voice synthesis system
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
CN1835074A (zh) 一种结合高层描述信息和模型自适应的说话人转换方法
US20070294082A1 (en) Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
Le et al. First steps in fast acoustic modeling for a new target language: application to Vietnamese
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
US6236966B1 (en) System and method for production of audio control parameters using a learning machine
KR20100068530A (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
KR20200088263A (ko) 텍스트- 다중 음성 변환 방법 및 시스템
Kim Singing voice analysis/synthesis
Baljekar Speech synthesis from found data
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Qin et al. HMM-based emotional speech synthesis using average emotion model
CN113539236A (zh) 一种语音合成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee