CN104395956A - 声音合成的方法和系统 - Google Patents

声音合成的方法和系统 Download PDF

Info

Publication number
CN104395956A
CN104395956A CN201380035789.8A CN201380035789A CN104395956A CN 104395956 A CN104395956 A CN 104395956A CN 201380035789 A CN201380035789 A CN 201380035789A CN 104395956 A CN104395956 A CN 104395956A
Authority
CN
China
Prior art keywords
expression
precomputation
text
acoustic elements
sequence table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380035789.8A
Other languages
English (en)
Inventor
V.德拉艾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive GmbH
Continental Automotive France SAS
Original Assignee
Continental Automotive GmbH
Continental Automotive France SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive GmbH, Continental Automotive France SAS filed Critical Continental Automotive GmbH
Publication of CN104395956A publication Critical patent/CN104395956A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于生成对要转化的文本(3)进行表示的音频信号(9)的方法,包括以下步骤:在数据库(1)中提供声学单元,标识预计算的表达的列表(10),并且对于每个预计算的表达,记录与其发音相对应的声学帧(7),凭借相关计算而将所记录的每个声学帧分解成序列表(5),所述序列表(5)包括一系列声学单元参考,其通过幅度以及时间形状因数(α(i)A)、(α(i)T)而被调制,在文本中标识预计算的表达并且将其余部分(12)分解成音素,在每个预计算的表达的地方插入对应的序列表,根据要转化的文本而准备一连串声学单元(19)。一种用于生成表示要转化的文本的音频信号的系统。

Description

声音合成的方法和系统
技术领域
本发明涉及声音合成的方法和系统。这些声音合成的方法和系统可以特别地但非排他地使用在车载在车辆中的帮助导航的系统中。
背景技术
本领域中已知的是使用这样的声音合成系统,其基于从合成声学单元的数据库中选择声学单元。由这些系统产生的音频信号呈现相当金属性的音质并且与说话者的自然声音差得非常远,这不是合期望的。
本领域中还已知的是使用这样的声音合成系统,其基于从记录的声学帧的数据库中选择所记录的声学序列。但是这些系统呈现两个缺点:词汇受限于已经成为记录的对象的词并且由这些记录所使用的存储器大小非常大。
根据现有技术,还已知的是以某种方式组合两种途径,如例如文档US2011/218 809那样。然而,看来合希望的是改进两种途径的组合,以用于减小对于记录的表示所必要的存储器大小,而同时维持所发出的音频信号的质量和性质。
发明内容
为此,提出了一种用于生成对要转化成对于用户可理解的音频信号的文本进行表示的音频信号集合的方法,其包括以下步骤:
a) 在数据库中提供声学单元集合,每个声学单元对应于音素或双音素的声学合成实现,所述数据库包括与用于给定语言的音素或双音素的集合相对应的声学单元,
b) 标识预计算的表达的列表,每个预计算的表达包括一个或多个完整文本词,
c) 对于每个预计算的表达,记录与所述预计算的表达的发音相对应的声学帧,
d) 凭借交叉相关计算,将所记录的每个声学帧分解成序列表,所述序列表包括来自数据库的一系列声学单元参考,其至少通过幅度形状因数和通过时间形状因数而被调制, 
e1) 遍历要转化的文本,标识与至少一个预计算的表达相对应的至少第一部分的文本,并且将不包括预计算的表达的至少第二部分的文本分解成音素,
e2) 在每个预计算的表达的地方插入序列表的等同记录,并且为第二部分文本的每个音素选择来自数据库的声学单元,
f) 以根据要转化的文本的有序方式而准备与第一和第二部分的文本相对应的一连串声学单元,
g) 生成与所述连串的声学单元相对应的音频信号。
凭借这些布置,可以将可以是任意一个的文本转化成音频信号,这通过最好地利用最多使用的预计算的表达的良好质量的记录,并且这通过将大小很小的存储器空间用作在文本转化时所必要的资源。重建的音频信号于是呈接近于自然声音的质量,尤其是在涉及与预计算的表达相对应的第一部分文本时。
在根据本发明的方法的多种实施例中,如有必要还可以依靠以下布置中的一个和/或另一个:
·步骤b)、c)和d)可以在准备工作的过程中以离线(débarqué)模式实现;以使得预计算的表达的声学帧的集合在传统计算机上以离线或“脱机”模式被存储和处理;
·由序列表所占据的存储器空间可以是由预计算的表达的声学帧所占据的存储器空间的至少五分之一;以使得在车载设备中的必要存储器空间比用于存储预计算的表达的声学帧所必要的存储器空间小得多;
·由序列表所占据的存储器空间可以小于10兆字节,而由预计算的表达的声学帧所占据的存储器大小大于100兆字节;以此为条件可以限制闪速存储器在车载设备中的使用并且这使得能够使用受限大小的闪速存储器;
·声学单元可以是双音的;以使得所述连串的质量得以改进;
·所述方法可以实施在车辆中所车载的帮助导航的单元中。
本发明目的还在于一种用于生成对要转化成对于用户可理解的音频信号的文本进行表示的音频信号集合的设备,所述设备包括:
·电子操控单元,其包括声音合成引擎,
·数据库,其包括与用于给定语言的音素或双音素的集合相对应的声学单元的集合,
·预计算的表达的列表,每个预计算的表达包括一个或多个完整文本词,
·至少一个序列表,其对于预计算的表达包括来自数据库的一系列声学单元参考,其至少通过幅度形状因数(α(i)A)和通过时间形状因数(α(i)T)而被调制,
  所述电子单元被适配用于:
    e1)遍历要转化的文本,标识与至少一个预计算的表达相对应的至少
      第一部分文本,并且将不包括预计算的表达的至少第二部分文本
      分解成音素,
    e2)在每个预计算的表达的地方插入序列表的等同记录,并且为第二
      部分文本的每个音素选择来自数据库的声学单元,
    f)以根据要转化的文本的有序方式而准备与第一和第二部分文本相对应
     的一连串声学单元,
    g)生成与所述连串的声学单元相对应的音频信号。
在根据本发明的系统的多种实施例中,如有必要则还可以依靠以上关于方法已经描述的布置中的一个和/或另一个。
附图说明
本发明的其它方面、目的和优点在阅读作为非限制性示例所给出的其实施例中之一的以下描述时将变得显而易见。本发明在对照附图时同样将更好理解,其中:
-图1示意性地表示根据本发明所实施的设备和方法,
-图2示意性地表示要转化的文本,以及
-图3A、3B和3C表示所记录的声学信号及其处理。
在不同的图中,相同的参考标记指明等同或类似的元件。
具体实施方式
参考图1,所述方法使用:
·数据库1,其包括与用于给定语言的音素的集合相对应的声学单元集合,每个声学单元40对应于音素或双音素的声学合成实现,
·预计算的表达的列表10,其包含例如在所考虑的声音合成系统中最常使用的表达,
·要转化成对于用户可理解的音频信号的文本3,所述文本3可以包含属于上述预计算的表达的列表10的一个或多个表达,这些预计算的表达将作为例外而被处理。
在声音合成系统的输入端处的文本3可以主要包括词,但是其也可以包含数字、缩写(其将作为例外而被处理)和任何所写的表示。
预计算的表达的列表10可以包括单独的词或者短语。优选地,将选择在所考虑的声音合成系统中要转化的文本中最经常使用的词、短语或短语的片段。
根据所呈现的方法,属于预计算的表达的列表10的每个表达由参考说话者发音并且记录对与所述预计算的表达的发音相对应的声学帧7进行表示的信号。对应于自然声音的声学帧7的集合被包含在声学数据库70中。
离线的分析单元2预备用于处理声学数据库70的每个声学帧7。处理将在以下详细阐明。
对于每个声学帧7,离线的分析单元2生成序列表5,其包括来自数据库1的一系列声学单元参考40,其至少通过幅度形状因数α(i)A和通过时间形状因数α(i)T而被调制。更确切地,序列表5的每行一方面包括声学单元40的参考或标识U(i),并且另一方面包括要应用于该声学单元40的一个或多个形状因数(α(i)A, α(i)T……)。这些形状因数(α(i)A, α(i)T……)尤其包括幅度形状因数α(i)A和时间形状因数α(i)T。
例如车载在车辆中的电子操控单元90包括被适配用于分析文本3的内容的分析块4。
由电子操控单元90的分析块4所实现的分析使得能够辨别属于预计算的表达的列表10的表达,其构成被称作第一部分文本11的一个或多个部分,其将通过例外被处理以用于声音合成的步骤。
如图2中所图示的,文本3包括三个预计算的表达11a、11b、11c并且包括四个其它部分的文本12a、12b、12c、12d。
在这种情况下,电子操控单元90的分析块4被配置用于在初始文本3中,通过移除第一部分文本11而标识没有预计算的表达的其它部分的文本12a、12b、12c、12d。这些其它部分的文本12a、12b、12c、12d形成没有预计算的表达的一个或多个第二部分文本12。第二部分文本12因此是第一部分文本11的补充。
分析块4还被适配用于在对应于上述声学帧7的序列表5的集合50之中选择适当的序列表5。
转化块6被适配用于将第二部分文本12转化成音素。此外,转化块6在数据库1中选择用于每个所考虑的音素的最佳声学单元40。
合成块8在输入端处获取转化块6的涉及第二部分文本12的输出和分析块4的涉及第一部分文本11的输出。
合成块8处理这些输入以用于以根据要转化的文本3的有序方式而准备与第一和第二部分文本11、12相对应的一连串声学单元19。
然后合成块8于是可以在输出端处生成表示要转化的文本3的音频信号9的集合。
如以上所指示的,离线的分析单元2实现关于声学数据库70的每个声学帧7的处理。该处理被图示在图3A、3B、3C上并且包括以下所描述的操作。
通过一边取表示声学帧7的信号30的开端以及另一边取数据库1的每个声学单元40而实现交叉相关计算。与声学帧7的开端具有最大相似性的声学单元41于是被选择。相似性包括如有必要则对形状因数、尤其是幅度形状因数α1A和时间形状因数α1T的应用。凭借该第一结果,用声学单元41的标识U(1)伴随其幅度、时间形状因数α1A、α1T来初始化序列表5。然后从声学帧7取走与所选的第一声学单元41相对应的信号31的开端,这等同于将帧的开端的指针移位相同量。
然后反复进行交叉相关计算以用于选择第二声学单元U(2),其也被应用其幅度、时间形状因数α2A、α2T。
然后通过迭代进行直到达到表示所记录的声学帧7的信号30的末尾。
如图3A、3B、3C中所图示的,帧的第一部分31导致选择声学单元41,帧的第二部分32导致选择声学单元42,帧的第三部分33导致选择声学单元43,帧的第四部分34导致选择声学单元44,帧的第五部分35导致选择声学单元45,并且帧的第六部分36导致选择声学单元46。
声学单元中的每一个被应用对其而言适当的幅度和时间形状因数α(i)A、α(i)T。注意到,幅度形状因数α(i)A的使用可以导致增大或减小信号的强度并且时间形状因数α(i)T的使用可以导致在时间上扩张或缩窄信号,以便减小在被应用了所述形状因数α(i)A、α(i)T的所选声学单元的信号与原始信号30的帧部分之间的偏差。
于是,预计算的表达被使得对应于以序列表5的形式所存储的接连的被应用了所述形状因数的声学单元。
凭借于此,稍后自接连的被应用了其形状因数α(i)A、α(i)T的声学单元而被生成以用于预计算的表达的音频信号将给出所生成的声音,其呈现与原始的所记录的自然声音7的微小偏差。
于是,根据本发明的方法的示例包括以下步骤:
a) 提供数据库1,
b) 标识预计算的表达的列表10,
c) 对于每个预计算的表达,记录与其发音相对应的声学帧7,
d) 凭借交叉相关计算而将所记录的每个声学帧7分解成序列表5,
e1) 遍历要转化的文本,标识与预计算的表达相对应的第一部分文本11,以及将第二部分文本12分解成音素,
e2) 在每个预计算的表达的地方插入序列表5的等同记录,并且为第二部分文本12的每个音素选择来自数据库1的声学单元,
f) 准备与要转化的文本相对应的有序连串的声学单元19,
g) 生成与所述连串的声学单元19相对应的音频信号9。
有利地,由序列表5的集合50所占据的存储器空间是由预计算的表达的声学帧7的集合70所占据的存储器空间的至少五分之一。在特定情况下,由序列表5所占据的存储器空间小于10兆字节,而由预计算的表达的声学帧所占据的存储器大小可以大于100兆字节。
理解的是,序列表5的集合50被存储在车载设备中,例如在合理并且不太昂贵的大小的闪速存储器中,而预计算的表达的声学帧7的集合70无需存储在车载设备中。相反地,预计算的表达的声学帧7的集合70在传统计算机上以离线模式而被存储和处理。
要注意的是,声学单元40可以表示音素或双音,双音是两个半音素的关联。
有利地,声音合成系统可以处理给定语言的任何文本3,因为数据库1包含所述给定语言的所有音素。对于最常使用的表达,其构成预计算的表达的列表10的部分,获得接近于自然声音的非常令人满意的音频信号的质量。

Claims (10)

1.一种用于生成对要转化成对于用户可理解的音频信号的文本(3)进行表示的音频信号(9)的集合的方法,包括以下步骤:
a)在数据库(1)中提供声学单元的集合,每个声学单元对应于音素或双音素的声学合成实现,所述数据库(1)包括与用于给定语言的音素或双音素的集合相对应的声学单元,
b)标识预计算的表达的列表(10),每个预计算的表达包括一个或多个完整文本词,
c)对于每个预计算的表达,记录与所述预计算的表达的发音相对应的声学帧(7),
d)凭借交叉相关计算而将所记录的每个声学帧分解成序列表(5),所述序列表(5)包括来自数据库的一系列声学单元参考,其至少通过幅度形状因数(α(i)A)以及通过时间形状因数(α(i)T)而被调制,
e1)遍历要转化的文本(3),标识与至少一个预计算的表达相对应的至少第一部分文本(11),以及将不包括预计算的表达的至少第二部分文本(12)分解成音素,
e2)在每个预计算的表达的地方插入序列表(5)的等同记录,并且为第二部分文本(12)的每个音素选择来自数据库(1)的声学单元,
f)以根据要转化的文本(3)的有序方式而准备与第一和第二部分文本(11,12)相对应的一连串声学单元(19),
g)生成与所述连串的声学单元相对应的音频信号(9)。
2.根据权利要求1所述的方法,其中步骤b)、c)和d)在准备工作的过程中以离线模式实现。
3.根据权利要求1至2中之一所述的方法,其中由序列表(5)所占据的存储器空间是由预计算的表达的声学帧所占据的存储器空间的至少五分之一。
4.根据权利要求1至3中之一所述的方法,其中由序列表(5)所占据的存储器空间小于10兆字节,而由预计算的表达的声学帧所占据的存储器大小大于100兆字节。
5.根据权利要求1至4中之一所述的方法,其中声学单元是双音。
6.根据权利要求1至5中之一所述的方法,其中所述方法被实施在车辆中车载的帮助导航的单元中。
7.一种用于生成对要转化成对于用户可理解的音频信号的文本(3)进行表示的音频信号(9)的集合的设备,所述设备包括:
·电子操控单元(90),其包括声音合成引擎,
·数据库(1),其包括与用于给定语言的音素或双音素的集合相对应的声学单元的集合,
·预计算的表达的列表(10),每个预计算的表达包括一个或多个完整文本词,
·至少一个序列表(5),其对于预计算的表达包括来自数据库(1)的一系列声学单元参考,其至少通过幅度形状因数(α(i)A)和通过时间形状因数(α(i)T)而被调制,
所述电子单元被适配用于:
e1)遍历要转化的文本(3),标识与至少一个预计算的表达相对应的至少第一部分文本(11)以及将不包括预计算的表达的至少第二部分文本(12)分解成音素,
e2)在每个预计算的表达的地方插入序列表(5)的等同记录,并且为第二部分文本(12)的每个音素选择来自数据库(1)的声学单元,
f)以根据要转化的文本(3)的有序方式而准备与第一和第二部分文本(11,12)相对应的一连串声学单元,
g)生成与所述连串的声学单元相对应的音频信号(9)。
8.根据权利要求7所述的设备,还包括离线的分析单元(2),其被适配用于:
d)凭借交叉相关计算而将所记录的与预计算的表达的列表(10)的预计算的表达相对应的每个声学帧分解成序列表(5),所述序列表(5)包括来自数据库的一系列声学单元,其至少通过幅度形状因数(α(i)A)以及通过时间形状因数(α(i)T)而被调制。
9.根据权利要求8所述的设备,其中由序列表(5)所占据的存储器空间是由预计算的表达的声学帧所占据的存储器空间的至少五分之一,优选地其中由序列表(5)所占据的存储器空间小于10兆字节,而由预计算的表达的声学帧所占据的存储器大小大于100兆字节。
10.根据权利要求7至9中之一所述的显示设备,其中电子操控单元(90)是车辆中车载的帮助导航的单元。
CN201380035789.8A 2012-07-06 2013-07-02 声音合成的方法和系统 Pending CN104395956A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1256507 2012-07-06
FR1256507A FR2993088B1 (fr) 2012-07-06 2012-07-06 Procede et systeme de synthese vocale
PCT/EP2013/001928 WO2014005695A1 (fr) 2012-07-06 2013-07-02 Procede et systeme de synthese vocale

Publications (1)

Publication Number Publication Date
CN104395956A true CN104395956A (zh) 2015-03-04

Family

ID=47191868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380035789.8A Pending CN104395956A (zh) 2012-07-06 2013-07-02 声音合成的方法和系统

Country Status (4)

Country Link
US (1) US20150149181A1 (zh)
CN (1) CN104395956A (zh)
FR (1) FR2993088B1 (zh)
WO (1) WO2014005695A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3581265A1 (de) 2018-06-12 2019-12-18 thyssenkrupp Fertilizer Technology GmbH Sprühdüse zur herstellung eines harnstoff-schwefel düngers
CN111354334B (zh) * 2020-03-17 2023-09-15 阿波罗智联(北京)科技有限公司 语音输出方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175052A (zh) * 1996-07-25 1998-03-04 松下电器产业株式会社 语音合成方法和设备
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US20020103648A1 (en) * 2000-10-19 2002-08-01 Case Eliot M. System and method for converting text-to-voice
JP2002351483A (ja) * 2001-05-24 2002-12-06 Nec Corp 音声合成装置および音声合成方法
US20050182629A1 (en) * 2004-01-16 2005-08-18 Geert Coorman Corpus-based speech synthesis based on segment recombination
WO2006104988A1 (en) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Hybrid speech synthesizer, method and use
US20070033049A1 (en) * 2005-06-27 2007-02-08 International Business Machines Corporation Method and system for generating synthesized speech based on human recording
US20070192105A1 (en) * 2006-02-16 2007-08-16 Matthias Neeracher Multi-unit approach to text-to-speech synthesis

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758323A (en) * 1996-01-09 1998-05-26 U S West Marketing Resources Group, Inc. System and Method for producing voice files for an automated concatenated voice system
CA2296330C (en) * 1997-07-31 2009-07-21 British Telecommunications Public Limited Company Generation of voice messages
US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
DE60127274T2 (de) * 2000-09-15 2007-12-20 Lernout & Hauspie Speech Products N.V. Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
GB2391143A (en) * 2002-04-17 2004-01-28 Rhetorical Systems Ltd Method and apparatus for scultping synthesized speech
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP4025355B2 (ja) * 2004-10-13 2007-12-19 松下電器産業株式会社 音声合成装置及び音声合成方法
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US7983919B2 (en) * 2007-08-09 2011-07-19 At&T Intellectual Property Ii, L.P. System and method for performing speech synthesis with a cache of phoneme sequences
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
JP2011180416A (ja) 2010-03-02 2011-09-15 Denso Corp 音声合成装置、音声合成方法およびカーナビゲーションシステム
US8731931B2 (en) * 2010-06-18 2014-05-20 At&T Intellectual Property I, L.P. System and method for unit selection text-to-speech using a modified Viterbi approach
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175052A (zh) * 1996-07-25 1998-03-04 松下电器产业株式会社 语音合成方法和设备
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US20020103648A1 (en) * 2000-10-19 2002-08-01 Case Eliot M. System and method for converting text-to-voice
JP2002351483A (ja) * 2001-05-24 2002-12-06 Nec Corp 音声合成装置および音声合成方法
US20050182629A1 (en) * 2004-01-16 2005-08-18 Geert Coorman Corpus-based speech synthesis based on segment recombination
WO2006104988A1 (en) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Hybrid speech synthesizer, method and use
US20070033049A1 (en) * 2005-06-27 2007-02-08 International Business Machines Corporation Method and system for generating synthesized speech based on human recording
US20070192105A1 (en) * 2006-02-16 2007-08-16 Matthias Neeracher Multi-unit approach to text-to-speech synthesis

Also Published As

Publication number Publication date
FR2993088B1 (fr) 2014-07-18
WO2014005695A1 (fr) 2014-01-09
US20150149181A1 (en) 2015-05-28
FR2993088A1 (fr) 2014-01-10

Similar Documents

Publication Publication Date Title
US7716052B2 (en) Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
CN106297800B (zh) 一种自适应的语音识别的方法和设备
US8676574B2 (en) Method for tone/intonation recognition using auditory attention cues
US20090048832A1 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
US8626510B2 (en) Speech synthesizing device, computer program product, and method
CN103915092B (zh) 语音识别方法和装置
CA2690174C (en) Identifying keyword occurrences in audio data
CN105609097A (zh) 语音合成装置及其控制方法
CN101266789A (zh) 语音合成设备及方法
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
US8214216B2 (en) Speech synthesis for synthesizing missing parts
WO2011121649A1 (ja) 音声認識装置
CN105096933A (zh) 分词词典的生成方法和装置及语音合成方法和装置
CN106782517A (zh) 一种语音音频关键词过滤方法及装置
TW201142822A (en) Speech recognition system and method with adjustable memory usage
CN110808028B (zh) 嵌入式语音合成方法、装置以及控制器和介质
CN104395956A (zh) 声音合成的方法和系统
CN109559752B (zh) 语音识别方法和装置
US20040181407A1 (en) Method and system for creating speech vocabularies in an automated manner
CN112927677A (zh) 语音合成方法和装置
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150304