CN1889170B - 基于录制的语音模板生成合成语音的方法和系统 - Google Patents

基于录制的语音模板生成合成语音的方法和系统 Download PDF

Info

Publication number
CN1889170B
CN1889170B CN2005100797787A CN200510079778A CN1889170B CN 1889170 B CN1889170 B CN 1889170B CN 2005100797787 A CN2005100797787 A CN 2005100797787A CN 200510079778 A CN200510079778 A CN 200510079778A CN 1889170 B CN1889170 B CN 1889170B
Authority
CN
China
Prior art keywords
sound template
text
segment
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005100797787A
Other languages
English (en)
Other versions
CN1889170A (zh
Inventor
秦勇
朱维斌
张维
沈丽琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Priority to CN2005100797787A priority Critical patent/CN1889170B/zh
Priority to US11/475,820 priority patent/US7899672B2/en
Publication of CN1889170A publication Critical patent/CN1889170A/zh
Application granted granted Critical
Publication of CN1889170B publication Critical patent/CN1889170B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种将录制的语音模板与TTS系统相结合生成高质量的合成语音的方法和系统。在本发明中:在包含预先录制的语音模板的数据库中搜索与希望合成语音的文本内容最匹配的语音模板;将最匹配的语音模板截成多个片断,生成与文本内容相同的保留片断以及与文本内容不同的差异片断;对与差异片断对应的文本内容部分进行语音合成;以及将合成的语音与最匹配的语音模板的保留片断进行拼接。采用本发明的方法和系统产生的合成语音继承了人说话的韵律结构,极大提高了合成语音的质量。此外,在本发明中,采用编辑距离算法搜索最匹配的语音模板,可以保证输出的最匹配模式具有最小的编辑操作次数,从而避免了很多接合点。

Description

基于录制的语音模板生成合成语音的方法和系统
技术领域
本发明涉及语音合成技术,具体地说,涉及将录制的语音模板与文本语音转换(Text to Speech,简称TTS)系统相结合生成高质量的合成语音的方法和系统。
背景技术
语音是人类最方便的进行相互交流的方式,随着语音技术的发展,语音已经成为人类与机器/计算机交流的最方便的接口。语音技术主要包括语音识别和文本语音转换技术。
现有的TTS系统,如共振峰和小型语料库连续式TTS系统,传送的语音的质量大多数听众还无法接受。最近关于大型语料库连续式TTS系统的发展使得合成语音越来越容易接受,这也使得人机交互系统能够应用得更广。由于TTS系统的质量提高,各种人机交互系统如电子邮件阅读器、新闻阅读器或车载信息系统等都变得可行。
然而,随着各种人机交互系统的应用愈来愈广,人们更加希望通过对TTS系统的深入研究,来进一步改进这些人机交互系统的语音输出质量。
一般,通用TTS系统是根据处于很低级别的语音单元来模仿人的语音,例如音素、音节等。选择这样的小的语音单元实际上是在TTS系统的质量和灵活性之间采取的折中办法。一般来说,使用如音节或音素这样小的语音单元的TTS系统,可以以相对合理数量的接合点来处理任何文本内容,所以灵活性好,而使用大的语音单元,如词、短语等,可以改进TTS的质量,因为语音单元之间的接合点相对较少,但是其缺点在于大的语音单元在处理“词表外的词(Out of Vocabulary,简称OOV)”时比较困难,即:使用大的语音单元的TTS系统的灵活性较差。
关于合成语音的应用,可以发现,有些应用的使用领域很窄,例如天气预报交互式语音应答(IVR)系统、股票报价IVR系统、航班信息查询IVR系统等。这些应用是高度依赖使用领域的,具有非常有限的合成模式。在这种情况下,TTS系统有机会发挥如词/短语等大的语音单元的作用,以避免较多的接合点,并且模拟高质量的语音。
在现有技术中,存在许多基于词/短语拼接技术的TTS系统。转让给本发明同一受让人的美国专利US6,266,637就公开了一种基于词/短语拼接技术的TTS系统。这类TTS系统将所有词或短语拼接在一起,以构建非常自然的语音。当这类基于词/短语拼接技术的TTS系统不能在其词典中找到相应的词或短语时,就利用通用TTS系统来产生对应该词或短语的合成语音。虽然词/短语拼接技术的TTS系统可搜索来自不同语音的词或短语的片断,但不能保证合成后的语音的连续和自然。
众所周知,与基于词/短语拼接技术产生的合成语音相比,人类语音是最自然的声音。人类语音以完全自然的方式嵌有许多句法和语义信息。当研究人员不断进行改善通用TTS时,也承认如果能够对于预先录制的人类语音加以利用,则是再好不过的事情了。于是为了进一步提高合成语音的质量,在特定的应用领域中,应充分发挥更大的语音单元如语句的作用,从而保证合成后的语音的连续和自然。但是目前还没有直接使用这类更大的语音单元来产生高质量的合成语音的技术方案。
发明内容
本发明正是鉴于上述技术问题提出的,其目的在于提供一种将录制的语音模板与TTS系统结合以生成高质量的合成语音的方法和系统。根据本发明的方法和系统充分利用了人类语音中嵌入句法和语义信息,从而提高了合成语音的质量,而且使得合成语音的语音单元之间的接合点最少。
根据本发明的一个方面,提出一种用于生成合成语音的方法,包括以下步骤:
在包含预先录制的语音模板的数据库中搜索与希望合成语音的文本内容最匹配的语音模板;
将所述最匹配的语音模板截成多个片断,生成与所述文本内容相同的保留片断以及与所述文本内容不同的差异片断;
对与所述差异片断对应的所述文本内容部分进行语音合成;以及
将上述合成的与所述差异片断对应的所述文本内容部分的语音与所述最匹配的语音模板的保留片断进行拼接。
优选地,所述搜索步骤包括:计算所述文本内容与所述数据库中的每个语音模板之间的编辑距离;选择具有最小编辑距离的语音模板作为最匹配的语音模板;以及确定将所述最匹配的语音模板转变为所述文本内容的编辑操作。
优选地,所述计算编辑距离按照如下公式进行:
E ( i , j ) = min E ( i - 1 , j - 1 ) + Dis ( s i , t j ) E ( i , j - 1 ) + Del ( t j ) E ( i - 1 , j ) + Ins ( s i )
其中,S=s1…si…sN表示语音模板的词的序列,T=t1…tj…tM表示所述文本内容的词的序列,E(i,j)表示将s1…si转变为t1…tj的编辑距离,Dist(si,tj)表示用所述文本内容的词tj替换语音模板的词si时的替换处罚,Ins(si)表示插入si的处罚,以及Del(tj)表示删除tj的处罚。
优选地,所述确定编辑操作包括:确定编辑的位置和对应的编辑类型。
优选地,将所述最匹配的语音模板截成多个片断的步骤包括:按照确定的编辑的位置从所述最匹配的语音模板中截出被编辑的片断,所述被编辑的片断是差异片断,其余的片断是保留片断。
根据本发明的另一个方面,提出一种用于生成合成语音的系统,包括:
语音数据库,用于存储预先录制的语音模板;
文本输入装置,用于输入希望合成语音的文本内容;
搜索装置,用于在所述语音数据库中搜索与输入文本内容最匹配的语音模板;
语音拼接装置,用于将最匹配的语音模板截成多个片断,生成与所述文本内容相同的保留片断和与所述文本内容不同的差异片断;对与所述差异片断对应的输入文本内容部分进行语音合成;将合成的语音部分与保留片断进行拼接;以及
语音输出装置,用于输出对应于输入文本内容的语音。
优选地,所述搜索装置进一步包括:计算单元,用于计算所述文本内容与所述语音数据库中的每个语音模板之间的编辑距离;选择单元,用于选择具有最小编辑距离的语音模板作为最匹配的语音模板;以及确定单元,用于确定将所述最匹配的语音模板转变为所述文本内容的编辑操作。
优选地,所述语音拼接装置进一步包括:用于将最匹配的语音模板截成多个保留片断和差异片断的截取单元;用于对与差异片断对应的输入文本内容部分合成语音的语音合成单元;以及用于将合成的语音与多个保留片断拼接的拼接单元。
附图说明
图1是根据本发明的一个优选实施例的用于生成合成语音的方法的流程图;
图2是图1所示方法中搜索最匹配的语音模板的流程示意图;以及
图3是根据本发明的一个优选实施例的用于生成合成语音的系统的示意图。
具体实施方式
相信通过以下结合附图对本发明具体实施例的详细描述,本发明的上述和其它目的、特征和优点会变得更清楚。
图1是根据本发明的实施例的生成合成语音方法的流程图。如图1所示,在步骤101中,对于希望合成语音的文本内容,在包含预先录制好的语音模板的数据库中搜索与其最匹配的语音模板。数据库中的语音模板包含了在某个应用领域中频繁使用的语句文本,以及这些语句事先由同一个人录制好对应的语音。
在该步骤中,搜索最匹配的语音模板是基于编辑距离算法实现的,具体的步骤参见图2所示的流程。首先,在步骤201中,计算希望合成语音的文本内容与数据库中的每个语音模板之间的编辑距离。通常编辑距离用于计算任何两个字符串之间的相似性,在本实施例中,字符串是词汇学的词(Lexical Words,简称为LW)构成的序列。假定源LW序列为S=s1…si…sN,目标LW序列为T=t1…tj…tM,则编辑距离用于定义这两个LW序列之间的相似性的度量。源LW中的si与目标LW中的tj之间距离Dis(si,tj)的测量可以有多种标准定义,最简单的方式是在两个LW序列之间进行字符串匹配,如果相等,则距离为0,否则将距离设为1。当然还有其它更复杂的方法来定义两者之间的距离,由于这不属于本发明的范围,此处不再赘述。
当比较两个LW序列时,通常两个LW序列之间不是一一对应的,通常会发现在两者之间需要进行一些删除词和/或插入词的操作才能完全对应。因此,可以使用编辑距离模拟两个LW序列之间的相似性,其中编辑就是一系列的操作,包括替换、插入和删除。编辑源LW序列S=s1…si…sN并将其转换为目标LW序列T=t1…tj…tM的成本是所有所需操作的成本的总和,那么编辑距离是在所有可能的将源序列s1…si…sN转变为目标序列t1…tj…tM的编辑序列中的最小成本,这可以通过使用动态规划方法来计算。
在本实施例中,如果用E(i,j)表示编辑距离,源LW序列S=s1…si…sN是语音模板的词的序列,目标LW序列T=t1…tj…tM是希望合成语音的文本内容的词的序列,那么可采用下面的公式计算编辑距离:
E ( i , j ) = min E ( i - 1 , j - 1 ) + Dis ( s i , t j ) E ( i , j - 1 ) + Del ( t j ) E ( i - 1 , j ) + Ins ( s i )
其中,Dist(si,tj)表示用文本内容的词tj替换语音模板的词si时的替换处罚(penalty),Ins(si)表示插入si的处罚,Del(tj)表示删除tj的处罚。
然后,在步骤205,选择具有最小编辑距离的语音模板作为最匹配的语音模板,这样可以保证后面的拼接操作的次数最少,从而避免具有很多接合点。最匹配的语音模板作为将要合成语音的文本内容的语音母版,经过适当的修改,就能形成所希望的语音。在步骤210,对将最匹配的语音模板转变为希望的文本内容的编辑操作进行确定。通常,最匹配的语音模板与希望的文本内容不完全相同,两者之间还存在一定的差异,需要对最匹配的语音模板进行适当的编辑操作,才能获得希望的文本内容。如上所述,编辑是一系列的操作,包括替换、插入和删除。在该步骤中,需要在最匹配的语音模板上确定进行编辑的位置以及在该位置要进行的编辑的类型,进行编辑的位置可以采用被编辑的内容的左右边界定义。
通过以上的步骤,可以获得与希望合成语音的文本内容最匹配的语音模板,并且获得需要对最匹配的语音模板进行编辑的位置和相应的编辑类型。
返回图1,在步骤105中,将最匹配的语音模板按照确定的编辑的位置截成多个片断,其中需要被编辑的与希望的文本内容不同的片断是差异片断,差异片断包括替换片断、插入片断和删除片断;其余的与希望的文本内容相同的片断则是保留片断,而保留片断将继续用于合成语音,这样可使得最后的合成语音继承了与人说话几乎完全相同的韵律结构,如重读、词语组织方式、音节周期等,提高合成语音的质量,容易被听众所接受。截取的位置即成为后面拼接操作的接合点。
在步骤110中,对与差异片断对应的文本内容部分合成语音片断,这可以采用现有技术的文本语音转换方法实现。合成后的语音片断在步骤115中与保留片断在相应的接合点进行拼接,生成希望的文本内容的语音。拼接操作中的一个关键在于如何无缝、平滑地在接合点连接保留片断和新合成的语音片段,而这种片断接合技术本身是很成熟的,通过仔细处理如音调同步、频谱平滑和能量轮廓平滑等问题,就可以获得可接受的接合质量。
通过以上描述可以知道,采用本实施例的基于语音模板的拼接TTS方法,由于语音模板是预先录制的人的语音,因此人说话的韵律结构,如重读、词组织方式、音节周期等,几乎完全相同地被合成的语音承袭,从而极大提高了合成语音的质量,并且通过在句子层面搜索整个句子的片断,可以保证保持原句子的结构不变。此外,采用编辑距离算法搜索最匹配的语音模板,可以保证输出的最匹配模式具有最小的编辑操作次数,与基于音素/音节的通用TTS方法或者基于词/词组的通用TTS方法相比,避免了很多接合点。
下面给出根据本发明的方法在天气预报这个具体应用领域中的应用。首先需要在数据库中存储在天气预报中频繁使用的语句模式的语音模板。这些语句模式例如是:
模式1:北京;晴;最高温度30度;最低温度20度。
模式2:纽约;多云;最高温度25度;最低温度18度。
模式3:伦敦;小雨;最高温度22度;最低温度16度。
在设计或收集了上述频繁使用的语句模式后,由同一个广播员预先录制好每一个模式的语音模板,分别是语音模板1、2和3。然后将其存储在数据库中。
假设需要合成关于西雅图的天气状况的文本内容的语音,例如“西雅图;晴;最高温度28度;最低温度23度”(为简便,以下称为目标模板)。首先,搜索上述数据库,查找最匹配目标模板的语音模板。根据上面所述的编辑距离算法,计算目标模板与数据库中每一个语音模板之间的编辑距离。以语音模板1为例,此时,源LW序列为“北京;晴;最高温度30度;最低温度20度”,目标LW序列为“西雅图;晴;最高温度28度;最低温度23度”,那么它们之间的编辑距离为3。类似地,与语音模板2之间的编辑距离为4,与语音模板3之间的编辑距离也为4。这样,具有最小编辑距离的语音模板为语音模板1,则语音模板1就是最匹配的语音模板。并且,根据编辑距离可获得对语音模板1需要进行3次编辑操作,编辑的位置分别是“北京”、“30”和“20”,并且都是替换操作,即用“西雅图”替换“北京”,用“28”替换“30”,用“23”替换“20”。
然后,按照编辑的位置,将语音模板1截成多个片断,分别是“北京”、“晴”、“最高温度”、“30”、“度”、“最低温度”、“20”和“度”8个片断,其中需要进行编辑的“北京”、“30”和“20”片断是与文本内容不同的差异片断,而其余的片断“晴”、“最高温度”、“度”、“最低温度”和“度”是保留片断,接合点在“晴”的左边界,“最高温度”的右边界,“度”的左边界,“最低温度”的右边界以及“度”的左边界。
对与差异片断对应的目标模板部分进行语音合成,即对“西雅图”、“28”和“23”合成语音。在这里,合成语音可以采用现有技术的语音合成方法,如通用TTS方法,从而得到合成后的语音片断。将合成后的语音片断与保留片断在相应的接合点进行拼接,这样就形成了目标模板“西雅图;晴;最高温度28度;最低温度23度”。
图3是根据本发明的一个优选实施例的合成语音系统的示意图。如图所示,合成语音系统包括语音数据库301、文本输入装置302、搜索装置303、语音拼接装置304以及语音输出装置305。预先录制的语音模板被存储在语音数据库301中,以提供在某个应用领域中频繁使用的语句的语音模板。
当希望合成语音的文本内容通过文本输入装置302输入后,搜索装置303访问语音数据库301,以搜索与输入的文本内容最匹配的语音模板,并在找到最匹配的语音模板后,确定将该最匹配的语音模板转变为输入文本内容需要的编辑操作,包括进行编辑的位置和相应的编辑类型。将最匹配的语音模板和相应的编辑操作信息输出到语音拼接装置304中,由语音拼接装置304将最匹配的语音模板截成多个片断(保留片断和差异片断),然后调用通用TTS方法对与差异片断对应的输入文本内容部分进行语音合成,得到相应的合成语音片断,将合成的语音片断与保留片断进行拼接,得到与输入的文本内容对应的语音。最后,与输入的文本内容对应的语音通过语音输出装置305输出。
在本实施例中,搜索装置303是基于编辑距离算法实现的,进一步包括:用于计算编辑距离的计算单元3031,该计算单元3031对输入的文本内容与语音数据库301中的每个语音模板之间的编辑距离进行计算;用于选择最匹配的语音模板的选择单元3032,其选择具有最小编辑距离的语音模板作为最匹配的语音模板;以及用于确定编辑操作的确定单元3033,对最匹配的语音模板进行编辑的位置和相应的编辑类型进行确定,编辑的位置可采用被编辑的输入文本内容部分的左右边界定义。
此外,语音拼接装置304进一步包括:用于将最匹配的语音模板截成多个保留片断和差异片断的截取单元3041,在该截取单元3041中进行的截取操作是根据编辑的位置进行的;语音合成单元3042,用于对与差异片断对应的输入文本内容部分进行语音合成,可以通过现有技术的通用TTS方法实现;以及用于将合成的语音与多个保留片断拼接的拼接单元3043。
本实施例的合成语音系统的各个组件可以采用硬件或软件模块或者硬件与软件的组合来实现。
通过以上描述可知,采用本实施例的合成语音系统,可以基于预先录制的语音模板生成合成语音,使得合成语音可以继承人说话的韵律结构,从而大大提高了合成语音的质量。此外,采用编辑距离算法搜索最匹配的语音模板,可以保证输出的最匹配模式具有最小的编辑操作次数,从而避免了很多的接合点。

Claims (11)

1.一种用于生成合成语音的方法,包括以下步骤:
在包含预先录制的语音模板的数据库中搜索与希望合成语音的文本内容最匹配的语音模板;
将所述最匹配的语音模板截成多个片断,生成与所述文本内容相同的保留片断以及与所述文本内容不同的差异片断;
对与所述差异片断对应的所述文本内容部分进行语音合成;以及
将上述合成的与所述差异片断对应的所述文本内容部分的语音与所述最匹配的语音模板的保留片断进行拼接。
2.根据权利要求1所述的方法,其中,所述搜索步骤包括:计算所述文本内容与所述数据库中的每个语音模板之间的编辑距离;选择具有最小编辑距离的语音模板作为最匹配的语音模板;以及确定将所述最匹配的语音模板转变为所述文本内容的编辑操作。
3.根据权利要求2所述的方法,其中,所述计算编辑距离按照如下公式进行:
E ( i , j ) = min E ( i - 1 , j - 1 ) + Dis ( s i , t j ) E ( i , j - 1 ) + Del ( t j ) E ( i - 1 , j ) + Ins ( s i )
其中,S=s1…si…sN表示语音模板的词的序列,T=T1…tj…tM表示所述文本内容的词的序列,E(i,j)表示将s1…si转变为T1…tj的编辑距离,Dist(si,tj)表示用所述文本内容的词tj替换语音模板的词si时的替换处罚,Ins(si)表示插入si的处罚,以及Del(tj)表示删除tj的处罚。
4.根据权利要求2所述的方法,其中,所述确定编辑操作包括:确定编辑的位置和对应的编辑类型。
5.根据权利要求4所述的方法,其中,将所述最匹配的语音模板截成多个片断的步骤包括:按照确定的编辑的位置从所述最匹配的语音模板中截出被编辑的片断,所述被编辑的片断是差异片断,其余的片断是保留片断。
6.一种用于生成合成语音的系统,包括:
语音数据库,用于存储预先录制的语音模板;
文本输入装置,用于输入希望合成语音的文本内容;
搜索装置,用于在所述语音数据库中搜索与输入文本内容最匹配的语音模板;
语音拼接装置,用于将最匹配的语音模板截成多个片断,生成与所述文本内容相同的保留片断和与所述文本内容不同的差异片断;对与所述差异片断对应的输入文本内容部分进行语音合成;将合成的语音部分与保留片断进行拼接;以及
语音输出装置,用于输出对应于输入文本内容的语音。
7.根据权利要求6所述的系统,其中,所述搜索装置进一步包括:计算单元,用于计算所述文本内容与所述语音数据库中的每个语音模板之间的编辑距离;选择单元,用于选择具有最小编辑距离的语音模板作为最匹配的语音模板;以及确定单元,用于确定将所述最匹配的语音模板转变为所述文本内容的编辑操作。
8.根据权利要求7所述的系统,其中,所述计算单元按以下公式计算编辑距离:
E ( i , j ) = min E ( i - 1 , j - 1 ) + Dis ( s i , t j ) E ( i , j - 1 ) + Del ( t j ) E ( i - 1 , j ) + Ins ( s i )
其中,S=s1…si…sN表示语音模板的词的序列,T=T1…tj…tM表示所述文本内容的词的序列,E(i,j)表示将s1…si转变为t1…tj的编辑距离,Dist(si,tj)表示用所述文本内容的词tj替换语音模板的词si时的替换处罚,Ins(si)表示插入si的处罚,以及Del(tj)表示删除tj的处罚。
9.根据权利要求7所述的系统,其中,所述确定单元包括:确定编辑的位置和对应的编辑类型的单元。
10.根据权利要求9所述的系统,其中,所述语音拼接装置根据确定的编辑的位置从所述最匹配的语音模板中截出被编辑的片断,所述被编辑的片断是差异片断,其余的片断是保留片断。
11.根据权利要求6至10中任何一个权利要求所述的系统,其中,所述语音拼接装置进一步包括:用于将最匹配的语音模板截成多个保留片断和差异片断的截取单元;用于对与差异片断对应的输入文本内容部分进行语音合成的语音合成单元;以及用于将合成的语音与多个保留片断拼接的拼接单元。
CN2005100797787A 2005-06-28 2005-06-28 基于录制的语音模板生成合成语音的方法和系统 Expired - Fee Related CN1889170B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2005100797787A CN1889170B (zh) 2005-06-28 2005-06-28 基于录制的语音模板生成合成语音的方法和系统
US11/475,820 US7899672B2 (en) 2005-06-28 2006-06-27 Method and system for generating synthesized speech based on human recording

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2005100797787A CN1889170B (zh) 2005-06-28 2005-06-28 基于录制的语音模板生成合成语音的方法和系统

Publications (2)

Publication Number Publication Date
CN1889170A CN1889170A (zh) 2007-01-03
CN1889170B true CN1889170B (zh) 2010-06-09

Family

ID=37578440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100797787A Expired - Fee Related CN1889170B (zh) 2005-06-28 2005-06-28 基于录制的语音模板生成合成语音的方法和系统

Country Status (2)

Country Link
US (1) US7899672B2 (zh)
CN (1) CN1889170B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
US7895041B2 (en) * 2007-04-27 2011-02-22 Dickson Craig B Text to speech interactive voice response system
US20090228279A1 (en) * 2008-03-07 2009-09-10 Tandem Readers, Llc Recording of an audio performance of media in segments over a communication network
CN101286273B (zh) * 2008-06-06 2010-10-13 蒋清晓 智障与自闭症儿童微电脑沟通辅助训练系统
WO2011025532A1 (en) * 2009-08-24 2011-03-03 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8447610B2 (en) 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US10496714B2 (en) * 2010-08-06 2019-12-03 Google Llc State-dependent query response
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统
CN103366732A (zh) * 2012-04-06 2013-10-23 上海博泰悦臻电子设备制造有限公司 语音播报方法及装置、车载系统
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
CN103137124A (zh) * 2013-02-04 2013-06-05 武汉今视道电子信息科技有限公司 一种语音合成方法
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
US9384728B2 (en) 2014-09-30 2016-07-05 International Business Machines Corporation Synthesizing an aggregate voice
WO2017015882A1 (en) * 2015-07-29 2017-02-02 Bayerische Motoren Werke Aktiengesellschaft Navigation device and navigation method
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN109003600B (zh) * 2018-08-02 2021-06-08 科大讯飞股份有限公司 消息处理方法及装置
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN109979440B (zh) * 2019-03-13 2021-05-11 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
CN111508466A (zh) * 2019-09-12 2020-08-07 马上消费金融股份有限公司 一种文本处理方法、装置、设备及计算机可读存储介质
CN111564153B (zh) * 2020-04-02 2021-10-01 湖南声广科技有限公司 广播电台智能主播音乐节目系统
CN112349272A (zh) * 2020-10-15 2021-02-09 北京捷通华声科技股份有限公司 语音合成方法、装置、存储介质及电子装置
CN112307280B (zh) * 2020-12-31 2021-03-16 飞天诚信科技股份有限公司 基于云服务器实现字符串转音频的方法及系统
CN113808572B (zh) * 2021-08-18 2022-06-17 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN113744716B (zh) * 2021-10-19 2023-08-29 北京房江湖科技有限公司 用于合成语音的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
CN1333501A (zh) * 2001-07-20 2002-01-30 北京捷通华声语音技术有限公司 一种动态汉语语音合成方法
US20020072906A1 (en) * 2000-12-11 2002-06-13 Koh Jocelyn K. Message management system
US20020133348A1 (en) * 2001-03-15 2002-09-19 Steve Pearson Method and tool for customization of speech synthesizer databses using hierarchical generalized speech templates

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7334183B2 (en) * 2003-01-14 2008-02-19 Oracle International Corporation Domain-specific concatenative audio
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US20020072906A1 (en) * 2000-12-11 2002-06-13 Koh Jocelyn K. Message management system
US20020133348A1 (en) * 2001-03-15 2002-09-19 Steve Pearson Method and tool for customization of speech synthesizer databses using hierarchical generalized speech templates
CN1333501A (zh) * 2001-07-20 2002-01-30 北京捷通华声语音技术有限公司 一种动态汉语语音合成方法

Also Published As

Publication number Publication date
CN1889170A (zh) 2007-01-03
US20070033049A1 (en) 2007-02-08
US7899672B2 (en) 2011-03-01

Similar Documents

Publication Publication Date Title
CN1889170B (zh) 基于录制的语音模板生成合成语音的方法和系统
Bulyko et al. A bootstrapping approach to automating prosodic annotation for limited-domain synthesis
Bulyko et al. Joint prosody prediction and unit selection for concatenative speech synthesis
Hahn et al. Comparing stochastic approaches to spoken language understanding in multiple languages
CN1169115C (zh) 语音合成系统及方法
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
Oostdijk et al. Experiences from the spoken Dutch corpus project
Chu et al. Selecting non-uniform units from a very large corpus for concatenative speech synthesizer
Abushariah et al. Arabic speaker-independent continuous automatic speech recognition based on a phonetically rich and balanced speech corpus.
Rayner The spoken language translator
Havard et al. Speech-coco: 600k visually grounded spoken captions aligned to mscoco data set
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
US7069216B2 (en) Corpus-based prosody translation system
CN101685633A (zh) 基于韵律参照的语音合成装置和方法
CN1259631C (zh) 使用韵律控制的中文文本至语音拼接合成系统及方法
CN1811912B (zh) 小音库语音合成方法
CN1787072B (zh) 基于韵律模型和参数选音的语音合成方法
Bulyko et al. Efficient integrated response generation from multiple targets using weighted finite state transducers
Rayner et al. Hybrid language processing in the spoken language translator
TW201705019A (zh) 文字轉語音方法以及多語言語音合成裝置
Chu et al. A concatenative Mandarin TTS system without prosody model and prosody modification.
Corrigan et al. Feature-based versus aggregate analyses of the DECTE corpus: Phonological and morphological variability in Tyneside English
Akmuradov et al. Developing a database of Uzbek language concatenative speech synthesizer
Yeh et al. Speech recognition with word fragment detection using prosody features for spontaneous speech
Pan et al. Designing a speech corpus for instancebased spoken language generation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20091002

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20091002

Address after: Massachusetts, USA

Applicant after: Nuance Communications Inc

Address before: American New York

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100609

Termination date: 20170628

CF01 Termination of patent right due to non-payment of annual fee