CN1260704C - 语音合成方法 - Google Patents

语音合成方法 Download PDF

Info

Publication number
CN1260704C
CN1260704C CNB031326986A CN03132698A CN1260704C CN 1260704 C CN1260704 C CN 1260704C CN B031326986 A CNB031326986 A CN B031326986A CN 03132698 A CN03132698 A CN 03132698A CN 1260704 C CN1260704 C CN 1260704C
Authority
CN
China
Prior art keywords
coupling
speech
speech waveform
syllable
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB031326986A
Other languages
English (en)
Other versions
CN1604182A (zh
Inventor
陈芳
陈桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CNB031326986A priority Critical patent/CN1260704C/zh
Priority to EP04784355A priority patent/EP1668628A4/en
Priority to KR1020067006170A priority patent/KR100769033B1/ko
Priority to PCT/US2004/030467 priority patent/WO2005034082A1/en
Priority to MXPA06003431A priority patent/MXPA06003431A/es
Publication of CN1604182A publication Critical patent/CN1604182A/zh
Application granted granted Critical
Publication of CN1260704C publication Critical patent/CN1260704C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种执行语音合成的方法,其包括:将文本段(120)与包含多个语音样本(140)的语言波形语料库(60)比较。该方法确定在文本段(120)于一个语音样本(140)之间是否有最好的语境匹配。如果没有最好的语境匹配,该方法确定文本段(120)和语音样本(140)之间是否有语境语音混合匹配。语境语音混合匹配要求匹配在已定义的韵律特征组(220)中的所有隐含韵律特征(210)。如果仍然没有找到匹配,通过从韵律特征组(220)中删除一个隐含韵律特征(210)来重新定义韵律特征组(220)。通过从所述组(220)中删除一个隐含韵律特征(210)来连续地重新定义韵律特征组(220),直到在输入文本段(120)和语音样本(140)之间找到匹配。当找到匹配时,使用匹配的语音样本(140)来产生拼接语音(110)。

Description

语音合成方法
技术领域
本发明总的来说涉及文语(TTS)合成。具体地说,本发明有助于(但不限于)利用非穷尽的语言语料库来确定文本段的适当合成发音。
背景技术
文语(TTS)转换(通常称为拼接文本到语音合成)允许电子设备接收输入的文本串,并且以合成语音的形式来提供所述串的转换表示。然而,可能要求用来对源自接收到的文本串的非确定数目的语音进行合成的设备难以提供高质量的逼真合成语音。这是因为将要被合成的每一个字或者音节(syllable)(用于中文等)的发音取决于文本语境以及所在的位置。例如,在句子的开头(输入文本串)处的字的发音可以被拉长或者加长。如果相同的字出现在要求进行强调的句子的中间,可以更加地加长它的发音。
在大多数语音中,一个字的发音取决于至少一个音调(基音)、音量、和持续时间。而且,许多语言包括各个音节的多种可能的发音。通常,由中文字符(或者基于其它类似字符的笔迹)表示的单个音节具有多达6种不同的发音。而且,为了提供每一个发音的逼真合成语言,要求大量预存储的句子的语言波形语料库。如果要获得逼真的语音合成,这种语料库通常要求每一个发音的平均大约500种变化。因此,用于每一个字符的所有发音的语言波形语料库将是非常大的。在大多数TTS系统中,存在根据与有限大小的语言波形语料库的比较来确定输入文本串的适当发音的需要。当将语言波形语料库嵌入在具有低存储容量的小型电子设备诸如无线电话或者个人数字助理时,可能要特定地限制该语料库的大小。用来比较输入文本串和音频数据库的算法也需要是有效的并且是快速的,使得最终的合成和拼接语音自然地和流利地流动(flow)。由于存储器和处理速度的限制,用于嵌入的应用的现有TTS方法通常导致语音不自然或者是机器人声音。因此,需要一种改进的方法,用于执行TTS以在利用非穷尽的语言语料库来提供自然的声音合成语音。
发明内容
本发明提供了一种用于执行语音合成的方法,其包括:将输入文本段与包含各种语音样本的语言波形语料库进行比较。该方法确定在文本段和包括在语言波形语料库中的一个语音样本之间是否有最好的语境匹配。如果没有最好的语境匹配,该方法确定在文本段和包括在语言波形语料库中的至少一个语音样本之间是否有语境语音混合匹配。语境语音混合匹配要求匹配在已定义的韵律特征组中的所有隐含的韵律特征。如果仍然没有找到匹配,通过从韵律特征组中删除一个隐含的韵律特征以重新定义韵律特征组来完成韵律特征组的重新定义。通过连续地从所述组中删除一个隐含的韵律特征,直到找到输入文本段和语音样本之间的匹配来成功地重定义韵律特征组。当找到匹配时,使用匹配的语音样本来产生拼接语音。
附图说明
结合附图,从下面的详细说明中可以清楚地看到本发明的其它方面,其中,在整个附图中,相同的参考标记表示相同的或者相应的单元或者步骤,其中:
图1为在其上实施本发明的电子设备的框图;
图2为说明本发明的特定实施例的流程图,用来产生中文中的拼接语音;
图3是说明通过连续地放宽对用来定义匹配的限制条件来确定是否存在语境语音混合匹配的过程的流程图。
具体实施方式
参见图1,图示了在其上实现本发明的电子设备10的方框图。设备10包括经公共总线15可操作地耦合到文本存储器模块20的处理器30,只读存储器(ROM)40,随机存储器(RAM)50以及波形语料库60。处理器30还可操作地耦合到触摸屏显示器90和语音合成器70的输入端。语音合成器70的输出端可操作地耦合到扬声器80。本领域普通技术人员将很明显地看到,文本存储器模块是用于存储由任何接收装置获得的文本的存储库,所述接收装置可能是无线接收器、互联网或者便携式存储器卡中的插头(plug)等等。ROM存储用于执行如图和3所介绍的本发明的操作码。与语音合成器70以及扬声器80一样,语料库60实质上是常规的语料库,并且触摸屏显示器90是用户接口,用于显示存储在文本存储器模块20中的文本。
图2是说明本发明的特定实施例的流程图,用来以中文从输入文本段120中产生拼接语音110。将文本段120与包括多个语音样本140的语言波形语料库60进行比较,以确定是否有最好的语境匹配(contextual best match)(S110)。如果在文本段120和特定语音样本140之间找到最好的语境匹配,将特定的语音样本140发送到拼接算法150,以产生拼接语音110。
如果在文本段120和特定语音样本140之间找不到最好的语境匹配,则将文本段120与语言波形语料库130进行比较以确定是否有语境语音混合匹配(步骤S120)。
图3是说明通过连续地放宽对用来定义匹配的限制条件来确定是否存在语境语音混合匹配的过程的流程图。语音混合匹配要求在文本段120和包括在已定义的韵律特征组220中的所有隐含的韵律特征210之间存在匹配。如果没有找到匹配,从已定义的韵律特征组220中删除一个隐含的韵律特征210,并且重新定义组220为包括没有已删除的特征210之外的所有先前包括的特征210(例如,步骤130)。然后,将重新定义的韵律特征组220与文本段120比较以确定是否有匹配。删除一个隐含韵律特征210、重新定义韵律特征组220、然后重新确定是否有匹配的过程一直继续,直到找到一个匹配(步骤S130,S140,等到步骤S170)。当找到语境语音混合匹配时,将匹配文本段120的匹配语音样本140发送到拼接算法150,用于产生拼接语音110。
如图3所示,如果除了拼音(pinyin)之外的所有隐含韵律特征210被连续地从韵律特征组220中删除,而仍然没有找到匹配,则执行基本的语音匹配来匹配拼音(步骤S180)。在本发明的一个实施例中,如此设计语言波形语料库60,使得总是有至少一个音节包括有正确的拼音来匹配所有可能的输入文本段120。然后,将基本的语音匹配输入到拼接算法150中。因此,本发明是一种多层、数据驱动方法,用于控制最终合成的、拼接语音110的韵律(节奏和声调)。其中,所述方法的每一层包括一重新定义的韵律特征组220。为了达到本发明的目的,文本段120指的是任何类型的输入文本串或者编码语言的段。并不仅仅限于被扫描或者输入到TTS系统中的可视文本。
本发明的语言波形语料库130被用存储在语料库130中的、关于每一个语音样本140(通常是一个字)的信息来注释。语音样本140本身通常是实际的人的语音的记录,通常为数字或者模拟波形。因此,要求用注释来识别样本140。这样的注释可以包括特定的字母或者字符(取决于语言),用于定义样本140以及语音样本140的隐含韵律特征210。隐含韵律特征210包括关于如何在句子中使用语音样本140的语境信息。
例如,中文里的语音样本140可以包括下述的隐含韵律特征210:
文本内容(Text context):正好在语音样本140的注释文本之前以及之后的中文字符。
拼音(Pinvin):语音样本的语音表示。Pinyin是一种使用西文字母的中文的标准罗马字体(romanization)。
音调内容(Tone context):正好在语音样本140的注释文本之前和之后的中文字符的音调内容。
(协同发音)Co-articalation:正好在语音样本140的注释文本之前和之后的语音级表示,诸如音位或者子音节。
音节位置(Svllable position):在韵律短语中的音节的位置。
短语位置(Phrase position):句子中的韵律短语的位置。通常,标识短语位置为三个位置即句子开始、句子中间和句子末尾的一个。
字符符号(Character symbol):表示定义语音样本140的中文的代码(例如,ASII码)。
短语长度(Phrase length):包括在韵律短语中的中文字符数目。
作为上述的隐含韵律特征210的特定值的一个例子,考虑如下中文句子:“中国很大”。如果在语言波形语料库130中存储了句子的发音音频记录,每一个字符的声音可以表示一个语音样本140,并且可以用上面的隐含韵律特征210来注释。例如,在上面的句子中找到的字符“国”可以如下注释:
文本内容:中,很
拼音:guo2;
音调内容:1,3;
协同发音:ong,h;
音节位置:2;
短语位置:1;
字符符号:用于“国”字的ASCII码;和
短语长度:2。
图2中,步骤S110确定在文本段120和语音样本140之间是否有最好的语境匹配。最好的语境匹配通常被定义为最接近的、或者确切的下述匹配:1)匹配输入文本段120的字母或者字符(取决于语言)与注释的语音样本140的相应字母或字符,2)匹配输入文本段120的隐含韵律特征210与注释的语音样本140的隐含韵律特征210。更加笼统地说,通过识别与在波形语料库60中的每一个波形语言(语音样本)的属性和属性位置相同的、在输入文本段中的最大数目的连续音节来确定最好的匹配。仅当字母或者字符和隐含韵律特征210确切地匹配时,才立即选择语音样本140作为用在拼接算法150中的元素(element)。
当没有找到最好的语境匹配时,本发明的方法随后确定在输入文本段120和语音样本140之间是否有语境语音混合匹配。如上所述,语境语音混合匹配要求匹配文本段120和包括在已定义的韵律特征组220中的所有隐含韵律特征210。如图3所示,用于在中文中合成语音的本发明的一个实施例使用第一已定义的韵律特征组220,该特征组包括拼音、音调内容、协同发音、音节位置、短语位置、字符符号、和短语长度的隐含韵律特征210(步骤S120)。如果在语言波形语料库130中找到的注释语音样本140没有哪一个具有与在输入文本段120中一样的每一个上述特征210的相同值,则语料库130不包含语音样本140,该语音样本140充分接近基于在步骤S120中采用的匹配规则的输入文本段120。因此,必须放宽匹配规则的限制条件,因而被放宽到包括其它的语音样本140,该其它语音样本140具有在输入文本段120中找到的下一个最优选的特征210。换言之,通过删除在已定义的韵律特征组220中找到的、不太可能影响输入文本段120的自然韵律的一个特征210来放宽匹配规则。例如,如在图2和图3中的步骤S130所示,在本发明的实施例中找到的下一个最优特征210包括小于韵律特征210的长度的上述已定义的所有特征210。
从已定义的韵律特征组220中删除隐含韵律特征210的量级(order)由经验来确定。当以适当量级删除特征210时,本发明的方法得到有效的和快速的语音合成。因此,输出的语音听起来更加自然,尽管相对地限制了语言语料库130的大小。
根据本发明,在利用特定的已定义韵律特征组220来将语言语料库120与文本段120进行比较之后,有可能发现多个语音样本140的注释匹配了分析的文本段120。在这种情况下,可以使用下述方程来选择最佳的语音语音混合匹配:
diff = Wp × ( pitch - BestPitch BestPitch ) 2 + Wd × ( dur - BestDur BestDur ) 2 (方程1)
式中,
Wp=文本段120的基音的权重;
Wd=文本段120的持续时间的权重;
Diff=用于选择最佳的语境语音混合匹配的差值;
Pitch=文本段120的基音;
BestPitch=理想的文本段120的基音
dur=文本段120的持续时间;和
BestDur=理想的文本段120的持续时间。
在上述的方程1中,可以根据语言波形语料库130的统计分析来确定变量BestPitch。例如,语料库130可包括5种音调,每一种具有平均的基音。在语料库130中的每一个注释的语音样本140还可包括由基音、持续时间和能量的值代表的各个韵律信息。因此,基音,整个语料库130的持续时间和能量的平均值可以使用。然后,使用下式可确定用于特征语境的最佳基音:
BestPitch=pitchtone-nIndex*empiricalvalue    (方程2)
式中,
pitchtone=包括语言波形语料库的音调的平均基音;
nIndex=在韵律短语中的文本段120的索引;和
empircalvalue=基于语言波形语料库的经验值。经验值4被用在本发明的特定实施例中,合成中文;然而,根据特定的语言波形语料库130的语境,可以改变这个值。
类似地,可以使用下述式子来确定理想的文本段120的持续时间:
BestDur=durs*fs-nIndex*empircalvalue        (方程3)
式中,
durs=没有音调的文本段120的平均持续时间;
nIndex=在韵律短语中的文本段120的索引;
fs=用于韵律位置的系数;和
empircalvalue=基于所述语言波形语料库的经验值。同样,经验值4被用在本发明的特定实施例中,合成中文;然而,根据特定的语言波形语料库130的语境,可以改变这个值。
用于字diffW的差值可以是用于字中的每一个音节的差值的总和。这可以用下面的方程以数学式子表示:
diffW = Σ k diff k (方程4)
如上所述,如果找到几个语音样本140匹配特定的文本段120,系统将选择差值最低的语音样本140。这可以用下面的方程以数学式子表示:
           diffW min=Min∪diffWi
                                              (方程5)
而且,本发明的方法可包括对用于差值diffW的预设定阈值的使用。如果用于匹配的语音样本140的差值低于特定的阈值,该方法将路由匹配的语音样本140到拼接算法150,用于产生拼接语音110。否则,该方法可要求通过删除一个要求的隐含韵律特征210来放宽对语境语音混合匹配的限制,并且继续搜索匹配。
尽管上面的介绍涉及用于中文的本发明的方法的特定例子,本发明可以是用于任何语言。对于一些语言,需要从上面给出的样本中删除或者重新定义隐含韵律特征210。例如,在将本发明应用到英文中时,将删除上面标识为音调内容的特征210,因为英文不是音调语言。同样,当将本发明应用到英文中时,可能要将上面标识为拼音的特征210重新定义为简单的语音符号。
因此,本发明是一种多层、数据驱动的韵律控制方案,其使用在语言波形语料库130中的隐含韵律信息。当搜索适当的语音样本140以匹配给磁的输入文本段120时,本发明的方法采用基于多层匹配的策略,其中,一次尝试每一层,直到找到足够好的匹配。通过连续地放宽每一层的限制条件,该方法有效地确定语言波形语料库130是否包含匹配。因此,该方法尤其适合于用在TTS系统中,其中,可以限制语言波形语料库130的大小以及系统的处理能力。
尽管在附图中以及上面的说明中已经示出了本发明的方法的示例实施例,应当理解,本发明不限于上面公开的实施例;实际上,本发明可以各种形式来改变,尤其是在除了中文之外的其它语言中应用时。因此,应当认识到本发明仅由权利要求述的范围来限定。

Claims (8)

1.一种用于对文本段执行语音合成的方法,该方法在电子设备上执行,其包括:
将文本段与语言波形语料库进行比较,所述语言波形语料库包括多个语音波形样本;
确定在文本段中的连续音节与和采样的语音波形语言相关的属性之间的最好匹配,所述最好匹配是通过识别与每一个波形语言的属性以及属性位置相同的最大数目的连续音节来确定的;
为所述文本段中的每一个不匹配音节查找合适的匹配,每一个不匹配的音节是一个这样的音节:其不是连续音节中的一个;并且从对具有与采样的语音波形语言相关的属性的韵律特征组中的韵律特征比较中确定所述合适的匹配,其中,该查找的特征在于:连续地从所述韵律特征组中去掉韵律特征,直到得到所述的合适匹配;和
通过使用在所述语料库中的语音波形样本来为所述文本段产生拼接合成语音,所述语音波形样本是从连续音节和用于每一个不匹配的音节的合适匹配之间的最好匹配中选择出来的。
2.如权利要求1的所述方法,其中,所述韵律特征包括从由文本内容、拼音、音调内容、协同发音、音节位置、短语位置、字符符号、和短语长度组成的组中选择出来的特征。
3.如权利要求2的所述方法,进一步包括步骤:在连续地去除了所有所述的其它韵律特征之后,仅根据拼音来执行基本语音匹配。
4.如权利要求1的所述方法,其中,所述确定步骤包括步骤:当利用下式找到多个最好的匹配时,选择最好的语境语音混合匹配:
diff = Wp × ( pitch - BestPitch BestPitch ) 2 + Wd × ( dur - BestDur BestDur ) 2
式中,
Wp=所述语音段的基音的权重;
Wd=所述语音段的持续时间的权重;
Diff=用于选择所述最佳的语境语音混合匹配的差值;
Pitch=所述语音段的基音;
BestPitch=理想的语音段的基音
dur=所述语音段的持续时间;和
BestDur=所述理想的语音段的持续时间。
5.如权利要求4的所述方法,其中,BestPitch是利用下式来确定的:
BestPitch=pitchtone-nIndex*empiricalvalue
式中
pitchtone=包括所述语言波形语料库的音调的平均基音;
nIndex=在韵律短语中的所述语音段的索引;和
empircalvalue=基于所述语言波形语料库的经验值。
6.如权利要求4的所述方法,其中Bestdur是被使用下式来确定的:
BestDur=durs *fs-nIndex*empircalvalue
式中
durs=没有音调的所述语音段的平均持续时间;
nIndex=在韵律短语中的所述语音段的索引;
fs=用于韵律位置的系数;和
empircalvalue=基于所述语言波形语料库的经验值。
7.如权利要求1的所述方法,其中,所述最佳语境语音混合匹配是具有最低的差值diff的匹配。
8.如权利要求1的所述方法,其中,将用于选择所述最佳语境语音混合匹配的所述差值diff与一个预设置的阈值进行比较。
CNB031326986A 2003-09-29 2003-09-29 语音合成方法 Expired - Lifetime CN1260704C (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CNB031326986A CN1260704C (zh) 2003-09-29 2003-09-29 语音合成方法
EP04784355A EP1668628A4 (en) 2003-09-29 2004-09-17 METHOD FOR SYNTHESIZING SPEECH
KR1020067006170A KR100769033B1 (ko) 2003-09-29 2004-09-17 스피치 합성 방법
PCT/US2004/030467 WO2005034082A1 (en) 2003-09-29 2004-09-17 Method for synthesizing speech
MXPA06003431A MXPA06003431A (es) 2003-09-29 2004-09-17 Metodo para sintetizar voz.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031326986A CN1260704C (zh) 2003-09-29 2003-09-29 语音合成方法

Publications (2)

Publication Number Publication Date
CN1604182A CN1604182A (zh) 2005-04-06
CN1260704C true CN1260704C (zh) 2006-06-21

Family

ID=34398359

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031326986A Expired - Lifetime CN1260704C (zh) 2003-09-29 2003-09-29 语音合成方法

Country Status (5)

Country Link
EP (1) EP1668628A4 (zh)
KR (1) KR100769033B1 (zh)
CN (1) CN1260704C (zh)
MX (1) MXPA06003431A (zh)
WO (1) WO2005034082A1 (zh)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR20140008870A (ko) * 2012-07-12 2014-01-22 삼성전자주식회사 컨텐츠 정보 제공 방법 및 이를 적용한 방송 수신 장치
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
CN106157948B (zh) * 2015-04-22 2019-10-18 科大讯飞股份有限公司 一种基频建模方法及系统
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106534528A (zh) * 2016-11-04 2017-03-22 广东欧珀移动通信有限公司 一种文本信息的处理方法、装置及移动终端
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110942765B (zh) * 2019-11-11 2022-05-27 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
KR20210109222A (ko) 2020-02-27 2021-09-06 주식회사 케이티 음성을 합성하는 장치, 방법 및 컴퓨터 프로그램
US20210350788A1 (en) * 2020-05-06 2021-11-11 Samsung Electronics Co., Ltd. Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
CN112530406A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN113393829B (zh) * 2021-06-16 2023-08-29 哈尔滨工业大学(深圳) 一种融合韵律和个人信息的中文语音合成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449622A (en) * 1987-08-19 1989-02-27 Jsp Corp Resin foaming particle containing crosslinked polyolefin-based resin and manufacture thereof
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
KR100259777B1 (ko) * 1997-10-24 2000-06-15 정선종 텍스트/음성변환기에서의최적합성단위열선정방법
US7283964B1 (en) * 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
EP1345207B1 (en) * 2002-03-15 2006-10-11 Sony Corporation Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2003295882A (ja) * 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
KR100883649B1 (ko) * 2002-04-04 2009-02-18 삼성전자주식회사 텍스트/음성 변환 장치 및 방법
GB2388286A (en) * 2002-05-01 2003-11-05 Seiko Epson Corp Enhanced speech data for use in a text to speech system
CN1320482C (zh) * 2003-09-29 2007-06-06 摩托罗拉公司 标识文本串中的自然语音停顿的方法

Also Published As

Publication number Publication date
KR20060066121A (ko) 2006-06-15
EP1668628A1 (en) 2006-06-14
EP1668628A4 (en) 2007-01-10
KR100769033B1 (ko) 2007-10-22
CN1604182A (zh) 2005-04-06
WO2005034082A1 (en) 2005-04-14
MXPA06003431A (es) 2006-06-20

Similar Documents

Publication Publication Date Title
CN1260704C (zh) 语音合成方法
KR100714769B1 (ko) 서면 텍스트로부터의 조정가능 신경망 기반 언어 식별
EP1687807B1 (en) Topic specific models for text formatting and speech recognition
EP1267326B1 (en) Artificial language generation
US20050144003A1 (en) Multi-lingual speech synthesis
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
EP1251490A1 (en) Compact phonetic model for arabic languages recognition
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
CN1731511A (zh) 用于对多语言的姓名进行语音识别的方法和系统
CN1359514A (zh) 多模式数据输入设备
CN1333501A (zh) 一种动态汉语语音合成方法
US20020198712A1 (en) Artificial language generation and evaluation
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
CN1811912A (zh) 小音库语音合成方法
EP1639578A1 (en) System and method for speech recognition and transcription
CN1032391C (zh) 基于波形编辑的汉语文字-语音转换方法及系统
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
Kondo et al. Surfin'the World Wide Web with Japanese
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
EP1733382A2 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
CN1088323A (zh) 反映语法特征的汉语表意拼音文字输入法及键盘
JPH1049187A (ja) 音声情報検索装置
Akinwonmi Rule-Induced Misanalysis of Nasal Syllables in Yoruba Declarative Syllabification Algorithm
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
CN1081357C (zh) 寻呼系统拼音字符编码输入方法及综合应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110110

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110110

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois, USA

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160304

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term

Granted publication date: 20060621

CX01 Expiry of patent term