CN1540625A - 多语种文本-语音系统的前端结构 - Google Patents
多语种文本-语音系统的前端结构 Download PDFInfo
- Publication number
- CN1540625A CN1540625A CNA2004100326318A CN200410032631A CN1540625A CN 1540625 A CN1540625 A CN 1540625A CN A2004100326318 A CNA2004100326318 A CN A2004100326318A CN 200410032631 A CN200410032631 A CN 200410032631A CN 1540625 A CN1540625 A CN 1540625A
- Authority
- CN
- China
- Prior art keywords
- text
- module
- languages
- language
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F7/00—Indoor games using small moving playing bodies, e.g. balls, discs or blocks
- A63F7/02—Indoor games using small moving playing bodies, e.g. balls, discs or blocks using falling playing bodies or playing bodies running on an inclined surface, e.g. pinball games
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07F—COIN-FREED OR LIKE APPARATUS
- G07F17/00—Coin-freed apparatus for hiring articles; Coin-freed facilities or services
- G07F17/32—Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F7/00—Indoor games using small moving playing bodies, e.g. balls, discs or blocks
- A63F7/22—Accessories; Details
- A63F7/34—Other devices for handling the playing bodies, e.g. bonus ball return means
- A63F2007/341—Ball collecting devices or dispensers
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2250/00—Miscellaneous game characteristics
- A63F2250/14—Coin operated
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种用于处理语音合成器的多语种文本的文本处理系统,包括的第一语种相关模块,用于对包括第一种语言的输入文本的一部分进行文本和韵律分析中的至少一个。第二语种相关模块对包括第二种语言的输入文本的第二部分进行文本和韵律分析中的至少一个。第三模块适合于接收第一和第二语种相关模块的输出,并且基于多语种文本对输出进行韵律和语音环境的提取。
Description
发明背景
本发明涉及语音合成,尤其是涉及一种多语种语音合成系统。
背景技术
已经开发的文本-至-语音系统能够使计算机化的的系统通过合成语音与用户交流,这些应用系统包括口语对话系统、呼叫中心服务系统、语音激活的网络和电子邮件服务等等。虽然在过去几年里文本-至-语音系统有了很大发展,但是还存在一些不足之处。例如,许多文本-至-语音系统都仅仅是基于一种语言而设计的,而许多应用都需要有一种系统能够提供多种语言词汇的语音合成,尤其是在同一句话中包含两种以上语言的词汇的语音合成。
目前已经研制出来的提供包含多种语言词汇的语句的语音合成的系统需要使用不同的文本-至-语音引擎以合成句子中的每一种相应的语言的词汇,其中每个引擎分别生成其所合成词汇的波形。然后将波形连接或是用其他的方式连续地输出所述的波形,以便合成出完整的句子来。这种设备的主要缺点在于从两个引擎产生的声音听起来通常会有差别。这种合成出来的话语通常会令用户感到厌烦,因为听起来像两个不同的讲话者在讲话。并且,整个句子的语调也被破坏了,导致句子的可懂度降低。
因此,一种能克服上述至少一部分缺点的多语种语音合成系统将是有用的,并且能够改善多语种语音合成。
发明内容
一种用于语音合成系统的文本处理系统接收包含至少两种语言的混合输入文本,提供适合于语音合成器的后端部分使用的输出。一般地,该文本处理系统包括执行文本处理的语种无关模块和语种相关模块。这种体系结构有利于在不同语种间平滑切换,并且能够使混合语言的语句的语调保持流畅。
附图说明
图1是能够实施本发明的一般计算机环境的方框图。
图2是能够实施本发明的一个移动装置的方框图。
图3A是一个现有技术的语音合成系统的第一实施例方框图。
图3B是一个现有技术的语音合成系统的第二实施例方框图。
图3C是一个现有技术的语音合成系统的前端部分的方框图。
图4是包括语音合成器的文本处理系统的本发明第一实施例的方框图。
图5是包括语音合成器的文本处理系统的本发明第二实施例的方框图。
具体实施方式
在对本发明进行说明之前,有必要先介绍一下可以应用本发明的典型的计算机环境。图1给出了一个可以实施本发明的适合的计算系统环境100。该计算系统环境100只是可以实施本发明的计算系统环境的一个实施例,而并非是对本发明的应用范围或功能进行任何限制。计算环境100也不应被认为是对在实例性操作环境100中所示的任何一个部件或者部件的组合有任何依赖性或要求。
本发明可以用于众多的特定或非特定目的的计算系统环境或配置。常见的适于应用本发明的计算系统、环境或配置包括(但并不限于)如下系统或装置:个人计算机,服务器计算机,手持或膝上型装置,多处理器系统,基于微处理器的系统,机顶盒,可编程电子消费装置,网络PC,小型计算机,大型计算机,包括任何上述的系统或装置的分布式计算环境,等等。
本发明可以使用计算机可执行指令的一般模式来描述,例如计算机执行的程序模块。一般地,程序模块包括子程序、程序、对象、组件、数据结构等,它们用来执行特定的任务或者实现特定的抽象数据类型。本发明也可以被应用于分布式计算环境,其中通过利用通信网络链接的远程处理装置来执行任务。在分布式计算环境中,程序模块可以同时存放在包括存储器存储装置的本地和远程计算机存储介质中。下面就对照附图来说明程序和模块所要执行的任务。本领域普通技术人员能够将下述说明和附图实施成写入任何形式的计算机可读介质的处理器可执行指令。
图1给出了一个实施本发明的典型系统包括一个用于非特定目的的计算装置,该计算装置是一台计算机110。计算机110的部件包括(但不仅限于)一个处理单元120、一个系统存储器130和用于将包括系统存储器在内的各个系统部件连接到处理单元120的系统总线121。系统总线121可以是包括如下几种类型的总线结构中的任何总线结构:一个存储总线或存储控制器、一个外围总线和使用各种总线结构中的任何总线的局部总线。这些总线结构例如但不仅限于工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强的ISA总线、视频电子标准协会(VESA)局部总线以及外部设备互连(PCI)总线(也叫夹层总线(Mezzanine bus))。
典型地,计算机110包括一些计算机可读介质。计算机可读介质是能被计算机110访问的任一可用介质,包括非易失性介质和易失性介质,可移动介质和不可移动介质。例如但不限于,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括使用任何方法或技术实现信息存储的非易失性的和易失性的、可移动的和不可移动的介质,这些信息可以是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括但不仅限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除只读存储器(EEPROM)、闪存(flash memory)或其他存储器技术、只读光盘存储器(CD-ROM)、数字多功能光盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他磁存储装置,或者其他任何可以用于存储所述信息并且可被计算机100访问的介质。
通信介质包括任何信息传输介质,通常包含计算机可读指令、数据结构、程序模块或其他存在于如载波或其他传输技术使用的调制的数据信号中的数据。术语“调制的数据信号”是指以一种方式设置或改变它的一个或多个特征以在其中对信息进行编码的信号。通信介质包括例如但不仅限于有线介质(例如有线网络或直接有线连接)以及无线介质(例如声波、FR、红外线和其它的无线介质。以上所述介质的任何组合也包括在所述计算机可读介质的范围之内。
系统存储器130包括非易失性和易失性的计算机存储介质,例如只读存储器(ROM)131和随机存取存储器(RAM)132。典型地,基本输入/输出系统133(BIOS)存储在只读存储器131中,其中包含用于协助在计算机110内的元件之间例如在开机过程中传递信息的基本程序。典型地,随机存取存储器132中存储操作单元120所要立即访问和/或即将操作的数据和/或程序模块。图1中举例性地而不是限制性地示出了操作系统134、应用程序135、其他程序模块136以及程序数据137。
计算机110也可以包括其他的可移动/不可移动的、易失性/非易失性的计算机存储介质。仅仅是作为一个例子,图1中给出了用于读取或写入不可移动的、非易失性的磁介质的一个硬盘驱动器141、用于读取或写入可移动的、非易失性的磁盘152的一个磁盘驱动器151、用于读取或写入可移动的、非易失性的光盘156如CD ROM或其他光学介质的一个光盘驱动器155。其他可以被用在所述的典型操作环境中的可移动/不可移动、易失性/非易失性的计算机存储介质包括但不仅限于盒式磁带、闪存卡、数字多功能光盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器141典型地通过不可移动存储接口例如接口140与系统总线121相连接,磁盘驱动器151和光盘驱动器155典型地通过移动存储接口例如接口150与系统总线121相连接。
以上所述并显示在图1中的驱动器以及与其相应的计算机存储介质用于为计算机110存储计算机可读指令、数据结构、程序模块及其它数据。例如,图1中的硬盘驱动器141作为存储操作系统144、应用程序145、其它程序模块146以及程序数据147示出。要注意的是这些组件可以相同或不同于操作系统134、应用程序135、其它程序模块136以及程序数据137。这里,操作系统144、应用程序145、其它程序模块146以及程序数据147用不同于上述组件的附图标记来表示以至少说明它们是不同的拷贝。
用户可以通过输入装置向计算机110输入命令和信息,这些输入装置可以是键盘162、麦克风163以及指点装置如鼠标、轨迹球或触摸板。还可以是其他的输入装置(图上未画出),例如操纵杆、游戏垫、圆盘式卫星电视天线(satellitedish)、扫描仪等。上述输入装置通常是通过一个耦合到系统总线的用户输入接口160连接到处理单元120的,但也可以是通过别的接口和总线结构连接,例如一个并行端口、游戏端口或者通用串行总线(USB)。监视器191或者其他类型的显示装置通过一个接口例如视频接口190也连接到系统总线121。除了该监视器外,计算机也可以包括其他的外部输出设备例如扬声器197以及打印机196,它们通过一个外部输出接口190连接。
计算机110可以通过逻辑连接的方式连接到一台或更多远程计算机(例如远程计算机180)从而在网络环境中进行操作。远程计算机180可以是个人计算机、手持装置、服务器、路由器、网络PC、对等装置(peer device)或者其他常用的网络节点,通常包括多个或所有上述与计算机110相关的部件。图1中所示的逻辑连接包括一个局域网(LAN)171和一个广域网(WAN)173,但也可以包括其它网络。这种网络环境常见于办公室、企业范围内的计算机网络、内部网和因特网。
当被用于局域网环境时,计算机110通过一个网络接口或适配器170连接到局域网171。当被用于广域网的网络环境时,计算机110通常包括一个调制解调器172或在广域网173(比如因特网)上建立通信的其它装置。调制解调器172可以是内置的或者外置的,并通过用户输入接口160或其他适当的机构连接到系统总线121。在网络环境中,所述与计算机110相关的程序模块或其相关部分可以存储在远程存储器存储装置中。图1中实例性而非限制性地示了驻留在远程计算机180上的远程应用程序185。在此要指出的是,所示的网络连接仅仅是示例性的给出,并也可以使用在计算机之间建立通信的其它的装置。
图2给出了又一个示例性的计算环境——移动装置200的方框图。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其他移动装置通信的通信接口208。在一个实施例中,上述组件通过适当的总线210连接以实现相互之间的通信。
存储器204以非易失性电子存储器如随机存取存储器(RAM)实施,并且具有一个备用电池模块(图中未画出)从而能够保证当移动装置200断电时存储器204中的信息不会丢失。存储器204的一部分优选被分配用作程序运行的可寻址存储器,而存储器204的另一部分优选用于实现模拟磁盘驱动器的存储的存储功能。
存储器204包括一个操作系统212、应用程序214以及一个对象仓库216。在操作中,最好是由处理器202从存储器204来运行操作系统212。在一个实施例中,操作系统212采用了从微软公司可购买的WINDOWSCE商标的操作系统。操作系统212最好是专为移动装置设计的,并且具有数据库特征,从而应用程序214可以通过一些已公开的应用编程接口和方法来利用该数据库特征。至少部分地响应对所述已公开的应用编程接口和方法的访问,对象仓库216中的对象受到应用程序214和操作系统212的支持。
通信接口208代表了允许移动装置200发送和接收信息的多种装置和技术。该装置包括有线和无线调制解调器、卫星接收器以及广播调谐器等等。移动装置200还可以直接连接到计算机上与之交换数据,在这种情况下,通信接口208可以是红外无线电收发器或串行或并行通信连接,它们都能够传输流信息。
输入/输出组件206包括多种输入装置(例如触摸感应屏、按钮、滚轮和麦克风)以及多种输出装置(包括音频产生器、振荡装置和显示器)。上述装置仅是作为示例,并不需要都出现在移动装置200中,此外,其他的输入/输出装置也可以被加入到或者出现在移动装置200中,这种情况也包括在本发明的保护范围之内。
为了更好地理解本发明,下面对在图3A和3B分别示出的现有技术的语音合成器(或语音引擎)300和302作一简单介绍是有益的。首先参照图3A,语音合成器300包括一个前端部分或者文本处理系统304,用于处理从306接收的输入文本并通过模块303完成文本分析和韵律分析。模块303的输出308中包含对输入文本306的韵律的符号描述。输出308提供给在引擎300的后端部分或者合成模块312中的单元选择和拼接模块310。单元选择和拼接模块310利用采样语音单元的语料库316产生合成语音波形314。合成语音波形314通过直接语音拼接单元产生,通常不进行任何基频或时长的修改,只要语音语料库316已经涵盖了所有合成单元的足够的韵律和频谱变形并且总能找到合适的段。
语音合成器302也包括文本和韵律分析模块303,用于接收输入文本306并输出其韵律的符号描述308。此外,由图可知,前端部分304还包括一个韵律预测模块320,该韵律预测模块320用于接收韵律符号描述308并在输出322上提供韵律的数字描述。根据众所周知的做法,韵律预测模块320将某些上层韵律约束(例如词性、语法、重音和强调等)作为输入并对基频、时长、能量等进行预测,由此生成确定的数值从而构成输出322。输出322被提供给后端部分312,在这种形式中该后端部分312包括一个语音产生模块326,用于生成具有与322中的韵律数字描述相匹配的韵律特征的合成语音波形314。这个过程可以通过方式实现:在基于共振峰或者LPC的合成器后端设定相应的参数,或者在拼接的后端运用韵律标度算法例如PSOLA或HNM。
附图3C示出了可以形成在语音合成器300和302的前端部分304中用于提供韵律的符号描述308的文本和韵律分析模块303的各种模块。典型的处理模块包括一个文本规整模块340,该文本规整模块340用于接收输入文本306并将输入文本306的货币、日期或其他的部分转换成可读的字词。
在文本规整过程中,可以使用形态分析模块342对输入文本进行形态分析以确定复数、过去时态等信息。必要的话,还可以使用模块344进行句法/语义分析以辨别单词的词性(part of speech(POS))或者预测句子的句法/语义结构。如果需要的话,进一步的处理可以在模块346中完成,模块346根据模块344的输出(即POS标记或句法/语义结构)或者简单地依据逗号、句号等来将单字分组成短语。包括重读、重音和/或焦点(focus)的语义特征通过模块348来预测。字形-至-语音转换模块350依据正确的发音将文字转换成语音符号。303的输出是具有韵律符号描述308的语音单元序列。
要强调的是文本韵律分析模块303的上述组成模块只是示例性的,只是当需要时才被包括在303中以用于从前端部分304生成后端部分312所使用的输出,如图3A或3B中所示。
对于多语种文本,其中每一种语言都要有一个语音引擎300或302来合成。文本中属于每一种语言的部分都要提供给相应的单一语种语音合成器并分别进行处理,然后再利用合适的硬件将产生的多个输出314相互连接或者以其他方式连续的输出。正如在背景技术部分指出的,其缺点在于导致了整句语调的丢失以及一单句话的部分听起来好像是两个或更多不同的讲话者所说的。
图4给出了语音合成系统的文本和韵律分析系统400的第一个实施例,文本和韵律分析系统400用于接收含有由一种或至少两种语言混合组成的句子的输入文本402,并产生适合于通常如图3A或3B所示的语音合成器的后端部分处理的输出432。一般地,前端部分400包括语种无关模块和语种相关模块以实现如图3C中所示的所需功能。这种结构的优点在于能够实现不同语种间的平滑切换以及保持混合语种的语句的语调流畅。图4中自上而下的显示出了这种方法的处理流程。
在实例性实施例中,文本和韵律分析部分400中有一个语言调度模块,该语言调度模块包括一个语种辨别模块406和一个综合处理模块。语种辨别模块406接收输入文本402并包括或联合为其中的句子和/或单字加上标志其所属语言的适当的语种标识符(Id)或标记。由所示的实施例中,由于中文汉字和英文单词使用明显不同的编码形成输入文本402,因而能够相对容易地辨别出输入文本402中的中文或英文部分。而对于像法语、德语或者西班牙语这些具有某些相同字符的语种,则还需要进一步的处理。
含有适当的语种标识符的输入文本被提供到综合处理模块410,一般地,综合处理模块410用于管理语种无关模块和语种相关模块之间的数据流动,以及维持数据的统一流动以保证正确处理所接收到的每个模块的输出。典型地,综合处理模块410首先把带有语种标识符的输入文本传送给文本规整模块412。在所示实施例中,文本规整模块412是一个与语种无关的规则解释器。模块412包括两个组件,一个是模式识别器,另一个是模式解释器,该模式解释器用于依据规则将一个匹配模式转换为一个可读的文本串。每个规则由两部分组成,开始部分是一个模式的定义,其余部分是该模式的转换规则。定义部分可以是为两种语言所共用的也可以是指定给它们中的一种语言。转换规则通常是特定的语言。如果有新的语种加入,只需要添加针对新语种的新规则即可,而无需改动规则解释模块。正如本领域普通技术人员所理解的是,文本规整模块412也可以设在语种辨别模块410之前,只要在文本规整模块412中提供适当的操作以辨别输入文本中每种语言的词汇即可。
当接收到文本规整模块412的输出后,综合处理模块410将适当的单词和/或短语传送到适当的语种相关模块进行文本和韵律分析。在所示实施例中提供了一个汉语普通话模块420和一个英语模块422。汉语模块420和英语模块422用于处理所有的语种细节处理,例如两种语言的语法和字-音转换、汉语的词的切分以及英语的缩写还原等等。在图4中,转换器418示意性的说明了综合处理器(integrator)410按照语种标识符的指示将部分输入文本传送到适当的语种相关模块的功能。
除了语种标识符以外,输入文本402的分段中还包括指示其在输入文本402中的位置的标识符或与其关联,以使一旦在接收到各个语种无关模块和语种相关模块的输出时综合处理器410可以重构该分段的正确顺序,原因是并非所有的分段都是被同一个模块处理。这样就可以进行并行处理,从而加快了对输入文本402处理的速度。当然,也可以按在输入文本402中出现的顺序逐段地处理输入文本402。
然后,各个语种相关模块的输出还要经过一个用于韵律和语音环境的统一的特征提取模块430进行处理。在这种方式下,由于在通过模块420和422对汉语和英语分段适当地进行文本和韵律分析之后对整个句子的韵律和语音环境进行了分析,因此整个句子的句调也没有丢失。在所示实施例中,文本和韵律分析部分400的输出432是一个顺序的单元序列(包括英语单元和汉语普通话单元),并且具有包括韵律和语音环境在内的统一的特征向量。这样,就可以通过如图3A中所示的后端部分中提供单元拼接,下面将进一步描述单元拼接的实例性实施例。可选的,如果需要,文本和韵律分析部分400可以与一个适当的语种无关模块连接以用于进行韵律预测(类似于模块320)并提供韵律的数字描述作为输出。再将韵律数字描述提供给后端部分312,如图3B所示。
图5给出了作为本发明的另一个实施例的一个双语种文本和韵律分析系统450,其中文本和韵律分析被划分成4个孤立的示例性功能模块,包括语形分析452、停顿分析454、强调/重音分析456和字形-至-语音转换458。其中每个功能都包括分别支持英语和汉语普通话的两个模块。与图4类似,图5中也自上而下的显示了对输入文本的处理顺序流程。虽然图中只出现了英语和汉语普通话两种语言,但是显然可以很容易地对所述文本和韵律分析部分400、450加以改变以适用于所需的更多语言。此外,还需要注意的是,其他语种相关模块和/或语种无关模块也可以根据需要而很容易地集成在所述的文本处理系统结构中。
在一个实施例中,后端部分312可以使用如提供单元拼接的图3A中所示的形式。对于一个包括汉语普通话和英语的多语种系统来说,汉语普通话的最小单元是音节,而英语的最小单元是音素。单元选择算法应该从具有合适韵律的候选单元库中选取音段,以便尽可能地实现自然、完美的拼接。这里需要考虑7个韵律约束条件。它们包括:在短语中的位置、在单词中的位置、在音节中的位置、左音调、右音调、在单词中的重音等级以及在短语中的重音等级。其中,在音节中的位置和在单词中的重音等级仅适用于英语,而左/右音调则仅适用于汉语普通话。
使用CART(分类回归树)通过查询韵律约束条件对基本单元的所有样本进行聚类。CART的分裂依据是使f0均值、f0的动态幅度和时长三个特征的MSE(均方差)的加权和的减小最大,其中每个特征的MSE被定义为所有样本的特征值与其主叶的均值之间的距离的平方的均值。当树生成以后,位于同一个叶子节点的所有样本具有相似的韵律特征。单元之间拼接的连续性通过使用两个语音约束条件、左右语音环境和平滑代价来保证。拼接代价被定义为在7个韵律约束条件、2个语音约束条件和平滑代价的源点-目标距离的加权和。每个韵律/语音约束的距离表以及所有部分的权值首先手动设定,而后以如下的方法自动调整,该方法参见“Perpetually optimizing the cost function for unit selection in a TTSsystem for one single run of MOS evaluation”,Proc.of ICSLP’2002,Denver,by H.Peng,Y.Zhao and M.Chu。当合成一个语句时,首先利用韵律约束条件为每个单元找到一个样本聚类集(CART树的一个叶子节点),然后应用Viterbi搜索算法来为每个单元查找产生最小总体拼接代价的最佳样本。所选的分段随后被逐个拼接以得到所要合成的语句。较佳地,单元语料库是由同一个双语的发音人的发音来建立的。虽然两种语言采用的单元大小不同,但它们具有相同的单元选择算法和特征集。因此,语音合成器的后端部分可以处理单语种或者双语种混合的单元序列。以上所述的单元样本的选择方法在2002年7月25日公开的专利申请号20020099547A1、名称为“Method and Apparatus for Speech Synthesis WithoutProsody Modification”的美国专利中有更为详尽的描述,在此以引用参考的方式将其全部内容结合在本申请中。
虽然本发明是参照特定的实施例来描述的,本领域普通技术人员应能认识到在其形式和细节上所作的任何改变都不脱离本发明的精神和范围。
Claims (20)
1.一种用于处理语音合成器的多语种文本的文本处理系统,该文本处理系统包括:
第一语种相关模块,用于对包括第一种语言的输入文本的一部分进行文本和韵律分析中的至少一个;
第二语种相关模块,用于对包括第二种语言的输入文本的第二部分进行文本和韵律分析中的至少一个;以及
第三模块,用于接收第一和第二语种相关模块的输出,并且基于多语种文本对输出进行韵律和语音环境的提取。
2.如权利要求1所述的文本处理系统,还包括一个文本规整模块,用于对文本进行规整以便于第一语种相关模块和第二语种相关模块进行处理。
3.如权利要求1或2所述的文本处理系统,还包括一个语种识别器模块,该语种识别器模块适合于接收多语种文本,并且把包括第一种语言的部分的标识符和包括第二种语言的部分的标识符相关联。
4.如权利要求3所述的文本处理系统,还包括一个综合处理器模块,该综合处理器模块适合于接收每个模块的输出并适当地将所说述处理的输出转发到另一个模块。
5.如权利要求4所述的文本处理系统,其中根据关联的标识符的,所述综合处理器将所述输出转发到第一语种相关模块和第二语种相关模块。
6.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行语言形态分析。
7.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行停顿分析。
8.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行重音分析。
9.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行字形-至-语音转换。
10.一种用于语音合成器中多语种文本的文本处理的方法,该方法包括:
接收输入文本,并标识包括第一种语言的部分和包括二种语言的部分;
利用第一语种相关模块对包括第一种语言的部分进行文本和韵律分析中的至少一个,并且利用第二语种相关模块对包括第二种语言的部分进行文本和韵律分析中的至少一个;以及
接收第一和第二语种相关模块的输出,并且基于多语种文本对输出进行韵律和语音环境的提取。
11.如权利要求10所述的方法,还包括对输入文本进行规整。
12.如权利要求10或11所述的方法,其中所述标识部分包括把标识符与各个部分相关联。
13.如权利要求12所述的方法,还包括根据与部分相关联的标识符,将所述部分转发给第一语种相关模块和第二语种相关模块。
14.如权利要求10、11、12或13所述的方法,还包括根据文本中的顺序来标识文本的部分。
15.如权利要求10、11、12、13或14所述的方法,其中执行韵律和语音环境的提取包括输出所述多语种文本的韵律的符号描述。
16.如权利要求10、11、12、13或14所述的方法,其中执行韵律和语音环境的提取包括输出所述多语种文本的韵律的数字描述。
17.一种计算机可读介质,其中包含在其被实施时能够使计算机执行权利要求10-16的方法中的任何一种方法的计算机可读指令。
18.一种适合于实施权利要求10-16的方法中的任何一种方法的系统。
19.一种计算机可读介质,包含在被处理器运行时能够进行语音合成的指令,所述指令包括:
文本处理模块,包括:
第一语种相关模块,用于对包括第一种语言的输入文本的一部分进行文本和韵律分析中的至少一个;
第二语种相关模块,用于对包括第二种语言的输入文本的第二部分进行文本和韵律分析中的至少一个;
第三模块,适合于接收第一和第二语种相关模块的输出,并对包括多语种文本的输出进行韵律和语音环境的提取;以及
合成模块,适合于接收第三模块的输出并基于它而生成合成的语音波形。
20.如权利要求19所述的计算机可读介质,还包括一个语种识别器模块,该语种识别器模块适合于接收多语种文本,并且把包括第一种语言的部分的标识符和包括第二种语言的部分的标识符相关联。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/396,944 US7496498B2 (en) | 2003-03-24 | 2003-03-24 | Front-end architecture for a multi-lingual text-to-speech system |
US10/396,944 | 2003-03-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1540625A true CN1540625A (zh) | 2004-10-27 |
CN1540625B CN1540625B (zh) | 2010-06-09 |
Family
ID=32824965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004100326318A Expired - Fee Related CN1540625B (zh) | 2003-03-24 | 2004-03-24 | 多语种文本-语音系统的前端结构 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7496498B2 (zh) |
EP (1) | EP1463031A1 (zh) |
JP (1) | JP2004287444A (zh) |
KR (1) | KR101120710B1 (zh) |
CN (1) | CN1540625B (zh) |
BR (1) | BRPI0400306A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903362A (zh) * | 2011-09-02 | 2013-01-30 | 微软公司 | 集成的本地和基于云的语音识别 |
CN102360543B (zh) * | 2007-08-20 | 2013-03-27 | 微软公司 | 基于hmm的双语(普通话-英语)tts技术 |
US8898066B2 (en) | 2010-12-30 | 2014-11-25 | Industrial Technology Research Institute | Multi-lingual text-to-speech system and method |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
WO2020200178A1 (zh) * | 2019-04-03 | 2020-10-08 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
Families Citing this family (276)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) * | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8214216B2 (en) * | 2003-06-05 | 2012-07-03 | Kabushiki Kaisha Kenwood | Speech synthesis for synthesizing missing parts |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US8666746B2 (en) * | 2004-05-13 | 2014-03-04 | At&T Intellectual Property Ii, L.P. | System and method for generating customized text-to-speech voices |
CN100592385C (zh) * | 2004-08-06 | 2010-02-24 | 摩托罗拉公司 | 用于对多语言的姓名进行语音识别的方法和系统 |
US7869999B2 (en) * | 2004-08-11 | 2011-01-11 | Nuance Communications, Inc. | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US7912718B1 (en) | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8510112B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8510113B1 (en) | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
WO2008076969A2 (en) * | 2006-12-18 | 2008-06-26 | Semantic Compaction Systems | An apparatus, method and computer readable medium for chinese character selection and output |
JP2008171208A (ja) * | 2007-01-11 | 2008-07-24 | Casio Comput Co Ltd | 音声出力装置及び音声出力プログラム |
US8165879B2 (en) * | 2007-01-11 | 2012-04-24 | Casio Computer Co., Ltd. | Voice output device and voice output program |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
EP2188729A1 (en) * | 2007-08-08 | 2010-05-26 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
KR101300839B1 (ko) * | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9761219B2 (en) * | 2009-04-21 | 2017-09-12 | Creative Technology Ltd | System and method for distributed text-to-speech synthesis and intelligibility |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
JP5398909B2 (ja) * | 2009-06-10 | 2014-01-29 | 株式会社東芝 | テキスト音声合成方法及びシステム |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5343293B2 (ja) * | 2009-07-08 | 2013-11-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8949128B2 (en) * | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8327261B2 (en) * | 2010-06-08 | 2012-12-04 | Oracle International Corporation | Multilingual tagging of content with conditional display of unilingual tags |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8731932B2 (en) * | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8688435B2 (en) | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
KR101401427B1 (ko) * | 2011-06-08 | 2014-06-02 | 이해성 | 전자책 데이터 음성 합성 장치 및 그 방법 |
WO2012169844A2 (ko) * | 2011-06-08 | 2012-12-13 | 주식회사 내일이비즈 | 전자책 데이터 음성 합성 장치 및 그 방법 |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US20120330644A1 (en) * | 2011-06-22 | 2012-12-27 | Salesforce.Com Inc. | Multi-lingual knowledge base |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9195648B2 (en) * | 2011-10-12 | 2015-11-24 | Salesforce.Com, Inc. | Multi-lingual knowledge base |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) * | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US8452603B1 (en) * | 2012-09-14 | 2013-05-28 | Google Inc. | Methods and systems for enhancement of device accessibility by language-translated voice output of user-interface items |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9959270B2 (en) | 2013-01-17 | 2018-05-01 | Speech Morphing Systems, Inc. | Method and apparatus to model and transfer the prosody of tags across languages |
US9418655B2 (en) * | 2013-01-17 | 2016-08-16 | Speech Morphing Systems, Inc. | Method and apparatus to model and transfer the prosody of tags across languages |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
EP2973002B1 (en) | 2013-03-15 | 2019-06-26 | Apple Inc. | User training by intelligent digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
JP6249760B2 (ja) * | 2013-08-28 | 2017-12-20 | シャープ株式会社 | テキスト読み上げ装置 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9916185B2 (en) | 2014-03-18 | 2018-03-13 | International Business Machines Corporation | Managing processing associated with selected architectural facilities |
US9582295B2 (en) | 2014-03-18 | 2017-02-28 | International Business Machines Corporation | Architectural mode configuration |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9865251B2 (en) * | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10521945B2 (en) * | 2016-12-23 | 2019-12-31 | International Business Machines Corporation | Text-to-articulatory movement |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
JP7178028B2 (ja) * | 2018-01-11 | 2022-11-25 | ネオサピエンス株式会社 | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
WO2020012813A1 (ja) * | 2018-07-09 | 2020-01-16 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2020101263A1 (en) | 2018-11-14 | 2020-05-22 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
KR20200056261A (ko) * | 2018-11-14 | 2020-05-22 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111858837A (zh) * | 2019-04-04 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
TWI725608B (zh) | 2019-11-11 | 2021-04-21 | 財團法人資訊工業策進會 | 語音合成系統、方法及非暫態電腦可讀取媒體 |
CN111179904B (zh) * | 2019-12-31 | 2022-12-09 | 出门问问创新科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN112397050B (zh) * | 2020-11-25 | 2023-07-07 | 北京百度网讯科技有限公司 | 韵律预测方法、训练方法、装置、电子设备和介质 |
KR102583764B1 (ko) * | 2022-06-29 | 2023-09-27 | (주)액션파워 | 외국어가 포함된 오디오의 음성 인식 방법 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
JPH0225973A (ja) * | 1988-07-15 | 1990-01-29 | Casio Comput Co Ltd | 機械翻訳装置 |
JPH02110600A (ja) * | 1988-10-20 | 1990-04-23 | Matsushita Electric Ind Co Ltd | 音声規則合成装置 |
JPH03196198A (ja) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | 音声規則合成装置 |
JPH03245192A (ja) * | 1990-02-23 | 1991-10-31 | Oki Electric Ind Co Ltd | 外国語単語の発音決定方法 |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JPH06289889A (ja) * | 1993-03-31 | 1994-10-18 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP2522154B2 (ja) * | 1993-06-03 | 1996-08-07 | 日本電気株式会社 | 音声認識システム |
JPH0728825A (ja) * | 1993-07-12 | 1995-01-31 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
US5592585A (en) * | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
WO1997008686A2 (en) * | 1995-08-28 | 1997-03-06 | Philips Electronics N.V. | Method and system for pattern recognition based on tree organised probability densities |
EP0788648B1 (en) * | 1995-08-28 | 2000-08-16 | Koninklijke Philips Electronics N.V. | Method and system for pattern recognition based on dynamically constructing a subset of reference vectors |
JP2871561B2 (ja) * | 1995-11-30 | 1999-03-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者モデル生成装置及び音声認識装置 |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6172675B1 (en) * | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US5937422A (en) * | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
KR100238189B1 (ko) * | 1997-10-16 | 2000-01-15 | 윤종용 | 다중 언어 tts장치 및 다중 언어 tts 처리 방법 |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6230131B1 (en) * | 1998-04-29 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Method for generating spelling-to-pronunciation decision tree |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6151576A (en) * | 1998-08-11 | 2000-11-21 | Adobe Systems Incorporated | Mixing digitized speech and text using reliability indices |
JP2000075878A (ja) | 1998-08-31 | 2000-03-14 | Canon Inc | 音声合成装置およびその方法ならびに記憶媒体 |
WO2000030069A2 (en) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
JP2000206982A (ja) * | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
US6185533B1 (en) * | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
JP3711411B2 (ja) * | 1999-04-19 | 2005-11-02 | 沖電気工業株式会社 | 音声合成装置 |
JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2001022375A (ja) * | 1999-07-06 | 2001-01-26 | Matsushita Electric Ind Co Ltd | 音声認識合成装置 |
CN1160699C (zh) * | 1999-11-11 | 2004-08-04 | 皇家菲利浦电子有限公司 | 语音识别系统 |
GB2357943B (en) * | 1999-12-30 | 2004-12-08 | Nokia Mobile Phones Ltd | User interface for text to speech conversion |
US7010489B1 (en) * | 2000-03-09 | 2006-03-07 | International Business Mahcines Corporation | Method for guiding text-to-speech output timing using speech recognition markers |
US6910007B2 (en) * | 2000-05-31 | 2005-06-21 | At&T Corp | Stochastic modeling of spectral adjustment for high quality pitch modification |
JP2001350490A (ja) * | 2000-06-09 | 2001-12-21 | Fujitsu Ltd | テキスト音声変換装置及び方法 |
US6505158B1 (en) * | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
US7069216B2 (en) * | 2000-09-29 | 2006-06-27 | Nuance Communications, Inc. | Corpus-based prosody translation system |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
US6990450B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6978239B2 (en) | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
-
2003
- 2003-03-24 US US10/396,944 patent/US7496498B2/en not_active Expired - Fee Related
-
2004
- 2004-03-23 JP JP2004085665A patent/JP2004287444A/ja active Pending
- 2004-03-23 BR BR0400306-3A patent/BRPI0400306A/pt not_active IP Right Cessation
- 2004-03-23 EP EP04006985A patent/EP1463031A1/en not_active Withdrawn
- 2004-03-24 CN CN2004100326318A patent/CN1540625B/zh not_active Expired - Fee Related
- 2004-03-24 KR KR1020040019902A patent/KR101120710B1/ko not_active IP Right Cessation
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360543B (zh) * | 2007-08-20 | 2013-03-27 | 微软公司 | 基于hmm的双语(普通话-英语)tts技术 |
US8898066B2 (en) | 2010-12-30 | 2014-11-25 | Industrial Technology Research Institute | Multi-lingual text-to-speech system and method |
CN102903362A (zh) * | 2011-09-02 | 2013-01-30 | 微软公司 | 集成的本地和基于云的语音识别 |
CN102903362B (zh) * | 2011-09-02 | 2015-08-19 | 微软技术许可有限责任公司 | 集成的本地和基于云的语音识别 |
CN106528535A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
CN106528535B (zh) * | 2016-11-14 | 2019-04-26 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
WO2020200178A1 (zh) * | 2019-04-03 | 2020-10-08 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
US11881205B2 (en) | 2019-04-03 | 2024-01-23 | Beijing Jingdong Shangke Information Technology Co, Ltd. | Speech synthesis method, device and computer readable storage medium |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111292720B (zh) * | 2020-02-07 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
KR20040084753A (ko) | 2004-10-06 |
JP2004287444A (ja) | 2004-10-14 |
BRPI0400306A (pt) | 2005-01-04 |
US20040193398A1 (en) | 2004-09-30 |
US7496498B2 (en) | 2009-02-24 |
CN1540625B (zh) | 2010-06-09 |
KR101120710B1 (ko) | 2012-06-27 |
EP1463031A1 (en) | 2004-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1540625B (zh) | 多语种文本-语音系统的前端结构 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN101872615B (zh) | 用于分布式文本到话音合成以及可理解性的系统和方法 | |
Black et al. | Building synthetic voices | |
US7263488B2 (en) | Method and apparatus for identifying prosodic word boundaries | |
KR101169074B1 (ko) | 음조 언어를 위한 분절 음조 모델링 | |
US9880996B2 (en) | System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling | |
US7844457B2 (en) | Unsupervised labeling of sentence level accent | |
CN110010136B (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN1495641A (zh) | 自适应上下文敏感分析有限版权弃权声明 | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Kumar et al. | A comprehensive review of recent automatic speech summarization and keyword identification techniques | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
CN1979636B (zh) | 一种音标到语音的转换方法 | |
US11250837B2 (en) | Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models | |
CN116645957B (zh) | 乐曲生成方法、装置、终端、存储介质及程序产品 | |
Bowden | A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing | |
CN113920981A (zh) | 一种基于n元非自回归语音合成方法、装置及电子设备 | |
CN117953863A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN117153140A (zh) | 一种音频合成方法、装置、设备和存储介质 | |
CN117597728A (zh) | 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 | |
CN115392189A (zh) | 多语种混合语料的生成方法及装置、训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100609 Termination date: 20130324 |