CN1540625A - 多语种文本-语音系统的前端结构 - Google Patents

多语种文本-语音系统的前端结构 Download PDF

Info

Publication number
CN1540625A
CN1540625A CNA2004100326318A CN200410032631A CN1540625A CN 1540625 A CN1540625 A CN 1540625A CN A2004100326318 A CNA2004100326318 A CN A2004100326318A CN 200410032631 A CN200410032631 A CN 200410032631A CN 1540625 A CN1540625 A CN 1540625A
Authority
CN
China
Prior art keywords
text
module
languages
language
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100326318A
Other languages
English (en)
Other versions
CN1540625B (zh
Inventor
敏 初
初敏
彭湖
赵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1540625A publication Critical patent/CN1540625A/zh
Application granted granted Critical
Publication of CN1540625B publication Critical patent/CN1540625B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F7/00Indoor games using small moving playing bodies, e.g. balls, discs or blocks
    • A63F7/02Indoor games using small moving playing bodies, e.g. balls, discs or blocks using falling playing bodies or playing bodies running on an inclined surface, e.g. pinball games
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/32Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F7/00Indoor games using small moving playing bodies, e.g. balls, discs or blocks
    • A63F7/22Accessories; Details
    • A63F7/34Other devices for handling the playing bodies, e.g. bonus ball return means
    • A63F2007/341Ball collecting devices or dispensers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2250/00Miscellaneous game characteristics
    • A63F2250/14Coin operated

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种用于处理语音合成器的多语种文本的文本处理系统,包括的第一语种相关模块,用于对包括第一种语言的输入文本的一部分进行文本和韵律分析中的至少一个。第二语种相关模块对包括第二种语言的输入文本的第二部分进行文本和韵律分析中的至少一个。第三模块适合于接收第一和第二语种相关模块的输出,并且基于多语种文本对输出进行韵律和语音环境的提取。

Description

多语种文本-语音系统的前端结构
发明背景
本发明涉及语音合成,尤其是涉及一种多语种语音合成系统。
背景技术
已经开发的文本-至-语音系统能够使计算机化的的系统通过合成语音与用户交流,这些应用系统包括口语对话系统、呼叫中心服务系统、语音激活的网络和电子邮件服务等等。虽然在过去几年里文本-至-语音系统有了很大发展,但是还存在一些不足之处。例如,许多文本-至-语音系统都仅仅是基于一种语言而设计的,而许多应用都需要有一种系统能够提供多种语言词汇的语音合成,尤其是在同一句话中包含两种以上语言的词汇的语音合成。
目前已经研制出来的提供包含多种语言词汇的语句的语音合成的系统需要使用不同的文本-至-语音引擎以合成句子中的每一种相应的语言的词汇,其中每个引擎分别生成其所合成词汇的波形。然后将波形连接或是用其他的方式连续地输出所述的波形,以便合成出完整的句子来。这种设备的主要缺点在于从两个引擎产生的声音听起来通常会有差别。这种合成出来的话语通常会令用户感到厌烦,因为听起来像两个不同的讲话者在讲话。并且,整个句子的语调也被破坏了,导致句子的可懂度降低。
因此,一种能克服上述至少一部分缺点的多语种语音合成系统将是有用的,并且能够改善多语种语音合成。
发明内容
一种用于语音合成系统的文本处理系统接收包含至少两种语言的混合输入文本,提供适合于语音合成器的后端部分使用的输出。一般地,该文本处理系统包括执行文本处理的语种无关模块和语种相关模块。这种体系结构有利于在不同语种间平滑切换,并且能够使混合语言的语句的语调保持流畅。
附图说明
图1是能够实施本发明的一般计算机环境的方框图。
图2是能够实施本发明的一个移动装置的方框图。
图3A是一个现有技术的语音合成系统的第一实施例方框图。
图3B是一个现有技术的语音合成系统的第二实施例方框图。
图3C是一个现有技术的语音合成系统的前端部分的方框图。
图4是包括语音合成器的文本处理系统的本发明第一实施例的方框图。
图5是包括语音合成器的文本处理系统的本发明第二实施例的方框图。
具体实施方式
在对本发明进行说明之前,有必要先介绍一下可以应用本发明的典型的计算机环境。图1给出了一个可以实施本发明的适合的计算系统环境100。该计算系统环境100只是可以实施本发明的计算系统环境的一个实施例,而并非是对本发明的应用范围或功能进行任何限制。计算环境100也不应被认为是对在实例性操作环境100中所示的任何一个部件或者部件的组合有任何依赖性或要求。
本发明可以用于众多的特定或非特定目的的计算系统环境或配置。常见的适于应用本发明的计算系统、环境或配置包括(但并不限于)如下系统或装置:个人计算机,服务器计算机,手持或膝上型装置,多处理器系统,基于微处理器的系统,机顶盒,可编程电子消费装置,网络PC,小型计算机,大型计算机,包括任何上述的系统或装置的分布式计算环境,等等。
本发明可以使用计算机可执行指令的一般模式来描述,例如计算机执行的程序模块。一般地,程序模块包括子程序、程序、对象、组件、数据结构等,它们用来执行特定的任务或者实现特定的抽象数据类型。本发明也可以被应用于分布式计算环境,其中通过利用通信网络链接的远程处理装置来执行任务。在分布式计算环境中,程序模块可以同时存放在包括存储器存储装置的本地和远程计算机存储介质中。下面就对照附图来说明程序和模块所要执行的任务。本领域普通技术人员能够将下述说明和附图实施成写入任何形式的计算机可读介质的处理器可执行指令。
图1给出了一个实施本发明的典型系统包括一个用于非特定目的的计算装置,该计算装置是一台计算机110。计算机110的部件包括(但不仅限于)一个处理单元120、一个系统存储器130和用于将包括系统存储器在内的各个系统部件连接到处理单元120的系统总线121。系统总线121可以是包括如下几种类型的总线结构中的任何总线结构:一个存储总线或存储控制器、一个外围总线和使用各种总线结构中的任何总线的局部总线。这些总线结构例如但不仅限于工业标准结构(ISA)总线、微通道体系结构(MCA)总线、增强的ISA总线、视频电子标准协会(VESA)局部总线以及外部设备互连(PCI)总线(也叫夹层总线(Mezzanine bus))。
典型地,计算机110包括一些计算机可读介质。计算机可读介质是能被计算机110访问的任一可用介质,包括非易失性介质和易失性介质,可移动介质和不可移动介质。例如但不限于,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括使用任何方法或技术实现信息存储的非易失性的和易失性的、可移动的和不可移动的介质,这些信息可以是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括但不仅限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除只读存储器(EEPROM)、闪存(flash memory)或其他存储器技术、只读光盘存储器(CD-ROM)、数字多功能光盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他磁存储装置,或者其他任何可以用于存储所述信息并且可被计算机100访问的介质。
通信介质包括任何信息传输介质,通常包含计算机可读指令、数据结构、程序模块或其他存在于如载波或其他传输技术使用的调制的数据信号中的数据。术语“调制的数据信号”是指以一种方式设置或改变它的一个或多个特征以在其中对信息进行编码的信号。通信介质包括例如但不仅限于有线介质(例如有线网络或直接有线连接)以及无线介质(例如声波、FR、红外线和其它的无线介质。以上所述介质的任何组合也包括在所述计算机可读介质的范围之内。
系统存储器130包括非易失性和易失性的计算机存储介质,例如只读存储器(ROM)131和随机存取存储器(RAM)132。典型地,基本输入/输出系统133(BIOS)存储在只读存储器131中,其中包含用于协助在计算机110内的元件之间例如在开机过程中传递信息的基本程序。典型地,随机存取存储器132中存储操作单元120所要立即访问和/或即将操作的数据和/或程序模块。图1中举例性地而不是限制性地示出了操作系统134、应用程序135、其他程序模块136以及程序数据137。
计算机110也可以包括其他的可移动/不可移动的、易失性/非易失性的计算机存储介质。仅仅是作为一个例子,图1中给出了用于读取或写入不可移动的、非易失性的磁介质的一个硬盘驱动器141、用于读取或写入可移动的、非易失性的磁盘152的一个磁盘驱动器151、用于读取或写入可移动的、非易失性的光盘156如CD ROM或其他光学介质的一个光盘驱动器155。其他可以被用在所述的典型操作环境中的可移动/不可移动、易失性/非易失性的计算机存储介质包括但不仅限于盒式磁带、闪存卡、数字多功能光盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器141典型地通过不可移动存储接口例如接口140与系统总线121相连接,磁盘驱动器151和光盘驱动器155典型地通过移动存储接口例如接口150与系统总线121相连接。
以上所述并显示在图1中的驱动器以及与其相应的计算机存储介质用于为计算机110存储计算机可读指令、数据结构、程序模块及其它数据。例如,图1中的硬盘驱动器141作为存储操作系统144、应用程序145、其它程序模块146以及程序数据147示出。要注意的是这些组件可以相同或不同于操作系统134、应用程序135、其它程序模块136以及程序数据137。这里,操作系统144、应用程序145、其它程序模块146以及程序数据147用不同于上述组件的附图标记来表示以至少说明它们是不同的拷贝。
用户可以通过输入装置向计算机110输入命令和信息,这些输入装置可以是键盘162、麦克风163以及指点装置如鼠标、轨迹球或触摸板。还可以是其他的输入装置(图上未画出),例如操纵杆、游戏垫、圆盘式卫星电视天线(satellitedish)、扫描仪等。上述输入装置通常是通过一个耦合到系统总线的用户输入接口160连接到处理单元120的,但也可以是通过别的接口和总线结构连接,例如一个并行端口、游戏端口或者通用串行总线(USB)。监视器191或者其他类型的显示装置通过一个接口例如视频接口190也连接到系统总线121。除了该监视器外,计算机也可以包括其他的外部输出设备例如扬声器197以及打印机196,它们通过一个外部输出接口190连接。
计算机110可以通过逻辑连接的方式连接到一台或更多远程计算机(例如远程计算机180)从而在网络环境中进行操作。远程计算机180可以是个人计算机、手持装置、服务器、路由器、网络PC、对等装置(peer device)或者其他常用的网络节点,通常包括多个或所有上述与计算机110相关的部件。图1中所示的逻辑连接包括一个局域网(LAN)171和一个广域网(WAN)173,但也可以包括其它网络。这种网络环境常见于办公室、企业范围内的计算机网络、内部网和因特网。
当被用于局域网环境时,计算机110通过一个网络接口或适配器170连接到局域网171。当被用于广域网的网络环境时,计算机110通常包括一个调制解调器172或在广域网173(比如因特网)上建立通信的其它装置。调制解调器172可以是内置的或者外置的,并通过用户输入接口160或其他适当的机构连接到系统总线121。在网络环境中,所述与计算机110相关的程序模块或其相关部分可以存储在远程存储器存储装置中。图1中实例性而非限制性地示了驻留在远程计算机180上的远程应用程序185。在此要指出的是,所示的网络连接仅仅是示例性的给出,并也可以使用在计算机之间建立通信的其它的装置。
图2给出了又一个示例性的计算环境——移动装置200的方框图。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其他移动装置通信的通信接口208。在一个实施例中,上述组件通过适当的总线210连接以实现相互之间的通信。
存储器204以非易失性电子存储器如随机存取存储器(RAM)实施,并且具有一个备用电池模块(图中未画出)从而能够保证当移动装置200断电时存储器204中的信息不会丢失。存储器204的一部分优选被分配用作程序运行的可寻址存储器,而存储器204的另一部分优选用于实现模拟磁盘驱动器的存储的存储功能。
存储器204包括一个操作系统212、应用程序214以及一个对象仓库216。在操作中,最好是由处理器202从存储器204来运行操作系统212。在一个实施例中,操作系统212采用了从微软公司可购买的WINDOWSCE商标的操作系统。操作系统212最好是专为移动装置设计的,并且具有数据库特征,从而应用程序214可以通过一些已公开的应用编程接口和方法来利用该数据库特征。至少部分地响应对所述已公开的应用编程接口和方法的访问,对象仓库216中的对象受到应用程序214和操作系统212的支持。
通信接口208代表了允许移动装置200发送和接收信息的多种装置和技术。该装置包括有线和无线调制解调器、卫星接收器以及广播调谐器等等。移动装置200还可以直接连接到计算机上与之交换数据,在这种情况下,通信接口208可以是红外无线电收发器或串行或并行通信连接,它们都能够传输流信息。
输入/输出组件206包括多种输入装置(例如触摸感应屏、按钮、滚轮和麦克风)以及多种输出装置(包括音频产生器、振荡装置和显示器)。上述装置仅是作为示例,并不需要都出现在移动装置200中,此外,其他的输入/输出装置也可以被加入到或者出现在移动装置200中,这种情况也包括在本发明的保护范围之内。
为了更好地理解本发明,下面对在图3A和3B分别示出的现有技术的语音合成器(或语音引擎)300和302作一简单介绍是有益的。首先参照图3A,语音合成器300包括一个前端部分或者文本处理系统304,用于处理从306接收的输入文本并通过模块303完成文本分析和韵律分析。模块303的输出308中包含对输入文本306的韵律的符号描述。输出308提供给在引擎300的后端部分或者合成模块312中的单元选择和拼接模块310。单元选择和拼接模块310利用采样语音单元的语料库316产生合成语音波形314。合成语音波形314通过直接语音拼接单元产生,通常不进行任何基频或时长的修改,只要语音语料库316已经涵盖了所有合成单元的足够的韵律和频谱变形并且总能找到合适的段。
语音合成器302也包括文本和韵律分析模块303,用于接收输入文本306并输出其韵律的符号描述308。此外,由图可知,前端部分304还包括一个韵律预测模块320,该韵律预测模块320用于接收韵律符号描述308并在输出322上提供韵律的数字描述。根据众所周知的做法,韵律预测模块320将某些上层韵律约束(例如词性、语法、重音和强调等)作为输入并对基频、时长、能量等进行预测,由此生成确定的数值从而构成输出322。输出322被提供给后端部分312,在这种形式中该后端部分312包括一个语音产生模块326,用于生成具有与322中的韵律数字描述相匹配的韵律特征的合成语音波形314。这个过程可以通过方式实现:在基于共振峰或者LPC的合成器后端设定相应的参数,或者在拼接的后端运用韵律标度算法例如PSOLA或HNM。
附图3C示出了可以形成在语音合成器300和302的前端部分304中用于提供韵律的符号描述308的文本和韵律分析模块303的各种模块。典型的处理模块包括一个文本规整模块340,该文本规整模块340用于接收输入文本306并将输入文本306的货币、日期或其他的部分转换成可读的字词。
在文本规整过程中,可以使用形态分析模块342对输入文本进行形态分析以确定复数、过去时态等信息。必要的话,还可以使用模块344进行句法/语义分析以辨别单词的词性(part of speech(POS))或者预测句子的句法/语义结构。如果需要的话,进一步的处理可以在模块346中完成,模块346根据模块344的输出(即POS标记或句法/语义结构)或者简单地依据逗号、句号等来将单字分组成短语。包括重读、重音和/或焦点(focus)的语义特征通过模块348来预测。字形-至-语音转换模块350依据正确的发音将文字转换成语音符号。303的输出是具有韵律符号描述308的语音单元序列。
要强调的是文本韵律分析模块303的上述组成模块只是示例性的,只是当需要时才被包括在303中以用于从前端部分304生成后端部分312所使用的输出,如图3A或3B中所示。
对于多语种文本,其中每一种语言都要有一个语音引擎300或302来合成。文本中属于每一种语言的部分都要提供给相应的单一语种语音合成器并分别进行处理,然后再利用合适的硬件将产生的多个输出314相互连接或者以其他方式连续的输出。正如在背景技术部分指出的,其缺点在于导致了整句语调的丢失以及一单句话的部分听起来好像是两个或更多不同的讲话者所说的。
图4给出了语音合成系统的文本和韵律分析系统400的第一个实施例,文本和韵律分析系统400用于接收含有由一种或至少两种语言混合组成的句子的输入文本402,并产生适合于通常如图3A或3B所示的语音合成器的后端部分处理的输出432。一般地,前端部分400包括语种无关模块和语种相关模块以实现如图3C中所示的所需功能。这种结构的优点在于能够实现不同语种间的平滑切换以及保持混合语种的语句的语调流畅。图4中自上而下的显示出了这种方法的处理流程。
在实例性实施例中,文本和韵律分析部分400中有一个语言调度模块,该语言调度模块包括一个语种辨别模块406和一个综合处理模块。语种辨别模块406接收输入文本402并包括或联合为其中的句子和/或单字加上标志其所属语言的适当的语种标识符(Id)或标记。由所示的实施例中,由于中文汉字和英文单词使用明显不同的编码形成输入文本402,因而能够相对容易地辨别出输入文本402中的中文或英文部分。而对于像法语、德语或者西班牙语这些具有某些相同字符的语种,则还需要进一步的处理。
含有适当的语种标识符的输入文本被提供到综合处理模块410,一般地,综合处理模块410用于管理语种无关模块和语种相关模块之间的数据流动,以及维持数据的统一流动以保证正确处理所接收到的每个模块的输出。典型地,综合处理模块410首先把带有语种标识符的输入文本传送给文本规整模块412。在所示实施例中,文本规整模块412是一个与语种无关的规则解释器。模块412包括两个组件,一个是模式识别器,另一个是模式解释器,该模式解释器用于依据规则将一个匹配模式转换为一个可读的文本串。每个规则由两部分组成,开始部分是一个模式的定义,其余部分是该模式的转换规则。定义部分可以是为两种语言所共用的也可以是指定给它们中的一种语言。转换规则通常是特定的语言。如果有新的语种加入,只需要添加针对新语种的新规则即可,而无需改动规则解释模块。正如本领域普通技术人员所理解的是,文本规整模块412也可以设在语种辨别模块410之前,只要在文本规整模块412中提供适当的操作以辨别输入文本中每种语言的词汇即可。
当接收到文本规整模块412的输出后,综合处理模块410将适当的单词和/或短语传送到适当的语种相关模块进行文本和韵律分析。在所示实施例中提供了一个汉语普通话模块420和一个英语模块422。汉语模块420和英语模块422用于处理所有的语种细节处理,例如两种语言的语法和字-音转换、汉语的词的切分以及英语的缩写还原等等。在图4中,转换器418示意性的说明了综合处理器(integrator)410按照语种标识符的指示将部分输入文本传送到适当的语种相关模块的功能。
除了语种标识符以外,输入文本402的分段中还包括指示其在输入文本402中的位置的标识符或与其关联,以使一旦在接收到各个语种无关模块和语种相关模块的输出时综合处理器410可以重构该分段的正确顺序,原因是并非所有的分段都是被同一个模块处理。这样就可以进行并行处理,从而加快了对输入文本402处理的速度。当然,也可以按在输入文本402中出现的顺序逐段地处理输入文本402。
然后,各个语种相关模块的输出还要经过一个用于韵律和语音环境的统一的特征提取模块430进行处理。在这种方式下,由于在通过模块420和422对汉语和英语分段适当地进行文本和韵律分析之后对整个句子的韵律和语音环境进行了分析,因此整个句子的句调也没有丢失。在所示实施例中,文本和韵律分析部分400的输出432是一个顺序的单元序列(包括英语单元和汉语普通话单元),并且具有包括韵律和语音环境在内的统一的特征向量。这样,就可以通过如图3A中所示的后端部分中提供单元拼接,下面将进一步描述单元拼接的实例性实施例。可选的,如果需要,文本和韵律分析部分400可以与一个适当的语种无关模块连接以用于进行韵律预测(类似于模块320)并提供韵律的数字描述作为输出。再将韵律数字描述提供给后端部分312,如图3B所示。
图5给出了作为本发明的另一个实施例的一个双语种文本和韵律分析系统450,其中文本和韵律分析被划分成4个孤立的示例性功能模块,包括语形分析452、停顿分析454、强调/重音分析456和字形-至-语音转换458。其中每个功能都包括分别支持英语和汉语普通话的两个模块。与图4类似,图5中也自上而下的显示了对输入文本的处理顺序流程。虽然图中只出现了英语和汉语普通话两种语言,但是显然可以很容易地对所述文本和韵律分析部分400、450加以改变以适用于所需的更多语言。此外,还需要注意的是,其他语种相关模块和/或语种无关模块也可以根据需要而很容易地集成在所述的文本处理系统结构中。
在一个实施例中,后端部分312可以使用如提供单元拼接的图3A中所示的形式。对于一个包括汉语普通话和英语的多语种系统来说,汉语普通话的最小单元是音节,而英语的最小单元是音素。单元选择算法应该从具有合适韵律的候选单元库中选取音段,以便尽可能地实现自然、完美的拼接。这里需要考虑7个韵律约束条件。它们包括:在短语中的位置、在单词中的位置、在音节中的位置、左音调、右音调、在单词中的重音等级以及在短语中的重音等级。其中,在音节中的位置和在单词中的重音等级仅适用于英语,而左/右音调则仅适用于汉语普通话。
使用CART(分类回归树)通过查询韵律约束条件对基本单元的所有样本进行聚类。CART的分裂依据是使f0均值、f0的动态幅度和时长三个特征的MSE(均方差)的加权和的减小最大,其中每个特征的MSE被定义为所有样本的特征值与其主叶的均值之间的距离的平方的均值。当树生成以后,位于同一个叶子节点的所有样本具有相似的韵律特征。单元之间拼接的连续性通过使用两个语音约束条件、左右语音环境和平滑代价来保证。拼接代价被定义为在7个韵律约束条件、2个语音约束条件和平滑代价的源点-目标距离的加权和。每个韵律/语音约束的距离表以及所有部分的权值首先手动设定,而后以如下的方法自动调整,该方法参见“Perpetually optimizing the cost function for unit selection in a TTSsystem for one single run of MOS evaluation”,Proc.of ICSLP’2002,Denver,by H.Peng,Y.Zhao and M.Chu。当合成一个语句时,首先利用韵律约束条件为每个单元找到一个样本聚类集(CART树的一个叶子节点),然后应用Viterbi搜索算法来为每个单元查找产生最小总体拼接代价的最佳样本。所选的分段随后被逐个拼接以得到所要合成的语句。较佳地,单元语料库是由同一个双语的发音人的发音来建立的。虽然两种语言采用的单元大小不同,但它们具有相同的单元选择算法和特征集。因此,语音合成器的后端部分可以处理单语种或者双语种混合的单元序列。以上所述的单元样本的选择方法在2002年7月25日公开的专利申请号20020099547A1、名称为“Method and Apparatus for Speech Synthesis WithoutProsody Modification”的美国专利中有更为详尽的描述,在此以引用参考的方式将其全部内容结合在本申请中。
虽然本发明是参照特定的实施例来描述的,本领域普通技术人员应能认识到在其形式和细节上所作的任何改变都不脱离本发明的精神和范围。

Claims (20)

1.一种用于处理语音合成器的多语种文本的文本处理系统,该文本处理系统包括:
第一语种相关模块,用于对包括第一种语言的输入文本的一部分进行文本和韵律分析中的至少一个;
第二语种相关模块,用于对包括第二种语言的输入文本的第二部分进行文本和韵律分析中的至少一个;以及
第三模块,用于接收第一和第二语种相关模块的输出,并且基于多语种文本对输出进行韵律和语音环境的提取。
2.如权利要求1所述的文本处理系统,还包括一个文本规整模块,用于对文本进行规整以便于第一语种相关模块和第二语种相关模块进行处理。
3.如权利要求1或2所述的文本处理系统,还包括一个语种识别器模块,该语种识别器模块适合于接收多语种文本,并且把包括第一种语言的部分的标识符和包括第二种语言的部分的标识符相关联。
4.如权利要求3所述的文本处理系统,还包括一个综合处理器模块,该综合处理器模块适合于接收每个模块的输出并适当地将所说述处理的输出转发到另一个模块。
5.如权利要求4所述的文本处理系统,其中根据关联的标识符的,所述综合处理器将所述输出转发到第一语种相关模块和第二语种相关模块。
6.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行语言形态分析。
7.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行停顿分析。
8.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行重音分析。
9.如权利要求5所述的文本处理系统,其中所述的第一语种相关模块和第二语种相关模块适合于进行字形-至-语音转换。
10.一种用于语音合成器中多语种文本的文本处理的方法,该方法包括:
接收输入文本,并标识包括第一种语言的部分和包括二种语言的部分;
利用第一语种相关模块对包括第一种语言的部分进行文本和韵律分析中的至少一个,并且利用第二语种相关模块对包括第二种语言的部分进行文本和韵律分析中的至少一个;以及
接收第一和第二语种相关模块的输出,并且基于多语种文本对输出进行韵律和语音环境的提取。
11.如权利要求10所述的方法,还包括对输入文本进行规整。
12.如权利要求10或11所述的方法,其中所述标识部分包括把标识符与各个部分相关联。
13.如权利要求12所述的方法,还包括根据与部分相关联的标识符,将所述部分转发给第一语种相关模块和第二语种相关模块。
14.如权利要求10、11、12或13所述的方法,还包括根据文本中的顺序来标识文本的部分。
15.如权利要求10、11、12、13或14所述的方法,其中执行韵律和语音环境的提取包括输出所述多语种文本的韵律的符号描述。
16.如权利要求10、11、12、13或14所述的方法,其中执行韵律和语音环境的提取包括输出所述多语种文本的韵律的数字描述。
17.一种计算机可读介质,其中包含在其被实施时能够使计算机执行权利要求10-16的方法中的任何一种方法的计算机可读指令。
18.一种适合于实施权利要求10-16的方法中的任何一种方法的系统。
19.一种计算机可读介质,包含在被处理器运行时能够进行语音合成的指令,所述指令包括:
文本处理模块,包括:
第一语种相关模块,用于对包括第一种语言的输入文本的一部分进行文本和韵律分析中的至少一个;
第二语种相关模块,用于对包括第二种语言的输入文本的第二部分进行文本和韵律分析中的至少一个;
第三模块,适合于接收第一和第二语种相关模块的输出,并对包括多语种文本的输出进行韵律和语音环境的提取;以及
合成模块,适合于接收第三模块的输出并基于它而生成合成的语音波形。
20.如权利要求19所述的计算机可读介质,还包括一个语种识别器模块,该语种识别器模块适合于接收多语种文本,并且把包括第一种语言的部分的标识符和包括第二种语言的部分的标识符相关联。
CN2004100326318A 2003-03-24 2004-03-24 多语种文本-语音系统的前端结构 Expired - Fee Related CN1540625B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/396,944 US7496498B2 (en) 2003-03-24 2003-03-24 Front-end architecture for a multi-lingual text-to-speech system
US10/396,944 2003-03-24

Publications (2)

Publication Number Publication Date
CN1540625A true CN1540625A (zh) 2004-10-27
CN1540625B CN1540625B (zh) 2010-06-09

Family

ID=32824965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004100326318A Expired - Fee Related CN1540625B (zh) 2003-03-24 2004-03-24 多语种文本-语音系统的前端结构

Country Status (6)

Country Link
US (1) US7496498B2 (zh)
EP (1) EP1463031A1 (zh)
JP (1) JP2004287444A (zh)
KR (1) KR101120710B1 (zh)
CN (1) CN1540625B (zh)
BR (1) BRPI0400306A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN102360543B (zh) * 2007-08-20 2013-03-27 微软公司 基于hmm的双语(普通话-英语)tts技术
US8898066B2 (en) 2010-12-30 2014-11-25 Industrial Technology Research Institute Multi-lingual text-to-speech system and method
CN106528535A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
WO2020200178A1 (zh) * 2019-04-03 2020-10-08 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质

Families Citing this family (276)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8214216B2 (en) * 2003-06-05 2012-07-03 Kabushiki Kaisha Kenwood Speech synthesis for synthesizing missing parts
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US8666746B2 (en) * 2004-05-13 2014-03-04 At&T Intellectual Property Ii, L.P. System and method for generating customized text-to-speech voices
CN100592385C (zh) * 2004-08-06 2010-02-24 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
US7869999B2 (en) * 2004-08-11 2011-01-11 Nuance Communications, Inc. Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US7912718B1 (en) 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
WO2008076969A2 (en) * 2006-12-18 2008-06-26 Semantic Compaction Systems An apparatus, method and computer readable medium for chinese character selection and output
JP2008171208A (ja) * 2007-01-11 2008-07-24 Casio Comput Co Ltd 音声出力装置及び音声出力プログラム
US8165879B2 (en) * 2007-01-11 2012-04-24 Casio Computer Co., Ltd. Voice output device and voice output program
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
EP2188729A1 (en) * 2007-08-08 2010-05-26 Lessac Technologies, Inc. System-effected text annotation for expressive prosody in speech synthesis and recognition
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
JP5398909B2 (ja) * 2009-06-10 2014-01-29 株式会社東芝 テキスト音声合成方法及びシステム
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5343293B2 (ja) * 2009-07-08 2013-11-13 株式会社日立製作所 音声編集合成装置及び音声編集合成方法
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8327261B2 (en) * 2010-06-08 2012-12-04 Oracle International Corporation Multilingual tagging of content with conditional display of unilingual tags
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8731932B2 (en) * 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8688435B2 (en) 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
KR101401427B1 (ko) * 2011-06-08 2014-06-02 이해성 전자책 데이터 음성 합성 장치 및 그 방법
WO2012169844A2 (ko) * 2011-06-08 2012-12-13 주식회사 내일이비즈 전자책 데이터 음성 합성 장치 및 그 방법
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US20120330644A1 (en) * 2011-06-22 2012-12-27 Salesforce.Com Inc. Multi-lingual knowledge base
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9195648B2 (en) * 2011-10-12 2015-11-24 Salesforce.Com, Inc. Multi-lingual knowledge base
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8452603B1 (en) * 2012-09-14 2013-05-28 Google Inc. Methods and systems for enhancement of device accessibility by language-translated voice output of user-interface items
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9959270B2 (en) 2013-01-17 2018-05-01 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
US9418655B2 (en) * 2013-01-17 2016-08-16 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
EP2973002B1 (en) 2013-03-15 2019-06-26 Apple Inc. User training by intelligent digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
JP6249760B2 (ja) * 2013-08-28 2017-12-20 シャープ株式会社 テキスト読み上げ装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9916185B2 (en) 2014-03-18 2018-03-13 International Business Machines Corporation Managing processing associated with selected architectural facilities
US9582295B2 (en) 2014-03-18 2017-02-28 International Business Machines Corporation Architectural mode configuration
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9865251B2 (en) * 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10521945B2 (en) * 2016-12-23 2019-12-31 International Business Machines Corporation Text-to-articulatory movement
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11017761B2 (en) 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP7178028B2 (ja) * 2018-01-11 2022-11-25 ネオサピエンス株式会社 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
WO2020012813A1 (ja) * 2018-07-09 2020-01-16 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020101263A1 (en) 2018-11-14 2020-05-22 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
KR20200056261A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111858837A (zh) * 2019-04-04 2020-10-30 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
TWI725608B (zh) 2019-11-11 2021-04-21 財團法人資訊工業策進會 語音合成系統、方法及非暫態電腦可讀取媒體
CN111179904B (zh) * 2019-12-31 2022-12-09 出门问问创新科技有限公司 混合文语转换方法及装置、终端和计算机可读存储介质
CN112397050B (zh) * 2020-11-25 2023-07-07 北京百度网讯科技有限公司 韵律预测方法、训练方法、装置、电子设备和介质
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
JPH0225973A (ja) * 1988-07-15 1990-01-29 Casio Comput Co Ltd 機械翻訳装置
JPH02110600A (ja) * 1988-10-20 1990-04-23 Matsushita Electric Ind Co Ltd 音声規則合成装置
JPH03196198A (ja) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd 音声規則合成装置
JPH03245192A (ja) * 1990-02-23 1991-10-31 Oki Electric Ind Co Ltd 外国語単語の発音決定方法
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JPH06289889A (ja) * 1993-03-31 1994-10-18 Matsushita Electric Ind Co Ltd 音声合成装置
JP2522154B2 (ja) * 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
JPH0728825A (ja) * 1993-07-12 1995-01-31 Matsushita Electric Ind Co Ltd 音声合成装置
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
WO1997008686A2 (en) * 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on tree organised probability densities
EP0788648B1 (en) * 1995-08-28 2000-08-16 Koninklijke Philips Electronics N.V. Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
JP2871561B2 (ja) * 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6230131B1 (en) * 1998-04-29 2001-05-08 Matsushita Electric Industrial Co., Ltd. Method for generating spelling-to-pronunciation decision tree
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6151576A (en) * 1998-08-11 2000-11-21 Adobe Systems Incorporated Mixing digitized speech and text using reliability indices
JP2000075878A (ja) 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
WO2000030069A2 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
US6185533B1 (en) * 1999-03-15 2001-02-06 Matsushita Electric Industrial Co., Ltd. Generation and synthesis of prosody templates
JP3711411B2 (ja) * 1999-04-19 2005-11-02 沖電気工業株式会社 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2001022375A (ja) * 1999-07-06 2001-01-26 Matsushita Electric Ind Co Ltd 音声認識合成装置
CN1160699C (zh) * 1999-11-11 2004-08-04 皇家菲利浦电子有限公司 语音识别系统
GB2357943B (en) * 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
US7010489B1 (en) * 2000-03-09 2006-03-07 International Business Mahcines Corporation Method for guiding text-to-speech output timing using speech recognition markers
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
JP2001350490A (ja) * 2000-06-09 2001-12-21 Fujitsu Ltd テキスト音声変換装置及び方法
US6505158B1 (en) * 2000-07-05 2003-01-07 At&T Corp. Synthesis-based pre-selection of suitable units for concatenative speech
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system
US6871178B2 (en) * 2000-10-19 2005-03-22 Qwest Communications International, Inc. System and method for converting text-to-voice
US6990450B2 (en) * 2000-10-19 2006-01-24 Qwest Communications International Inc. System and method for converting text-to-voice
US6978239B2 (en) 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360543B (zh) * 2007-08-20 2013-03-27 微软公司 基于hmm的双语(普通话-英语)tts技术
US8898066B2 (en) 2010-12-30 2014-11-25 Industrial Technology Research Institute Multi-lingual text-to-speech system and method
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN102903362B (zh) * 2011-09-02 2015-08-19 微软技术许可有限责任公司 集成的本地和基于云的语音识别
CN106528535A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
CN106528535B (zh) * 2016-11-14 2019-04-26 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
WO2020200178A1 (zh) * 2019-04-03 2020-10-08 北京京东尚科信息技术有限公司 语音合成方法、装置和计算机可读存储介质
US11881205B2 (en) 2019-04-03 2024-01-23 Beijing Jingdong Shangke Information Technology Co, Ltd. Speech synthesis method, device and computer readable storage medium
CN111292720A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
KR20040084753A (ko) 2004-10-06
JP2004287444A (ja) 2004-10-14
BRPI0400306A (pt) 2005-01-04
US20040193398A1 (en) 2004-09-30
US7496498B2 (en) 2009-02-24
CN1540625B (zh) 2010-06-09
KR101120710B1 (ko) 2012-06-27
EP1463031A1 (en) 2004-09-29

Similar Documents

Publication Publication Date Title
CN1540625B (zh) 多语种文本-语音系统的前端结构
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN101872615B (zh) 用于分布式文本到话音合成以及可理解性的系统和方法
Black et al. Building synthetic voices
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
KR101169074B1 (ko) 음조 언어를 위한 분절 음조 모델링
US9880996B2 (en) System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
US7844457B2 (en) Unsupervised labeling of sentence level accent
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN1495641A (zh) 自适应上下文敏感分析有限版权弃权声明
CN110600002B (zh) 语音合成方法、装置及电子设备
CN113327574B (zh) 一种语音合成方法、装置、计算机设备和存储介质
Kumar et al. A comprehensive review of recent automatic speech summarization and keyword identification techniques
Lorenzo-Trueba et al. Simple4all proposals for the albayzin evaluations in speech synthesis
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
CN1979636B (zh) 一种音标到语音的转换方法
US11250837B2 (en) Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models
CN116645957B (zh) 乐曲生成方法、装置、终端、存储介质及程序产品
Bowden A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing
CN113920981A (zh) 一种基于n元非自回归语音合成方法、装置及电子设备
CN117953863A (zh) 语音合成方法、装置、设备及存储介质
CN117153140A (zh) 一种音频合成方法、装置、设备和存储介质
CN117597728A (zh) 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆
CN115392189A (zh) 多语种混合语料的生成方法及装置、训练方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100609

Termination date: 20130324