CN1320482C - 标识文本串中的自然语音停顿的方法 - Google Patents

标识文本串中的自然语音停顿的方法 Download PDF

Info

Publication number
CN1320482C
CN1320482C CNB031327087A CN03132708A CN1320482C CN 1320482 C CN1320482 C CN 1320482C CN B031327087 A CNB031327087 A CN B031327087A CN 03132708 A CN03132708 A CN 03132708A CN 1320482 C CN1320482 C CN 1320482C
Authority
CN
China
Prior art keywords
word
natural
text string
sounding
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB031327087A
Other languages
English (en)
Other versions
CN1604183A (zh
Inventor
陈桂林
祖漪清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to CNB031327087A priority Critical patent/CN1320482C/zh
Priority to PCT/US2004/030570 priority patent/WO2005034085A1/en
Priority to RU2006114740/09A priority patent/RU2319221C1/ru
Priority to EP04784433A priority patent/EP1668631A4/en
Priority to KR1020067006094A priority patent/KR20060056403A/ko
Publication of CN1604183A publication Critical patent/CN1604183A/zh
Application granted granted Critical
Publication of CN1320482C publication Critical patent/CN1320482C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

本发明公开了一种用于自动标识文本串中的自然语音停顿的方法(400),该停顿用于在电子设备(100)上进行的文语转换之中。该方法(400)包括:获取包括两端的所述文本串(420),这两端是开始端和结束端。然后进行分析步骤(440),分析所述文本串中的至少一个单词以判断所述单词附近是否存在自然语音停顿,所述分析是基于至少一个用于所述单词的预设门限值的,所述预设门限值与所述单词和文本串的所述两端中的一端之间的音节的数量相关联。然后提供插入步骤(460),将所述自然语音停顿插入到文本串的合成语音信号输出表示中。

Description

标识文本串中的自然语音停顿的方法
技术领域
本发明一般涉及文语转换(TTS)合成。本发明对于确定文本段的合成语言中的自然停顿尤其有用。
背景技术
文语(TTS)转换,通常也被称作连续文本到语音的合成,其允许电子设备接收输入的文本串并以合成语音的形式提供该文本串的转换后的表示。但是,对于需要将来自不定数量的接收到的文本串进行语音合成的设备来说,提供高质量的逼真的合成语音是非常困难的。这是因为需要合成的每个单词或者音节(对于汉语字符及类似的字符)的语言都是上下文相关和位置相关的。例如,句子(输入的文本串)结尾处单词的语言可以拉长或者延长。甚至如果在自然语音停顿中需要强调的地方出现在句子的中间,相同单词的语言也可以延长。
在大多数语言中,单词的语言取决于音韵参数,音韵参数包括音调(基音周期)、音量(功率或幅度)和时长。单词的韵律参数值取决于单词在词组中的位置和自然语音停顿的位置。但是,在文语转换(TTS)合成的现有技术中并不容易出现用于改变随机输入文本模式的自然语音停顿的标识。
在本说明书以及权利要求书中,术语“包括(comprise)”、“包含(comprising)”或其它类似术语指的是非排他性的包含,例如一种包括一系列单元的方法或装置,其不仅包括那些已单独列出的单元,还可能很好地包括那些并没有列出的单元。
发明内容
根据本发明的一个方面,提供了一种用于自动标识文本串中自然语音停顿的方法,该停顿用于在电子设备上进行的文语转换中,该方法包括:
获取包括两端的文本串,这两端是开始端和结束端;
分析文本串中的至少一个单词以判断该单词附近是否存在自然语音停顿,该分析是基于至少一个用于单词的预设门限值的,该预设门限值与该单词和文本串两端中的一端之间的音节的数量相关联;和
将自然语音停顿插入到文本串的合成语音信号输出表示中。
优选地,所述的至少一个预设门限值包括P单词(P_word)门限值,其基于开始端和该单词之间的音节的数量。
优选地,所述的至少一个预设门限值包括F单词(F_word)门限值,其基于结束端和该单词之间的音节的数量。
优选地,所述的至少一个预设门限值是通过下述步骤确定的:
向口述记录(transcription)的训练集提供至少一个由插入的标识符所标识的自然语音停顿;
将每个口述记录中的单词标识为P单词和F单词;
统计地分析训练集中的P单词和F单词;
从统计分析的结果中确定F单词门限值和P单词门限值。
优选地,插入的自然语音停顿还可包括标识为词性(POS)模式自然停顿的停顿。
优选地,插入的自然语音停顿还可包括标识为组合词自然停顿的停顿。
附图说明
为了使本发明易于理解并付诸实施,现在将结合附图来参考引用所示的优选实施例,其中:
图1是根据本发明的电子设备的示意性框图;
图2说明了用于确定与文本串中的自然语音停顿相关联的门限值的方法200;
图3A到3D说明了用于图2的方法的口述记录示例。
图4说明了用于自动标识文本串中的自然语音停顿的方法;和
图5是图4的分析步骤的详细说明。
具体实施方式
参看图1,以无线电话的形式示出了电子设备100,该电子设备100包括设备处理器102,其通过总线103有效地连接到用户界面104,典型地,用户界面104是接触屏或显示屏和键区。电子设备100还具有语言语料库106、语音合成器110、非易失性存储器120、只读存储器118和无线通信模块116,它们全都通过总线103有效地连接到处理器102。语音合成器110具有输出端,该输出端连接并驱动扬声器112。语料库106包括单词或者音素的表示及相关采样的、数字化的并处理过的语言波形PUW。换句话说,如下所述,非易失性存储器120(存储模块)提供了用于文语转换(TTS)合成的文本串(该文本可由模块116或其它设备接收)。波形语言语料库还包括表示词组及相应的采样并数字化的语言波形的口述记录,和位于与如下所述的自然停顿边界相关的位置的文本串。
如本领域技术人员所显而易见的,典型地,射频通信单元116是一个具有公用天线的组合的接收器和发射器。该射频通信单元116具有通过射频放大器连接到天线的收发器。该收发器还连接到将通信单元116连接到处理器102的公用的调制器/解调器。同时,在该实施例中,非易失性存储器120(存储模块)储存可编程的电话簿数据库Db,而只读存储器118储存用于设备处理器102的操作代码(OC)。
参看图2,说明了用于确定与文本串中的自然语音停顿相关联的门限值的方法200。该门限值基于训练集TS中的口述记录中的前、后的多个音节。在开始步骤210之后,方法200实施提供步骤220,用于向口述记录(典型地是一些句子)的训练集TS提供至少一个由手工插入的标点符号或标识符“|”所标识的自然语音停顿。图3A到3D中示出了这样的口述记录或者句子示例。这些口述记录中的一个300是“Based on our history|in China,”,其在单词“history”和“in”之间具有自然语音停顿310。对于口述记录300来说,有一个开始端305和一个结束端315。如本领域技术人员所显而易见的,图3A到3D中的所有的口述记录300都具有至少一个自然语音停顿310以及开始端305和结束端315。对这些口述记录的进一步的分析如下所示:
Based=2个音节
on=1个音节
our=1个音节
history=3个音节
in=1个音节
China=2个音节
同时,口述记录中的每个单词都可以被指定为:(i)P单词:口述记录中紧挨着前面的、由标点符号“|”标识的自然停顿的单词;(ii)F单词:口述记录中紧挨着后面的、由标点符号“|”标识的自然停顿的单词;(iii)中间词:在口述记录中旁边没有自然语音停顿的单词。在步骤220之后,标识步骤230将把每个口述记录中的单词标识为(i)P单词;(ii)F单词;或(iii)中间词。由此,对于口述记录“Based onour history|in China,”,下面的表1标识了口述记录中的每个单词的属性:
  单词   P单词   F单词   音节数量   停顿
  Based   N   N   0   N
  on   N   N   2   N
  our   N   N   3   N
  history   N   Y   4   后
in Y N 7
  China   N   N   1   N
表1对口述记录“Based on our history in China”的分析
然后,方法200进行统计分析步骤240。在此步骤240,如果所提供的训练集TS具有90,000条口述记录(例如句子)并且假定单词“in”在训练集中出现了10,000次的话,那么对于“in”的这10,000个例子来说,可以观察到下面的统计分析:
(i)“in”作为P单词出现(OPW)的数量=8,000例;
(ii)“in”作为F单词出现(OFW)的数量=1,000例;
(iii)“in”作为中间单词(既不是P单词,也不是F单词)出现(ONW)的数量=1,000例;
进一步地,从训练集TS中标识的“in”的8,000例作为P单词的出现中,可以观察到下面的统计分析:
(i)前面出现8个或更多的音节(OPS)=0;
(ii)前面出现7个音节(OPS)=400;
(iii)前面出现6个音节(OPS)=600;
(iv)前面出现5个音节(OPS)=2,000;
(v)前面出现4个音节(OPS)=3,000;
(vi)前面出现3个音节(OPS)=1,000;
(vii)前面出现2个音节(OPS)=1,000;
(viii)前面出现1个音节(OPS)=0;
直觉和试验所选取的启发率(heuristic ratio)HR为0.75,其用于确定单词“in”的P单词停顿门限值PT。这个门限值PT是在确定门限值步骤250确定的,其步骤如下:
从观察到的音节的最大数量到观察到的音节的最小数量,从最大的OPS执行,直到:
OPS的和/OPW 0.75
将PT选取为由OPS求和中的最后一个OPS所标识的观察到的音节的数量;
结束。
因此,“in”的PT将在步骤250如下地确定:
400/8,000=0.05                     7个在前的音节;
(400+600)/8,000=0.125              6个在前的音节;
(400+600+2,000)/8,000=0.375        5个在前的音节;
(400+600+2,000+3,000)/8,000=0.75   4个在前的音节;
因此PT选择为4。
使用相似的统计分析来在步骤250确定“in”的F单词停顿门限值,再次使用0.75的启发率HR。同时,为训练集TS中所有其它单词的所有其它P单词和F单词的例子确定PT和FT值(使用0.75的启发率HR)。方法200随后在步骤260结束,训练集TS中所有单词的所有P单词和F单词的例子都被储存在非易失性存储器120中。
参看图4,说明了用于自动标识文本串STR中的自然语音停顿的方法400,该停顿用于在电子设备100上进行的文语转换中。在开始步骤410之后,方法400实施获取包括两端的文本串STR的步骤420,这两端是开始端SE和结束端FE。选择单词步骤430选择一个单词(或者组合词CW),分析步骤440用于分析文本串STR中的至少一个单词(或组合词CW),以判断该单词(或组合词CW)附近是否存在自然语音停顿,这个分析是基于该单词的至少一个预设门限值(PT或FT)的,该门限值与该单词和文本串的两端中的一端之间的音节的数量相关联。门限值包括P单词门限值PT,其基于开始端和该单词之间的音节的数量。门限值还包括F单词门限值FT,其基于结束端和该单词之间的音节的数量。
如果测试步骤450判断步骤440标识了停顿的话,那么在步骤460,就会插入自然语音停顿用于语音合成。否则将不会为在步骤430选择的单词插入停顿。然后,在步骤470,检查以判断是否已经分析了文本串STR中的所有单词,如果还有单词没有分析的话就返回到步骤430。否则,语音合成步骤480将在合成器110使用语料库106进行语音合成,其中将出现的一个或多个自然语音停顿(在步骤460插入到文本串STR中)插入到文本串STR的合成语音信号输出表示中。
参看图5,说明了分析步骤440的更详细的图。首先,在步骤441检查文本串STR,以判断其是否具有词性(POS)模式自然停顿。POS模式自然停顿的例子如下所示:
1.数词+名词
例如:two thousand books
2.动词+副词
例如:look carefully
3.介词+名词
例如:with telescopes
4.形容词+名词
例如:beautiful city
如果在步骤441确定具有停顿的话,那么将进行步骤446,该停顿被标识为F单词停顿。如果在步骤441确定没有停顿的话,那么将在步骤442检查文本串STR,以判断其是否具有组合词自然停顿插入停顿。组合词自然停顿的例子如下所示:
a bit of
a body of
a few
a fleet of
a flooding of
a fraction of
a function of
a good deal
a good deal of
a great deal
a great deal of
a hint of
a large body of
a large number of
a lot ofland
a majority of
如果在步骤442确定具有停顿的话,那么将进行步骤446,该停顿被标识为F单词停顿。如果在步骤442确定没有停顿被标识的话,那么在步骤443,将进行一个测试以判断是否达到了所选单词的P单词门限值PT。通过比较文本串STR中开始端与所选单词之间的音节的数量来进行这个判断。如果达到了所选单词的P单词门限值PT的话,那么就会确定存在自然停顿,并在步骤444将其标识为P单词停顿。另外,如果在步骤443没有停顿被标识的话,那么在步骤445,将进行一个测试以判断是否达到了所选单词的F单词门限值FT。通过比较文本串STR中结束端与所选单词之间的音节的数量来进行这个判断。如果达到了所选单词的F单词门限值FT的话,那么就会确定存在自然停顿,并在步骤446将其标识为F单词停顿。否则,在步骤447没有停顿被标识。
本发明的优点在于,允许标识文本串中的自然语音停顿,用于文语转换(TTS)合成,由此改善合成语音的质量。
以上的详细说明书仅仅是提供了优选的示范实施例,而并不希望限制本发明的范围、适用性或者配置。优选示范实施例的详细说明是为了使本领域技术人员可以实现本发明的优选示范实施例。应该可以理解,在不背离如所附权利要求中所阐述的本发明的精神和范围的前提下,在元素的功能和结构上可以作出多种的改变。

Claims (6)

1.一种用于自动标识文本串中的自然语音停顿的方法,该停顿用于在电子设备上进行的文语转换之中,该方法包括:
获取包括两端的所述文本串,这两端是开始端和结束端;
分析所述文本串中的至少一个单词以判断所述单词附近是否存在自然语音停顿,所述分析基于至少一个用于所述单词的预设门限值,所述预设门限值与所述单词和文本串的所述两端中的一端之间的音节的数量相关联;和
将所述自然语音停顿插入到文本串的合成语音信号输出表示中。
2.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法,其中,所述的至少一个预设门限值包括P单词门限值,其基于所述开始端和所述单词之间的音节的数量。
3.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法,其中,所述的至少一个预设门限值包括F单词门限值,其基于所述结束端和所述单词之间的音节的数量。
4.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法,其中,所述的至少一个预设门限值是通过下述步骤确定的:
向口述记录的训练集提供至少一个由插入的标识符所标识的自然语音停顿;
将每个所述口述记录中的单词都标识为P单词和F单词;
统计地分析所述训练集中的所述P单词和F单词;
从所述的统计分析的结果中确定所述F单词门限值和P单词门限值。
5.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法,其中,所述插入的自然语音停顿还可包括标识为词性模式自然停顿的停顿。
6.如权利要求1所述的用于自动标识文本串中的自然语音停顿的方法,其中,所述插入的自然语音停顿还可包括标识为组合词自然停顿的停顿。
CNB031327087A 2003-09-29 2003-09-29 标识文本串中的自然语音停顿的方法 Expired - Lifetime CN1320482C (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CNB031327087A CN1320482C (zh) 2003-09-29 2003-09-29 标识文本串中的自然语音停顿的方法
PCT/US2004/030570 WO2005034085A1 (en) 2003-09-29 2004-09-17 Identifying natural speech pauses in a text string
RU2006114740/09A RU2319221C1 (ru) 2003-09-29 2004-09-17 Идентификация естественных речевых пауз в текстовой строке
EP04784433A EP1668631A4 (en) 2003-09-29 2004-09-17 IDENTIFICATION OF THE NATURAL BREAKS OF A SPEECH IN A TEXT CHAIN
KR1020067006094A KR20060056403A (ko) 2003-09-29 2004-09-17 텍스트 문자열에서 자연 스피치 포즈 식별

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB031327087A CN1320482C (zh) 2003-09-29 2003-09-29 标识文本串中的自然语音停顿的方法

Publications (2)

Publication Number Publication Date
CN1604183A CN1604183A (zh) 2005-04-06
CN1320482C true CN1320482C (zh) 2007-06-06

Family

ID=34398361

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031327087A Expired - Lifetime CN1320482C (zh) 2003-09-29 2003-09-29 标识文本串中的自然语音停顿的方法

Country Status (5)

Country Link
EP (1) EP1668631A4 (zh)
KR (1) KR20060056403A (zh)
CN (1) CN1320482C (zh)
RU (1) RU2319221C1 (zh)
WO (1) WO2005034085A1 (zh)

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CN1260704C (zh) * 2003-09-29 2006-06-21 摩托罗拉公司 语音合成方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008075076A2 (en) * 2006-12-21 2008-06-26 Symbian Software Limited Communicating information
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9542929B2 (en) 2014-09-26 2017-01-10 Intel Corporation Systems and methods for providing non-lexical cues in synthesized speech
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110970013A (zh) * 2019-12-23 2020-04-07 出门问问信息科技有限公司 一种语音合成方法、装置以及计算机可读存储介质
CN111667816B (zh) * 2020-06-15 2024-01-23 北京百度网讯科技有限公司 模型训练方法、语音合成方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0659695A (ja) * 1992-08-11 1994-03-04 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声規則合成装置
CN1099165A (zh) * 1994-04-01 1995-02-22 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
US5634086A (en) * 1993-03-12 1997-05-27 Sri International Method and apparatus for voice-interactive language instruction
CN1331446A (zh) * 2000-06-22 2002-01-16 上海贝尔有限公司 一种实现互联网拨号上网业务旁路的方法
JP2002311982A (ja) * 2001-04-19 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> 韻律情報設定方法及び装置並びにプログラム及び記録媒体
JP2003015680A (ja) * 2001-07-03 2003-01-17 Nec Corp 音声合成システム、音声合成方法および音声合成用プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05160773A (ja) * 1991-12-03 1993-06-25 Toshiba Corp 音声通信装置
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
DE69427525T2 (de) * 1993-10-15 2002-04-18 At & T Corp Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0659695A (ja) * 1992-08-11 1994-03-04 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声規則合成装置
US5634086A (en) * 1993-03-12 1997-05-27 Sri International Method and apparatus for voice-interactive language instruction
CN1099165A (zh) * 1994-04-01 1995-02-22 清华大学 基于波形编辑的汉语文字-语音转换方法及系统
CN1331446A (zh) * 2000-06-22 2002-01-16 上海贝尔有限公司 一种实现互联网拨号上网业务旁路的方法
JP2002311982A (ja) * 2001-04-19 2002-10-25 Nippon Telegr & Teleph Corp <Ntt> 韻律情報設定方法及び装置並びにプログラム及び記録媒体
JP2003015680A (ja) * 2001-07-03 2003-01-17 Nec Corp 音声合成システム、音声合成方法および音声合成用プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汉语语句中短语间停顿的自动预测方法 聂鑫,王作英,中文信息学报,第17卷第4期 2003 *

Also Published As

Publication number Publication date
KR20060056403A (ko) 2006-05-24
RU2319221C1 (ru) 2008-03-10
WO2005034085A1 (en) 2005-04-14
EP1668631A4 (en) 2008-05-14
EP1668631A1 (en) 2006-06-14
CN1604183A (zh) 2005-04-06

Similar Documents

Publication Publication Date Title
CN1320482C (zh) 标识文本串中的自然语音停顿的方法
CN1260704C (zh) 语音合成方法
CN1108603C (zh) 声音合成方法和声音合成装置
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
US20090259475A1 (en) Voice quality change portion locating apparatus
US20110144997A1 (en) Voice synthesis model generation device, voice synthesis model generation system, communication terminal device and method for generating voice synthesis model
CN1197525A (zh) 交互式语言训练设备
CN105304080A (zh) 语音合成装置及方法
EP1396794A3 (en) Method and apparatus for expanding dictionaries during parsing
US20060229877A1 (en) Memory usage in a text-to-speech system
CN1946065A (zh) 通过可听信号来注释即时消息的方法和系统
CN1750121A (zh) 一种基于语音识别及语音分析的发音评估方法
CN101051459A (zh) 基频和停顿预测及语音合成的方法和装置
CN1826633A (zh) 声音合成装置
CN1731510A (zh) 混合语言文语转换
CN1841496A (zh) 测量语速的方法和装置以及录音设备
Wang et al. A multi-pass linear fold algorithm for sentence boundary detection using prosodic cues
CN1956057A (zh) 一种基于决策树的语音时长预测装置及方法
CN1811912A (zh) 小音库语音合成方法
CN1032391C (zh) 基于波形编辑的汉语文字-语音转换方法及系统
Sitaram et al. Text to speech in new languages without a standardized orthography
CN1787072A (zh) 基于韵律模型和参数选音的语音合成方法
CN1210688C (zh) 语音音素的编码及语音合成方法
EP1668630B1 (en) Improvements to an utterance waveform corpus
CN114387947B (zh) 一种适用于电商直播中虚拟主播的自动语音合成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NIUANSI COMMUNICATION CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20101008

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: ILLINOIS STATE, USA TO: DELAWARE STATE, USA

TR01 Transfer of patent right

Effective date of registration: 20101008

Address after: Delaware

Patentee after: NUANCE COMMUNICATIONS, Inc.

Address before: Illinois, USA

Patentee before: Motorola, Inc.

CX01 Expiry of patent term

Granted publication date: 20070606

CX01 Expiry of patent term