CN100449611C - 词汇重音预测 - Google Patents
词汇重音预测 Download PDFInfo
- Publication number
- CN100449611C CN100449611C CNB2003801006645A CN200380100664A CN100449611C CN 100449611 C CN100449611 C CN 100449611C CN B2003801006645 A CNB2003801006645 A CN B2003801006645A CN 200380100664 A CN200380100664 A CN 200380100664A CN 100449611 C CN100449611 C CN 100449611C
- Authority
- CN
- China
- Prior art keywords
- data
- stress
- model
- speech
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000009958 sewing Methods 0.000 claims description 56
- 230000008878 coupling Effects 0.000 claims description 41
- 238000010168 coupling process Methods 0.000 claims description 41
- 238000005859 coupling reaction Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 22
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 240000005373 Panax quinquefolius Species 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 4
- 235000000722 Celosia argentea Nutrition 0.000 description 2
- 240000008365 Celosia argentea Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
公开了用于预测词汇重音的系统和方法,包括多个重音预测模型。在本发明的实施例中,重音预测模型被级联,即,在预测系统内一个接一个地连接。在本发明的实施例中,模型按特异性和精确性递减的次序被级联。还提供了生成词汇重音预测系统的方法。在实施例中,生成的方法包括生成在系统中使用的多个模型。在实施例中,模型相应于以上参照本发明的第一方面描述的某些或所有的模型。
Description
技术领域
本发明涉及词汇重音预测。具体地,本发明涉及文本-语音合成系统以及用于该系统的软件。
背景技术
语音合成在其中要把写出的词用口头表达出来的任何系统中是有用的。有可能把多个词的语音录音存储到发音词典中,以及当相应的写出的词在词典中被识别时播放语音录音的口头表达。然而,这样的系统具有缺点:只可能输出被保持在词典中的词。任何不在词典中的词不能被输出,因为没有语音录音存储在这样的系统中。虽然多个词可以连同它们的语音录音一起被存储在词典中,但这导致增加词典尺寸以及相关的语音录音贮存要求。而且,添加所有的可能的词到词典简直不可能,因为系统可能被提供以新的词和来自外国语言的词。
所以,有两个原因有利地试图预测在发音词典中的词的语音录音。首先,语音录音预测保证未保持在词典的词将接收语音录音。第二,其语音录音是可预测的词可被存储在词典中,而不用相应的录音,因此减小系统的贮存设备要求的尺寸。
一个词的语音录音的一个重要成分是词的主要词汇重音的位置(在词中最加重地发音的音节)。预测词汇重音的位置的方法因此是预测一个词的语音录音的重要的部分。
当前存在两种词汇重音预测的基本方法。这些方法的最早的方法是完全根据人为规定的法则(例如,Church,1985;专利US4829580;Ogden,专利US5651095),它们具有两个主要缺点。首先,它们的创建和保持是费时的,这在创建用于新的语言的法则或移到新的音素组时尤其成问题的(音素是在语言内能够传达不同的意义的最小的语音单位)。第二,人为规定的法则通常不是鲁棒的,对于词生成差的结果,它们与被使用来开发法则,诸如适当的装置和外来语(从不同于该词典的语言发源的词)的那些有很大的不同。
词汇重音预测的第二个方法是使用围绕目标字母的局部上下文,即,在目标字母的每一边的字母的标识,通常通过使用某种自动技术,诸如基于判决树或存储器的学习,以确定目标字母的重音。这个方法也有两个缺点。首先,仅仅根据由这些模型使用的局部上下文(典型地在1和3个字母之间),常常不能确定重音。第二,基于判决树或特别是基于存储器的学习不属于低存储器技术,因此它很难适于在低存储器的文本-语音系统中使用。
所以,本发明的一个目的是提供低存储器的文本-语音系统,以及本发明的另一个目的是提供准备该系统的方法。
发明内容
按照本发明的第一方面,提供了包括多个重音预测模型的词汇重音预测系统。在本发明的实施例中,重音预测模型是级联的,即,在预测系统内一个接一个串联的。在本发明的实施例中,为了减小特异性和精度,模型被级联。
在本发明的实施例中,级联的第一模型是最精确的模型,它返回具有高精度的预测,但只用于语言的总的词数的一个百分数。在实施例中,没有被第一模型指定词汇重音的任何词被传送到第二模型,它返回用于某些另外的词的结果。在实施例中,第二模型返回用于语言中第一模型未返回结果的所有的词的结果。在另一个实施例中,在第二模型中没有被指定词汇重音的任何词被传送到第三模型。任何数目的模型可以以级联方式被提供。在实施例中,级联的最后模型应当返回对于任何字的重音的预测,以及在实施例中,对于未被前面的模型预测的所有的词的预测,如果所有的词必须要由词汇重音预测系统对它们作出预测的话。这样,词汇重音预测系统将对于每个可能的输入词产生预测的重音。
在实施例中,每个接连的模型比起级联中前面的模型返回对于更宽的范围的词的结果。在实施例中,级联中的每个接连的模型比起在它前面的模型较不精确的。
在本发明的实施例中,至少一个模型是确定相对于词的缀的重音的模型。在实施例中,至少一个模型包括在词的缀与词汇重音在词内的位置之间的相关。一般地,缀可以是前缀、后缀或中缀。相关可以是在缀与位置之间的正的或负的相关。另外,系统返回对于某些缀的高的百分数的精度,而不需要词传送到系统中每个模型。
在本发明的实施例中,级联中至少一个模型包括在与各种缀相组合的词中的音节数目与词内的词汇重音的位置之间的相关。在实施例中,次要的词汇重音也与词的主要的重音一样被预测。
在本发明的实施例中,至少一个模型包括拼写缀的相关,而不是语音缀的相关。这样的拼写相关在这样的语言中是有用的,其中加重音的字符被广泛地使用来表示重音在词内的位置,诸如在意大利语中最后的”à”,它与词的最后的重音高度地相关。
按照本发明的第二方面,提供了生成词汇重音预测系统的方法。在实施例中,生成的方法包括生成在系统中使用的多个模型。在实施例中,模型相应于以上参照本发明的第一方面描述的某些或所有的模型。
在实施例中,首先生成第一实施例的最后的模型,接着生成倒数第二的模型,等等,直至最后,生成第一实施例的第一模型。通过以与它们在系统中运行的相反的次序生成模型,有可能生成缺省模型,它将预测所有的词的重音,但具有较低的精度,然后构建更专门的更高的模型,该模型针对被缺省模型指定的错误的重音的词。通过使用这样的生成,有可能去除系统中的冗余性,否则系统中的两个模型返回同一个结果。通过减小这样的冗余性,有可能减小系统的存储器要求和提高系统的效率。
在本发明的实施例中,提供缺省模型、主模型、和零或更高的模型。在实施例中,缺省模型是简单模型,它可被应用到进入系统的所有的词,以及它是简单地通过从全部词计算每个词的重音点的位置和生成一个模型来指定在训练期间最经常遇到的重音点而生成的。这样的自动生成可能不一定必要:在英语中,主要的重音通常在第一音节,在意大利语中,在倒数第二音节等等。所以,可以应用简单的法则对于被输入到系统的任何和所有的词给出基本的预测。
在实施例中,主模型是通过使用训练算法来搜索词和对于词内的各个识别符返回重音位置预测而生成的。在实施例中,识别符是词的缀。在实施例中,识别符与重音位置之间的相关进行比较,保持最高相关的那一对。在实施例中,百分数精度减去组合的较低的级别的模型的百分数精度,被使用来确定最后的相关。在实施例中,如果一个以上的缀是匹配的,相应于具有最高精度的缀的重音位置被给予最高优先级。在实施例中,包括计数值的最小门限(识别符对于训练集的所有的词预测重音正确的次数)。这允许在很高、但在语言中却很少发生的包括在系统中的识别符相关数与很低、但在语言中却更经常发生的识别符相关数之间的可修改的关断电平。
在本发明实施例中,主模型包含两种类型的相关:前缀和后缀。在本发明的实施例中,为了降低精度,主模型中的缀被加索引号。
在本发明的实施例中,本发明的方面可以在计算机、处理器或其它数字部件,诸如专用集成电路(ASIC)等等上实行。本发明的方面可以取计算机可读的代码的形式,指令计算机、ASIC等实行本发明。
附图说明
下面参照附图,纯粹作为例子描述本发明的实施例,其中:
图1显示在本发明的第一实施例中在特定的语言的模型训练期间在重音预测模型之间的相互关系的流程图;
图2显示用于训练本发明的第一实施例的缺省模型的流程图;
图3显示用于训练本发明的第一实施例的主模型的流程图;
图4显示在实施本发明的第一实施例期间在重音预测模型之间的相互关系的流程图;
图5显示实施本发明的第一实施例的主模型的流程图;
图6显示在对于一系列具体的音素实施主模型时使用的树;
图7显示实施本发明的第一实施例的主模型的另一个流程图;
图8显示实施本发明的第一实施例的主模型的另一个流程图;
图9显示训练本发明的第二实施例的系统的流程图;
图10显示用于训练本发明的第二实施例的更高的模型的流程图;以及
图11显示实施本发明的第二实施例的系统的流程图。
具体实施方式
现在参照图1到图3描述本发明的第一实施例。
训练本发明的第一实施例的系统
图1显示本发明的第一实施例的词汇重音预测系统的预测模型的级联。级联的模型是缺省模型110和主模型120。每个模型被设计成预测被输入到模型中的词的词汇重音在该词内的位置。
训练缺省模型
缺省模型110如图2所示地进行训练。缺省模型110是非常简单的模型,它保证返回语言中所有的词的重音位置的预测。
在本实施例中,缺省模型是通过分析其中模型将起作用的语言中的多个词和提供每个词的词汇重音的位置的直方图而自动保证的。然后,通过选择测试词的最高百分数的重音位置和把该重音位置加到整个语言而达到简单的外推到整个语言。输入的训练词的数目越大,缺省模型110越反映整个语言。
假设在英语或德语中语言的超过一半的词具有的重音在特定的位置(对于英语和德语,第一音节),这个基本缺省模型对于语言中该百分数的词将返回精确的重音位置预测。在基本重音位置不是第一音节或最后音节的情形下,缺省模型也检验以确保输入词具有足够的音节来容纳预测,以及如果不是的话,则把预测调节成适于词的长度。在许多语言中,缺省模型的自动生成是不必要的,因为最普通的加重音的音节是熟知的语音事实;正如以上讨论的,德语和英语的词往往在第一音节上有重音,意大利语的词往往具有倒数第二个音节的重音,等等。
训练主模型
主模型包含两种类型的相关:前缀相关和后缀相关。在模型内,为了降低精度,这些缀被加索引号。如果输入词的发音匹配于多个缀,则与更精确的缀有关的主要重音被安排成被返回。在实施方案中,如果输入词的发音不匹配于任何缀,则把该词传送到级联中的下一个模型。
与前缀相关的主要重音的数值实际上是在词中具有主要重音的元音数,正如从目标词的发音中最左的元音计数的(所以,重音数值’2’表示在词的第二音节上的重音)。另一方面,后缀是与其特征为从词的最右面向词的开始端对元音计数的元音数的重音位置有关的(所以,重音数值’2’表示在词的倒数第二音节上的重音)。关于重音位置如何存储在相关中的差别是由于词的前缀往往与相对于词的开始端的重音有关(例如第二音节重音),而词的后缀往往与相对于词的末端的重音有关(例如倒数第二音节重音)。
也有可能在主模型中使用中缀,以及前缀和后缀。中缀是通过附加存储相对于词的开始端或末端的中缀的位置而与重音位置相关的,在这种情形下,例如,词的前缀具有位置零,以及词的后缀位置等于词的音节数目。
在音素类别符号匹配于被包含在预定的音素类别内的任何音素(例如,元音、辅音、高元音等等)的场合下,也有可能使用包括音素类别符号而不是具体的音素的缀。特定的词的重音可以由元音的位置适当地规定,而不用知道在该词的该位置处元音的精确的语音识别符。
主模型通过使用具有语音录音和主要重音的词典作为它的训练集而被自动训练。基本训练算法搜索词的发音的可能的后缀和前缀的空间,以及找到与包含那些缀的词中主要重音的位置最强地相关的那些缀。其与主要重音的相关在精度上比起在级联中的组合的较低的模型提供最大增益的缀被保持为最后的重音法则的成员。算法中的主要步骤是在S310生成直方图,在S320选择最精确的缀/重音相关,在S330和S340选择总的最好的缀,以及在S350消除冗余法则。
首先,在S310,生成直方图,以确定每个可能的缀在词集中出现的频率,以及对于每个缀的重音的每个可能的位置。通过做到这一点,可以确定在每个可能的缀与重音的每个可能的位置之间的相关。根据特定的缀预测特定的重音的绝对精度是在具有重音位置的同一个词中出现缀的频率,被除以缀的总的频率。然而,实际上想要的,是相对于在级联中的模型的精度的重音预测的精度。所以,对于缀和重音位置的每个组合,模型也跟踪级联中较低的级别的模型(在本实施例中,缺省模型)预测正确的重音的频率。
对于每个缀,最好的重音位置是比起在级联中较低级别模型,在精度上提供最大改进的位置。在S320,提取对于每个可能的缀的最好的重音位置,以及丢弃比起在级联中较低级别模型没有改进的那些缀/重音对。
为了保持低存储器模型,所有不是最好的缀/重音对被删除。在这方面,”最好”的对是高度精确的、同时以高的频率被应用的那些对。一般说来,以高的频率被应用的对是在精度上比起较低的级别的模型提供最大的原始改进的对。然而,在精度上比起较低的级别的模型提供最大的原始改进的法则也往往是当作为匹配的所有的词的百分数(这里称为百分数精度)被计算时具有相对较低的精度的法则,以及在给定多个缀可以匹配于单个目标词的情形下这是一个问题。作为例子,取两个缀A1和A2,其中A1是A2的子缀。假设在训练集中发现A11000次,以及对于该缀的最好重音是正确600次。然后,假设在训练集中发现A2 100次,以及对于该缀的最好重音是正确90次。最后,为了简化起见,假设缺省法则对于匹配于这些缀的词总是不正确的。在计数精度方面,A1比起A2好得多,为600对90的分数。然而,在百分数精度方面,A2比起A1好得多,为90%对60%的分数。因此,A2比起A1具有较高的优先级,即使它不太经常应用。
然而,不希望只根据百分数精度选择缀,因为有极其大的数目的缀具有100%的精度,但在词集中只出现几次,因此具有非常低的计数精度。把大量的这种低频率缀包括在主模型中,具有少量增加模型的覆盖、但大量增加模型的尺寸的影响。
在当前的实施例中,为了能够根据百分数精度选择缀,但排除其计数精度非常小的缀,在S330,建立计数精度的最小门限值。对于缺省模型改进的、以及其计数精度超过门限值的所有的缀被选择,以及根据百分数精度被分配以优先级。改变这个门限的数值,用来改变精度和模型的尺寸:通过提高门限值,主模型可以做得更小;相反,通过降低门限值,主模型可以做得更精确。实际上,大约几百个缀以非常低的存储器成本提供高的精度。
缀的选择必须考虑到,缀对可以以几种方式交互作用。例如,如果前缀[t]具有90%的精度,以及前缀[te]具有80%的精度,则比起[t]具有更低优先级的[te]将不再被应用,因为匹配于[te]的所有的词也匹配于[t]。因此,为了节省空间,[te]可被删除。在S340,至少两个方法可被使用来消除这样的交互作用。第一种方法是使用贪心算法来选择缀:构建直方图,选择对于具有超过门限值计数精度的缺省模型进行改进的最精确的缀,构建排除匹配于任何前面选择的缀的所有的词的新的直方图组,以及选择下一个缀。重复这个过程,直至不再剩下满足选择准则的缀为止。通过使用这个方法,最终得到的、选择的缀组没有进行作用。在以上的例子中,当使用贪心(greedy)算法时不再选择前缀[te],因为在选择更精确的前缀[t]后,以[t]开始的所有的词从以后的直方图中被排除,因此前缀[te]不再出现。
该贪心算法的缺点在于,当使用大的训练集时,它会相当慢。去除缀之间交互作用可以替代地由通过收集来自单个直方图组的最好的缀和应用两个以下的滤除法则来去除在法则之间的大多数交互作用而被近似。
当存在具有更高的精度的子缀时缀被去除。以上的[t]和[te]的例子是其中应用滤除法则的情形。
对于子缀比起缀具有更低精度的情形,图像稍微更加复杂。在这种情形下,如果缀,比如说前缀[sa],具有95%的精度,以及子缀[s],具有85%的精度,则我们认为,因为[s]的某些精度是由于也匹配于[sa]的词,我们应当从不太精确的缀中减去更加精确的缀的影响。因此,来自[sa]的缺省法则的数目校正、匹配总数、和改进的量被从[s]中减去,以及重新评估[s]是否仍旧具有在生成的重音法则中要包括的足够大的改进。
为了节省附加空间,在S350,如果较低排名的超级子集法则预测同一个重音,则有可能消除较高排名的子集法则。例如,如果前缀[dent]预测重音2和具有100%精确率,以及前缀[den]具有90%精确率而且也预测重音2,则[dent]可以从缀的组中被去除。
在S360,组成主模型的缀组被直截了当地变换成树(一个用于前缀以及一个用于后缀),以便进行快速搜索。在树上的、相应于现有的缀的节点包含主要重音的预测位置和优先级号。在匹配于目标词的所有的缀中,与具有最高优先级的缀有关的重音被返回。这样的树的例子在下面参照主模型的实施方案进行讨论。
第一实施例的系统的实施方案
图4和5到8显示本发明的第一实施例的系统的实施方案。在实施方案中,模型的次序是与(以上讨论的)如图4所示的模型被训练的次序相反的。在本实施例中,主模型是在级联中紧接在缺省模型之前的模型(虽然这并不是必须的情形)。所以,在第一实施例的实施方案中,要进行词汇重音预测的词被传送到的第一模型是上述的主模型。不被主模型进行词汇重音预测的任何词被传送到缺省模型。
主模型的实施方案
图5显示用于主模型的实施方案的非常高级别的流程图。正如可以看到的,如果词在主模型内是匹配的,则重音位置被输出。然而,如果对于所讨论的特定的词,在主模型中没有找到重音位置,则该词从主模型输出到缺省模型,主模型没有作出重音预测。
图6显示在实施主模型中使用的一部分树的例子。在这个示例的树中表示的前缀/重音/优先级是([a],[an],[sa],[kl],和[kl])。
现在给出树是如何起作用的例子。目标词[soko]与任何词都不匹配,因为虽然第一音[s]是在树中作为根节点的子元素,但该节点不包含重音/优先级信息,所以它不是树中表示的缀之一。然而,目标词[sako]是匹配的,因为第一音[s]是在树中作为根节点的子元素,第二音[a]在树中作为第一音的子元素,以及该节点具有重音和优先级信息。因此,对于词[sako]将返回重音2。
接着考虑目标词[anata],它与树中的两个前缀相匹配。前缀[a-]相应于树中2的重音预测,而前缀[an-]相应于树中3的重音预测。然而,因为优先级指数,当多个前缀被单个词匹配时,与最高优先级匹配有关的重音(它相应于最精确的缀/重音相关)被返回。在这种情形下,前缀[an-]的优先级是24,它高于前缀[a-]的13的优先级,这样,与[an-]有关的重音被返回,导致3的重音预测。
图7显示用于主模型的实施方案的更详细的流程图。流程图显示本发明的实施例的系统对于给定的词如何判决它是模型内各种前缀的最好的匹配。在S502,选择第一前缀。在本实施例中,选择目标词的第一音。如果在第一循环迭代中在树中没有这样的前缀,例如在图6的树上没有前缀[u-],则因为没有存储最好匹配的信息(S507),由于这是第一循环迭代,主模型不包含预测以及在S507,词被传送到序列中的下一个模型,该模型在本实施例中是缺省模型。
如果第一音是在前缀树中,则如果没有优先级和重音信息,因为在第一循环迭代中没有预先存储的前缀信息,系统在S512将进到下一个前缀。这将是在图6的树上对于以上讨论的词[soko]的情形。如果前缀具有重音和优先级信息,则在S510,存储有关该音的优先级和重音位置的数据,因为当前没有最好的匹配那样(因为它是第一次循环)。对于图6的例子存储的信息是对于[a-]的信息。系统然后在S512查看在词中是否有另外的、未尝试过的前缀。然后在S502的重复过程的下一个循环迭代中选择下一个前缀。
如果在第二迭代中在S504在前缀树中没有保持另外的前缀,如果存储有最好的匹配(S506),则这是输出。在以上例子中,这是对于词[akata]发生的,因为[a-]被存储,[ak-]没有存储。如果已经存储了不是最好的匹配(S506),则系统在S507进到缺省模型。
如果在第二环路在前缀树中还有另一个前缀,则在S508,系统检验当前是否存储最好的匹配。如果没有找到最好的匹配,则系统检验另一个前缀是否存储优先级信息。如果没有的话,则系统移到尝试另一个前缀(在S512)。另一方面,如果存储最好的匹配,则系统(在S514)检验这个前缀信息是否具有比起已存储的信息更高的优先级。如果已存储的信息比起当前的信息具有更高的优先级,则在S516,存储的信息被保持。如果当前的信息比起前面存储的信息具有更高的优先级,则在S518,信息被替换。如果在目标词中存在有另一个前缀,则环路重复进行,否则,所存储的重音预测被输出。
然后模型对于分开的后缀树,而不是对于前缀树,重复图7的过程。作为最后的步骤,来自前缀和后缀的最好的预测的相对性质进行比较,以及输出最高的总的优先级重音预测。
图8显示用于主模型的实施方案的另一个更详细的流程图。图上显示作为整体的主模型的运行。在S602,系统要分析的音被设置为目标词的第一音,即,当前的前缀是目标词的第一音。在S604,前缀树的节点被设置为”根”,即,在图6的前缀树中的最高的节点。在S606,系统检验节点是否具有带有当前音的子节点。在图6的例子中,这将是对于[a-]、[s-]、和[k-]的”是”和对于所有其它音的”否”。如果节点在带有当前音的树中没有子节点,则系统直接进到缺省模型。
如果存在有带有当前音的子节点,则在S608,检验这是否具有重音预测和优先级。如果没有,正如在以上的例子中对于[s-]的情形下,则在S610,系统检验在词内是否还有未检验的音,以及如果是的话,则在S612系统把当前的音改变成词中的下一个音(它相应于把当前的前缀改变成前面的前缀加目标词的下一个音),以及在S614,移动到在S606识别的前缀树的子节点。如果没有另外的未检验的音,则在S618,系统输出至今为止找到的最好的重音,如果有的话,则在S620输出,以及如果没有找到最好的重音,则在S622,进到缺省模型。
如果在S616子节点具有重音预测和优先级,正如在例子中具有[a-],则系统检验节点是否为最好的匹配,正如以上在图7的S508,S514,S516和S518描述的。如果它是最好的匹配,则在S617系统存储预测的重音。如果它不是最好的匹配,则系统继续回到S610,以及如上所述地进行重复,直至过程结束,输出预测的重音或进到缺省模型。
如上所述,然后对于词的后缀重复该程序过程,以及把前缀和后缀中的最好匹配作为该词的重音预测输出。有可能只使用前缀或只使用后缀来进行重音预测输出,而不是本发明的实施例中的二者的组合。
现在参照图9、10和11讨论本发明的第二实施例。
图9显示训练第二模型的总貌。在第二实施例中,缺省模型和主模型是与第一实施例中描述的相同的。然而,更高级别的模型也被包括在系统中。更高级别模型是在主模型后被训练的。在本实施例中,更高的模型是以与主模型类似的方式被训练的。训练主模型和更高的模型的方法之间的差别在于,直方图计数的内容。在主模型中,对于缀和重音音节的每个组合有一个直方图分点。更高的模型也考虑词中的音节数目。然后确定具有给定数目的音节的词的最好的缀,而不是只确定缀重音位置数据。图10显示更高的模型的训练步骤。差别是用”音节对的缀/数目”替换来自图3的”缀”。更高的模型是以与以上讨论的、参照图7和8所显示的相同的方式被实施的。图11显示另外的更高的模型的实施方案,它可以在系统中代替更高的模型或与图10显示的更高的模型一起被使用。在这个更高的模型中,使用拼写的缀,而不是语音缀。例如,在拼写前缀模型中,具有发音[k aa]的词”car”具有两个拼写前缀[c-]和[ca],但只有一个语音前缀[k-]。拼写的更高的模型的训练是与对于主模型的训练相同的,但它利用拼写的前缀,而不是语音前缀,步骤是与图3的步骤相同的。类似地,拼写模型的实施方案是上述的主模型相同的,使用拼写的前缀(字母),而不使用语音前缀(音)。图8所示的实施方案是同样适当的,用”字母”代替”音”,如图11所示。
在以上讨论的主模型和或更高级别模型的变例中,可以使用中缀,以及或替代前缀与后缀之一或二者。为了利用中缀,除了中缀的语音内容以外,还规定离词的右边缘或左边缘的距离(音素的数目或元音的数目)。在这个模型中,前缀和后缀正好是其中离词的边缘的距离是零的特定的情形。用于训练和实施的算法的其余部分保持为相同的。当训练模型时,收集精度和频率统计结果,以及当你在预测期间查看缀匹配时,每个缀被表示为三元组(词的右边缘或左边缘;离词的边缘的距离;音素序列),而不是只是(前缀/后缀;音素序列)。类似地,对于拼写缀,同样的情形也是可能的,只要用拼写单元替代音素单元,正如以上描述的。
在本发明的另一个实施例中,一旦所提到的词的主要重音被预测和被指定,以上的实施例就可以再次被使用来预测词的次要重音。所以,预测主要和次要重音的系统包括模型的两个级联。用于次要重音的级联以与主要重音相同的方式被训练,除了直方图收集用于次要重音的数据以外。实施方案是与以上在实施例中描述的、用于主要重音相同的实施方案相同的,除了使用对于次要重音产生的树,而不是对于主要重音的树,来预测次要重音位置以外。
在本发明的再一个实施例中,系统内的模型也可被使用来识别在词内的识别符与相关的重音之间的负相关。在这种情形下,负相关模型是在实施时在系统中的第一模型和在训练期间的最后模型,以及把对于模型的约束条件放置在系统下方。这个更高的模型利用在缀(以及可能其它特性)与重音之间的负相关。这类模型需要修正如前面描述的模型的级联的运行。当目标词在负相关模型中是匹配时,没有数值立即被返回。而是,相关的音节数在不能加重音时按标签被加上。如果在目标词中只剩下一个可加重音的元音,该元音的音节被返回;否则继续进行搜索,并提醒如果任何以后的匹配是与相应于目标词中的不能加重音的元音的重音位置有关的,则该匹配被忽略。
以上描述的方法和系统可以以允许计算机实行本发明的实施例的计算机可读的代码被实施。在以上描述的所有的实施例中,词和所述词的重音预测可以由用于实行本发明的计算机可读的代码解译的数据来表示。
本发明在以上是纯粹作为例子被描述的,以及可以在本发明的精神范围内作出修正。本发明是借助于显示特定的功能的性能与它们的相互关系的功能性构建块和方法步骤被描述的。为了描述方便起见,这些功能性构建块和方法步骤的边界在此被任意地规定。也可以规定替换的边界,只要特定的功能与它们的相互关系被适当地执行的话。因此,任何这样的替换的边界处在本发明的范围和精神内。本领域技术人员将会看到,这些功能性构建块可以由分立元件、专用集成电路、执行适当的软件的处理器等或它们的任意组合被实施。
本发明也包含这里描述的或暗示的,或附图上显示的或暗示的任何各个特征,或任何这样的特征的任何组合或任何这样的特征或组合的任何概括,该概括扩展到它们的等价物。因此,本发明的广度和范围不应当由上述的任何示例性实施例限制。在包括权利要求、摘要和附图的说明书中公开的每个特征可以由用于相同的等价的或类似的目的的替换的特征代替,除非另外明确规定。
在整个说明书中现有技术的任何讨论并不表示,这样的现有技术是广泛知道的或形成本领域中公知常识的一部分。
除非另有明确要求的内容,在整个说明书和权利要求中,单词”包括”等被看作为是与排除或穷举的意义相反的一种包涵关系;也就是说,是”包含但不限于”的意义。
Claims (32)
1.一种用于接收代表词的至少一部分的数据和输出代表词的词汇重音的位置的数据的词汇重音预测系统,该系统包括:多个重音预测模型装置,用于寻找在模型数据与接收的数据之间的匹配,多个模型装置包括:
第一模型装置,用于接收所接收的数据和寻找在模型数据与接收的数据之间的匹配,以及如果找到对于接收数据的匹配,则输出代表相应于接收数据的词汇重音的预测的预测数据;以及
缺省模型装置,用于如果在多个模型装置的任何其它模型装置中没有找到匹配,则接收所接收的数据,以及输出代表相应于接收数据的词汇重音的预测的预测数据,
其中,所述第一模型装置是自动生成的第一模型装置,该自动生成的第一模型装置是使用具有语音录音和主要重音的词典作为它的训练集通过在所述词典的词中搜索可能的缀并确定与主要重音在词中的位置相关联的缀而被自动训练的,第一模型数据包括存储有重音和优先级信息的缀,所述系统被配置为如果第一模型装置找到接收数据的多于一个的匹配,则预测数据输出相应于具有最高的优先级的词汇重音预测。
2.按照权利要求1的词汇重音预测系统,其中系统的模型装置被安排成通过识别在词的所述至少一部分内至少一个词汇识别符,而预测在词的所述至少一部分内的词汇重音位置。
3.按照权利要求1或2的词汇重音预测系统,其中第一重音预测模型装置用于输出代表对于给定的语言的一个百分数的词的重音预测的预测数据,该百分数小于100,以及把剩余的不匹配的接收数据传送到在多个模型中的以后的模型装置。
4.按照权利要求1的词汇重音预测系统,其中缺省模型装置用于接收代表多个重音预测模型装置的任一其它模型装置没有为其作出重音预测的词的至少一部分的接收数据,和用于输出代表对于任何这样的接收的词的至少一部分的重音预测的预测数据。
5.按照权利要求4的词汇重音预测系统,其中第一模型装置具有比起缺省重音预测模型装置的精度更精确的从其输出词的词汇重音的预测。
6.按照权利要求3的词汇重音预测系统,还包括:在第一模型装置与缺省模型装置之间的另一个重音预测模型装置,用于如果在第一模型装置中没有找到在接收数据与另一个的模型装置中另一个模型数据之间的匹配,接收所接收的数据,并寻找在另一个模型数据与接收数据之间的匹配,以及如果找到接收数据的匹配,输出代表相应于接收数据的词汇重音的预测的预测数据。
7.按照权利要求1的词汇重音预测系统,其中具有对于词汇重音预测的最低的百分数返回的模型装置是用于由它返回的词的至少一部分的重音预测的最精确的模型装置。
8.按照权利要求1的词汇重音预测系统,其中系统的缺省模型装置具有最低的特异性和精确性,以及每个前面的模型装置比起紧接在它后面的模型装置,具有更高的特异性和精确性。
9.按照权利要求1的词汇重音预测系统,其中代表所述词的至少一部分的数据表示所述词的所述至少一部分的音素信息。
10.按照权利要求1的词汇重音预测系统,其中代表词的至少一部分的数据表示所述词的所述至少一部分的字母。
11.按照权利要求1的词汇重音预测系统,还包括:另一个模型装置,用于预测在词的特定的至少一部分与词汇重音在词内的位置之间的负的相关。
12.按照权利要求1的词汇重音预测系统,还包括:另一个词汇重音预测系统,用于预测所述词的所述至少一部分的次要词汇重音。
13.按照权利要求2的词汇重音预测系统,其中缀被用作为词汇识别符。
14.一种预测词的词汇重音的方法,包括:
接收代表词的至少一部分的数据;
把数据传送到包括多个重音预测模型装置的词汇重音预测系统,其中把接收数据传送到重音预测系统:包括:
把接收数据传送到包含模型预测数据的第一模型装置;
在第一模型装置中搜索在模型预测数据与接收数据之间的匹配;
如果在第一模型装置中找到对于接收数据的匹配,则输出代表相应于接收数据的词汇重音的预测的预测数据;以及
如果在多个模型装置的任一其它模型装置中没有找到对于接收数据的匹配,则把接收数据传送到缺省模型装置,在缺省模型装置中对于数据给出词汇重音预测,以及输出代表相应于接收数据的词汇重音的预测的预测数据,
所述第一模型装置是使用具有语音录音和主要重音的词典作为它的训练集通过在所述词典的词中搜索可能的缀并确定与主要重音在词中的位置相关联的缀而被自动训练的,所生成的模型预测数据包括存储有重音和优先级信息的缀,
其中如果第一模型装置找到接收数据的多于一个的匹配,则预测数据输出相应于具有最高的优先级的词汇重音预测。
15.按照权利要求14的预测词汇重音的方法,其中第一重音预测模型装置预测一个百分数的词的词汇重音,该百分数小于100。
16.按照权利要求14或15的预测词汇重音的方法,还包括:在把数据传送到第一模型装置后,如果在第一模型装置中没有找到匹配,则把数据传送到另一个模型装置;
在另一个模型装置中搜索在接收数据与另一个模型预测数据的匹配;
如果在另一个模型装置中找到对于接收数据的匹配,则输出代表相应于接收数据的词汇重音的预测的预测数据;以及
如果在另一个模型装置中没有找到对于接收数据的匹配,则把接收数据传送到缺省模型装置。
17.按照权利要求16的预测词汇重音的方法,其中另一个模型装置包括代表优先级信息的数据,以及如果在另一个模型装置中找到对于接收数据的一个以上的匹配,则输出代表具有最高的优先级的词汇重音的预测数据。
18.按照权利要求16的方法,其中另一个模型装置预测一个百分数的词的至少一部分的词汇重音,该百分数高于第一模型装置的预测百分数。
19.按照权利要求14的方法,其中当在代表词的所述至少一部分的接收数据中找到代表特定的词汇识别符的数据时,在模型装置中找到匹配。
20.按照权利要求14的方法,其中如果在第一模型装置中找到对于数据的匹配,则在接收数据中的词汇重音位置被识别以及用代表识别符的数据进行标志,该识别符被传送到另一个模型装置,用于识别特定的词汇位置为不能加重音的,以及另一个模型装置不预测识别的词汇重音。
21.按照权利要求20的方法,其中词汇识别符是词的所述至少一部分的缀。
22.一种生成词汇重音预测系统的方法,该方法包括生成多个词汇重音预测模型装置,其中生成多个模型装置包括:
生成缺省模型装置,用于接收代表词的至少一部分的数据,以及输出代表所述词的所述任意至少一部分的词汇重音的预测的预测数据;以及然后
生成第一模型装置,用于接收代表所述词的所述至少一部分的数据,以及输出代表某些所述词的所述至少一部分的词汇重音的预测的预测数据,
其中所述第一模型装置是使用具有语音录音和主要重音的词典作为它的训练集通过在所述词典的词中搜索可能的缀并确定与主要重音在词中的位置相关联的缀而自动生成的,所生成的数据包括存储有重音和优先级信息的缀,并且其中如果第一模型装置找到接收数据的多于一个的匹配,则预测数据输出相应于具有最高的优先级的词汇重音预测。
23.按照权利要求22的生成词汇重音预测系统的方法,其中缺省模型装置是通过把要由缺省模型装置返回的词汇重音位置设置为预定的位置而生成的。
24.按照权利要求23的生成词汇重音预测系统的方法,其中预定的位置是通过从词的至少一部分的选择中确定最高频率的词汇重音位置而生成的。
25.按照权利要求22的生成词汇重音预测系统的方法,其中生成的缺省模型装置具有在多个模型装置中的最低的精确性和特异性。
26.按照权利要求22的生成词汇重音预测系统的方法,其中缺省模型装置被生成为使得它对于输入给它的代表任意词的至少一部分的任何数据返回重音预测结果。
27.按照权利要求22的生成词汇重音预测系统的方法,其中第一模型装置是通过搜索代表多个词的数据和返回代表对于在所述数目的词内的至少一个词汇识别符的重音位置预测的数据而生成的。
28.按照权利要求27的生成词汇重音预测系统的方法,其中第一模型装置被生成为使得在对于特定的词汇识别符找到两个或更多个匹配的情形下,每个匹配指定一个优先级,优先级取决于匹配的百分数精度。
29.按照权利要求28的生成词汇重音预测系统的方法,其中第一模型装置被生成为使得在对于特定的词汇识别符找到两个匹配的情形下,返回具有最高优先级的匹配。
30.按照权利要求27的生成词汇重音预测系统的方法,其中词汇识别符是缀。
31.按照权利要求30的生成词汇重音预测系统的方法,其中缀选自:音素前缀、音素后缀、音素中缀、拼写前缀、拼写后缀、和拼写中缀。
32.由权利要求22到31的任一项的生成词汇重音预测系统的方法生成的词汇重音预测系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0311467A GB2402031B (en) | 2003-05-19 | 2003-05-19 | Lexical stress prediction |
GB0311467.5 | 2003-05-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1692404A CN1692404A (zh) | 2005-11-02 |
CN100449611C true CN100449611C (zh) | 2009-01-07 |
Family
ID=9958347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2003801006645A Expired - Lifetime CN100449611C (zh) | 2003-05-19 | 2003-11-20 | 词汇重音预测 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7356468B2 (zh) |
EP (1) | EP1480200A1 (zh) |
JP (1) | JP4737990B2 (zh) |
CN (1) | CN100449611C (zh) |
GB (1) | GB2402031B (zh) |
WO (1) | WO2004104988A1 (zh) |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8050924B2 (en) | 2005-04-08 | 2011-11-01 | Sony Online Entertainment Llc | System for generating and selecting names |
US7620540B2 (en) * | 2005-04-29 | 2009-11-17 | Research In Motion Limited | Method for generating text in a handheld electronic device and a handheld electronic device incorporating the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP2008134475A (ja) * | 2006-11-28 | 2008-06-12 | Internatl Business Mach Corp <Ibm> | 入力された音声のアクセントを認識する技術 |
US8515728B2 (en) * | 2007-03-29 | 2013-08-20 | Microsoft Corporation | Language translation of visual and audio input |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8027834B2 (en) * | 2007-06-25 | 2011-09-27 | Nuance Communications, Inc. | Technique for training a phonetic decision tree with limited phonetic exceptional terms |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8239200B1 (en) * | 2008-08-15 | 2012-08-07 | Google Inc. | Delta language model |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP4519193B1 (ja) * | 2009-07-27 | 2010-08-04 | エンパイア テクノロジー ディベロップメント エルエルシー | 情報処理システム、情報処理方法 |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9864782B2 (en) * | 2013-08-28 | 2018-01-09 | AV Music Group, LLC | Systems and methods for identifying word phrases based on stress patterns |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
RU2015156411A (ru) * | 2015-12-28 | 2017-07-06 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система автоматического определения положения ударения в словоформах |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10255905B2 (en) | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10734103B2 (en) * | 2016-08-29 | 2020-08-04 | Panasonic Intellectual Property Management Co., Ltd. | Stress management system and stress management method |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110992986B (zh) * | 2019-12-04 | 2022-06-07 | 南京大学 | 单词音节重读检错方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944190A (ja) * | 1995-08-02 | 1997-02-14 | Nippon Telegr & Teleph Corp <Ntt> | アクセント付与方法 |
CN1297561A (zh) * | 1999-03-25 | 2001-05-30 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4797930A (en) * | 1983-11-03 | 1989-01-10 | Texas Instruments Incorporated | constructed syllable pitch patterns from phonological linguistic unit string data |
JPH0827636B2 (ja) * | 1987-01-30 | 1996-03-21 | 富士通株式会社 | 単語つづり―発音記号変換装置 |
JPH09244677A (ja) * | 1996-03-06 | 1997-09-19 | Fujitsu Ltd | 音声合成システム |
-
2003
- 2003-05-19 GB GB0311467A patent/GB2402031B/en not_active Expired - Lifetime
- 2003-10-14 US US10/682,880 patent/US7356468B2/en active Active
- 2003-10-16 EP EP03256532A patent/EP1480200A1/en not_active Withdrawn
- 2003-11-20 WO PCT/JP2003/014770 patent/WO2004104988A1/en active Application Filing
- 2003-11-20 CN CNB2003801006645A patent/CN100449611C/zh not_active Expired - Lifetime
- 2003-11-20 JP JP2004572137A patent/JP4737990B2/ja not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0944190A (ja) * | 1995-08-02 | 1997-02-14 | Nippon Telegr & Teleph Corp <Ntt> | アクセント付与方法 |
CN1297561A (zh) * | 1999-03-25 | 2001-05-30 | 松下电器产业株式会社 | 语音合成系统与语音合成方法 |
Non-Patent Citations (4)
Title |
---|
Assignment of syllable stress in a demisyllable-basedtext-to-speech synthesis system. URBANCZYK S C ET AL.PROCEEDINGS OF IEEE PACIFIC RIM CONFERENCE ON COMMUNICATIONS, COMPUTERS AND SIGNAL PROCESSING. 1989 |
Assignment of syllable stress in a demisyllable-basedtext-to-speech synthesis system. URBANCZYK S C ET AL.PROCEEDINGS OF IEEE PACIFIC RIM CONFERENCE ON COMMUNICATIONS, COMPUTERS AND SIGNAL PROCESSING. 1989 * |
Stress assignment in letter to sound rules for speech synthesis. CHURCH,K.23RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. PROCEEDINGS OF THE CONFERENCE. 1985 |
Stress assignment in letter to sound rules for speech synthesis. CHURCH,K.23RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. PROCEEDINGS OF THE CONFERENCE. 1985 * |
Also Published As
Publication number | Publication date |
---|---|
GB2402031B (en) | 2007-03-28 |
US20040249629A1 (en) | 2004-12-09 |
GB0311467D0 (en) | 2003-06-25 |
WO2004104988A1 (en) | 2004-12-02 |
CN1692404A (zh) | 2005-11-02 |
GB2402031A (en) | 2004-11-24 |
JP4737990B2 (ja) | 2011-08-03 |
JP2006526160A (ja) | 2006-11-16 |
EP1480200A1 (en) | 2004-11-24 |
US7356468B2 (en) | 2008-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100449611C (zh) | 词汇重音预测 | |
CN101076851B (zh) | 口语识别系统以及用于训练和操作该系统的方法 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
EP2317508B1 (en) | Grammar rule generation for speech recognition | |
US8041569B2 (en) | Speech synthesis method and apparatus using pre-recorded speech and rule-based synthesized speech | |
US20080255841A1 (en) | Voice search device | |
US8738378B2 (en) | Speech recognizer, speech recognition method, and speech recognition program | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
CN111145720A (zh) | 一种将文本转换成语音的方法、系统、装置和存储介质 | |
CN112185348A (zh) | 多语种语音识别方法、装置及电子设备 | |
US7139712B1 (en) | Speech synthesis apparatus, control method therefor and computer-readable memory | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
EP3489951B1 (en) | Voice dialogue apparatus, voice dialogue method, and program | |
CN110942765B (zh) | 一种构建语料库的方法、设备、服务器和存储介质 | |
CN112447172B (zh) | 一种语音识别文本的质量提升方法和装置 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN112530405A (zh) | 一种端到端语音合成纠错方法、系统及装置 | |
CN110634480A (zh) | 语音对话系统与模型创建装置及其方法 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN111354339B (zh) | 词汇音素表构建方法、装置、设备及存储介质 | |
JP6300596B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
CN112735394B (zh) | 一种语音的语义解析方法及装置 | |
Gao et al. | Class-triphone acoustic modeling based on decision tree for Mandarin continuous speech recognition | |
KR101294882B1 (ko) | 복수의 답을 생성하기 위한 기계 학습 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20090107 |
|
CX01 | Expiry of patent term |