CN101069230A - 预测通信系统中使用的文本信息的音调模式信息 - Google Patents
预测通信系统中使用的文本信息的音调模式信息 Download PDFInfo
- Publication number
- CN101069230A CN101069230A CNA2005800332788A CN200580033278A CN101069230A CN 101069230 A CN101069230 A CN 101069230A CN A2005800332788 A CNA2005800332788 A CN A2005800332788A CN 200580033278 A CN200580033278 A CN 200580033278A CN 101069230 A CN101069230 A CN 101069230A
- Authority
- CN
- China
- Prior art keywords
- tone
- textual entry
- information
- tone information
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims abstract description 19
- 238000003066 decision tree Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims 7
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 235000004240 Triticum spelta Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007598 dipping method Methods 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
所描述的技术包括从文本条目生成音调信息,以及进一步利用决策树将音调信息应用到拼音序列。例如,一种预测通信系统中使用的文本信息的音调模式信息的方法,该方法包括将文本条目分解成段,以及利用所述分解的段来识别文本条目的音调信息。可利用决策树生成音调信息。还可在分布式系统中实现该方法,其中在后端服务器处执行该转化并且在请求之后将该信息发送到通信设备。
Description
技术领域
本发明一般地涉及通信系统中的语音识别和文本到语音(TTS)合成技术。更具体地,本发明涉及预测通信系统中使用的文本信息的音调模式信息。
背景技术
该部分旨在提供针对权利要求书中所叙述的本发明的背景或环境。这里的描述可以包括可被遵循的概念,但不必是先前已经设想或遵循的概念。因此,除非在这里另外指出,否则在该部分所描述的内容不是本申请的权利要求书中的现有技术并且不会因为包括在这里而被认为是现有技术。
语音可被用于结合移动终端进行输入和输出。例如,语音识别和文本到语音(TTS)合成技术使用语音以结合移动终端进行输入和输出。这样的技术尤其适用于残疾人士或当移动终端用户无法轻松自如地使用他或她的手时。这些技术还能够给出有声的反馈,使得用户不必盯着设备。
音调对于汉语(例如,普通话、广东话和其它方言)和其它语言来说是重要的。音调主要特征在于其基频(F0)轮廓的形状。例如,如图1中所示,普通话音调1、2、3和4可以被分别地描述为:阴平(high level)、阳平(high-rising)、上声(low-dipping)和去声(high-falling)。轻声(音调0)不具有特定的F0轮廓,其高度地依赖于在前的音调并且通常被认为是短暂的。
类似汉语的音调语言中的文本到语音是具有挑战性的,因为通常在文本呈现中没有可用的音调信息。然而,音调信息对于理解是至关重要的。相邻音节的音调组合可形成某些音调模式。另外,音调可显著地影响语音感知。例如,音调信息对于汉语语音输出是至关重要的。在英语中,句子的不正确的音调变化可致使句子难以理解。在汉语中,单个字词的不正确的语调可完全改变它的意思。
在许多情况下,音节的音调信息是无法获得的。例如,汉语电话用户在电话目录(“联系人姓名”)中可具有拼音格式的姓名。拼音是用于将汉语表意文字拼写成罗马字母的一种系统,由中华人民共和国1979年正式采用。用于联系人姓名的拼音格式可能不包括音调信息。从联系人姓名本身直接获得音调信息是不太可能的。在没有音调或具有不正确的音调的情况下,从文本生成的语音在质量上是糟糕的并且可以完全改变文本的意思。
美国专利申请2002/0152067(该申请被转让给与本申请相同的受让人)公开了一种方法,其中用于姓名或字词的发音模型可从位于网络中的服务器获得。然而,该专利申请仅描述涉及发音的解决方案。没有包括或暗示音调信息的使用。如上所指出的,在没有音调信息的情况下,重要的意思会被丢失。
国际专利申请WO 3065349公开了向文本到语音生成添加音调信息以提高文本的可理解性。该专利申请所描述的技术使用了对句子的上下文的分析。基于字词所位于的其它的上下文来识别音调。然而,这样的上下文不总是可用的,特别是结合例如移动电话的通信系统,并且文本也不总是提供生成音调信息所需的线索。
因此,需要不依赖于上下文而预测音节序列的音调模式。进一步,需要预测音调模式以正确地识别用作移动设备的联系人的姓名。更进一步,当无法获得音调信息时,需要合成通信终端中的联系人姓名。更进一步,对于类似汉语的语言,需要从文本生成音调信息,其中音调信息对于通信和理解是至关重要的。
发明内容
一般地,本发明涉及从文本条目生成音调信息,并且进一步使用决策树将该音调信息应用到拼音序列。至少一个示例性的实施方式涉及一种预测计算机系统中使用的文本信息的音调模式信息的方法。该方法包括将文本条目分解成段并利用分解的段来识别文本条目的音调信息。可利用决策树生成音调信息。还可在分布式系统中实现该方法,其中在后端服务器处执行该转化并且在请求之后将该信息发送到通信设备。
另一个示例性实施方式涉及一种设备,该设备基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息。该设备包括处理模块和存储器。处理模块执行编程的指令而存储器包含编程的指令以将文本条目分解成段并利用分解的段来识别文本条目的音调信息。
另一个示例性实施方式涉及一种系统,该系统基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息。该系统包括终端装置设备和处理模块,该终端装置设备具有一个或多个存储在其上的文本条目而处理模块将文本条目分解成段并且利用分解的段来识别文本条目的音调信息。
另一个示例性实施方式涉及一种具有计算机代码的计算机程序产品,该计算机代码将文本条目分解成段并且利用分解的段来识别文本条目的音调信息。
附图说明
图1是各种普通话汉语音调的基频轮廓的示图;
图2是描述根据示例性实施方式的音调估计系统的总体框图;
图3是描述分类音调信息处理中执行的示例性操作的流程图;
图4是描述在图2的音调估计系统中使用的示例特征集的示图;
图5是描述根据示例性实施方式的具有训练结果的示例分类与回归树(CART)的示图;
图6是描述在音调估计处理中执行的示例性操作的流程图。
具体实施方式
图2示出一通信系统10,该通信系统包括根据示例性实施方式配置成具有音调估计能力的设备。这里描述的示例性实施方式可应用于任何的通信系统中,该通信系统包括具有语音合成应用和/或语音识别应用的电子设备,以及服务器,数据可在该电子设备和该服务器之间传送。
通信系统10包括终端装置(TE)设备12、接入点(AP)14、服务器16和网络18。TE设备12可包括存储器(MEM)、中央处理单元(CPU)、用户接口(UI)和输入-输出接口(I/O)。存储器可包括用于存储控制CPU的应用程序的非易失性存储器以及用于数据处理的随机存取存储器。例如文本到语音(TTS)模块的语音合成(SS)模块可通过执行存储在存储器中的CPU编程指令来实现。语音识别(SR)模块可通过执行存储在存储器中的CPU编程指令来实现。I/O接口可包括无线局域网的网络接口卡,例如基于IEEE802.11标准的多种网络接口卡中的一种。
TE设备12可经由接入点14连接到网络18(例如,局域网(LAN)、互联网、电话网)并进一步连接到服务器16。TE设备12还可使用例如电缆、红外线或射频处的数据传输与服务器16直接通信。服务器16可为TE设备12提供各种处理功能。服务器16还可为TE设备12提供后端处理服务。
TE设备12可以是在其中执行语音识别或语音合成的任意便携式电子设备,例如个人数字助理(PDA)设备、远端控制器或耳机和麦克风的组合。TE设备12可以是由计算机或移动台所使用的补充设备,在该情况下,到服务器16的数据传输可经由计算机或移动台设置。在示例性的实施方式中,TE设备12是与公共陆地移动网络通信的移动台,其中服务器S也被功能性地连接到该公共陆地移动网络。连接到网络18的TE设备12包括用于与网络18无线通信的移动台功能。网络18可以是任意已知的无线网络,例如支持GSM服务的网络、支持GPRS(通用分组无线服务)的网络或第三代移动网络,例如根据3GPP(第三代合作伙伴计划)标准的UMTS(通用移动通信系统)网络。还可在移动网络中实现服务器16的功能性。TE设备16可以是仅用于通话的移动电话,或它也可包括PDA(个人数字助理)功能。
TE设备12可使用音调模式信息,该信息可用于确定非音调拼音序列的音调,或不具有音调信息但其中音调信息是重要的其它序列。TE设备12可经由网络18获得这样的信息,或在其被使用之前离线地获得。可从数据库捕捉音调模式,并接着存储在某个模型中作为预知的知识。模型可以是分类与回归树(CART)或神经网络和其它的结构。在可选的实施方式中,服务器16估计音调信息并将附着到文本的音调信息传递到TE设备12。
图3示出分类音调信息处理中执行的示例性操作的流程图20。根据实施方式,可以执行附加的、更少的或不同的操作。在示例性的实施方式中,使用分类与回归树(CART)。CART可用于预测连续的因变量(回归)和分类预测器变量(分类)。
在操作22中,数据库和设计特征集被收集。优选地,数据库包含应用域中音调模式的主要特征。例如,为了针对汉语姓名反馈收集数据库,姓名列表应该足够的大,所有的汉语姓和经常使用的名应该被包括在内。还应该考虑不同长度的姓名。基于特征集,针对数据库中的每个条目计算所有的特征。
图4示出示例性的特征集30,该特征集被描述为((音调0 1 2 34)(n::final)(t::initial)(t:final)(n::initial))。值“p”、“t”和“n”分别表示先前的音节、当前的音节和下一个音节。音调0 1 2 3 4表示各种不同的音调。特征集30可以被存储在通信终端上的存储器中。
再次参考图3,在操作24中,利用训练算法对模型进行训练。训练算法用于提取必要的音调模式信息到训练数据库。当满足规定的准则时,例如最大熵,则完成训练处理。
例如CART结构40的决策树可用于生成适用于输入音节序列的音调。在标记的数据库上训练决策树。决策树由如图5中所示出的链接在一起的节点构成。属性被附着到每个节点上。属性规定了在该节点中考虑了什么类型的上下文信息。上下文信息可以包括在当前音节左手侧和右手侧的音节。可以使用例如INITIAL/FINAL的某些更小单元。此外,可以使用先前的INITIAL/FINAL音节和它们的类。除非节点是叶节点,否则树的每个节点由子节点跟着。
从一个节点移动到子节点是基于节点中所规定的属性值。当决策树用于提取对应于某个上下文中的音节的音调时,查找开始于根节点。爬树直到找到叶。对应于给定上下文中的音节的音调被存储在叶中。
当从被标记的数据库训练决策树时,考虑所有的训练情形。一种训练情形由标记的数据库中的音节和音调上下文以及相应的音调构成。在训练期间,决策树生长并根据信息理论最优化规则将决策树分裂成子节点。分裂持续直到不能进一步提高最优化准则。
在训练中,首先分裂树的根节点。为了将节点分裂成子节点,必须选择属性。对所有的不同属性进行检测并且选择最大化了最优化规则的一个属性。信息增益被用作最优化准则。为了计算分裂的信息增益,必须已知分裂根节点之前的音调分布。基于根节点中的音调分布,可根据如下计算熵E:
其中fi是第i个音调发生的相对频率,而N是音调的数目。基于音节和音调上下文,根据可能的属性,根节点中的训练情形可分裂成多个子集。对于一种属性,分裂后的熵Es被计算为多个子集的多个熵的平均熵。如果Ej S表示分裂后的子集j的熵,则分裂后的平均熵是:
其中|S|是根节点中训练情形的总的数目。|Sj|是第j个子集中训练情形的数目,而K是子集的数目。一种属性的信息增益可如下给出:
G=E-Es
针对每种属性计算信息增益,并且选择具有最高信息增益的属性。针对子节点重复树中的节点的分裂。根据不同的属性将属于每个子节点的训练情形进一步分裂成多个子集。对于每个子节点,选择具有最高信息增益的属性。当信息增益大于零并且通过分裂可以提高节点的熵时,树中节点的分裂继续。除了信息增益以外,分裂由第二条件控制。仅当在分裂之后至少有两个子节点将具有至少预定最小数目的训练情形时,一个节点才可被分裂。如果信息增益是零或不满足第二条件,则不分裂该节点。
图5示出描述训练结果示例的CART结构40。CART结构40表示出音调估计模型中的节点间的关系。如果当前的音节以“m”开始而以“ao”结束,则识别出音调2。如果当前音节以“m”开始而不以“ao”结束,则识别出音调3。
再次参考图3,在操作26中,训练结果被转化成压缩格式以节省存储器空间并加速使用过程。在训练结果中存储音调模式信息。在操作28中,生成音调模式。当音节序列到来时,所有的音节可用于在不同的树分支之间切换,并且从上通过树直至到达叶。
现在参考图5,例如,如果使用CART结构40,并且进入的拼音串是“mao ze dong”,对于第一个音节“mao”,其声母是“m”,根据最高节点,切换到右分支,接着根据第二级节点,其韵母是“ao”,则再次切换到右分支并到达左节点,所以“mao”的音调将被设置为“2”。
图6示出在音调估计处理中执行的示例性操作的流程图50。根据实施方式,可以执行附加的、更少的或不同的操作。在操作52中,终端装置(TE)设备中的处理单元获得音节序列。音节序列可以是一个或多个字词。处理单元可以从存储器中获得音节序列。通常,处理单元基于也包含在存储器中的编程指令操作。
在操作54中,处理单元分解各个音节。在操作56中,基于分解的文本获得或估计音调信息。例如,包含在特征集中的音调模式信息可提供信息,处理单元从该信息识别相应的音调。特征集可包括在例如参考图4所描述的CART结构40的CART结构中。
尽管已经描述了本发明的几个实施方式,但将理解到本发明相关领域的技术人员可想到修改和改变。例如,尽管汉语被用作需要音调信息的示例性语言,但本系统不限于利用特定的语言进行操作。因此,本说明书所附的权利要求书旨在精确地限定本发明。
Claims (20)
1.一种预测计算机系统中使用的文本信息的音调模式信息的方法,该方法包括:
将文本条目分解成段;以及
利用所述分解的段来识别所述文本条目的音调信息。
2.根据权利要求1所述的方法,其中所述文本条目包括拼音序列。
3.根据权利要求1所述的方法,其中使用所述分解的段来识别所述文本条目的音调信息包括在分类树中定位相应音调信息。
4.根据权利要求1所述的方法,其中使用所述分解的段来识别所述文本条目的音调信息包括基于所述分解的段访问包含所述文本条目的音调信息的数据库。
5.根据权利要求1所述的方法,进一步包括从后端服务器向通信设备传递识别的音调信息。
6.根据权利要求1所述的方法,其中所述文本条目是通信设备上的联系人列表中的姓名。
7.一种基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息的设备,该设备包括:
处理模块,其执行编程的指令;以及
存储器,其包含编程的指令以将文本条目分解成段并利用所述分解的段来识别所述文本条目的音调信息。
8.根据权利要求7所述的设备,其中所述音调信息存储在位于所述存储器中的决策树中。
9.根据权利要求7所述的设备,其中所述音调信息存储在由服务器访问的数据库中。
10.根据权利要求7所述的设备,其中所述文本条目包括拼音序列。
11.根据权利要求7所述的设备,其中所述文本条目包括来自联系人列表的姓名。
12.一种基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息的系统,该系统包括:
终端装置设备,其具有一个或多个存储在其上的文本条目;以及
处理模块,其将文本条目分解成段并且利用所述分解的段来识别所述文本条目的音调信息。
13.根据权利要求12所述的系统,其中所述处理模块包含在所述终端装置设备中。
14.根据权利要求12所述的系统,其中所述处理模块包含在服务器上,在识别所述音调信息后,所述服务器将所述音调信息传递到所述终端装置设备。
15.根据权利要求12所述的系统,进一步包括联系人姓名列表,所述姓名包括拼音序列。
16.一种计算机程序产品,包括:
计算机代码,其将文本条目分解成段并且利用所述分解的段来识别所述文本条目的音调信息。
17.根据权利要求16所述的计算机程序产品,其中利用决策树生成音调信息。
18.根据权利要求16所述的计算机程序产品,其中所述计算机代码包含在通信设备中。
19.根据权利要求16所述的计算机程序产品,其中在计算设备上执行所述计算机代码并且所述音调信息被传递到终端装置设备。
20.根据权利要求16所述的计算机程序产品,其中在识别之后,所述音调信息被附着到所述文本条目。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/909,462 | 2004-08-02 | ||
US10/909,462 US7788098B2 (en) | 2004-08-02 | 2004-08-02 | Predicting tone pattern information for textual information used in telecommunication systems |
PCT/IB2005/002285 WO2006013453A1 (en) | 2004-08-02 | 2005-08-02 | Predicting tone pattern information for textual information used in telecommunication systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101069230A true CN101069230A (zh) | 2007-11-07 |
CN101069230B CN101069230B (zh) | 2016-02-10 |
Family
ID=35733484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200580033278.8A Expired - Fee Related CN101069230B (zh) | 2004-08-02 | 2005-08-02 | 预测通信系统中使用的文本信息的音调模式信息 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7788098B2 (zh) |
CN (1) | CN101069230B (zh) |
WO (1) | WO2006013453A1 (zh) |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2006018133A (ja) * | 2004-07-05 | 2006-01-19 | Hitachi Ltd | 分散型音声合成システム、端末装置及びコンピュータ・プログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8977535B2 (en) * | 2011-04-06 | 2015-03-10 | Pierre-Henry DE BRUYN | Transliterating methods between character-based and phonetic symbol-based writing systems |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
CN102201234B (zh) * | 2011-06-24 | 2013-02-06 | 北京宇音天下科技有限公司 | 一种基于音调自动标注及预测的语音合成方法 |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
CN103365896B (zh) * | 2012-04-01 | 2018-02-16 | 北京百度网讯科技有限公司 | 一种确定目标字符序列对应的语调信息的方法与设备 |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1356687A (zh) * | 2000-11-29 | 2002-07-03 | 松下电器产业株式会社 | 语音合成装置和方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
EP1045372A3 (en) * | 1999-04-16 | 2001-08-29 | Matsushita Electric Industrial Co., Ltd. | Speech sound communication system |
FI112978B (fi) * | 1999-09-17 | 2004-02-13 | Nokia Corp | Symbolien syöttö |
US6865533B2 (en) | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
FI20010792A (fi) * | 2001-04-17 | 2002-10-18 | Nokia Corp | Käyttäjäriippumattoman puheentunnistuksen järjestäminen |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
US7002491B2 (en) * | 2002-05-02 | 2006-02-21 | Microsoft Corporation | System and method for filtering far east languages |
US7228267B2 (en) * | 2002-07-03 | 2007-06-05 | 2012244 Ontario Inc. | Method and system of creating and using Chinese language data and user-corrected data |
-
2004
- 2004-08-02 US US10/909,462 patent/US7788098B2/en not_active Expired - Fee Related
-
2005
- 2005-08-02 WO PCT/IB2005/002285 patent/WO2006013453A1/en active Application Filing
- 2005-08-02 CN CN200580033278.8A patent/CN101069230B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1356687A (zh) * | 2000-11-29 | 2002-07-03 | 松下电器产业株式会社 | 语音合成装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
US7788098B2 (en) | 2010-08-31 |
CN101069230B (zh) | 2016-02-10 |
WO2006013453A1 (en) | 2006-02-09 |
US20060025999A1 (en) | 2006-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101069230A (zh) | 预测通信系统中使用的文本信息的音调模式信息 | |
CN110223705B (zh) | 语音转换方法、装置、设备及可读存储介质 | |
EP1267326B1 (en) | Artificial language generation | |
KR100597110B1 (ko) | 사전 데이터 압축 방법 | |
US7552045B2 (en) | Method, apparatus and computer program product for providing flexible text based language identification | |
US20050071171A1 (en) | Method and system for unified speech and graphic user interfaces | |
CN111339278B (zh) | 训练话术生成模型、生成应答话术的方法和装置 | |
KR20090000442A (ko) | 범용 대화서비스 장치 및 그 방법 | |
CN1731511A (zh) | 用于对多语言的姓名进行语音识别的方法和系统 | |
CN112669815A (zh) | 歌曲定制生成方法及其相应的装置、设备、介质 | |
CN116343747A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
US20020198712A1 (en) | Artificial language generation and evaluation | |
CN112309372B (zh) | 基于语调的意图识别方法、装置、设备及存储介质 | |
CN112712793A (zh) | 语音交互下基于预训练模型的asr纠错方法及相关设备 | |
CN111063337B (zh) | 可快速更新语言模型的大规模语音识别方法及系统 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
CN116312463A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
KR100400220B1 (ko) | 대화 모델을 이용한 자동 통역 장치 및 방법 | |
CN115995225A (zh) | 模型训练方法和装置、语音合成方法、设备及存储介质 | |
Eide | Automatic modeling of pronunciation variations. | |
CN113470612A (zh) | 一种音乐数据的生成方法、装置、设备以及存储介质 | |
US20040049386A1 (en) | Speech recognition method and system for a small device | |
Kao et al. | A low cost dynamic vocabulary speech recognizer on a GPP-DSP system | |
US7054813B2 (en) | Automatic generation of efficient grammar for heading selection | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
C41 | Transfer of patent application or patent right or utility model | ||
GR01 | Patent grant | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160119 Address after: Espoo, Finland Applicant after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Applicant before: Nokia Oyj |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160210 Termination date: 20170802 |
|
CF01 | Termination of patent right due to non-payment of annual fee |