CN101069230A - 预测通信系统中使用的文本信息的音调模式信息 - Google Patents

预测通信系统中使用的文本信息的音调模式信息 Download PDF

Info

Publication number
CN101069230A
CN101069230A CNA2005800332788A CN200580033278A CN101069230A CN 101069230 A CN101069230 A CN 101069230A CN A2005800332788 A CNA2005800332788 A CN A2005800332788A CN 200580033278 A CN200580033278 A CN 200580033278A CN 101069230 A CN101069230 A CN 101069230A
Authority
CN
China
Prior art keywords
tone
textual entry
information
tone information
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800332788A
Other languages
English (en)
Other versions
CN101069230B (zh
Inventor
丁丰
曹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN101069230A publication Critical patent/CN101069230A/zh
Application granted granted Critical
Publication of CN101069230B publication Critical patent/CN101069230B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

所描述的技术包括从文本条目生成音调信息,以及进一步利用决策树将音调信息应用到拼音序列。例如,一种预测通信系统中使用的文本信息的音调模式信息的方法,该方法包括将文本条目分解成段,以及利用所述分解的段来识别文本条目的音调信息。可利用决策树生成音调信息。还可在分布式系统中实现该方法,其中在后端服务器处执行该转化并且在请求之后将该信息发送到通信设备。

Description

预测通信系统中使用的文本信息的音调模式信息
技术领域
本发明一般地涉及通信系统中的语音识别和文本到语音(TTS)合成技术。更具体地,本发明涉及预测通信系统中使用的文本信息的音调模式信息。
背景技术
该部分旨在提供针对权利要求书中所叙述的本发明的背景或环境。这里的描述可以包括可被遵循的概念,但不必是先前已经设想或遵循的概念。因此,除非在这里另外指出,否则在该部分所描述的内容不是本申请的权利要求书中的现有技术并且不会因为包括在这里而被认为是现有技术。
语音可被用于结合移动终端进行输入和输出。例如,语音识别和文本到语音(TTS)合成技术使用语音以结合移动终端进行输入和输出。这样的技术尤其适用于残疾人士或当移动终端用户无法轻松自如地使用他或她的手时。这些技术还能够给出有声的反馈,使得用户不必盯着设备。
音调对于汉语(例如,普通话、广东话和其它方言)和其它语言来说是重要的。音调主要特征在于其基频(F0)轮廓的形状。例如,如图1中所示,普通话音调1、2、3和4可以被分别地描述为:阴平(high level)、阳平(high-rising)、上声(low-dipping)和去声(high-falling)。轻声(音调0)不具有特定的F0轮廓,其高度地依赖于在前的音调并且通常被认为是短暂的。
类似汉语的音调语言中的文本到语音是具有挑战性的,因为通常在文本呈现中没有可用的音调信息。然而,音调信息对于理解是至关重要的。相邻音节的音调组合可形成某些音调模式。另外,音调可显著地影响语音感知。例如,音调信息对于汉语语音输出是至关重要的。在英语中,句子的不正确的音调变化可致使句子难以理解。在汉语中,单个字词的不正确的语调可完全改变它的意思。
在许多情况下,音节的音调信息是无法获得的。例如,汉语电话用户在电话目录(“联系人姓名”)中可具有拼音格式的姓名。拼音是用于将汉语表意文字拼写成罗马字母的一种系统,由中华人民共和国1979年正式采用。用于联系人姓名的拼音格式可能不包括音调信息。从联系人姓名本身直接获得音调信息是不太可能的。在没有音调或具有不正确的音调的情况下,从文本生成的语音在质量上是糟糕的并且可以完全改变文本的意思。
美国专利申请2002/0152067(该申请被转让给与本申请相同的受让人)公开了一种方法,其中用于姓名或字词的发音模型可从位于网络中的服务器获得。然而,该专利申请仅描述涉及发音的解决方案。没有包括或暗示音调信息的使用。如上所指出的,在没有音调信息的情况下,重要的意思会被丢失。
国际专利申请WO 3065349公开了向文本到语音生成添加音调信息以提高文本的可理解性。该专利申请所描述的技术使用了对句子的上下文的分析。基于字词所位于的其它的上下文来识别音调。然而,这样的上下文不总是可用的,特别是结合例如移动电话的通信系统,并且文本也不总是提供生成音调信息所需的线索。
因此,需要不依赖于上下文而预测音节序列的音调模式。进一步,需要预测音调模式以正确地识别用作移动设备的联系人的姓名。更进一步,当无法获得音调信息时,需要合成通信终端中的联系人姓名。更进一步,对于类似汉语的语言,需要从文本生成音调信息,其中音调信息对于通信和理解是至关重要的。
发明内容
一般地,本发明涉及从文本条目生成音调信息,并且进一步使用决策树将该音调信息应用到拼音序列。至少一个示例性的实施方式涉及一种预测计算机系统中使用的文本信息的音调模式信息的方法。该方法包括将文本条目分解成段并利用分解的段来识别文本条目的音调信息。可利用决策树生成音调信息。还可在分布式系统中实现该方法,其中在后端服务器处执行该转化并且在请求之后将该信息发送到通信设备。
另一个示例性实施方式涉及一种设备,该设备基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息。该设备包括处理模块和存储器。处理模块执行编程的指令而存储器包含编程的指令以将文本条目分解成段并利用分解的段来识别文本条目的音调信息。
另一个示例性实施方式涉及一种系统,该系统基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息。该系统包括终端装置设备和处理模块,该终端装置设备具有一个或多个存储在其上的文本条目而处理模块将文本条目分解成段并且利用分解的段来识别文本条目的音调信息。
另一个示例性实施方式涉及一种具有计算机代码的计算机程序产品,该计算机代码将文本条目分解成段并且利用分解的段来识别文本条目的音调信息。
附图说明
图1是各种普通话汉语音调的基频轮廓的示图;
图2是描述根据示例性实施方式的音调估计系统的总体框图;
图3是描述分类音调信息处理中执行的示例性操作的流程图;
图4是描述在图2的音调估计系统中使用的示例特征集的示图;
图5是描述根据示例性实施方式的具有训练结果的示例分类与回归树(CART)的示图;
图6是描述在音调估计处理中执行的示例性操作的流程图。
具体实施方式
图2示出一通信系统10,该通信系统包括根据示例性实施方式配置成具有音调估计能力的设备。这里描述的示例性实施方式可应用于任何的通信系统中,该通信系统包括具有语音合成应用和/或语音识别应用的电子设备,以及服务器,数据可在该电子设备和该服务器之间传送。
通信系统10包括终端装置(TE)设备12、接入点(AP)14、服务器16和网络18。TE设备12可包括存储器(MEM)、中央处理单元(CPU)、用户接口(UI)和输入-输出接口(I/O)。存储器可包括用于存储控制CPU的应用程序的非易失性存储器以及用于数据处理的随机存取存储器。例如文本到语音(TTS)模块的语音合成(SS)模块可通过执行存储在存储器中的CPU编程指令来实现。语音识别(SR)模块可通过执行存储在存储器中的CPU编程指令来实现。I/O接口可包括无线局域网的网络接口卡,例如基于IEEE802.11标准的多种网络接口卡中的一种。
TE设备12可经由接入点14连接到网络18(例如,局域网(LAN)、互联网、电话网)并进一步连接到服务器16。TE设备12还可使用例如电缆、红外线或射频处的数据传输与服务器16直接通信。服务器16可为TE设备12提供各种处理功能。服务器16还可为TE设备12提供后端处理服务。
TE设备12可以是在其中执行语音识别或语音合成的任意便携式电子设备,例如个人数字助理(PDA)设备、远端控制器或耳机和麦克风的组合。TE设备12可以是由计算机或移动台所使用的补充设备,在该情况下,到服务器16的数据传输可经由计算机或移动台设置。在示例性的实施方式中,TE设备12是与公共陆地移动网络通信的移动台,其中服务器S也被功能性地连接到该公共陆地移动网络。连接到网络18的TE设备12包括用于与网络18无线通信的移动台功能。网络18可以是任意已知的无线网络,例如支持GSM服务的网络、支持GPRS(通用分组无线服务)的网络或第三代移动网络,例如根据3GPP(第三代合作伙伴计划)标准的UMTS(通用移动通信系统)网络。还可在移动网络中实现服务器16的功能性。TE设备16可以是仅用于通话的移动电话,或它也可包括PDA(个人数字助理)功能。
TE设备12可使用音调模式信息,该信息可用于确定非音调拼音序列的音调,或不具有音调信息但其中音调信息是重要的其它序列。TE设备12可经由网络18获得这样的信息,或在其被使用之前离线地获得。可从数据库捕捉音调模式,并接着存储在某个模型中作为预知的知识。模型可以是分类与回归树(CART)或神经网络和其它的结构。在可选的实施方式中,服务器16估计音调信息并将附着到文本的音调信息传递到TE设备12。
图3示出分类音调信息处理中执行的示例性操作的流程图20。根据实施方式,可以执行附加的、更少的或不同的操作。在示例性的实施方式中,使用分类与回归树(CART)。CART可用于预测连续的因变量(回归)和分类预测器变量(分类)。
在操作22中,数据库和设计特征集被收集。优选地,数据库包含应用域中音调模式的主要特征。例如,为了针对汉语姓名反馈收集数据库,姓名列表应该足够的大,所有的汉语姓和经常使用的名应该被包括在内。还应该考虑不同长度的姓名。基于特征集,针对数据库中的每个条目计算所有的特征。
图4示出示例性的特征集30,该特征集被描述为((音调0 1 2 34)(n::final)(t::initial)(t:final)(n::initial))。值“p”、“t”和“n”分别表示先前的音节、当前的音节和下一个音节。音调0 1 2 3 4表示各种不同的音调。特征集30可以被存储在通信终端上的存储器中。
再次参考图3,在操作24中,利用训练算法对模型进行训练。训练算法用于提取必要的音调模式信息到训练数据库。当满足规定的准则时,例如最大熵,则完成训练处理。
例如CART结构40的决策树可用于生成适用于输入音节序列的音调。在标记的数据库上训练决策树。决策树由如图5中所示出的链接在一起的节点构成。属性被附着到每个节点上。属性规定了在该节点中考虑了什么类型的上下文信息。上下文信息可以包括在当前音节左手侧和右手侧的音节。可以使用例如INITIAL/FINAL的某些更小单元。此外,可以使用先前的INITIAL/FINAL音节和它们的类。除非节点是叶节点,否则树的每个节点由子节点跟着。
从一个节点移动到子节点是基于节点中所规定的属性值。当决策树用于提取对应于某个上下文中的音节的音调时,查找开始于根节点。爬树直到找到叶。对应于给定上下文中的音节的音调被存储在叶中。
当从被标记的数据库训练决策树时,考虑所有的训练情形。一种训练情形由标记的数据库中的音节和音调上下文以及相应的音调构成。在训练期间,决策树生长并根据信息理论最优化规则将决策树分裂成子节点。分裂持续直到不能进一步提高最优化准则。
在训练中,首先分裂树的根节点。为了将节点分裂成子节点,必须选择属性。对所有的不同属性进行检测并且选择最大化了最优化规则的一个属性。信息增益被用作最优化准则。为了计算分裂的信息增益,必须已知分裂根节点之前的音调分布。基于根节点中的音调分布,可根据如下计算熵E:
E = - Σ i = 1 N f i log 2 f i
其中fi是第i个音调发生的相对频率,而N是音调的数目。基于音节和音调上下文,根据可能的属性,根节点中的训练情形可分裂成多个子集。对于一种属性,分裂后的熵Es被计算为多个子集的多个熵的平均熵。如果Ej S表示分裂后的子集j的熵,则分裂后的平均熵是:
E s = - Σ j = 1 k | S j | | S | E j s
其中|S|是根节点中训练情形的总的数目。|Sj|是第j个子集中训练情形的数目,而K是子集的数目。一种属性的信息增益可如下给出:
G=E-Es
针对每种属性计算信息增益,并且选择具有最高信息增益的属性。针对子节点重复树中的节点的分裂。根据不同的属性将属于每个子节点的训练情形进一步分裂成多个子集。对于每个子节点,选择具有最高信息增益的属性。当信息增益大于零并且通过分裂可以提高节点的熵时,树中节点的分裂继续。除了信息增益以外,分裂由第二条件控制。仅当在分裂之后至少有两个子节点将具有至少预定最小数目的训练情形时,一个节点才可被分裂。如果信息增益是零或不满足第二条件,则不分裂该节点。
图5示出描述训练结果示例的CART结构40。CART结构40表示出音调估计模型中的节点间的关系。如果当前的音节以“m”开始而以“ao”结束,则识别出音调2。如果当前音节以“m”开始而不以“ao”结束,则识别出音调3。
再次参考图3,在操作26中,训练结果被转化成压缩格式以节省存储器空间并加速使用过程。在训练结果中存储音调模式信息。在操作28中,生成音调模式。当音节序列到来时,所有的音节可用于在不同的树分支之间切换,并且从上通过树直至到达叶。
现在参考图5,例如,如果使用CART结构40,并且进入的拼音串是“mao ze dong”,对于第一个音节“mao”,其声母是“m”,根据最高节点,切换到右分支,接着根据第二级节点,其韵母是“ao”,则再次切换到右分支并到达左节点,所以“mao”的音调将被设置为“2”。
图6示出在音调估计处理中执行的示例性操作的流程图50。根据实施方式,可以执行附加的、更少的或不同的操作。在操作52中,终端装置(TE)设备中的处理单元获得音节序列。音节序列可以是一个或多个字词。处理单元可以从存储器中获得音节序列。通常,处理单元基于也包含在存储器中的编程指令操作。
在操作54中,处理单元分解各个音节。在操作56中,基于分解的文本获得或估计音调信息。例如,包含在特征集中的音调模式信息可提供信息,处理单元从该信息识别相应的音调。特征集可包括在例如参考图4所描述的CART结构40的CART结构中。
尽管已经描述了本发明的几个实施方式,但将理解到本发明相关领域的技术人员可想到修改和改变。例如,尽管汉语被用作需要音调信息的示例性语言,但本系统不限于利用特定的语言进行操作。因此,本说明书所附的权利要求书旨在精确地限定本发明。

Claims (20)

1.一种预测计算机系统中使用的文本信息的音调模式信息的方法,该方法包括:
将文本条目分解成段;以及
利用所述分解的段来识别所述文本条目的音调信息。
2.根据权利要求1所述的方法,其中所述文本条目包括拼音序列。
3.根据权利要求1所述的方法,其中使用所述分解的段来识别所述文本条目的音调信息包括在分类树中定位相应音调信息。
4.根据权利要求1所述的方法,其中使用所述分解的段来识别所述文本条目的音调信息包括基于所述分解的段访问包含所述文本条目的音调信息的数据库。
5.根据权利要求1所述的方法,进一步包括从后端服务器向通信设备传递识别的音调信息。
6.根据权利要求1所述的方法,其中所述文本条目是通信设备上的联系人列表中的姓名。
7.一种基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息的设备,该设备包括:
处理模块,其执行编程的指令;以及
存储器,其包含编程的指令以将文本条目分解成段并利用所述分解的段来识别所述文本条目的音调信息。
8.根据权利要求7所述的设备,其中所述音调信息存储在位于所述存储器中的决策树中。
9.根据权利要求7所述的设备,其中所述音调信息存储在由服务器访问的数据库中。
10.根据权利要求7所述的设备,其中所述文本条目包括拼音序列。
11.根据权利要求7所述的设备,其中所述文本条目包括来自联系人列表的姓名。
12.一种基于文本信息而不是文本信息的上下文来预测文本信息的音调模式信息的系统,该系统包括:
终端装置设备,其具有一个或多个存储在其上的文本条目;以及
处理模块,其将文本条目分解成段并且利用所述分解的段来识别所述文本条目的音调信息。
13.根据权利要求12所述的系统,其中所述处理模块包含在所述终端装置设备中。
14.根据权利要求12所述的系统,其中所述处理模块包含在服务器上,在识别所述音调信息后,所述服务器将所述音调信息传递到所述终端装置设备。
15.根据权利要求12所述的系统,进一步包括联系人姓名列表,所述姓名包括拼音序列。
16.一种计算机程序产品,包括:
计算机代码,其将文本条目分解成段并且利用所述分解的段来识别所述文本条目的音调信息。
17.根据权利要求16所述的计算机程序产品,其中利用决策树生成音调信息。
18.根据权利要求16所述的计算机程序产品,其中所述计算机代码包含在通信设备中。
19.根据权利要求16所述的计算机程序产品,其中在计算设备上执行所述计算机代码并且所述音调信息被传递到终端装置设备。
20.根据权利要求16所述的计算机程序产品,其中在识别之后,所述音调信息被附着到所述文本条目。
CN200580033278.8A 2004-08-02 2005-08-02 预测通信系统中使用的文本信息的音调模式信息 Expired - Fee Related CN101069230B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/909,462 2004-08-02
US10/909,462 US7788098B2 (en) 2004-08-02 2004-08-02 Predicting tone pattern information for textual information used in telecommunication systems
PCT/IB2005/002285 WO2006013453A1 (en) 2004-08-02 2005-08-02 Predicting tone pattern information for textual information used in telecommunication systems

Publications (2)

Publication Number Publication Date
CN101069230A true CN101069230A (zh) 2007-11-07
CN101069230B CN101069230B (zh) 2016-02-10

Family

ID=35733484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580033278.8A Expired - Fee Related CN101069230B (zh) 2004-08-02 2005-08-02 预测通信系统中使用的文本信息的音调模式信息

Country Status (3)

Country Link
US (1) US7788098B2 (zh)
CN (1) CN101069230B (zh)
WO (1) WO2006013453A1 (zh)

Families Citing this family (113)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8977535B2 (en) * 2011-04-06 2015-03-10 Pierre-Henry DE BRUYN Transliterating methods between character-based and phonetic symbol-based writing systems
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
CN102201234B (zh) * 2011-06-24 2013-02-06 北京宇音天下科技有限公司 一种基于音调自动标注及预测的语音合成方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN103365896B (zh) * 2012-04-01 2018-02-16 北京百度网讯科技有限公司 一种确定目标字符序列对应的语调信息的方法与设备
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356687A (zh) * 2000-11-29 2002-07-03 松下电器产业株式会社 语音合成装置和方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
FI112978B (fi) * 1999-09-17 2004-02-13 Nokia Corp Symbolien syöttö
US6865533B2 (en) 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
FI20010792A (fi) * 2001-04-17 2002-10-18 Nokia Corp Käyttäjäriippumattoman puheentunnistuksen järjestäminen
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
US7002491B2 (en) * 2002-05-02 2006-02-21 Microsoft Corporation System and method for filtering far east languages
US7228267B2 (en) * 2002-07-03 2007-06-05 2012244 Ontario Inc. Method and system of creating and using Chinese language data and user-corrected data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356687A (zh) * 2000-11-29 2002-07-03 松下电器产业株式会社 语音合成装置和方法

Also Published As

Publication number Publication date
US7788098B2 (en) 2010-08-31
CN101069230B (zh) 2016-02-10
WO2006013453A1 (en) 2006-02-09
US20060025999A1 (en) 2006-02-02

Similar Documents

Publication Publication Date Title
CN101069230A (zh) 预测通信系统中使用的文本信息的音调模式信息
CN110223705B (zh) 语音转换方法、装置、设备及可读存储介质
EP1267326B1 (en) Artificial language generation
KR100597110B1 (ko) 사전 데이터 압축 방법
US7552045B2 (en) Method, apparatus and computer program product for providing flexible text based language identification
US20050071171A1 (en) Method and system for unified speech and graphic user interfaces
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
KR20090000442A (ko) 범용 대화서비스 장치 및 그 방법
CN1731511A (zh) 用于对多语言的姓名进行语音识别的方法和系统
CN112669815A (zh) 歌曲定制生成方法及其相应的装置、设备、介质
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
US20020198712A1 (en) Artificial language generation and evaluation
CN112309372B (zh) 基于语调的意图识别方法、装置、设备及存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN111063337B (zh) 可快速更新语言模型的大规模语音识别方法及系统
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
CN116312463A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
KR100400220B1 (ko) 대화 모델을 이용한 자동 통역 장치 및 방법
CN115995225A (zh) 模型训练方法和装置、语音合成方法、设备及存储介质
Eide Automatic modeling of pronunciation variations.
CN113470612A (zh) 一种音乐数据的生成方法、装置、设备以及存储介质
US20040049386A1 (en) Speech recognition method and system for a small device
Kao et al. A low cost dynamic vocabulary speech recognizer on a GPP-DSP system
US7054813B2 (en) Automatic generation of efficient grammar for heading selection
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
C41 Transfer of patent application or patent right or utility model
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20160119

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210

Termination date: 20170802

CF01 Termination of patent right due to non-payment of annual fee