CN1786957A - 本地与远程语音呈现之间的动态转换 - Google Patents

本地与远程语音呈现之间的动态转换 Download PDF

Info

Publication number
CN1786957A
CN1786957A CNA2005101283954A CN200510128395A CN1786957A CN 1786957 A CN1786957 A CN 1786957A CN A2005101283954 A CNA2005101283954 A CN A2005101283954A CN 200510128395 A CN200510128395 A CN 200510128395A CN 1786957 A CN1786957 A CN 1786957A
Authority
CN
China
Prior art keywords
voice
engine
application
local
main frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101283954A
Other languages
English (en)
Other versions
CN100405370C (zh
Inventor
C·W·小克罗斯
D·哈拉米略
G·M·麦科布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1786957A publication Critical patent/CN1786957A/zh
Application granted granted Critical
Publication of CN100405370C publication Critical patent/CN100405370C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种用于在定义主机的终端系统上呈现多模式文档的多模式浏览器可以包括用于呈现多模式文档的可视内容(如果有的话)的可视浏览器组件,以及用于呈现多模式文档的基于语音内容(如果有的话)的语音浏览器组件。语音浏览器组件能够确定主机在呈现基于语音的内容时使用多种语音处理配置中的哪一种。该确定可以基于运行该应用的主机的资源。该确定还可以基于包含在该应用中的处理指令。

Description

本地与远程语音呈现之间的动态转换
技术领域
本发明涉及通信网络领域,更具体地涉及通信网络中使用的网络浏览器。
背景技术
人们希望在不远的将来个人计算机和其它小型计算设备例如智能电话和个人数字助理(PDA)能够运行被配置为支持多模式交互的Web应用。众所周知,Web应用一般是影响从Web站点到客户端的数据传送的软件程序,所述Web站点作为特定应用的前端,并且提供给客户端的数据导致这样的逻辑操作,通过所述的逻辑操作,Web站点向客户端传递数据或信息。被配置为支持多模式交互的Web应用典型地被称为多模式Web应用。
使用多模式应用,用户可以用不同模式与该应用交互,一种特定的模式体现了与该应用有关的输入和/或输出的特定形式的特征。用户与应用交互的不同模式——包括语音和可视模式——可在同一交互过程中可交替地使用。因此使用多模式Web应用,用户能够使用例如人的语音以及更传统的图形用户界面(GUI)与该应用交互。
智能电话、PDA以及其它小型计算设备的外形因素使得通过键盘输入数据比通过人的语音输入数据更困难。但是有这样的情况,诸如在嘈杂的环境中使用该设备时,其中通过非语音的模式有助于进行交互,例如使用键盘、输入笔和/或GUI。因此显然,通过诸如由多模式Web应用提供的可交替的多种模式与应用进行交互的选择使得在智能电话、PDA和其它相对小型的计算设备的环境中使用多模式Web应用尤其有利。
但是,这种计算设备的相对小的尺寸,虽然在其它方面是期望的,可能使得在这种设备上本地运行多模式Web应用的不同模式是有问题的。智能电话、PDA或类似计算设备的相对小的尺寸会限制可以在这种设备中提供的处理和/或存储器资源的量。因此,这种资源受限的设备通常不能支持在该设备自身上本地运行多于一种的交互模式。例如,语音形式的数据的呈现是这样一种模式,它需要超过许多类型的资源受限的设备的处理资源的处理资源。因此,在小型设备上运行多模式Web应用时,可能会可以在该设备上成功地本地运行可视模式,但是可能必需在远程设备,即,发布该应用的服务器上运行相同应用的语音呈现组件。可替换地,驻留在所述小型设备上的相对基本的语音呈现组件可以提供基础的语音识别输入,而更强健的(虽然位于远程)语音呈现组件可以用于处理更复杂的语音输入。
在本上下文中,有必要回忆通常语音处理包括两个部分:语音识别和语音合成。语音识别包括通过将语音段与一种语法或多种语法进行比较来自动识别语音输入。语音合成包括文字到语音(TTS)处理,通过该处理基于文字形式的输入呈现出合成语音输出。尽管完整的语音模式的应用典型地需要自动语音识别和TTS处理两者,但是它们中的每个都可在不同位置执行。在手持或其它小型设备的特定环境下,该设备可能有足够的资源本地处理TTS,但可能没有足够的资源本地执行语音识别。
此外,即使可能有设备可以本地处理TTS和语音识别两者,但特定的Web应用可能需要在Web服务器上执行语音识别。后者的情况可能出现在需要相对更多的Web服务器资源以便支持大量语法或多种语法以及执行与自然语言理解(NLU)模型有关的后处理功能时。
尽管有这些不同的情况,传统的多模式Web浏览器缺少一种用于基于具有运行该应用的任务的特定主机的资源和/或基于特定应用本身的特性,在可供选择的语音配置间进行转换的动态能力。也就是说,传统的多模式Web浏览器缺少一种动态能力,以便例如从本地执行语音识别和TTS处理的语音配置转换到这两者都在服务器上远程地执行或本地执行TTS处理而远程地执行语音识别的一种语音配置。
发明内容
本发明提供了一种可以通过动态地在不同语音配置间转换来运行不同的多模式Web应用的多模式浏览器。更具体地,本发明提供了一种能够基于所述应用运行于其上的主机的资源和/或所述应用自身的一些方面,在可供选择的语音呈现配置间动态转换方法、网络浏览器以及设备。可以在其间进行这种动态转换的可供选择的配置包括,例如,本地语音识别和本地TTS处理配置;远程语音识别和本地TTS配置;和远程语音识别和远程TTS处理配置。
根据一个实施例,一种运行从服务器发布到定义主机的终端系统的应用的基于计算机的方法可以包括自动选择一种语音处理配置,用于在所述应用包括基于语音的内容的情况下呈现该应用的基于语音的内容。该方法还可以包括基于所选择的语音处理配置装入至少一个语音呈现引擎。所述方法进一步可以包括使用所述至少一个语音呈现引擎呈现基于语音的内容(如果有的话)。
本发明的另一个实施例是一种用于在定义主机的终端系统上呈现多模式文档的多模式浏览器。该多模式浏览器可以包括用于呈现多模式文档的可视内容(如果有的话)的可视浏览器组件。该多模式浏览器附加地可以包括用于呈现多模式文档的基于语音的内容(如果有的话)的语音浏览器组件,所述语音浏览器组件在呈现基于语音内容时确定主机使用多个语音处理配置中的哪个语音处理配置。
本发明的另一个实施例是一种设备,其包括计算机可读存储介质,所述计算机可读存储介质包括用于运行从服务器发布到定义主机的终端上的应用的计算机指令。所述计算机指令包括用于选择语音处理配置以便呈现所述应用的基于语音的内容(如果有的话)的计算机指令。所述计算机指令还可以包括用于基于所选择的语音处理配置装入至少一个语音呈现引擎的计算机指令。另外,所述计算机指令可以包括用于使用所述至少一个语音呈现引擎呈现基于语音的内容(如果有的话)的计算机指令。
附图说明
在附图中示出了当前优选的实施例,然而,应当理解本发明不限于示出的精确方案和手段。
图1是根据本发明的一个实施例的通信网络的示意图,该通信网络包括运行应用的终端系统;
图2是驻留在图1的主机上的多模式浏览器的示意图;
图3是描述了根据本发明另一实施例的多模式浏览器的操作特性的流程图;
图4是描述了根据本发明又一个实施例的多模式浏览器的操作特性的流程图;
图5是描述了根据本发明又一个实施例的多模式浏览器的操作特性的流程图;
图6是描述了根据本发明又一个实施例的多模式浏览器的操作特性的流程图。
具体实施方式
本发明使得一种基于计算机的浏览器能够通过根据运行所述应用的特定终端系统或主机的语音处理资源和/或应用自身的指示,在本地和远程语音处理之间动态地转换来运行应用。所述应用可以是从Web服务器发布到主机例如个人计算机(PC)、智能电话或类似设备的Web应用。更具体地,所述Web应用可以是支持应用与用户间的多模式交互的多模式Web应用。使用多模式Web应用,用户可以通过可视模式以及通过语音模式与应用交互,所述语音模式交互包括两个不同的部分:基于一种或多种语法的语音识别以及TTS处理,在TTS处理中以语音呈现文本内容。如下所述,本地和远程语音处理间的动态转换允许浏览器基于此处列举的一些因素确定执行语音识别和TTS处理的位置。
图1提供了网络100的示意图,网络100包括两个不同的终端系统,即,主机102和服务器104,根据本发明一个实施例使用该主机运行应用。主机102示例地为蜂窝电话,但可替换地,主机102可以包括各种其它通信和计算设备,诸如PC、PDA或与另一位于远程的设备诸如服务器104交互的类似的这种设备。主机102可以包括用于呈现GUI的显示器,以及用于输入数据和/或从触摸屏选择应用的键盘和/或输入笔。主机102附带地可以包括处理电路,诸如微处理器以及相关联的存储器,用于处理和存储语音形式的输入和/或输出。更具体地,服务器104可以是将Web应用发布到主机102的Web服务器。
示例地,主机102通过RF信号与服务器104无线地通信,所述RF信号被传送到与网络节点108(例如,通信流交换设备)通信地连接的无线电塔106。网络节点108示例地通过一个或多个中间节点109与服务器104连接,但是可替换地,它可以与服务器直接连接。如本领域的普通技术人员可以理解的,网络100仅仅是可以用来实现主机102和服务器104之间的通信的多种互联的示例。例如,所述网络可以是网络的互联,诸如因特网。可替换地,主机102可以无线地或通过陆线直接与服务器104通信。如从此处的讨论中可以明了的,这些和其它各种联网方案不影响根据本发明的各种实施例运行应用。
主机102的语音处理资源和能力确定在主机本地执行哪些语音处理功能(如果有的话),在服务器104远程地执行哪些语音处理功能(如果有的话)。更具体地,主机102的资源规定可以使用哪些语音处理配置呈现由服务器104发布到该主机的特定应用的语音内容。
如此处所讨论的,根据是否在主机102本地执行和/或在服务器104远程地执行语音识别,以及是否本地(即,在主机102上)和/或远程地(即,在服务器104上)执行TTS处理,有九种可能的语音处理配置。可能的语音处理配置是:在主机上执行本地语音识别和本地TTS处理;本地语音识别和在服务器上远程地执行TTS处理;远程语音识别和本地TTS处理;本地和远程语音识别,但仅为远程TTS处理;本地和远程语音识别,但仅为本地TTS处理;仅为本地语音识别,但进行本地和远程TTS处理;仅为远程语音识别,但进行本地和远程TTS处理;既进行本地的又进行远程的语音识别,并且既进行本地的又进行远程的TTS处理;最后,远程语音识别和远程TTS处理。
对于这九种列举的语音处理配置,语音识别往往比TTS处理更加资源密集的事实意味着最适当的语音处理配置通常是本地的语音识别和本地的TTS处理,本地的TTS处理和远程的TTS以及远程的ASR处理。因此,接下来的讨论着重强调这些特定的语音处理配置,但应记住此处讨论的本发明的实施例也适合于其余的配置。
示例地,多模式浏览器110驻留在主机102上以便运行由服务器104发布到该主机的应用。所述应用示例地是多模式应用,其包含一组规定用户和该应用之间的交互的文档,例如,所述交互包含通过GUI的可视交互以及通过语音处理实现的语音交互。
另外参考图2,多模式浏览器110示例地包括可视浏览器组件112,用于呈现多模式文档的可视内容,以及语音浏览器组件114,用于呈现多模式文档的语音内容。此外,语音浏览器组件114被配置为从多种可能的语音处理配置中动态地选择使用哪个配置呈现与该应用相关的语音内容。基于语音浏览器组件114的选择,一个或多个语音引擎被装入到主机102和/或服务器104,从而使用一对引擎呈现语音内容,如果主机的资源支持所选择的语音处理配置的话。否则,如下所述,多模式浏览器110提供一个错误指示。所述一对引擎中的一个执行TTS处理,另一个执行语音识别。基于所述应用需要的语音处理的类型和程度以及主机102的特定资源做出语音处理配置的选择。
根据一个实施例,应用自身能指出将使用的语音处理配置。例如,该应用可以是包括一个或多个Web页面或文档的Web应用。更具体地,可以用可扩展的标记语言(XML)例如XHTM+Voice编写这些文档。XML文档规定用户如何与从服务器104发布到主机102的应用进行交互,所述交互包括可交替的可视模式和语音模式两者。此外,该文档或Web页面的开头可以包括处理指令,由多模式浏览器110的语音浏览器组件114读取该处理指令,并且它指出将使用的特定语音处理配置。下面是一个可以被包含在Web页面的开头或顶端的示例XML处理指令(PI):
        <?xv-speech location=”server”?>.
这个示例的XML PI指出了位置属性,所述的位置属性特别地指出在服务器上执行语音识别和TTS处理两者。例如,在XML文档中使用的位置属性的另一个值是“local”位置属性,它指出在主机上本地执行语音识别。在XML文档中使用的位置属性的另一个值是“local-tts”位置属性,它指示仅在主机上本地执行TTS处理。可以类似地构造包含在用其它语言编写的文档中的其它PI,以便指示特定的语音处理配置,所述特定的语音处理配置又指出语音识别和TTS处理的各个功能将被执行的相应位置。
根据另一个实施例,基于存储在配置文件中的语音位置属性,语音浏览器组件114允许或是本地地位于主机102上或是远程地位于服务器104上的语音呈现引擎的位置。如本领域的技术人员易于理解的,该配置文件可以由主机运营商或制造者存储在主机102上。
图3示出了语音浏览器组件114在从多种可能的语音处理配置中进行选择时的各种操作特性。为了清楚起见,假定所述多种语音处理配置只包括三种配置:本地的TTS处理和本地的语音识别;本地的TTS处理和远程的语音识别;远程的TTS处理和远程的语音识别。
开始,在步骤300,接收一个Web页面形式的文档。在步骤304,确定PI是否要求本地的语音识别和本地的TTS处理。如果是,在步骤306做出主机资源是否支持本地的TTS处理和本地的语音识别两者的后续确定。假定主机资源支持这两者,则在步骤308装入本地TTS引擎和本地语音识别引擎。从而呈现Web页面的语音内容。否则,如果主机资源不支持本地的语音识别和本地的TTS处理两者,则在步骤310产生一个错误指示。
可替换地,如果在步骤304确定PI并不要求本地的语音识别和本地的TTS处理两者,则在步骤312做出PI是否取而代之要求本地的TTS处理和远程的语音识别的后续确定。如果是,则在步骤314做出主机资源是否支持这种特定语音处理配置的后续确定。如果主机资源的确支持本地的TTS处理和远程的语音识别,则在步骤316装入本地TTS处理引擎和远程语音识别引擎。如果资源不支持这种语音处理配置,在步骤318产生一个错误指示。
如果在步骤304和312分别确定PI既不要求带有本地语音识别的本地TTS处理,也不要求带有远程语音识别的本地TTS处理,则在步骤320确定PI是否取而代之要求远程TTS处理和远程语音识别。如果是,那么在步骤314做出主机资源是否支持该语音处理配置的后续确定。根据该确定,在步骤324装入远程TTS引擎和远程语音识别引擎,或者否则返回步骤310,产生一个错误指示。
可以为从服务器发布到主机的不同应用重复所述的操作动作序列。因此,语音浏览器组件114的各种操作特性提供了在多种不同的语音处理配置间动态地转换以便呈现与不同应用相关联的基于语音的内容的机制。
图4示出了在具有只支持本地语音识别和本地TTS处理的资源的主机的特定上下文中的这些相同的操作特性。在步骤400,Web页面再次被发布到主机,并且在步骤402读取包含在Web页面中的PI。如果在步骤404确定该PI要求本地TTS处理,则在步骤406装入本地TTS引擎。否则,在步骤408报告错误并记录在TTS错误记录中。
接下来,在步骤410,确定该PI是否要求本地语音识别。如果是的,在步骤412装入本地语音识别引擎,并且在步骤414呈现语音内容。然而如果不是,在步骤416报告错误并记录在识别错误记录中。
图5示出了在具有支持本地和远程TTS处理,但只支持远程语音识别的资源的主机的特定上下文中的操作方面。在步骤500,接收多模式Web页面,在步骤502读取其中包含的PI。在步骤504确定该PI是否要求本地或远程TTS处理。根据该确定,在步骤506装入本地TTS引擎或在步骤508装入远程TTS引擎。
之后,在步骤510确定包括在Web页面中的PI是否要求本地或远程语音识别。如果PI要求后者,则在步骤512装入远程语音识别引擎,并且在步骤514呈现语音内容。否则,如果要求本地语音识别,则在步骤516报告错误并记录在识别错误记录中。该步骤是因为当特定应用要求这种语音处理配置时,主机不拥有支持本地语音识别所需的资源。
图6示出了在具有支持本地和远程TTS处理,以及本地和远程语音识别的资源的主机的特定上下文中的操作特性。在步骤600和602,分别接收Web页面和读取包含在其中的PI。在步骤604,确定该PI是否要求本地或远程TTS处理。如果要求前者,则在步骤606装入本地TTS引擎。如果要求后者,则在步骤608装入远程TTS引擎。
之后,在步骤610确定包含在Web页面中的PI是否要求本地或远程语音识别。基于该确定,在步骤612装入本地语音识别,或在步骤614装入远程语音识别。在步骤616呈现该语音内容。
可以由硬件、软件或硬件和软件的组合实现本发明。可以在一个计算机系统中以集中的方式实现本发明,或者以分布的方式实现本发明,其中不同的元件分散在若干互联的计算机系统上。适合于执行此处所述的方法的任何类型的计算机系统或其它设备都是适合的。典型的硬件与软件的组合可以是具有计算机程序的通用计算机系统,当装入所述计算机程序和执行该程序时,控制该计算机系统执行此处所述的方法。
本发明还可以被包含在计算机程序产品中,所述计算机程序产品包括能够实现此处描述的方法的所有特征,并且当被装入计算机系统中时能够执行这些方法。在本上下文中的计算机程序意指一组以任何语言、编码或符号的指令的任意表示,该指令旨在使得具有信息处理能力的系统或是直接地,或是在a)转换为另一种语言、编码或符号;b)以不同材料形式复制之一或两者之后执行特定的功能。
可以用其它形式的表述本发明而不背离本发明的精神或基本属性。因此,应当参考下面的权利要求而不是前面的说明书确定本发明的范围。

Claims (20)

1.一种运行从服务器发布到定义主机的终端系统的应用的基于计算机的方法,该方法包括:
自动地选择语音处理配置,用于如果所述应用包括基于语音的内容,呈现所述应用的基于语音的内容,所述语音处理配置的选择基于包含在所述应用中的处理指令以及所述主机可使用的处理资源;
基于所选择的语音处理配置装入至少一个语音处理引擎;和
使用所述至少一个语音处理引擎呈现所述基于语音的内容。
2.如权利要求1所述的方法,还包括在多个不同的语音处理配置之间动态地转换,以便呈现与不同应用相关联的基于语音的内容。
3.如权利要求1所述的方法,其中所述语音处理配置包括采用本地语音识别引擎配置的本地文本到语音(TTS)引擎,采用远程语音识别引擎的本地TTS引擎,以及采用远程语音识别引擎的远程TTS引擎中的一个。
4.如权利要求1所述的方法,还包括如果所述主机缺少根据所述处理指令呈现所述基于语音的内容的语音处理资源,则提供错误指示。
5.如权利要求1所述的方法,其中所述应用包括基于Web的应用,并且所述服务器包括Web服务器。
6.如权利要求5所述的方法,其中所述基于Web的应用包括至少一个多模式Web页面。
7.如权利要求6所述的方法,其中所述多模式Web页面是XML文档,其规定了用户如何使用图形用户界面(GUI)和语音中的至少一个与所述主机和应用交互。
8.一种用于在定义主机的终端系统上呈现多模式文档的多模式浏览器,该多模式浏览器包括:
可视浏览器组件,用于呈现所述多模式文档的可视内容;
语音浏览器组件,用于呈现所述多模式文档的基于语音的内容,该语音浏览器组件确定使用多种语音处理配置中的哪种配置呈现基于语音的内容,所述确定基于包含在所述应用中的处理指令以及所述主机可使用的处理资源。
9.如权利要求8所述的多模式浏览器,其中所述语音浏览器在多种不同的语音处理配置之间动态地转换以便呈现与不同应用相关联的基于语音的内容。
10.如权利要求8所述的多模式浏览器,其中所述多个语音呈现引擎包括采用本地语音识别引擎配置的本地文本到语音(TTS)引擎,采用远程语音识别引擎的本地TTS引擎,以及采用远程语音识别引擎的远程TTS引擎。
11.如权利要求8所述的多模式浏览器,其中如果所述主机缺少根据所述指令使用语音呈现引擎呈现基于语音的内容的处理资源,则所述语音浏览器组件确定发生了错误。
12.如权利要求8所述的多模式浏览器,其中所述语音浏览器组件基于包含在存储在所述主机中的配置文件内的语音位置特性,确定使用多个语音呈现引擎中的哪个语音呈现引擎。
13.如权利要求8所述的多模式浏览器,其中所述多模式文档包括包含XML处理指令的多模式Web页面,并且其中所述语音浏览器组件基于该XML处理指令确定使用多个语音呈现引擎中的哪个语音呈现引擎。
14.一种用于运行从服务器发布到定义主机的终端系统的应用的计算机可读存储介质,该存储介质包括计算机指令,所述计算机指令用于:
选择语音处理配置,用于如果所述应用包括基于语音的内容,呈现所述应用的基于语音的内容,所述语音处理配置的选择基于包含在所述应用中的处理指令和所述主机可使用的处理资源;
根据所选择的语音处理配置使用至少一个语音处理引擎呈现所述基于语音的内容。
15.如权利要求14所述的计算机可读存储介质,其中所述选择包括在多个不同的语音处理配置之间动态地转换以便呈现与不同应用相关联的基于语音的内容。
16.如权利要求14所述的计算机可读存储介质,其中所述语音处理配置包括采用本地语音识别引擎配置的本地文本到语音(TTS)引擎,采用远程语音识别引擎的本地TTS引擎,采用远程语音识别引擎的远程TTS引擎中的至少一个。
17.如权利要求14所述的计算机可读存储介质,还包括如果所述主机缺少根据所述处理指令呈现所述基于语音的内容的语音处理资源,则指出错误。
18.如权利要求14所述的计算机可读存储介质,其中所述应用包括基于Web的应用并且所述服务器包括Web服务器。
19.如权利要求18所述的计算机可读存储介质,其中所述基于Web的应用包括至少一个多模式文档。
20.如权利要求19所述的计算机可读存储介质,其中所述多模式文档是XML文档,它规定了用户如何使用图形用户界面和语音中的至少一个与所述主机和应用交互。
CNB2005101283954A 2004-12-08 2005-11-14 本地与远程语音呈现之间的动态转换方法和装置 Expired - Fee Related CN100405370C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/007,830 US8024194B2 (en) 2004-12-08 2004-12-08 Dynamic switching between local and remote speech rendering
US11/007,830 2004-12-08

Publications (2)

Publication Number Publication Date
CN1786957A true CN1786957A (zh) 2006-06-14
CN100405370C CN100405370C (zh) 2008-07-23

Family

ID=36575494

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101283954A Expired - Fee Related CN100405370C (zh) 2004-12-08 2005-11-14 本地与远程语音呈现之间的动态转换方法和装置

Country Status (2)

Country Link
US (1) US8024194B2 (zh)
CN (1) CN100405370C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287043B (zh) * 2007-04-12 2011-05-25 纽昂斯通讯公司 用于提供与多模式应用之间的表达用户交互的方法和设备
CN103020165A (zh) * 2012-11-26 2013-04-03 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法
CN103533154A (zh) * 2012-06-28 2014-01-22 Lg电子株式会社 移动终端及其识别语音的方法
CN104240707A (zh) * 2012-11-26 2014-12-24 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
WO2022226715A1 (en) * 2021-04-26 2022-11-03 Microsoft Technology Licensing, Llc Hybrid text to speech

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US8032825B2 (en) * 2005-06-16 2011-10-04 International Business Machines Corporation Dynamically creating multimodal markup documents
US7917365B2 (en) 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) * 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US20080319757A1 (en) * 2007-06-20 2008-12-25 International Business Machines Corporation Speech processing system based upon a representational state transfer (rest) architecture that uses web 2.0 concepts for speech resource interfaces
US9311420B2 (en) * 2007-06-20 2016-04-12 International Business Machines Corporation Customizing web 2.0 application behavior based on relationships between a content creator and a content requester
US8019606B2 (en) * 2007-06-29 2011-09-13 Microsoft Corporation Identification and selection of a software application via speech
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9646021B2 (en) * 2012-10-02 2017-05-09 At&T Intellectual Property I, L.P. Managing resource access in distributed computing environments
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN106547511B (zh) * 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107340991B (zh) * 2017-07-18 2020-08-25 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
DE102017220266B3 (de) * 2017-11-14 2018-12-13 Audi Ag Verfahren zum Überprüfen eines Onboard-Spracherkenners eines Kraftfahrzeugs sowie Steuervorrichtung und Kraftfahrzeug
US11211056B1 (en) * 2019-04-19 2021-12-28 Amazon Technologies, Inc. Natural language understanding model generation
CA3143944A1 (en) * 2019-12-10 2021-06-17 Rovi Guides, Inc. Systems and methods for local automated speech-to-text processing
US11735185B2 (en) * 2021-08-19 2023-08-22 National Yang Ming Chiao Tung University Caption service system for remote speech recognition

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05304567A (ja) 1990-04-05 1993-11-16 Texas Instr Inc <Ti> 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク
EP0542628B1 (en) 1991-11-12 2001-10-10 Fujitsu Limited Speech synthesis system
GB2280820A (en) 1993-07-29 1995-02-08 Ibm Distributed system for call processing
US5544228A (en) 1993-09-27 1996-08-06 The Walt Disney Company Method and apparatus for transmission of full frequency digital audio
US5509060A (en) 1993-11-19 1996-04-16 At&T Corp. Network-accessible intelligent telephone service
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US6594628B1 (en) 1995-09-21 2003-07-15 Qualcomm, Incorporated Distributed voice recognition system
US5594789A (en) 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
JPH0998221A (ja) 1995-09-29 1997-04-08 Hitachi Ltd 情報サービス窓口システム
US5943648A (en) 1996-04-25 1999-08-24 Lernout & Hauspie Speech Products N.V. Speech signal distribution system providing supplemental parameter associated data
WO1997047122A2 (en) 1996-06-03 1997-12-11 Worldvoice Inc. Telephonic voice message store and forward method having network address and voice authentication
US6094680A (en) 1996-06-27 2000-07-25 Microsoft Corporation System and method for managing distributed resources on networks
US5774857A (en) 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
US6311182B1 (en) * 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
JPH10228431A (ja) 1996-12-11 1998-08-25 Nippon Telegr & Teleph Corp <Ntt> 電話またはインターネットホンとwwwブラウザを利用した対話型通信方法、通信装置及び記録媒体
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6456974B1 (en) 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JPH10214258A (ja) 1997-01-28 1998-08-11 Victor Co Of Japan Ltd データ処理システム
JP3556425B2 (ja) 1997-03-18 2004-08-18 株式会社東芝 共有辞書更新方法および辞書サーバ
US6173259B1 (en) 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6856960B1 (en) 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
GB2325112B (en) 1997-05-06 2002-07-31 Ibm Voice processing system
US5953700A (en) 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
JP4267081B2 (ja) 1997-10-20 2009-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 分散システムにおけるパターン認識登録
EP0954855B1 (en) 1997-11-14 2003-05-21 Koninklijke Philips Electronics N.V. Method and system arranged for selective hardware sharing in a speech-based intercommunication system with speech processing on plural levels of relative complexity
US6119087A (en) 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6195641B1 (en) 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6173250B1 (en) 1998-06-03 2001-01-09 At&T Corporation Apparatus and method for speech-text-transmit communication over data networks
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
IE980941A1 (en) 1998-11-16 2000-05-17 Buy Tel Innovations Ltd A transaction processings system
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
JP2002540477A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアント−サーバ音声認識
US6519536B1 (en) * 1999-03-29 2003-02-11 Pirelli Pneumatici S.P.A. Method for determining the behaviour of a viscoelastic material
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6904600B1 (en) * 2000-06-29 2005-06-07 Microsoft Corporation Application programming interface to the simple object access protocol
US6405172B1 (en) * 2000-09-09 2002-06-11 Mailcode Inc. Voice-enabled directory look-up based on recognized spoken initial characters
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
DE10064661A1 (de) * 2000-12-22 2002-07-11 Siemens Ag Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion
US20020097692A1 (en) 2000-12-29 2002-07-25 Nokia Mobile Phones Ltd. User interface for a mobile station
US20020091527A1 (en) * 2001-01-08 2002-07-11 Shyue-Chin Shiau Distributed speech recognition server system for mobile internet/intranet communication
US6928462B2 (en) * 2001-03-06 2005-08-09 Hewlett-Packard Development Company, L.P. System and method for distributed processing of non-processable elements of a document to be rendered on a client
US6738743B2 (en) * 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
US20030078775A1 (en) 2001-10-22 2003-04-24 Scott Plude System for wireless delivery of content and applications
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7062444B2 (en) * 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
US7315613B2 (en) * 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US20040015993A1 (en) * 2002-07-17 2004-01-22 Yacenda Michael W. System and method for providing movies on demand
TW567465B (en) * 2002-09-02 2003-12-21 Ind Tech Res Inst Configurable distributed speech recognition system
US20040128129A1 (en) 2002-12-11 2004-07-01 Sherman William F. Voice recognition peripheral device based wireless data transfer
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
US7401337B2 (en) * 2003-12-19 2008-07-15 International Business Machines Corporation Managing application interactions using distributed modality components

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287043B (zh) * 2007-04-12 2011-05-25 纽昂斯通讯公司 用于提供与多模式应用之间的表达用户交互的方法和设备
CN103533154A (zh) * 2012-06-28 2014-01-22 Lg电子株式会社 移动终端及其识别语音的方法
CN103533154B (zh) * 2012-06-28 2015-09-02 Lg电子株式会社 移动终端及其识别语音的方法
US9147395B2 (en) 2012-06-28 2015-09-29 Lg Electronics Inc. Mobile terminal and method for recognizing voice thereof
CN103020165A (zh) * 2012-11-26 2013-04-03 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法
CN104240707A (zh) * 2012-11-26 2014-12-24 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
CN103020165B (zh) * 2012-11-26 2016-06-22 北京奇虎科技有限公司 可进行语音识别处理的浏览器及处理方法
WO2022226715A1 (en) * 2021-04-26 2022-11-03 Microsoft Technology Licensing, Llc Hybrid text to speech

Also Published As

Publication number Publication date
US8024194B2 (en) 2011-09-20
CN100405370C (zh) 2008-07-23
US20060122836A1 (en) 2006-06-08

Similar Documents

Publication Publication Date Title
CN100405370C (zh) 本地与远程语音呈现之间的动态转换方法和装置
CN112016310A (zh) 文本纠错方法、系统、设备及可读存储介质
CN101334774B (zh) 一种字符输入的方法和输入法系统
CN1257473C (zh) Html文档中增加可访问性的主动alt标记的方法和系统
US6055525A (en) Disparate data loader
CN104598902A (zh) 一种用于识别截图的方法、装置和浏览器
CN1666199A (zh) 一种与访问互联网内容有关的装置及方法
CN1770138A (zh) 启用对应用的多模式访问的架构
CN1845099A (zh) 智能移动终端多媒体电子文档转换存储方法及转换存储结构
CN1322981A (zh) 向处理能力有限的设备提供的连续语音识别技术
CN1577329A (zh) 用于后绑定/动态路径名解析的方法和装置
CN1577267A (zh) 步进式标记语言与面向对象的开发工具的组合使用
US20100095283A1 (en) Migration Apparatus Which Convert Application Program of Mainframe System into Application Program of Open System and Method for Thereof
CN1815472A (zh) 用于在编码不可用时提供外文文本显示的方法和设备
US20020065820A1 (en) Automatically identifying a telephone number in electronic text
CN102387120B (zh) 文件传输方法及网络传输系统
CN116521621A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111488731B (zh) 文件生成方法、装置、计算机设备以及存储介质
CN1945526A (zh) 应用程序的图形用户界面呈现方法及系统
CN108090034B (zh) 基于集群的单证代码统一编码生成方法和系统
CN116893809A (zh) 用于代码可解释性的代码富集的方法、存储介质和系统
CN114722781A (zh) 一种将流式文档转换为ofd文档的方法和装置
CN114070470A (zh) 编解码方法及装置
JP2011154495A (ja) 文字コード変換装置、文字コード変換方法、および文字コード変換プログラム
CN102110082B (zh) 一种小样文件的补字输出方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20091002

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20091002

Address after: Massachusetts, USA

Patentee after: Nuance Communications, Inc.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080723

Termination date: 20211114

CF01 Termination of patent right due to non-payment of annual fee