CN1770138A - 启用对应用的多模式访问的架构 - Google Patents
启用对应用的多模式访问的架构 Download PDFInfo
- Publication number
- CN1770138A CN1770138A CN200510079018.6A CN200510079018A CN1770138A CN 1770138 A CN1770138 A CN 1770138A CN 200510079018 A CN200510079018 A CN 200510079018A CN 1770138 A CN1770138 A CN 1770138A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- audio
- audio frequency
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000011068 loading method Methods 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 10
- 238000007726 management method Methods 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003860 storage Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
一种技术,它链接音频启用装置和语音驱动应用,而不用指定与音频启用装置无关,与语音驱动应用无关以及与语音应用平台无关的参数中的特定一些。在一个实例性实施例中,这是通过使用话音架构(110)来实现的,该话音结构接收和发送数字化的语音音频,而不用指定与音频启用装置无关的和与语音应用平台无关的参数中的特定一些。话音架构(110)随后将接收到的数字语音音频转换成计算机可读文本。此外,语音架构(110)接收和发送计算机可读文本到语音驱动应用,而不用指定与语音驱动应用无关的和与语音应用平台无关的参数中的特定一些。接着,话音架构(110)转换计算机可读文本。
Description
发明领域
本发明一般涉及语音启用计算,尤其涉及用于语音启用计算的话音架构。
发明背景
在今天越发竞争的商业环境中,公司必需找到更有效和可行的方式保持与客户、雇员和商业伙伴的接触。为了保持竞争性,公司必须提供对企业资源、交易数据和其它信息的方便的任意地点的访问。为了提供这种服务,就需要与当前基础设施集成并保持灵活性和可升级性以及利用开放式行业软件标准的话音解决方案。
用于话音解决方案(与人交互)的当前话音架构使用语音驱动应用,其依赖于嵌入音频启用装置(诸如电话机、PDA(个人数字助理)、膝上计算机和台式计算机)的音频输入装置(麦克风)和音频输出装置(扬声器)。从音频输入装置接收的音频输入数据(口述的单词数据)可经由音频电路提供给语音识别引擎,以便转换成计算机可识别的文本。随后,将所转换的计算机可识别文本发送到各种语音驱动的商业应用,诸如电信应用、定制应用、入口、网络应用、CRM应用(客户关系管理应用)、知识管理系统和各种数据库。由于音频启用装置的依赖性参数,含音频输入和音频输出装置的每个音频启用装置都会需要其自己独特的语音识别引擎来经由音频电路将音频输入和音频输出数据提供给语音驱动应用。
类似地,当前的话音应用将语音驱动应用所产生的计算机可识别文本发送给文本—语音(TTS)引擎,用于转换成音频输出数据,以便经由音频电路提供给音频输出装置。为了提供语音驱动应用和音频启用装置之间的计算机可识别文本的这种传递,由于诸如传输协议的应用的依赖性参数以及媒体传输专用参数,例如帧大小和分组延迟,TTS引擎必须是特定的。
此外,语音识别和TTS引擎必须符合发展中的语音应用平台,诸如SAPI(语音应用编程接口)、Voice XML(语音可扩展标记语音)以及其它这种自定义解决方案。因此,由于语音应用平台的依赖性参数,语音识别和TTS引擎必须是专门的。
由于上述装置、应用和平台的依赖性参数,含语音识别引擎和TTS引擎的当前的话音架构需要扩展的实时修改以适应于音频启用装置、语音应用平台和语音驱动应用的动态变化。对话音架构进行的这种实时修改会是非常昂贵且耗时的。此外,由于上述依赖性参数,当前的话音架构是不灵便的且通常不可升级。再者,由于上述依赖性参数,当前的话音架构保持音频启用装置、语音驱动应用、语音引擎和语音应用平台是依赖性的。而且,当前的解决方案在计算上是密集的并需要专门的硬件基础设施,而它们是非常昂贵的。
因此,需要一种成本有效的话音架构,它能按非复制而是杠杆作用(leverage)现有的网络和数据资源的方式提供话音解决方案,并与当前的基础设施集成,保持灵活性和可升级性,并与平台无关,可方便地配置于使用开放式产业软件标准的垂直应用上,诸如销售、保险、金融、零售和保健。
发明内容
本发明提供了一种话音架构,它用于链接音频启用装置和语音驱动应用。在一个实例性实施例中,本主题的话音架构包括音频启用装置适配器,语音引擎集线器,和语音驱动应用适配器。在该实例性实施例中,语音启用装置适配器接收和发送数字化语音音频到语音引擎集线器,而不用指定与音频启用装置无关的和与语音应用平台无关的参数中的特定一些。随后,语音引擎将接收到的数字化音频语音转换成计算机可读文本。在某些实施例中,语音引擎可被想象成将接收到的数字化音频语音转换成计算机可读数据。随后,语音驱动应用适配器接收和发送该计算机可读文本到语音驱动应用,而不用指定与语音驱动应用无关的和与语音应用平台无关的参数中的特定一些。
此外,在本实例性实施例中,语音驱动应用适配器从语音驱动应用接收和发送计算机可读文本,而不用指定与语音驱动应用无关的和与语音应用平台无关的参数中的特定一些。随后,语音引擎集线器将计算机可读文本转换成数字化的音频语音。音频启用装置适配器随后接收和发送数字化的语音音频到音频启用装置,而不用指定与音频启用装置无关的和与语音应用平台无关的参数中的特定一些。
附图说明
图1是说明根据本主题的各种实施例的音频启用装置、语音驱动应用和与应用平台无关的话音架构的框图。
图2是说明根据本主题的各种实施例的图1所示话音架构的实现的框图。
图3是说明经由图1和2所示的话音架构将语音驱动应用链接到一个或多个音频启用装置的实例方法的流程图。
图4是根据本主题实施例的用于利用图1-3所示的话音架构将语音驱动应用链接到一个或多个音频启用装置的典型计算机系统的框图。
具体实施方式
本主题提供了一种经由语音引擎集线器将语音驱动应用链接到一个或多个语音启用装置的话音架构。此外,该技术提供了一种音频装置、语音驱动应用和与语音应用平台无关的话音架构,其可用于构建语音启用的应用,即具有“听说”能力并可与人交互的应用。此外,话音架构提供了灵活性,以便可跨越垂直面或各种商业应用实现。在一个实例性实施例中,这是通过使用通常在话音应用中找到的基本部件实现的。该话音架构包括音频启用装置、语音驱动应用和与语音应用平台无关的部件,它向话音应用提供了成本高效和更方便的部署解决方案。
在本发明各种实施例的以下详细描述中,参考形成其一部分的附图,其中示出了作为可实施本发明的特别实施例。这些实施例被描述得足够详细,以使本领域熟练技术人员能实施本发明,并能理解,也可实现其它实施例并进行改变而不背离本发明的范围。所以,以下的详细描述不是限制性的,且本发明的范围仅由所附权利要求书加以限定。
图1是说明根据本发明各种实施例的音频启用装置和语音驱动应用的链接操作的话音架构的框图100。图1所示的框图100说明了一个或多个音频启用装置105、话音架构110和语音驱动应用模块150。如图1所示,一个或多个音频启用装置105经由计算机网络125耦合到话音架构110。图1中还示出经由计算机网络125耦合到话音架构110的语音驱动应用模块150。
此外,如图1所示,语音驱动应用模块150包括一个或多个语音驱动应用,诸如电信应用、定制应用、入口、网络应用、CRM系统和知识管理系统。此外,如图1所示,话音架构110包括音频启用装置适配器120、语音引擎集线器130、标记解释器模块160、安全模块162以及语音驱动应用适配器140。此外,图1还示出耦合到音频启用装置适配器120、语音引擎集线器130、标记解释器模块160、安全模块162和语音驱动应用适配器140的应用管理服务模块166。此外,如图1所示,语音引擎集线器130包括语音识别引擎132和文本—语音(TTS)引擎134。
操作中,音频启用装置适配器120从一个或多个音频启用装置105接收数字化的语音音频,而不指定与音频启用装置无关和与语音应用平台无关的参数中的特定一些。在某些实施例中,音频启用装置适配器120从一个或多个音频启用装置105经由网络125接收数字化的语音音频。这一个或多个音频启用装置105可以包括一些装置,诸如电话、蜂窝电话、PDA(个人数字助理)、膝上计算机、智能电话、书写板个人计算机(书写板PC)和台式计算机。音频启用装置适配器120包括有关适配器,诸如电话适配器、PDA适配器、Web适配器、膝上计算机适配器、智能电话适配器、书写板PC适配器、VoIP适配器、DTMF(双音多频)适配器、嵌入系统适配器和台式计算机适配器。
随后,语音引擎集线器130从一个或多个音频启用装置105经由音频启用装置适配器120接收数字化的语音音频并将该数字化的音频语音转换成计算机可读文本。在某些实施例中,语音识别引擎132将所接收的数字化音频语音转换成计算机可读数据。话音架构110中使用的语音引擎集线器130可以是普通的并通常可支持任何供应商的语音引擎。此外,语音引擎集线器130可具有一些部件,来执行语音架构110所需的例程和基本活动以便与话音架构110中的其它模块交互。
在这些实施例中,语音引擎集线器130执行语音识别和语音合成操作,即所说的单词被转换成计算机可读文本,同时该计算机可读文本根据话音架构110的要求被转换成数字化语音音频。语音引擎集线器130由系统管理员设计用于更便利的配置。语音引擎集线器130的架构可包括自动改善语音识别精度的能力。这是通过利用文法模块来实现的。语音引擎集线器130与标记解释器模块160一起提供对标记语音的必要支持,诸如SALT(语音应用语言标签)和VoiceXML。此外,语音引擎集线器130还能翻译多数语言以提供使用多种语言的能力。
同样在这些实施例中,语音引擎集线器130提供装置来改善识别精度,并提供改善语音引擎集线器130的性能所需的精细调节。语音引擎集线器130还可提供接口,以便加载预定文法和支持各种新兴的话音标记语言,诸如SALT或Voice XML,从而有助于符合标准。这是利用语言翻译器模块230通过合适的语言适配器来实现的(图2所示)。
此外,在这些实施例中,TTS引擎134包括语音识别器136,它提取基础的语音识别引擎并提供统一接口到话音架构110。例如,请求语音识别任务的调用程序(caller)对于基础的语音引擎是不知晓的(oblivious)。在这种情况中,调用程序可以将话音输入发送到语音识别器136,如图2所示,并可取回转录的文本串。同样在这些实施例中,TTS引擎134包括语音合成器138,如图2所示,它提取基础语音合成引擎并提供统一接口到话音架构110。同样,请求语音合成任务的调用程序对于基础语音引擎是不知晓的。在这种情况中,调用程序可以将文本串作为输入发送到合成器并取回语音流。
接着,语音驱动应用适配器140从语音引擎集线器130接收计算机可读文本并经由网络125将该计算机可读文本发送到语音驱动应用模块150,而不用指定与语音驱动应用无关和与语音应用平台无关的参数中的特定一些。语音驱动应用模块150可以包括一个或多个企业应用,诸如电话应用、定制应用、入口、网络应用、CRM系统、知识管理系统、交互式语音启用话音响应系统、多模式访问启用入口等等。语音驱动应用适配器140可包括有关适配器,诸如Web/HTML(超文本标记语言)适配器、数据库适配器、传统应用适配器、网络服务适配器等。
现在参考图2,说明了根据本发明各种实施例的图1所示的话音架构的实例性实现的框图200。图2所示的框图200说明了前端服务器212、特权服务器214、配置管理器216、日志管理器218、警报管理器220、语言引擎集线器130、标记解释器模块160、数据服务器224、性能协商器222、音频流驱动器226(audiostreamer)、未加工音频适配器228、语言翻译器模块230和语音驱动应用适配器140。
如图2所示,标记解释器模块160包括Voice XML解释器252、SALT解释器254和指令解释器256。此外,如图2所示,语音引擎集线器130包括语音识别引擎132、TTS引擎134和语音记录器260。同样如图2所示,语音驱动应用适配器140包括适配器,诸如Web适配器、PDA适配器、DTMF适配器、VoIP(语音因特网协议)适配器和嵌入系统适配器。
操作中,标记解释器模块160启用语音驱动应用和音频启用装置105以便通过产业符合指令组和使用翻译器的标记语言与话音架构110通信,所述翻译器诸如话音XML翻译器252、SALT翻译器254、指令翻译器256和有助于启用音频装置以与话音架构110通信的其它这种专用指令解释器。
在某些实施例中,语音记录器260通过根据特定应用要求激活和配置语音引擎集线器130加载特定的语言引擎服务。语音记录器260保持语音识别器136和语音合成器138的配置信息,并可由话音架构110加以使用来根据应用要求确定加载哪个语音引擎合成器和识别器。例如,通过更新记录中的信息,可将包括这些版本中的每一种的新模块插入话音架构110。在这些实施例中,话音架构110可以支持语音合成器和语音识别器的多种实例。语音记录器260还可以按多种方式保持配置信息,诸如平面文件或数据库。在这些实施例中,如图2所示,前端服务器212启动和管理语音驱动应用适配器140。
在某些实施例中,配置管理器216维持属于语音驱动应用适配器140的配置信息,即属于话音架构110的语音驱动应用140的配置信息。在这些实施例中,配置管理器216可以是属于话音架构110的所有配置信息的中央记录库。配置管理器216包括关于话音架构110的每个模块处于何处以及如何配置它们的信息。通常,这是通过利用配置管理器216中的管理模块来建立某些模块作为话音架构110的一部分和/或关闭其它模块而实现的。
在这些实施例中,配置管理器216包括配置数据提交器(presenter),来管理管理模块所需的数据翻译。配置管理器216还可用于检索和更新话音架构110的配置信息。此外,在这些实施例中,配置管理器216包括配置数据调度器,它管理配置数据存储和检索。配置数据调度器从话音架构110中的其余活动中提取每个数据存储和检索活动。此外,配置数据提交器与配置数据调度器交互作用,以便进行发送和从不同配置信息存储活动获得数据。此外,在这些实施例中,配置管理器216包括配置数据公布器,它公布配置存储活动的实际执行。
在其它实施例中,日志管理器218记住话音架构110的操作。此外,日志管理器218记住操作消息并产生记录日志的操作消息的报告。在这些实施例中,日志管理器218通常向话音架构110提供日志性能。日志管理器218可以是XML符合的。而且,日志管理器218可以为各种记录日志参数,诸如日志消息计划、严重性、输出流等等配置。
在某些实施例中,日志管理器218包括XML符合的消息对象模块,其可被串行化。该消息对象模块包括接收消息的所有信息,诸如消息所有人、消息发送者的名称、消息类型、时间标记等等。而且,在这些实施例中,日志管理器218包括日志消息队列模块,它按其中间形式(即,记入消息时和为记录日志而处理消息时之间)保持所有的接收消息。消息队列模块还在日志引擎服务的异步操作机制中有所帮助。在这些实施例中,可以通过类封装队列,它可将暴露接口以便访问队列。而且,在这些实施例中,可设置日志管理器218,以使仅日志管理器218访问日志消息队列。可以设置队列类,以便当对接收消息有新记入时通知日志管理器218。此外,在这些实施例中,日志管理器218包括可由日志管理器218例示的日志处理器。这些实施例中的日志处理的任务是处理日志消息并将它们调度给日志写入器。在这些实施例中,日志处理器可咨询配置文件中设定的策略特定信息并将任何指定的规则应用于日志消息。
在某些实施例中,话音架构110包括特权服务器214,它在话音架构110的操作期间向客户机验证、批准和准许特权,以便访问话音架构110。在这些实施例中,数据服务器224有助于对接数据存储系统和数据检索系统与语音引擎集线器130。
在某些实施例中,警报管理器220在话音架构模块内以及话音架构110的多个部署之间记入警报。例如,如果模块关闭或遇到错误,则可以将警报记入警报管理器220。随后,警报管理器220可以将策略应用于接收到的警报消息并将该警报转到受所述关闭和/或遇到错误影响的模块。警报管理器220还可处理确认并可当模块不可得时进行再试。当在机器上分配模块时,其中网络条件需要再次发送消息,这会是特别有用的。
在这些实施例中,警报管理器220包括警报队列模块。该警报队列模块保持要记入到不同部件的消息于话音架构110中。警报管理器220将输入的消息置于队列中。而且,在这些实施例中,警报管理器220与警报处理器一起为接收到的新消息轮询警报队列并读取这些消息。警报处理器可与策略引擎交互作用,以便提取规则来应用于接收到的消息,诸如再试计数、消息客户机、期满时间、确认要求等等。在这些实施例中,警报处理器从队列读取消息。这些消息可保持于队列中,直到从接受模块接收到确认。
此外,在这些实施例中,警报管理器220包括警报调度器,它是话音架构110的工作模块,可以处理调度给各消息客户机的实际消息。警报调度器从警报处理器接收消息包并读取指定的规则,诸如再试、消息客户机类型等等。警报调度器随后询问通知器记录器,以获得合适的通知器对象,它可根据预期接受器可理解的格式转化消息。接着,警报调度器将消息记入到通知器。如果出于任何原因消息不经过话音架构110,则警报调度器维护再试操作,以便再发送消息。
而且,在这些实施例中,警报管理器包括策略引擎,它提取与各消息有关的策略信息的所有存储和检索。在这些实施例中,策略引擎根据基于优先级的消息过滤、再试计数、期满时间等来维持策略信息。在数据库和/或平面文件上执行的各种存储操作期间,策略管理器还可维持策略信息。
警报管理器220还可包括报告管理器,它从确认队列中提取消息确认。随后,报告管理器向策略引擎询问关于如何处理每个确认的信息。报告管理器进行的活动可以是一旦接收到确认就从警报队列中除去原始消息。
警报管理器220还可包括确认队列模块,它从话音架构110中的各种通知器接收确认消息。接着,报告管理器读取队列,以执行确认特定活动。警报管理器220还可包括通知器记录器,它可包含话音架构110所支持的各种通知器的信息。通知器记录器中的信息可稍后由警报调度器询问,以确定通知器的类型,来例示特定消息的传递。警报管理器220可进一步包括通知器,它利用标准接口提取不同的消息接受器。警报调度器可以对消息接受器和将消息发送到通知器的方法的基础复杂性是不知晓的。一旦已成功传递消息,则通知器还将确认发送到确认队列模块。
在某些实施例中,话音架构110包括性能协商器222,用于协商经由网络125耦合到话音架构110的音频启用装置的性能。话音架构110还可包括音频流驱动器226,用于向音频启用装置提供音频数据的连续流。而且在这些实施例中,话音架构110包括未加工音频适配器228,用于按中性格式存储音频数据并用于将音频数据转换成所需的音频格式。此外,话音架构110可包括语言翻译器230,它与语言引擎集线器130一起工作,以便将按一种语言接收的文本转换成另一种语言。例如,语言翻译器230将按英语接收的文本转换成中文或北印度语等。如果语言引擎集线器130支持英语以外的语言,则语言翻译器230可执行转换按英语以外的语言接收的文本的翻译。
现在参考图3,说明了经由图1和2所示的话音架构110将语音驱动应用链接到一个或多个音频启用装置的实例方法300。310处,该实例方法300从特定音频启用装置接收数字化的音频语音,而不用指定与音频启用装置无关的参数和与平台无关的参数中的特定一些。在某些实施例中,输入缓冲器被配置成从特定的音频启用装置接收和存储数字化的语音音频。
在320处,接收到的数字化音频语音被转换成计算机可读文本。在某些实施例中,数字化的音频语音利用语音引擎集线器被转换成计算机可读文本。
在330处,将所转换的计算机可读文本传输到特定的语音驱动应用,而不用指定传输计算机可读文本所必需的与语音驱动应用无关的参数和与平台无关的参数中的特定一些。在某些实施例中,输出缓冲器被配置成存储和发送数字化的语音音频到特定的音频启用装置。
在340处,可以从特定的语音驱动应用接收计算机可读文本,而不用指定与语音驱动应用无关的参数和与平台无关的参数中的特定一些。在350处,从特定语音驱动应用接收的计算机可读文本被转换成数字化的语音音频。在某些实施例中,利用语音引擎集线器将计算机可读文本转换成数字化的语音音频。
在360处,数字化的语音音频被传输到特定的音频启用装置,而不用指定传输计算机可读文本所必需的与语音驱动应用无关的参数和与平台无关的参数中的特定一些。参考图1和2更详细地描述经由话音架构将语音驱动应用链接到一个或多个音频启用装置的操作。
本发明的各种实施例可以在软件中得以实现,其可以在图4(以下将描述)所示的环境或者任何合适的计算环境中运行。本发明的实施例可在许多通用或专用计算环境中操作。某些计算环境包括个人计算机、通用计算机、服务器计算机、手持设备(包括,但不限于,所有类型的电话和个人数字助理(PDA))、膝上装置、多处理器、微处理器、置顶盒、可编程消费电子产品、网络计算机、小型计算机、大型计算机、分布式计算环境等,以便执行计算机可读媒介上存储的代码。本发明的实施例可部分或整体地作为机器可执行指令而实现,诸如计算机执行的程序模块。通常,程序模块包括例程、程序、对象、组件、数据结构等,以便执行特定任务或实现特殊的抽象数据类型。在分布式计算环境中,程序模块可位于本地或远程存储装置中。
图4示出了实现本发明实施例的合适计算系统环境的实例。图4和以下讨论旨在提供合适计算环境的简要的一般描述,其可以实现这里包含的发明概念的特定
实施例。
计算机410形式的普通计算装置可包括处理单元402、存储器404、可移动存储装置412以及不可拆除存储装置414。计算机410另外还包括总线405和网络接口(NI)401。
计算机410可包括或访问计算环境,该计算环境包括一个或多个输入元件416、一个或多个输出元件418以及一个或多个通信链接420,诸如网络接口卡或USB连接。计算机410可利用连接到一个或多个远程计算机的通信连接420在连网环境中操作。远程计算机可包括个人计算机、服务器、路由器、网络PC、对等装置或其它网络节点等。通信连接可包括局域网(LAN)、广域网(WAN)和/或其它网络。
存储器404可包括易失性存储器406和非易失性存储器408。各种计算机可读媒体可存储于计算机410的存储元件(诸如,易失性存储器406和非易失性存储器408,可移动存储装置412和不可移动存储装置414)中并从其访问。计算机存储元件可包括用于存储数据和机器可读指令的任何合适的存储装置,诸如只读存储器(ROM)、随机存取存储器(RAM)、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、硬盘驱动器、用于处理光盘(CD)、数字视频盘(DVD)、磁盘、磁带盒、存储卡、Memory SticksTM等的可移动媒体驱动器;化学存储装置;生物存储装置;和其它类型的数据存储装置。
这里使用的“处理器”或“处理单元”表示任何类型的计算电路,诸如但不限于微处理器、微控制器、复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、显式平行指令计算(EPIC)微处理器、图形处理、数字信号处理器或任何其它类型的处理器或处理电路。术语还包括嵌入控制器,诸如一般或可编程逻辑装置或阵列,专用集成电路,单片计算机,智能卡等。
本发明的实施例可结合用于执行任务或限定抽象数据类型或低级硬件环境的程序模块执行,其包括函数、程序、数据结构、应用程序等。
任何上述存储媒介上存储的机器可读指令可由计算机410的处理单元402执行。例如,计算机程序425可包括机器可读指令,它能根据本发明的教导和这里描述的实施例将音频启用装置与语音驱动应用链接。在一个实施例中,计算机程序425可包括于CD-ROM上和从CD-ROM加载到非易失性存储器408中的硬盘驱动器上。根据本发明的实施例,机器可读指令使得计算机410利用话音架构通信链接音频启用装置和语音驱动应用。
在按“分布配置架构(Distributed Configurable Architecture)形式的使用方面,本发明的话音架构是模块化和柔性的。结果,根据所选的模式,部分话音架构被置于网络的不同点处。例如,语音引擎集线器可部署于服务器中,且在同一服务器上分别进行语音识别和语音合成以及在从客户机到服务器来回地流动输入和输出。集线器还可置于每个客户机上,使数据库管理集中。这种柔性允许更快的部署,以便向改变商业需要提供成本有效的解决方案。
以上描述是说明性的,而非限制性的。许多其它实施例是本领域熟练技术人员显而易见的。所以,本发明的范围应由所附权利要求书及其等效物的全部范围限定。
结论
上述方法和装置提供了经由话音架构将语音驱动应用链接到一个或多个音频启用装置的各种实施例。
可以理解,以上描述是说明性的,而非限制性的。通过以上描述,许多其它实施例是本领域熟练技术人员显而易见的。因此,应参考附图并和该权利要求的等效物的全部范围一起确定主题的范围。
如这里所示的,本发明在大量不同的实施例中实现,包括各种方法、电路、I/O装置、系统和包括含有关指令的机器可访问媒介的制品。
其它实施例将易于为本领域的普通技术人员显而易见。元件、算法和操作顺序都可改变以适应特定要求。相对于图3所述的方法描述的操作可以按与所示和所述的顺序不同的顺序执行。
图1、2、3和4仅仅是代表性的且未按比例描绘。其特定部分可以放大,同时其它部分被最小化。图1-4说明了本领域普通技术人员可以理解和适当实施的本发明的各种实施例。
应强调,提供了摘要以符合要求摘要的37 C.F.R.§1.72(b),摘要允许读者快速确定技术性揭示内容的性质和要点。应理解,它不用于说明或限定权利要求书的范围和意义。
在本发明实施例的以上详细描述中,在单个实施例中集合了各种特点,以简化揭示内容。揭示内容的该方法不能解释为反映一发明,其所要求的实施例需要比每个权项中所表达的特点更多的特点。相反,如以下权利要求书所反映的,发明主题少于单个揭示的实施例的所有特点。因此,以下的权利要求书结合入本发明实施例的详细描述,每个权利要求本身作为单独的较佳实施例。
Claims (10)
1.一种话音架构(110),它用于链接音频启用装置(105)与语音驱动应用(150),而不用指定与音频启用装置无关的和与语音应用平台无关的参数中的特定一些,且进一步不用指定与语音驱动应用无关的和与语音应用平台无关的参数中的特定一些。
2.如权利要求1所述的话音架构(110),其特征在于,所述用于链接音频启用装置(105)与语音驱动应用(150)而不用指定与音频启用装置无关的和与语音应用平台无关的参数中的特定一些的话音架构(110)包括:
音频启用装置适配器(120),用于接收和发送数字化的语音音频,而不用指定与音频启用装置无关的和与语音应用平台无关的参数中的特定一些。
3.如权利要求2所述的话音架构(110),其特征在于,所述用于链接音频启用装置(105)和语音驱动应用而不用指定语音驱动应用和与语音应用无关的参数中的特定一些的话音架构(110)包括:
语音驱动应用适配器(140),用于从语音驱动应用(150)接收和发送计算机可读文本而不用指定与语音驱动应用无关的和与平台无关的参数中的特定一些。
4.如权利要求3所述的话音架构(110),其特征在于,包括:
语音引擎集线器(130),用于将接收到的数字化语音音频转换成计算机可读文本,并用于将接收到的计算机可读文本转换成数字化语音音频,其中语音引擎集线器(130)是与语音引擎无关的。
5.如权利要求4所述的话音架构(110),其特征在于,语音引擎集线器(130)包括:
语音识别引擎(132),用于将接收到的数字化语音音频转换成计算机可读文本;以及
文本一语音(TTS)引擎(134),用于将计算机可读文本转换成数字化语音音频。
6.一种系统,其特征在于,包括:
语音引擎集线器(130);
音频启用装置适配器(120),用于在特定音频启用装置(105)和语音引擎集线(130)之间提供与音频启用装置无关的接口,其中音频启用装置适配器(120)从特定音频启用装置(105)接收数字化的语音音频,而不用指定与音频启用装置无关的和与软件平台无关的参数中的特定一些,其中语音引擎集线器(130)通信耦合到音频启用装置适配器(120)以便将数字化的音频语音转换成计算机可读文本;以及
语音驱动应用适配器(140),它通信耦合到语音引擎集线器(130),用于在语音驱动应用(150)和语音引擎集线器(130)之间提供与语音驱动应用无关的接口,其中语音引擎集线器(130)将计算机可读文本发送到语音驱动应用适配器(140),其中语音驱动应用适配器(140)将数字化音频语音发送到特定语音驱动应用(150),而不用指定与语音驱动应用无关的和与软件平台无关的参数中的特定一些。
7.如权利要求6所述的系统,其特征在于,语音驱动应用适配器(140)从特定语音驱动应用(150)接收计算机可读文本,而不用指定与语音驱动应用无关的和与软件平台无关的参数中的特定一些,其中语音引擎集线器(130)将从语音驱动应用适配器(140)接收的计算机可读文本转换成数字化的语音音频。
8.如权利要求7所述的系统,其特征在于,语音引擎集线器(130)将数字化语音音频发送到音频启用装置适配器(120),其中音频启用装置适配器(120)将数字化的语音音频发送到特定音频启用装置(105),而不用指定与音频启用装置无关的和与软件平台无关的参数中的特定一些。
9.如权利要求6所述的系统,其特征在于,语音引擎集线器(130)包括:
语音识别引擎(132),其中语音识别引擎(132)将数字化的语音音频转换成计算机可读文本;以及
TTS引擎(134),其中TTS引擎(134)将计算机可读文本转换成数字化的语音音频。
10.如权利要求9所述的系统,其特征在于,语音引擎集线器(130)进一步包括:
语音记录器(260),用于通过根据应用需要激活和配置语音引擎集线器(130)来加载特定语音引擎服务。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/889,760 US20060015335A1 (en) | 2004-07-13 | 2004-07-13 | Framework to enable multimodal access to applications |
US10/889,760 | 2004-07-13 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1770138A true CN1770138A (zh) | 2006-05-10 |
Family
ID=34979032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200510079018.6A Pending CN1770138A (zh) | 2004-07-13 | 2005-06-13 | 启用对应用的多模式访问的架构 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060015335A1 (zh) |
EP (1) | EP1619663A1 (zh) |
JP (1) | JP2006031701A (zh) |
CN (1) | CN1770138A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101903946B (zh) * | 2007-12-21 | 2012-09-26 | Nvoq股份有限公司 | 分布式听写/转录系统 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7814501B2 (en) * | 2006-03-17 | 2010-10-12 | Microsoft Corporation | Application execution in a network based environment |
WO2008007380A2 (en) * | 2006-07-13 | 2008-01-17 | Vringo, Inc. | Group sharing of media content |
US20170344703A1 (en) | 2006-12-29 | 2017-11-30 | Kip Prod P1 Lp | Multi-services application gateway and system employing the same |
US11783925B2 (en) | 2006-12-29 | 2023-10-10 | Kip Prod P1 Lp | Multi-services application gateway and system employing the same |
US8180735B2 (en) | 2006-12-29 | 2012-05-15 | Prodea Systems, Inc. | Managed file backup and restore at remote storage locations through multi-services gateway at user premises |
US8938218B2 (en) * | 2007-06-06 | 2015-01-20 | Tata Consultancy Servics Ltd. | Mobile based advisory system and a method thereof |
US9311420B2 (en) * | 2007-06-20 | 2016-04-12 | International Business Machines Corporation | Customizing web 2.0 application behavior based on relationships between a content creator and a content requester |
US8041573B2 (en) * | 2007-06-20 | 2011-10-18 | International Business Machines Corporation | Integrating a voice browser into a Web 2.0 environment |
US20080319757A1 (en) * | 2007-06-20 | 2008-12-25 | International Business Machines Corporation | Speech processing system based upon a representational state transfer (rest) architecture that uses web 2.0 concepts for speech resource interfaces |
US8086460B2 (en) * | 2007-06-20 | 2011-12-27 | International Business Machines Corporation | Speech-enabled application that uses web 2.0 concepts to interface with speech engines |
US7631104B2 (en) * | 2007-06-20 | 2009-12-08 | International Business Machines Corporation | Providing user customization of web 2.0 applications |
US8041572B2 (en) * | 2007-06-20 | 2011-10-18 | International Business Machines Corporation | Speech processing method based upon a representational state transfer (REST) architecture that uses web 2.0 concepts for speech resource interfaces |
US8032379B2 (en) * | 2007-06-20 | 2011-10-04 | International Business Machines Corporation | Creating and editing web 2.0 entries including voice enabled ones using a voice only interface |
US7996229B2 (en) * | 2007-06-20 | 2011-08-09 | International Business Machines Corporation | System and method for creating and posting voice-based web 2.0 entries via a telephone interface |
US7890333B2 (en) * | 2007-06-20 | 2011-02-15 | International Business Machines Corporation | Using a WIKI editor to create speech-enabled applications |
US20140100852A1 (en) * | 2012-10-09 | 2014-04-10 | Peoplego Inc. | Dynamic speech augmentation of mobile applications |
US10275522B1 (en) * | 2015-06-11 | 2019-04-30 | State Farm Mutual Automobile Insurance Company | Speech recognition for providing assistance during customer interaction |
US9596349B1 (en) | 2015-06-29 | 2017-03-14 | State Farm Mutual Automobile Insurance Company | Voice and speech recognition for call center feedback and quality assurance |
CN106847292B (zh) * | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
GB2325112B (en) * | 1997-05-06 | 2002-07-31 | Ibm | Voice processing system |
US6434526B1 (en) * | 1998-06-29 | 2002-08-13 | International Business Machines Corporation | Network application software services containing a speech recognition capability |
WO2000021074A1 (en) * | 1998-10-05 | 2000-04-13 | Lernout & Hauspie Speech Products N.V. | Speech controlled computer user interface |
US6246981B1 (en) * | 1998-11-25 | 2001-06-12 | International Business Machines Corporation | Natural language task-oriented dialog manager and method |
AU2928801A (en) * | 2000-01-04 | 2001-07-16 | Heyanita, Inc. | Interactive voice response system |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
AU2001249478A1 (en) * | 2000-03-24 | 2001-10-08 | Dialsurf, Inc. | Voice-interactive marketplace providing time and money saving benefits and real-time promotion publishing and feedback |
US6631350B1 (en) * | 2000-08-28 | 2003-10-07 | International Business Machines Corporation | Device-independent speech audio system for linking a speech driven application to specific audio input and output devices |
US6999932B1 (en) * | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
US6731724B2 (en) * | 2001-01-22 | 2004-05-04 | Pumatech, Inc. | Voice-enabled user interface for voicemail systems |
GB2376394B (en) * | 2001-06-04 | 2005-10-26 | Hewlett Packard Co | Speech synthesis apparatus and selection method |
US7406418B2 (en) * | 2001-07-03 | 2008-07-29 | Apptera, Inc. | Method and apparatus for reducing data traffic in a voice XML application distribution system through cache optimization |
US20030101054A1 (en) * | 2001-11-27 | 2003-05-29 | Ncc, Llc | Integrated system and method for electronic speech recognition and transcription |
US7027986B2 (en) * | 2002-01-22 | 2006-04-11 | At&T Corp. | Method and device for providing speech-to-text encoding and telephony service |
EP1495603B1 (en) * | 2002-04-02 | 2010-06-16 | Verizon Business Global LLC | Call completion via instant communications client |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US20030216923A1 (en) * | 2002-05-15 | 2003-11-20 | Gilmore Jeffrey A. | Dynamic content generation for voice messages |
US7174298B2 (en) * | 2002-06-24 | 2007-02-06 | Intel Corporation | Method and apparatus to improve accuracy of mobile speech-enabled services |
US20050043951A1 (en) * | 2002-07-09 | 2005-02-24 | Schurter Eugene Terry | Voice instant messaging system |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
US7421389B2 (en) * | 2002-11-13 | 2008-09-02 | At&T Knowledge Ventures, L.P. | System and method for remote speech recognition |
US7003464B2 (en) * | 2003-01-09 | 2006-02-21 | Motorola, Inc. | Dialog recognition and control in a voice browser |
US7379872B2 (en) * | 2003-01-17 | 2008-05-27 | International Business Machines Corporation | Method, apparatus, and program for certifying a voice profile when transmitting text messages for synthesized speech |
US8392173B2 (en) * | 2003-02-10 | 2013-03-05 | At&T Intellectual Property I, L.P. | Message translations |
US7360164B2 (en) * | 2003-03-03 | 2008-04-15 | Sap Ag | Collaboration launchpad |
BRPI0410362B1 (pt) * | 2003-05-16 | 2017-06-20 | Google Inc. | Systems and methods of sharing network and network media |
KR100561228B1 (ko) * | 2003-12-23 | 2006-03-15 | 한국전자통신연구원 | 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템 |
US7376561B2 (en) * | 2004-02-23 | 2008-05-20 | Louis Ralph Rennillo | Real-time transcription system |
US7925512B2 (en) * | 2004-05-19 | 2011-04-12 | Nuance Communications, Inc. | Method, system, and apparatus for a voice markup language interpreter and voice browser |
US7228278B2 (en) * | 2004-07-06 | 2007-06-05 | Voxify, Inc. | Multi-slot dialog systems and methods |
-
2004
- 2004-07-13 US US10/889,760 patent/US20060015335A1/en not_active Abandoned
-
2005
- 2005-06-13 CN CN200510079018.6A patent/CN1770138A/zh active Pending
- 2005-07-08 EP EP05254308A patent/EP1619663A1/en not_active Withdrawn
- 2005-07-11 JP JP2005201244A patent/JP2006031701A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101903946B (zh) * | 2007-12-21 | 2012-09-26 | Nvoq股份有限公司 | 分布式听写/转录系统 |
Also Published As
Publication number | Publication date |
---|---|
US20060015335A1 (en) | 2006-01-19 |
EP1619663A1 (en) | 2006-01-25 |
JP2006031701A (ja) | 2006-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1770138A (zh) | 启用对应用的多模式访问的架构 | |
CN108920659B (zh) | 数据处理系统及其数据处理方法、计算机可读存储介质 | |
US6606642B2 (en) | System, method, and computer program product for workflow processing using internet interoperable electronic messaging with MIME multipart content type | |
KR101004501B1 (ko) | 쿼리에 기초하여 사용자에게 문서의 정보를 렌더링하는 방법, 음성 쿼리에 기초하여 사용자에게 정보를 렌더링하는 방법, 사용자에게 정보를 제공하는 방법, 및 컴퓨터 판독 가능 기록 매체 | |
US20080282160A1 (en) | Designated screen capturing and automatic image exporting | |
CN101669113B (zh) | 从表单和表元数据中导出web服务接口的方法 | |
US8572564B2 (en) | Configuring and constructing applications in a mainframe-based computing environment | |
US8364625B2 (en) | Mainframe-based business rules engine construction tool | |
US7739670B2 (en) | System and method for transforming information between data formats | |
US11615110B2 (en) | Systems and methods for unifying formats and adaptively automating processing of business records data | |
CN101401117A (zh) | 基于edi实例的交易集合定义 | |
CN1574795A (zh) | 为改进客户机服务器通信使用分组压缩缓冲器的系统和方法 | |
JP2009527849A (ja) | Edi交換のスケーラブルな変換および構成 | |
US20090100344A1 (en) | Mainframe-based browser | |
US20080147395A1 (en) | Using an automated speech application environment to automatically provide text exchange services | |
CN113378579A (zh) | 一种语音录入结构化数据的方法、系统及电子设备 | |
CN117749899A (zh) | 协议转换框架、设备通讯方法、装置和计算机存储介质 | |
US20060256357A1 (en) | System and method for improved printing efficiency | |
US20220180044A1 (en) | Automatic delineation and extraction of tabular data in portable document format using graph neural networks | |
KR100762712B1 (ko) | 규칙기반의 전자문서 변환방법 및 그 시스템 | |
US10986230B1 (en) | Method and apparatus to capture, analyze, organize, and present support chat information | |
US20100048227A1 (en) | Short messaging service for extending customer service deliver channels | |
US20070165272A1 (en) | System and method for submitting a patent application electronically | |
US20230418859A1 (en) | Unified data classification techniques | |
CN101390089B (zh) | 用于共享edi模式的可伸缩算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |