CN102292765A - 用于发言处理的识别器的基于标记语言的选择和利用 - Google Patents

用于发言处理的识别器的基于标记语言的选择和利用 Download PDF

Info

Publication number
CN102292765A
CN102292765A CN2009801553606A CN200980155360A CN102292765A CN 102292765 A CN102292765 A CN 102292765A CN 2009801553606 A CN2009801553606 A CN 2009801553606A CN 200980155360 A CN200980155360 A CN 200980155360A CN 102292765 A CN102292765 A CN 102292765A
Authority
CN
China
Prior art keywords
result set
speech
language document
marking language
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801553606A
Other languages
English (en)
Other versions
CN102292765B (zh
Inventor
A·K·克鲁梅尔
P-A·F·马瑟
J·A·拉夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102292765A publication Critical patent/CN102292765A/zh
Application granted granted Critical
Publication of CN102292765B publication Critical patent/CN102292765B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供用于选择和利用多个识别器来基于标记语言文档处理发言的实施方式。在计算设备中接收标记语言文档和发言。从多个识别器当中选择一个或多个识别器以基于标记语言文档中的标记语言返回发言的结果集。以由标记语言文档中指定的处理方法所确定的格式从一个或多个所选识别器接收结果集。然后,响应于接收结果集,在计算设备上执行事件。

Description

用于发言处理的识别器的基于标记语言的选择和利用
版权声明
这一专利文档的本公开内容的部分包含受到版权保护的材料。版权所有者不反对任何人按本专利文档或本专利公开内容在专利与商标局专利文件或记录中出现的那样来复制它,但是无论如何都以另外方式保留所有版权。
背景技术
移动计算设备利用语音识别技术来执行诸如拨号和信息查询等的各种语音激活的功能。由于移动计算设备的存储限制,为了执行全面的语音识别,可能需要包括(用于处理简单的命令和简单的查询的)本地的或基于设备的识别器和(用于处理诸如要求访问在线服务的那些查询的更复杂的查询的)网络识别器的多个“识别器”。然而,当前的移动计算设备限于仅使用单个识别器来处理查询或通过以串行方式使用本地和网络识别器来处理查询,在串行方式中,在将结果发送给网络识别器以进行结果处理之前必须由本地识别器处理。与仅使用本地识别器相关联的缺点是,(由于存储限制)结果限于简单的命令和控制请求。与仅使用网络识别器相关联的缺点是,对于简单的命令和控制请求来说用于接收结果的过多的等待时间。以串行方式使用本地和网络识别器的缺点是,,即使在本地识别器不能提供足够的结果处理时,本地识别器也必须在网络识别器之前使用。鉴于此及其他考虑,进行本发明的各种实施方式。
概述
提供本概述以便以简化形式介绍下面在详细描述中进一步描述的概念的选集。本概述不旨在标识所要求保护的本主题的关键特征或必要特征,也不旨在辅助确定所要求保护的本主题的范围。
提供用于选择和利用多个识别器来基于标记语言文档处理发言的实施方式。在计算设备中接收标记语言文档和发言。可以从多个识别器中选择一个或多个识别器以基于标记语言文档中的标记语言返回发言的结果集。以由标记语言文档中指定的处理方法所确定的格式从所选择的一个或多个识别器接收结果集。然后,响应于接收结果集,在计算设备上执行事件。
将从下列详细描述的阅读和关联的图的查阅明显看出这些和其他特征和优点。应理解,前述的一般描述和下列详细描述都仅是说明性的,且不限制所要求保护的本发明。
附图简述
图1是示出根据各种实施方式的用于选择和利用多个识别器来基于标记语言文档处理发言的网络体系结构的框图;
图2是示出根据各种实施方式的可以被用于选择和利用多个识别器来基于标记语言文档处理发言的客户机计算环境的框图;
图3是示出根据各种实施方式的用于选择和利用多个识别器来基于标记语言文档处理发言的例程的流程图;
图4是示出根据各种实施方式的用于利用经更新的识别器来基于标记语言文档处理发言的例程的流程图;以及
图5显示根据各种实施方式的包括标签的标记语言文档,其可以被用来从多个识别器中选择以处理发言和处理发言的结果集。
详细描述
提供用于选择和利用多个识别器来基于标记语言文档处理发言的实施方式。在计算设备中接收标记语言文档和发言。从多个识别器中选择一个或多个识别器以基于标记语言文档中的标记语言返回发言的结果集。以由标记语言文档中指定的处理方法所确定的格式从所选择的识别器或识别器接收结果集。然后,响应于接收结果集,在计算设备上执行事件。
在下列详细描述中,对形成下列详细描述的部分的附图进行引用,且附图通过阐释具体的实施方式或示例而示出。可以组合这些实施方式,可以利用其他实施方式,且可以在不偏离本发明的精神的范围的前提下做出结构改变。因此,不应以限制的意义来看待下列详细描述,且本发明的范围由所附权利要求及其等效物来界定。
现在参见各图,将描述本发明的各种方面,贯穿各图,相似的数字表示相似的元素。图1是示出根据各种实施方式的用于选择和利用多个识别器来基于标记语言文档处理发言的网络体系结构的框图。该网络体系结构包括跨网络4与网络服务器70通信的客户机计算设备2。客户机计算设备2可以包括语音识别服务应用程序30、事件处理器应用程序38、识别器40、发言42、标记语言文档44、结果集46、设备接口应用程序50和同步服务应用程序60。应理解,根据各种实施方式,识别器40可以包括一个或多个识别器。根据各种实施方式,客户机计算设备2可以包括能够执行一个或多个应用程序程序的移动或便携式计算机或其他类型的计算机,包括但不限于膝上型计算机、“智能电话”(即,具有计算机功能和/或能够运行操作系统软件以便为应用程序开发者提供标准化界面和平台的移动电话)以及车载计算设备。
客户机计算设备2中的语音识别服务应用程序30可以包括可以利用语音识别的各种生产力软件应用程序,包括但不限于搜索引擎(例如,企业搜索、股票报价搜索、体育比分、电影时间、气象数据、占星、文档搜索)、导航、语音激活拨号(“VAD”)、车载软件(例如,用于打开或关闭收音机、激活导航控制功能、温度控制、控制视频显示功能、播放“DVD”)、设备控制功能(例如,关闭客户机计算设备2、记录通知、删除/创建/移动文件)、消息收发(例如,文本和MMS)、媒体(例如,照相)和内容。根据各种实施方式(这些实施方式将在图2-图3的讨论中更详细地描述)、事件处理器应用程序38可以被用来从客户机计算设备2接收发言42并处理发言42以得到语法。应明白,发言42可以包括命令(例如拨号来自通信录的联系人)或由客户机计算设备2上的语音识别服务应用程序30的用户查询以得到信息。事件处理器应用程序38还可以被用来解析标记语言文档44以得到标签,该标签基于发言42中使用的语法指定识别器(即,识别器40或识别器72),以响应于发言42返回一个或多个结果(即,一个或多个结果集46或结果集76)。根据一实施方式,识别器40可以包括可以在客户机计算设备2上执行的用于处理发言42的结果的单独应用程序。根据另一实施方式,识别器40可以被嵌入到客户机计算设备2的操作系统中。
客户机计算设备2中的设备接口应用程序50可以包括应用程序编程接口(“API”),用于可以由客户机计算设备2执行的各种功能,这些功能包括但不限于生成用户界面、联网、音频捕捉、语音识别、音频播放、照相机、通信录和全球定位系统(“GPS”)功能。客户机计算设备2中的同步服务应用程序60促进客户机计算设备2与网络服务器70的同步。
客户机计算设备2可以跨网络4与网络服务器70通信,网络4可以包括局域网或广域网(例如,因特网)。网络服务器70可以包括识别器72、标记语言文档74和结果集76。应理解,根据各种实施方式,识别器72可以包括一个或多个识别器。根据一实施方式,网络服务器70可以包括数据中心中的多个计算设备,这些计算设备用于响应于发言42从客户机计算设备2接收发言42且用于(响应于来自事件处理器应用程序38的请求)使用识别器72以确定结果集76并将其返回给客户机计算设备2。
根据各种实施方式,且如下面参考图4更详细地描述,标记语言文档74可以包括标记语言文档44的版本。事件处理器应用程序38可以被配置为将客户机计算设备2上的标记语言文档44与标记语言文档74进行比较,且如果标记语言文档74是经更新的版本(例如,标记语言文档74可能包括用于处理可以由识别器40利用的新近添加的特征的附加标记语言),那么,用附加标记语言更新标记语言文档44。
包括网络服务器70的多种计算设备(未示出)可以包括但不限于应用程序网关、应用程序服务器、同步网关和识别POD或复制设备。本领域中的技术人员应明白,可以通过使用多个网络协议来促进在包括网络服务器70和客户机计算设备2的多种计算设备之间的通信。例如,可以通过使用传输控制协议(“TCP”)和安全套接字层协议上的超文本传输协议(“HTTPS”)来促进在客户机计算设备2和应用程序网关之间的安全数据通信。可以通过使用超文本传输协议(“HTTP”)来促进在应用程序网关、应用程序服务器,和识别POD之间的通信。前述的协议对本领域中的技术人员来说是公知的,且因此不需要在此进一步讨论。根据一实施方式,可以使用HTTP POST方法(带音频)来处理结果集76和由网络服务器70接收的发言42(例如,在被发送给识别POD和应用程序服务器之前由应用程序网关处理)。在将结果集76传递给的客户机计算设备2之前,网络服务器70(例如,经由应用程序服务器)也可以将结果集76转换成标记语言文档(即,独立于标记语言文档44和标记语言文档74的标记语言文档)(根据这一实施方式,事件处理器应用程序38可以包括用于处理包括结果集76的标记语言文档的标记语言解释器(未示出)。根据一实施方式,在传递给客户机计算设备2之前,可以使用一种或多种压缩方法来压缩结果集76。在各种各实施方式中可以使用的压缩方法的示例是公知的无线应用协议二进制可扩展标记语言(“WBXML”)和GNU zip(“GZIP”)压缩方法。
示例性操作环境
现在参见图2,下列讨论旨在提供其中可以实现各种说明性的实施方式的合适的计算环境的简要、一般的描述。尽管将在与在计算机设备上的操作系统上运行的程序模块结合运行的程序模块的一般上下文中描述各种实施方式,但本领域中的技术人员应认识到,也可以与其他类型的计算机系统和程序模块组合来实现各种实施方式。
一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本领域中的技术人员应明白,可以借助于许多计算机系统配置实践各种实施方式,这些计算机系统配置包括手持式设备、多处理器系统、基于微处理器的或可编程的消费性电子设备、小型计算机、大型计算机等等。也可以在分布式计算环境中实践各种实施方式,分布式计算环境中,任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于本地存储器存储设备和远程存储器存储设备两者。
图2示出客户机计算设备2,客户机计算设备2可以包括能够执行一个或多个应用程序程序的移动或便携式计算机或其他类型的计算机,包括但不限于膝上型计算机、“智能电话”(即,具有计算机功能和/或能够运行操作系统软件以便为应用程序开发者提供标准化界面和平台的移动电话)和车载计算设备。客户机计算设备2包括至少一个中央处理单元8(“CPU”)、包括随机存取存储器18(“RAM”)和只读存储器(“ROM”)20的系统存储器12,和将存储器耦合到CPU 8的系统总线10。包含诸如在启动期间帮助在计算机内的元件之间传输信息的基本例程的基本输入/输出系统被存储在ROM 20中。
客户机计算设备2还包括用于存储操作系统32的海量存储设备14、语音识别服务应用程序30、事件处理器应用程序38、识别器40、发言42、标记语言文档44、结果集46、设备接口应用程序50,和同步应用程序60。本领域中的技术人员应明白,除了实现为驻留在海量存储设备14上的软件之外,识别器40也可以完全以硬件实现。例如,识别器40可以被实现为具有语音分析、识别处理和系统控制功能的单片CMOS语音识别LSI电路。
根据各种实施方式,操作系统32可以适用于控制联网的个人计算机的操作,例如来自华盛顿州雷德蒙市的微软公司的WINDOWS操作系统。海量存储设备14通过被连接到总线10的海量存储控制器(未示出)而被连接到CPU 8。海量存储设备14及其关联的计算机可读介质为客户机计算设备2提供非易失性存储。尽管在此包含的计算机可读介质的描述是指诸如例如硬盘或CD-ROM驱动器等的海量存储设备,但本领域中的技术人员应明白,计算机可读介质可以是可以由客户机计算设备2访问或利用的任何可用的介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。
计算机存储介质包括以用于存储诸如计算机可读的指令、数据结构、程序模块或其他数据等的信息任何物理方法或技术实现的易失性硬件存储介质和非易失硬件存储介质、可移动硬件存储介质和不可移动硬件存储介质。计算机存储介质包括但不限于可以被用来存储所期望的信息且可以由客户机计算设备2访问的RAM、ROM、EPROM、EEPROM、闪速存储器或其他固态存储器技术、CD-ROM、数字多用盘(“DVD”)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备。通信介质可以在其中以诸如载波或其他传输机制和包括任何信息传输介质等的经调制数据信号具体化计算机可读指令、数据结构、程序模块或其他数据。术语“经调制数据信号”意味着以在信号中编码信息的方式来设置或改变该信号的特性中的一种或多种的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接等的有线介质和诸如声学、RF、红外和其他无线介质等的无线介质。以上的任何的组合也应被包括在计算机可读介质的范围内。计算机可读介质也可以被称为计算机程序产品。
根据本发明的各种实施方式,客户机计算设备2可以通过网络4使用到远程计算机的逻辑连接来在联网环境中操作,如以上所描述的,网络4可以包括局域网或广域网(例如,因特网)。客户机计算设备2可以通过被连接到总线10的网络接口单元16来连接到网络4。应明白,网络接口单元16也可以被用来连接到其他类型的网络和远程计算系统。客户机计算设备2也可以包括输入/输出控制器22,用于接收和处理来自包括话筒80以及键盘、鼠标、笔、触笔、手指和/或其他装置(未示出)的许多输入类型的输入。类似地,输入/输出控制器22可以向显示器设备82以及打印机或其他类型的输出设备(未示出)提供输出。
图3是示出根据各种实施方式用于选择和利用多个识别器来基于标记语言文档处理发言的例程300的流程图。在阅读在此呈现的例程的讨论时,应明白,本发明的各种实施方式的逻辑操作被实现为(1)计算机实现动作的序列或在计算系统上运行的程序模块和/或(2)在计算系统内的互连的机器逻辑电路或电路模块。该实现是取决于实现本发明的计算系统的性能要求的选择。因此,图3-图4中示出的且构成在此描述的各种实施方式的逻辑操作不同地被称为操作、结构设备、动作或模块。本领域中的技术人员应认识到,可以在不偏离在此陈述的权利要求内叙述的本发明的精神的范围的前提下以软件、固件、专用数字逻辑和任何其组合来实现这些操作、结构设备、动作和模块。
例程300在操作305开始,操作305中由客户机计算设备2接收标记语言文档(例如,标记语言文档44)。在一种实施方式中,可以通过由事件处理器应用程序38对网络服务器70发出的请求来接收标记语言文档。
从操作305,例程300继续到操作307,其中事件处理器应用程序38判断所接收的标记语言文档44中指定的任何识别器是否已经被更新。下面在图4的讨论中将更详细地描述用于判断所更新的识别器的例程。
从操作307,例程300继续到操作310,其中在客户机计算设备2上执行的事件处理器应用程序38开始从用户接收作为流的发言(例如,发言42)。应理解,根据各种实施方式,不需要从用户接收整个发言42。具体地,当用户对着客户机计算设备2说话时,发言42可以被流化到事件处理器应用程序38以进行语法识别。例如,通过对着话筒80(在图2中示出)说话,客户机计算设备2的用户可以结合事件处理器应用程序38利用一个或多个语音识别服务应用程序40来做出发言,该发言包括对联系人的查询以经由语音激活拨号呼叫、或对工商企业的位置、交通信息、方向、气象信息,或电影信息的查询。
从操作310,例程300继续到操作315,其中事件处理器应用程序38识别在操作310接收的发言42中使用的语法。具体地,事件处理器应用程序38可以被配置为执行言语处理以识别发言中所说的语法(即,字)。根据一实施方式,事件处理器应用程序38可以利用所识别的语法与标记语言文档44结合来判断识别器(即,本地或网络识别器)以提供该发言的结果。
从操作315,例程300继续到操作320,其事件处理器应用程序38解析标记语言文档44以得到标识识别器的标记语言标签,以基于在操作315识别的语法处理发言。具体地,事件处理器应用程序38可以被配置为解析标记语言文档44中的标记语言,以得到<语法>(<grammar>)标记语言标签,该标签可以标识本地或网络(例如,经由通用资源定位符(“URL”)),从中检索所存储的语法,以与在操作315从发言42识别的语法进行比较。
从操作320,例程300继续到操作325,其中事件处理器应用程序38选择由标记语言文档44中的标记语言标签标识的本地识别器(即,识别器40)或网络识别器(即,识别器72)中的任一个。具体地,事件处理器应用程序38可以选择与语法相关联的识别器以返回所接收的发言42的结果。例如,如果发言42包括对被存储在客户机计算设备2上的通信录中所包含的联系人的语音激活拨号的请求,则事件处理器应用程序38可以选择在标记语言文档44中被标识为与包括客户机计算设备2的通信录联系人的语法相关联的(本地)识别器40。另一方面,如果发言42包括对本地企业搜索的请求,则事件处理器应用程序38可以选择在标记语言文档44中被标识为与包括可以经由从网络服务器70到远程web搜索引擎的查询检索的企业搜索信息的语法相关联的(网络)识别器72。
从操作325,例程300继续到操作330,其中事件处理器应用程序38将发言42发送或流化到所选择的识别器(例如,识别器40或识别器72)。一旦所选择的识别器接收到发言42,就可以处理发言以得到结果。
从操作330,例程300继续到操作335,其中事件处理器应用程序38根据在标记语言文档44中指定的格式从所选择的识别器接收一个或多个结果集。具体地,识别器40和识别器72可以被配置为根据各种实施方式以未经处理的或“原始”格式或经处理的格式返回发言42的结果集。未经处理的识别器结果可以包括一个或多个项,这些项包括识别器40或识别器72对发言42的语音识别。另一方面,经处理的识别器结果可以包括与发言42相关联的一个或多个项的语音识别。例如,包括项“咖啡”的发言的未经处理的结果可以包括项咖啡以及由识别器指派的指示对发言的语音识别的精度(例如,80%)的置信度分数。另一方面,包括项“咖啡”的发言的经处理的结果可以包括企业搜索结果,该搜索结果包括售卖咖啡的本地企业的名称和地址。标记语言文档44可以包括标识格式的标记语言标签,其中发言的结果集以该格式返回。
从操作335,例程300继续到操作340,其中事件处理器应用程序38响应于从所选择的识别器接收一个或多个结果集而执行事件。事件可以包括许多动作,包括但不限于(例如,在显示器设备82上)向客户机计算设备2的用户显示一个或多个结果集、基于结果集执行语音激活拨号功能、忽略结果集和将结果集与先前所接收的结果集组合起来以显示在客户机计算设备2上。根据一实施方式,多个结果集可以被显示在标签化用户界面中(未示出),其中每一标签与一个结果集相关联。用户界面也可以包括带有与每一结果集关联的所显示的类别的明细(drilldown)列表或按结果类型排序的列表。事件处理器应用程序38可以被配置为基于许多准则确定如何处理所接收的结果(即,确定采取哪一动作),这些准则包括但不限于结果集中的结果数量、结果集的置信度分数、结果集的返回代码(例如,返回代码可以包括指示网络服务器70故障的错误代码)和结果集的某一(即,预先确定的)值的存在。例如,如果识别发言的置信度分数是低的(例如,少于50%),则事件处理器应用程序38可以忽略结果集,并因此防止向客户机计算设备2的用户显示结果集。作为另一示例,响应于接收指示用于处理结果的服务器故障的结果集返回代码,事件处理器应用程序38可以生成错误对话框并向客户机计算设备2的用户显示。作为另一示例,事件处理器应用程序38可以处理与结果集一起返回的预先确定的值,这些值表示结果对用户的呈现,例如将结果集呈现为带有公司徽标或广告。从操作340,然后,例程300结束。
图4是示出根据各种实施方式的用于利用经更新的识别器以基于标记语言文档处理发言的例程400的流程图。从(以上所描述的)图3的操作305,例程400在操作405开始,其中事件处理器应用程序38从客户机计算设备2向网络服务器70发送(本地)识别器40的版本数据。如以上在图1的描述中所描述的,识别器40可以是在客户机计算设备2的操作系统(即,操作系统32)中。应明白,在识别器被嵌入到操作系统中时,事件处理器应用程序38可以被配置为向网络服务器70发送操作系统的版本。
从操作405,例程400在操作410继续,其中事件处理器应用程序38基于版本数据判断在客户机计算设备2上是否已经更新识别器40。例如,对于嵌入的识别器,可以在客户机计算设备2上的操作系统更新之后更新识别器40。
在操作410,如果(由网络服务器70基于所接收的版本数据判断)识别器40已经被更新,那么,例程400在操作415继续,其中事件处理器应用程序38从网络服务器70接收附加标记语言(即,标记语言文档74)。标记语言文档74可以包括用于利用经更新的版本的识别器40中的新近添加的特征(诸如例如语音激活拨号)的附加标记语言标签。然后,例程400返回到图3的操作310。在操作410,如果(由网络服务器70基于所接收的版本数据判断)识别器还没有更新,那么,例程400也返回到图3的操作310。
图5示出包括根据各种实施方式的标签的标记语言文档,其可以被用来从多个识别器当中选择以处理发言并处理发言的结果集。具体地,图5示出客户机计算设备2上的标记语言文档44。标记语言文档44包括<听众>(<listener>)标签90、<识别>(<recognize>)标签92、<语法>(<grammar>)标签94、<识别>(<recognize>)标签96、<语法>(<grammar>)标签98、<听众>(<listener>)标签100、<如果>(<if>)标签102、<指派>(<assign>)标签104、<如果>(<if>)标签106、<抛出事件>(<throw event>)标签108、<否则/>(<else/>)标签109、<如果>(<if>)标签110、<指派>(<assign>)标签111和<抛出事件>(<throwevent>)标签112。
<听众>(<listener>)标签90可以被事件处理器应用程序38用来从客户机计算设备2的用户接收发言42。<识别>(<recognize>)标签92包括标识“本地”识别器的“类型”属性。<语法>(<grammar>)标签94包括标识用于访问由本地识别器使用的语法的“http”地址(即,网站地址)的“url”属性。<识别>(<recognize>)标签96包括标识“网络”识别器的“类型”属性。<语法>(<grammar>)标签98包括标识用于访问由网络识别器使用的语法的“http”地址(即,网站地址)的“url”属性。如以上参照图3所描述的,事件处理器应用程序38可以解析标记语言文档中的标签以标识发言中使用的语法并选择识别器来基于所标识的语法处理发言。
如以上参照图3所描述的,事件处理器应用程序38可以从所选择的识别器接收一个或多个结果集并基于置信度分数处理该一个或多个结果集。<听众>(<listener>)标签100可以被事件处理器应用程序38用来响应于发言而从所选择的识别器接收结果集。标签102、104、106、108、109、110和111可以被事件处理器应用程序38用来判断是否将一个或多个结果集用于在客户机计算设备2上执行动作(例如,如果识别发言的置信度分数是高的(例如,大于50%-“gSelectedresult.confidence>0.5”),则<throwevent=“process_selectedresult”/>,或如果识别发言的置信度分数是低的是否使用“空”结果集(例如,<if expr=“event.result>gSelectedresult.confience”>,其中event.result是“空”结果),且因而防止在客户机计算设备2上针对该结果集执行动作。
尽管已经结合各种说明性的实施方式描述了本发明,但本领域中的普通技术人员应理解,可以对此做出落在随后的权利要求的范围内的许多修改。因此,本发明的范围不预期以任何方式受到上面的描述的限制,而是完全参考随后的权利要求来确定。

Claims (15)

1.一种用于利用多个识别器(40,72)来基于标记语言文档(44)处理发言(42)的计算机实现的方法(300),包括:
接收(305)所述标记语言文档(44);
接收(310)所述发言(42);
选择(325)所述多个识别器(40,72)中的至少一个,以基于所述标记语言文档(44)中的标记语言(90,92,94,96,98,100,102,104,106,108,109,110,111,112)返回所述发言(42)的结果集(46);
以由所述标记语言文档(44)中指定的处理方法(355)所确定的格式从所述多个识别器(40,72)中的所选择的至少一个接收(335)所述结果集(46);以及
响应于接收所述结果集(46)执行(340)事件(38)。
2.如权利要求1所述的方法,进一步包括:
从第一计算设备向第二计算设备发送所述多个识别器中的所述至少一个的版本数据;以及
如果所述版本数据标识所述多个识别器的所述至少一个的经更新的版本,那么,在所述第一计算设备处从所述第二计算设备接收附加标记语言,所述附加标记语言包括用于利用所述经更新的版本中的新近添加的特征的指令。
3.如权利要求1所述的方法,其特征在于,选择所述多个识别器中的至少一个以基于所述标记语言文档中的标记语言返回所述发言的结果包括:
识别所述发言中使用的语法;
解析所述标记语言文档以得到标识所述多个识别器中的至少一个的至少一个标记语言标签,以基于所述语法返回所述发言的所述结果集;以及
选择所述至少一个标记语言标签所标识的所述多个识别器中的所述至少一个。
4.如权利要求1所述的方法,其特征在于,以由所述标记语言文档中指定的处理方法所确定的格式从所述多个识别器中的所选择的至少一个接收所述结果集包括:以未经处理的结果格式和经处理的结果格式中的至少一种接收所述结果集,其中,所述未经处理的结果格式包括一个或多个项,所述项包括所述发言的语音识别,并且其中,所述经处理的结果格式包括与所述发言相关联的一个或多个项的语音识别。
5.如权利要求1所述的方法,其特征在于,响应于接收到所述结果集执行事件包括响应于接收到所述结果集确定一动作,其中,所述动作基于以下的至少一个:所述结果集中的结果数量、基于所述结果集的置信度分数、所述结果集的返回代码,和所述结果集中返回的预先确定的值,并且其中,所述动作包括以下的至少一个:向用户显示所述结果集、基于所述结果集执行语音激活拨号功能、忽略所述结果集,和将所述结果集与至少一个先前所接收的结果集组合起来以创建多个结果集。
6.一个用于利用多个识别器(40,72)来基于标记语言文档(44)处理发言(42)的系统,所述系统包括客户机计算设备(2),所述客户机计算设备(2)包括:
用于存储可执行程序代码的存储器(12);以及
功能性地耦合到所述存储器(12)的处理器(8),所述处理器(8)响应被包含在所述程序代码中的计算机可执行指令并用于:
接收(305)所述标记语言文档(44);
接收(310)所述发言(42);
选择(325)所述多个识别器(40,72)中的至少一个以基于所述标记语言文档(44)中的标记语言(90,92,94,96,98,100,102,104,106,108,109,110,111,112)返回所述发言(42)结果集(46);
以由所述标记语言文档(44)中指定的处理方法(355)所确定的格式从所述多个别器(40,72)中的所选择的至少一个接收(335)所述结果集(46);以及
响应于接收所述结果集(46)执行(340)事件(38)。
7.如权利要求6所述的系统,其特征在于,所述处理器进一步用于:
判断经更新的版本是否可用于所述多个识别器中的至少一个;以及
如果经更新的版本可用于所述多个识别器中的所述至少一个,那么,接收包括用于处理所述经更新的版本中的新近添加的特征的附加标记语言的经更新的标记语言文档。
8.如权利要求6所述的系统,其特征在于,所述处理器在选择所述多个识别器中的至少一个以基于所述标记语言文档中的标记语言返回所述发言的结果集时进一步用于:
识别所述发言中使用的语法;
解析所述标记语言文档以得到标识所述多个识别器中的至少一个的至少一个标记语言标签,以基于所述语法返回所述发言的所述结果集;以及
选择所述至少一个标记语言标签所标识的所述多个识别器中的所述至少一个。
9.如权利要求8所述的系统,其特征在于,所述处理器进一步用于将所述发言发送给所述多个识别器中的所选择的至少一个。
10.如权利要求6所述的系统,其特征在于,来自所述多个识别器中的所选择的至少一个的所述结果集是以由所述标记语言文档中指定的处理方法所确定的格式接收的,其中,所述格式包括未经处理的结果格式和经处理的结果格式中的至少一种,其中,所述未经处理的结果格式包括一个或多个项,所述项包括所述发言的语音识别,并且其中,所述经处理的结果格式包括与所述发言的语音识别相关联的一个或多个项。
11.如权利要求6所述的系统,其特征在于,所述处理器在响应于接收所述结果集执行事件时进一步用于:响应于接收所述结果集确定一动作,其中,所述动作基于以下的至少一个:所述结果集的结果数量、基于所述结果集的置信度分数、所述结果集的返回代码,和所述结果集中返回的预先确定的值,并且其中,所述动作包括以下中的至少一个:向用户显示所述结果集、基于所述结果集执行语音激活拨号功能、忽略所述结果集,和将所述结果集与至少一个先前所接收的结果集组合起来以创建多个结果集。
12.一种包括计算机可执行指令的计算机可读存储介质(14),所述计算机可执行指令在计算机(2)上执行时,将引起所述计算机(2)执行用于利用多个识别器(40,72)来基于标记语言文档(44)处理发言(42)的方法(300),包括:
接收(305)所述标记语言文档(44),其中,接收所述标记语言文档包括在客户机计算设备(2)上接收本地存储的标记语言文档(40)和在客户机计算设备(2)上从网络服务器(70)接收远程存储的标记语言文档(72)中的至少一个。
接收(310)所述发言(42);
选择(325)所述多个识别器(40,72)中的至少一个以基于所述标记语言文档(44)中的标记语言(90,92,94,96,98,100,102,104,106,108,109,110,111,112)返回所述发言(42)的结果集(46),其中,选择所述多个识别器中的至少一个以基于所述标记语言文档中的标记语言返回所述发言的结果集包括:
识别(315)所述发言(42)中使用的语法;
解析(320)所述标记语言文档(44)以得到标识所述多个识别器(40,72)中的至少一个的至少一个标记语言标签(90),以基于所述语法返回所述发言(42)的所述结果集(46);以及
选择(325)由所述至少一个标记语言标签(90)标识的所述多个识别器中的所述至少一个(40,72);
将所述发言(42)流化(330)到所述多个识别器(40,72)中的所选择的至少一个;
以由所述标记语言文档(44)中指定的处理方法(355)所确定的格式从所述多个识别器(40,72)中的所选择的至少一个接收(335)所述结果集(46);以及
响应于接收所述结果集(46)执行(340)事件(38)。
13.如权利要求12所述的计算机可读存储介质进一步包括:
判断经更新的版本是否可用于所述多个识别器中的至少一个;以及
如果经更新的版本可用于所述多个识别器中的所述至少一个,那么,接收包括用于处理所述经更新的版本中的新近添加的特征的附加标记语言的经更新的标记语言文档。
14.如权利要求12所述的计算机可读存储介质,其特征在于,以由所述标记语言文档中指定的处理方法所确定的格式从所述多个识别器中的所选择的至少一个接收所述结果集包括:以未经处理的结果格式和经处理的结果格式中的至少一种接收所述结果集,其中,所述未经处理的结果格式包括一个或多个项,所述项包括所述发言的语音识别,并且其中,所述经处理的结果格式包括与所述发言相关联的一个或多个项的语音识别。
15.如权利要求12所述的计算机可读存储介质,其特征在于,响应于接收所述结果集执行事件响应于接收到所述结果集确定一动作,其中,所述动作基于以下的至少一个:所述结果集的结果数量、基于所述结果集的置信度分数、所述结果集的返回代码,和所述结果集中返回的预先确定的值,并且其中,所述动作包括以下中的至少一个:向用户显示所述结果集、基于所述结果集执行语音激活拨号功能、忽略所述结果集,和将所述结果集与至少一个先前所接收的结果集组合起来以创建多个结果集。
CN2009801553606A 2009-01-22 2009-12-11 用于利用多个识别器来基于标记语言文档处理发言的方法和系统 Expired - Fee Related CN102292765B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/357,773 2009-01-22
US12/357,773 US8515762B2 (en) 2009-01-22 2009-01-22 Markup language-based selection and utilization of recognizers for utterance processing
PCT/US2009/067788 WO2010090679A1 (en) 2009-01-22 2009-12-11 Markup language-based selection and utilization of recognizers for utterance processing

Publications (2)

Publication Number Publication Date
CN102292765A true CN102292765A (zh) 2011-12-21
CN102292765B CN102292765B (zh) 2013-08-14

Family

ID=42337638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801553606A Expired - Fee Related CN102292765B (zh) 2009-01-22 2009-12-11 用于利用多个识别器来基于标记语言文档处理发言的方法和系统

Country Status (10)

Country Link
US (1) US8515762B2 (zh)
EP (1) EP2380166B1 (zh)
JP (1) JP5542156B2 (zh)
KR (1) KR101649771B1 (zh)
CN (1) CN102292765B (zh)
AU (1) AU2009339294B2 (zh)
BR (1) BRPI0922906A8 (zh)
CA (1) CA2747791C (zh)
RU (1) RU2525440C2 (zh)
WO (1) WO2010090679A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282305A (zh) * 2013-07-12 2015-01-14 通用汽车环球科技运作有限责任公司 语音对话系统中用于结果仲裁的系统和方法
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN108846069A (zh) * 2018-06-07 2018-11-20 阿里巴巴集团控股有限公司 一种基于标记语言的文档执行方法及装置

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011163538A1 (en) 2010-06-24 2011-12-29 Honda Motor Co., Ltd. Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
CN103475712B (zh) * 2013-09-10 2016-05-11 北京思特奇信息技术股份有限公司 基于云计算实现多企业多通讯录自动关联的方法及系统
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10445356B1 (en) * 2016-06-24 2019-10-15 Pulselight Holdings, Inc. Method and system for analyzing entities
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
US11423215B2 (en) 2018-12-13 2022-08-23 Zebra Technologies Corporation Method and apparatus for providing multimodal input data to client applications
US11551681B1 (en) * 2019-12-13 2023-01-10 Amazon Technologies, Inc. Natural language processing routing
CN113763943A (zh) * 2020-06-04 2021-12-07 微软技术许可有限责任公司 在语音识别结果中实时地提供提示

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
DE19910236A1 (de) 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US6999930B1 (en) * 2002-03-27 2006-02-14 Extended Systems, Inc. Voice dialog server method and system
US7032169B2 (en) * 2002-05-22 2006-04-18 International Business Machines Corporation Method and system for distributed coordination of multiple modalities of computer-user interaction
KR100636909B1 (ko) 2002-11-14 2006-10-19 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 버전 매김 및 버전을이용한 갱신 문서 제공 방법
US7571100B2 (en) * 2002-12-03 2009-08-04 Speechworks International, Inc. Speech recognition and speaker verification using distributed speech processing
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
KR100504841B1 (ko) 2003-07-11 2005-07-29 엘지전자 주식회사 이동 통신 단말기의 메시지 관리 방법
US7158779B2 (en) * 2003-11-11 2007-01-02 Microsoft Corporation Sequential multimodal input
US20050131872A1 (en) * 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
KR100989500B1 (ko) * 2004-01-28 2010-10-22 주식회사 케이티 음성인식 파라미터 공유 방법
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
WO2006126097A2 (en) * 2005-02-09 2006-11-30 Pixalert Memory based content display interception
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20070047719A1 (en) * 2005-09-01 2007-03-01 Vishal Dhawan Voice application network platform
US8073700B2 (en) * 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8326629B2 (en) * 2005-11-22 2012-12-04 Nuance Communications, Inc. Dynamically changing voice attributes during speech synthesis based upon parameter differentiation for dialog contexts
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8374983B1 (en) * 2009-11-23 2013-02-12 Google Inc. Distributed object classification
US8755610B2 (en) * 2011-06-10 2014-06-17 Apple Inc. Auto-recognition for noteworthy objects

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282305A (zh) * 2013-07-12 2015-01-14 通用汽车环球科技运作有限责任公司 语音对话系统中用于结果仲裁的系统和方法
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN104282305B (zh) * 2013-07-12 2018-04-24 通用汽车环球科技运作有限责任公司 语音对话系统中用于结果仲裁的系统和方法
CN108846069A (zh) * 2018-06-07 2018-11-20 阿里巴巴集团控股有限公司 一种基于标记语言的文档执行方法及装置

Also Published As

Publication number Publication date
RU2525440C2 (ru) 2014-08-10
US8515762B2 (en) 2013-08-20
EP2380166B1 (en) 2018-07-04
KR20110117086A (ko) 2011-10-26
AU2009339294A1 (en) 2011-07-14
KR101649771B1 (ko) 2016-08-19
AU2009339294B2 (en) 2014-04-24
BRPI0922906A8 (pt) 2017-12-12
EP2380166A1 (en) 2011-10-26
JP5542156B2 (ja) 2014-07-09
EP2380166A4 (en) 2013-09-18
CN102292765B (zh) 2013-08-14
RU2011130550A (ru) 2013-01-27
US20100185447A1 (en) 2010-07-22
CA2747791C (en) 2016-11-08
JP2012515946A (ja) 2012-07-12
BRPI0922906A2 (pt) 2017-10-31
WO2010090679A1 (en) 2010-08-12
CA2747791A1 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
CN102292765B (zh) 用于利用多个识别器来基于标记语言文档处理发言的方法和系统
CN108877791B (zh) 基于视图的语音交互方法、装置、服务器、终端和介质
JP6373985B2 (ja) 音声動作式機能にキーワードモデルを割り当てるための方法および装置
CN101366073B (zh) 多种语音识别软件实例的使用
US10311877B2 (en) Performing tasks and returning audio and visual answers based on voice command
EP1962475B1 (en) Voice interface to NFC applications
US11200891B2 (en) Communications utilizing multiple virtual assistant services
CN100576171C (zh) 步进式标记语言与面向对象开发工具组合使用的系统和方法
US20170249934A1 (en) Electronic device and method for operating the same
CN101611403A (zh) 用于移动通信设备中的语音搜索的方法和装置
CN101589427A (zh) 语音应用程序装备和记入
KR102211396B1 (ko) 컨텐츠 공유 서비스 시스템, 그의 컨텐츠 공유를 위한 장치 및 컨텐츠 공유 서비스 제공 방법
JP2014513828A (ja) 自動会話支援
JP5046916B2 (ja) 情報処理装置および方法、プログラム、並びに情報処理システム
US10529323B2 (en) Semantic processing method of robot and semantic processing device
KR20240139976A (ko) 오디오 콘텐츠를 제공하기 위한 방법, 장치 및 기록 매체
KR100559140B1 (ko) 멀티미디어 메시지 전송 방법 및 시스템
US20170255640A1 (en) Interaction providing method for deleting query
JP2021096293A (ja) 案内システム、案内システムの制御方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150421

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150421

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130814

Termination date: 20211211

CF01 Termination of patent right due to non-payment of annual fee