CN103077715A - 合并语音辨识结果 - Google Patents

合并语音辨识结果 Download PDF

Info

Publication number
CN103077715A
CN103077715A CN2012103534957A CN201210353495A CN103077715A CN 103077715 A CN103077715 A CN 103077715A CN 2012103534957 A CN2012103534957 A CN 2012103534957A CN 201210353495 A CN201210353495 A CN 201210353495A CN 103077715 A CN103077715 A CN 103077715A
Authority
CN
China
Prior art keywords
mark
group
row
grid
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103534957A
Other languages
English (en)
Other versions
CN103077715B (zh
Inventor
马尔切洛·巴斯泰亚福特
大卫·A·维纳斯凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Publication of CN103077715A publication Critical patent/CN103077715A/zh
Application granted granted Critical
Publication of CN103077715B publication Critical patent/CN103077715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

以减少冗余性的合并方式来呈现通过将语音辨识算法应用于口述的输入所得的候选解释。产生候选解释的列表,且将每一候选解释再分为基于时间的部分,从而形成网格。从所述网格移除与来自其它候选解释的部分重复的那些基于时间的部分。提供向用户呈现在所述候选解释中进行选择的机会的用户接口,所述用户接口经配置以呈现不具有重复元素的这些替代项。

Description

合并语音辨识结果
技术领域
本发明涉及用于辨识和解释口述的输入的自动化电子系统和方法。
背景技术
在许多情形中,语音是用于对电子装置提供输入的优选机制。特定来说,口述的输入可有用于经由屏幕、键盘、鼠标或需要物理操纵和/或查看显示屏的其它输入装置与电子装置交互可能较困难或不安全的情形。举例来说,在驾驶交通工具时,用户可能希望对移动装置(例如智能电话)或基于汽车的导航系统提供输入,且可发现对装置说话是提供信息、输入数据或控制装置的操作的最有效方式。在其它情形中,用户可能发现提供口述的输入是方便的,因为他或她对较为接近地模仿与另一人的交互的对话界面感觉到更舒适。举例来说,用户可能希望在与如2011年1月10日申请的第12/987,982号美国实用新型专利申请案“智能自动化助理(Intelligent Automated Assistant)”中描述的智能自动化助理交互时提供口述的输入,所述申请案以引用方式并入本文。
语音辨识可用于许多不同情境中。举例来说,一些电子系统提供基于话音的用户接口,其允许用户经由口述的输入来控制装置的操作。语音辨识还可用于交互式话音辨识(IVR)电话系统,其中用户可导览选项菜单且可提供输入以例如购买飞机票、查看电影时间等等。语音辨识还用于许多形式的数据输入,包含经由文字处理器的写入。
各种已知技术可用于解释口述的输入且将其转换为文本。声学建模可用于产生形成个别单词或短语的声音或音素的统计学表示。可将音频输入与这些统计学表示进行比较以作出哪些单词或短语是想要的确定。在许多系统中,以某种方式界定有限的词汇表,以便增加成功匹配的可能性。在一些系统中,语言建模可用以帮助预测口述的单词序列中的下一单词,且进而减少由语音辨识算法产生的结果中的模糊性。
使用声学和/或语言模型的语音辨识系统的一些实例是:CMU Sphinx,作为宾夕法尼亚州匹兹堡市卡内基梅隆大学(Carnegie Mellon University of Pittsburgh,Pennsylvania)的工程而开发;龙语音辨识软件,可从马萨诸塞州伯灵顿市的Nuance通讯公司(NuanceCommunications of Burlington,Massachusetts)购得;以及谷歌话音搜索,可从加利福尼亚州山景城的谷歌公司(Google,Inc.of Mountain View,California)购得。
无论使用何种语音辨识技术,在许多情况下必须消除口述的输入的两个或两个以上可能解释之间的歧义。最方便的方法常常是询问用户若干可能的解释中的哪一者是想要的。为了实现此目的,可向用户呈现口述的输入的可能候选解释的某个集合,且提示用户选择一者。此提示可经由视觉接口而发生,例如在屏幕上呈现的视觉接口,或经由音频接口,其中系统读完候选解释且请求用户选择一者。
当将语音辨识应用于连续口述的一组单词(例如一个句子中)时,可能存在若干候选解释。候选解释的集合可呈现为一组句子。在许多情况下,候选句子的部分彼此类似(或相同),而其它部分以某种方式不同。举例来说,口述的句子中的一些单词或短语对于系统来说可能比其它单词或短语更容易解释;或者,一些单词或短语可能与比其它单词或短语更多数目的候选解释相关联。另外,候选解释的总排列的数目由于候选解释集合中的自由度的总数的缘故而可能相对高,因为句子的不同部分可能各自以若干不同方式来解释。潜在较大数目的排列连同句子的不同部分的不同数目的候选一起可致使供用户选择的候选句子的呈现太多,且难以导览。
需要一种用于对语音辨识系统的用户呈现候选句子的机制,其中候选句子的呈现经简化且串流以便避免对用户呈现太多数目的选项。进一步需要一种用于以减少冗余和混淆信息的方式呈现候选句子的机制。
发明内容
本发明的各种实施例实施用于在语音辨识系统中呈现候选解释集合的改善的机制。通过合并过程而最小化或消除冗余元素,以便简化对用户呈现的选项。
本发明可在经配置以接收和解释口述的输入的任何电子装置中实施。以减少或消除冗余性的合并方式来呈现通过将语音辨识算法应用于口述的输入所得的候选解释。系统的输出是作为针对句子的在候选解释之间不同的那些部分的不同选项的集合而呈现的候选解释的列表,同时抑制在候选之间相同的那些部分的重复呈现。
根据各种实施例,候选解释的经合并列表是通过首先获得语音输入的候选解释的原始列表来产生。将每一候选解释再分为基于时间的部分,从而形成网格。从所述网格移除与来自其它候选解释的部分重复的那些基于时间的部分。提供向用户呈现在所述候选解释中进行选择的机会的用户接口,所述用户接口经配置以呈现这些替代项,同时避免呈现重复元素。
根据各种实施例,若干机制中的任一者可用于对用户呈现候选解释且接受关于用户的选择的输入。此些机制可包含任一合适类型的图形、文本、视觉和/或听觉接口。在一些实施例中,可对用户给出从不同候选解释中选择个别元素的机会,例如可从第一候选解释选择句子的第一部分,同时可从第二候选解释选择所述句子的第二部分。可接着从选定的部分组合最终结果。
一旦用户已在候选解释当中进行选择,便可显示、存储、传输和/或以另外方式作用于选定的文本。举例来说,在一个实施例中,选定的文本可经解释为用以执行某个动作的命令。或者,选定的文本可经存储为文档或文档的一部分、电子邮件或其它形式的消息,或用于文本传输和/或存储的任何其它合适的库或媒体。
如本文描述的本发明的这些各种实施例提供了用于改善在语音输入的候选解释当中进行区分的过程的机制。特定来说,此些实施例通过减少提供输入以在这些候选解释当中做出选择的负担和复杂性而改善了用户体验。
根据一些实施方案,一种方法包含在处理器处,接收口述的输入的候选解释的列表。所述方法还包含从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列。所述方法还包含基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号。所述方法还包含响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格。在一些实施方案中,所述方法包含在输出装置处基于所述经合并网格而输出所述候选解释。在一些实施方案中,所述方法包含基于所述经合并网格而致使输出装置输出所述候选解释。
根据一些实施方案,一种方法包含在处理器处,接收语音输入的候选解释的经合并列表。所述经合并列表包括至少一个具有单个记号群组的列群组,以及至少一个具有多个记号群组的列群组。所述方法还包含针对具有单个记号群组的每一列群组,在输出装置上显示所述单个记号群组。所述方法还包含针对具有多个记号群组的每一列群组,以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式在所述输出装置上显示所述记号群组中的第一记号群组。
根据一些实施方案,一种方法包含在运行于服务器处的处理器处获得口述的输入的候选解释的列表。所述方法还包含从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列。所述方法还包含基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,且每一记号群组包括至少一个记号。所述方法还包含响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生候选项的经合并列表。所述方法还包含将候选项的经合并列表的表示从服务器发射到客户端。
根据一些实施方案,一种电子装置包含一个或一个以上处理器、存储器以及一个或一个以上程序,所述一个或一个以上程序存储在存储器中且经配置以由所述一个或一个以上处理器执行,且所述一个或一个以上程序包含用于执行上述方法中的任一者的操作的指令。根据一些实施方案,一种计算机可读存储媒体在其中存储有指令,所述指令在由电子装置执行时致使装置执行上述方法中的任一者的操作。根据一些实施方案,一种电子装置包含用于执行上述方法中的任一者的操作的构件。根据一些实施方案,一种用于在电子装置中使用的信息处理设备包含用于执行上述方法中的任一者的操作的构件。
根据一些实施方案,一种电子装置包含候选解释接收单元,其经配置以接收口述的输入的候选解释的列表。所述电子装置还包含处理单元。所述处理单元经配置以:从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列;基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,且每一记号群组包括至少一个记号;以及响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格。在一些实施方案中,所述电子装置包含输出单元,其经配置以基于所述经合并网格而致使输出装置输出所述候选解释。在一些实施方案中,所述输出单元经配置以基于所述经合并网格而输出所述候选解释。
根据一些实施方案,一种电子装置包含候选解释接收单元,其经配置以接收语音输入的候选解释的经合并列表。所述经合并列表包括至少一个具有单个记号群组的列群组,以及至少一个具有多个记号群组的列群组。所述电子装置还包含显示单元,其经配置以:针对具有单个记号群组的每一列群组,在输出装置上显示所述单个记号群组;针对具有多个记号群组的每一列群组,以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式显示所述记号群组中的第一记号群组。
根据一些实施方案,一种电子装置包含候选解释接收单元,其经配置以获得口述的输入的候选解释的列表。所述电子装置还包含处理单元,其经配置以:从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列;基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,且每一记号群组包括至少一个记号;响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以形成候选项的经合并列表;以及将候选项的经合并列表的表示从服务器发射到客户端。
附图说明
附图说明本发明的若干实施例,并且结合描述用以根据实施例对本发明的原理加以解释。所属领域的技术人员将认识到,图式中所说明的特定实施例仅为示范性的,且并不希望限制本发明的范围。
图1是描绘根据本发明的一个实施例的用于产生合并的语音辨识结果的系统的硬件架构的框图。
图2是描绘根据本发明的一个实施例的用于在客户端/服务器环境中产生合并的语音辨识结果的系统的硬件架构的框图。
图3是描绘根据本发明的一个实施例的用于在客户端/服务器环境中产生合并的语音辨识结果的系统中的数据流的框图。
图4A是描绘根据本发明的一个实施例的用以产生合并候选结果列表的语音辨识处理器的总体操作的流程图。
图4B描绘在根据本发明加以处理之前的如可由语音辨识器产生的候选解释的列表的实例以及一个具有时序代码的候选解释的细节。
图5A是描绘根据本发明的一个实施例的从候选解释的列表形成记号网格的方法的流程图。
图5B描绘根据本发明的一个实施例的通过图5A所描绘的方法产生的记号网格的实例。
图6A是描绘根据本发明的一个实施例的基于时序信息将网格分裂成列群组集合的方法的流程图。
图6B描绘根据本发明的一个实施例的通过图6A所描绘的方法产生的列群组列表的实例。
图7A是描绘根据本发明的一个实施例的移除列群组中的重复项的方法的流程图。
图7B描绘根据本发明的一个实施例的通过图7A所描绘的方法产生的去重复列群组列表的实例。
图8A是描绘根据本发明的一个实施例的分离共享记号的方法的流程图。
图8B是描绘根据本发明的一个实施例的分离出现在列群组中的所有记号短语的开头处的记号的方法的流程图。
图8C是描绘根据本发明的一个实施例的分离出现在列群组中的所有记号短语的末尾处的记号的方法的流程图。
图8D、8E和8F描绘根据本发明的一个实施例的根据图8A所描绘的方法分离共享记号的实例。
图9A是描绘根据本发明的一个实施例的移除多余候选项的方法的流程图。
图9B到9F描绘根据本发明的一个实施例的根据图9A中所描绘的方法来移除多余候选项的实例。
图10是描绘根据本发明的一个实施例的用于向用户呈现候选项且用于接受用户对候选项的选择的用户接口的操作方法的流程图。
图11A到11D描绘根据本发明的一个实施例的用于向用户呈现候选项且用于接受用户对候选项的选择的用户接口的实例。
图12A是描绘根据本发明的一个实施例的从候选解释的列表形成记号网格的替代性方法的流程图。
图12B到12D描绘根据本发明的一个实施例的通过图12A中所描绘的替代性方法产生记号网格的实例。
图13A到13C描绘根据本发明的一个实施例的通过图12A中所描绘的替代性方法产生记号网格的另一实例。
图14A到14E描绘根据本发明的一个实施例的扩展边界记号的实例。
图15说明根据一些实施例的电子装置的功能框图。
图16说明根据一些实施例的电子装置的功能框图。
图17说明根据一些实施例的电子装置的功能框图。
具体实施方式
系统架构
根据各种实施例,本发明可实施在任何电子装置或包括任何数目个电子装置的电子网络上。每一个此种电子装置可为例如桌上型计算机、膝上型计算机、个人数字助理(PDA)、蜂窝式电话、智能电话、音乐播放器、手持型计算机、平板计算机、一体机、游戏系统,等等。如下文所描述,本发明可实施于独立的计算系统或其它电子装置中,或实施于在电子网络上实施的客户端/服务器环境中。可使用例如超文本传输协议(HTTP)、安全超文本传输协议(SHTTP)、传输控制协议/因特网协议(TCP/IP)等众所周知的网络协议来实施实现在两个或两个以上电子装置之间的通信的电子网络。此种网络可为例如因特网或内部网。可通过例如虚拟专用网络(VPN)等众所周知的技术来促进对网络的安全接入。本发明还可实施于使用任何已知无线通信技术和/或协议的无线装置中,所述无线通信技术和/或协议包含(但不限于)WiFi、第三代移动电信(3G)、通用移动电信系统(UMTS)、宽带码分多址(W-CDMA)、分时同步码分多址(TD-SCDMA)、高速分组接入演进(HSPA+)、CSMA2000、Edge、数字增强型无线电信(DECT)、蓝牙、全球微波接入互操作性(WiMAX)、长期演进(LTE)、高级LTE,或其任何组合。
尽管本文在用于接收记号单词输入并呈现候选解释以供用户选择的系统的背景下描述本发明,但所属领域的技术人员将认识到,本发明的技术可在需要呈现替代项列表,其中替代项的某个(某些)部分在两个或两个以上替代项中是重复的其它背景下且实际上任何系统中实施。因此,以下描述希望作为实例说明本发明的各种实施例,而非要限制所主张的本发明的范围。
在一个实施例中,本发明实施为在计算装置或其它电子装置上运行的软件应用程序。在另一实施例中,本发明实施为在包括至少一个服务器和至少一个客户端机器的客户端/服务器环境中运行的软件应用程序。客户端机器可为任何适当的计算装置或其它电子装置,且可使用任何已知的有线和/或无线通信协议与服务器通信。
举例来说,本发明可实施为在智能电话、计算机或其它电子装置上操作的智能自动助理的部分。此种智能自动助理的一个实例描述于2011年1月10日申请的第12/987,982号相关美国实用专利“智能自动助理(Intelligent Automated Assistant)”中,所述实用专利以引用方式并入本文。在一个实施例中,此种智能自动助理可实施为在移动装置或其它电子装置上运行的应用程序(或称“app”);或者,所述助理的功能性可实施为操作系统的内建式组件。然而,所属领域的技术人员将认识到,本文描述的技术也可结合其它应用程序和系统来实施,和/或在任何其它类型的计算装置、装置的组合或平台上实施。
现在参看图1,展示描绘根据一个实施例的用于在独立装置102中产生合并的语音辨识结果的系统100的硬件架构的框图。
系统100包含具有处理器105的装置102,所述处理器105用于执行用于执行本文所述步骤的软件。在图1中,描绘了单独的音频处理器107和语音辨识处理器108。音频处理器107可执行与接收音频输入并将其转换为数字化音频流相关的操作。语音辨识处理器108可执行与语音辨识以及如本文所述的产生及合并候选语音输入解释相关的操作。然而,本文所述的功能性可使用单一处理器或处理器的任何组合来实施。因此,图1中描绘的特定处理器集合仅仅是示范性的,且可省略任一处理器和/或添加额外处理器。
装置102可为适于运行软件的任何电子装置;举例来说,装置102可为桌上型计算机、膝上型计算机、个人数字助理(PDA)、蜂窝式电话、智能电话、音乐播放器、手持型计算机、平板计算机、一体机、游戏系统,等等。在一个实施例中,计算装置102可为可从加利福尼亚州库珀蒂诺市的苹果公司(Apple Inc.of Cupertino,California)购得的iPhone或iPad。在一个实施例中,装置102运行任何适当操作系统,例如:iOS,也可从加利福尼亚州库珀蒂诺市的苹果公司;Mac OS X,也可从加利福尼亚州库珀蒂诺市的苹果公司购得;Microsoft Windows,可从华盛顿州雷蒙德市的微软公司(MicrosoftCorporation of Redmond,Washington)购得;Android,可从加利福尼亚州山景城的谷歌公司(Google,Inc.of Mountain View,California)购得;等等。
本发明的技术可根据众所周知的技术而实施于在装置102上运行的软件应用程序中。举例来说,软件应用程序可为独立软件应用程序(或称“app”)或可经由浏览器或通过专门化的基于网络的客户端软件而接入的基于网络的应用程序或网站,所述浏览器例如可从加利福尼亚州库珀蒂诺市的苹果公司购得的Safari。
在一个实施例中,装置102包含用于从用户101接收口述输入的麦克风103或其它音频输入装置。装置102还可包含任何其它适当输入装置110,包含(例如)键盘、鼠标、触摸屏、轨迹球、轨迹垫、五向开关、话音输入装置、操纵杆,和/或其任何组合。此种输入装置110允许用户101将输入提供到装置102,以例如在候选口述输入解释中进行选择。在一个实施例中,装置102包含用于显示或以其它方式将包含候选口述输入解释的信息呈现给用户101的屏幕104或其它输出装置。在一个实施例中,可省略屏幕104;举例来说,可经由扬声器或其它音频输出装置(未展示)或使用打印机(未展示)或任何其它适当装置来呈现候选口述输入解释。
在一个实施例中,提供文本编辑用户接口(UI)109,其使得候选解释经由屏幕104呈现给用户101(作为文本)。用户101与UE 109交互以在候选解释中进行选择,和/或输入他或她自己的解释,如上文所述。
举例来说,在本文详细描述的实施例中,屏幕104是触敏屏幕(触摸屏)。UI 109使得候选解释呈现于触摸屏104上;用户可通过在屏幕104的指示替代解释可用的区域上进行点按来从所述解释中进行选择。UI 109解释用户101的输入以相应地更新口述输入的所显示的解释。
处理器105可为用于根据众所周知的技术在软件的指导下对数据执行操作的常规微处理器。存储器106可为具有现有技术中已知的结构和架构的随机存取存储器,以供105在运行软件的过程中使用。本地存储装置110可为用于以数字形式存储数据的任何磁性、光学和/或电存储装置;实例包含闪存存储器、磁性硬盘、CD-ROM,等等。在一个实施例中,本地存储装置110用于存储音频文件、候选解释等等,并且存储由处理器105在执行本文所述操作的过程中运行的软件。
所属领域的技术人员将认识到,图1所示的硬件元件的特定布置仅仅是示范性的,且可使用以若干不同方式中的任一方式配置的不同硬件元件来实施本发明。因此,图1所示的特定架构仅仅是说明性的,且不希望以任何方式限制本发明的范围。
现在参看图2,其展示描绘根据本发明的一个实施例的用于在客户端/服务器环境中实践本发明的硬件架构的框图。此种架构可用于例如结合基于服务器的语音辨识处理器108来实施本发明的技术。音频可在装置102处接收,且经由通信网络202传输到服务器203。在一个实施例中,网络202可为能够传输数据的蜂窝式电话网络,例如3G网络;或者,网络202可为因特网或任何其它适当网络。服务器203处的语音辨识处理器108产生音频的候选解释,且根据本文所述的技术产生、处理且合并候选解释。合并的候选解释经由网络202传输回到装置102,以供呈现在屏幕104上。文本编辑UI 109处置解释的呈现和接受用户输入以在所述解释中进行选择的技巧。
在一个实施例中,服务器203与在语音服务器205处运行的语音辨识器206通信,所述语音服务器205对由装置102收集到的音频流执行分析,并产生原始候选解释。语音辨识器206可使用任何常规技术来解释音频输入。举例来说,在一个实施例中,语音辨识器206可为可从马萨诸塞州伯灵顿的Nuance通信公司(Nuance Communications,Inc.of Burlington of Massachusetts)购得的Nuance语音辨识器。或者,可省略语音服务器205,且可在服务器203处或一个或一个以上服务器的任何其它布置和/或其它组件处执行所有语音辨识功能。
网络通信接口201为促进经由通信网络202将数据传达到其它装置和从其它装置传达数据的电子组件。服务器203、205经由网络202与装置102和/或彼此通信,且在一个实施例中,可相对于装置102和/或彼此远程定位或本地定位。
所属领域的技术人员将认识到,在适当的情况下,可使用分布式软件架构来实施本发明。所属领域的技术人员将进一步认识到,图2所示的客户端/服务器架构仅仅是示范性的,且其它架构可用以实施本发明,所述其它架构包含可基于网络或可不基于网络的架构。一般而言,功能和操作在图2所描绘的各种组件之间的特定划分仅仅是示范性的;所属领域的技术人员将认识到,本文描述的操作和步骤中的任一者可由组件的任何其它适当布置来执行。因此,图2所示的特定架构仅仅是说明性的,且不希望以任何方式限制本发明的范围。
现在参看图3,展示描绘类似于图2中描绘的系统的系统200中的数据流的框图。为清楚起见,在图3中省略系统200的一些组件。
可包含来自用户101的口述单词的音频303由装置102的麦克风103捕获。音频处理器107将音频303转换成音频流305,所述音频流305为表示原始音频303的数字信号。以此方式转换成数字形式在现有技术中是众所周知的。
装置102将音频流305传输到服务器203。服务器203中的中继器304将音频流305传输到在语音服务器205处运行的语音辨识器206。如上所述,所有此种传输可通过蜂窝式电话网络或任何其它有线或无线通信网络而发生。如上所述,语音辨识器206可为Nuance语音辨识器206。语音辨识器206产生见于音频流305中的口述输入的候选解释的列表306,且将列表306传输到服务器203。此种候选解释在本文也称为“候选项”。语音辨识处理器108根据本文描述的技术产生候选项的经合并列表307,且将列表307传输到装置102。
文本编辑UI 109根据本文描述的技术经由屏幕104将列表307呈现给用户101,且解释用户输入304以在候选解释中进行选择,如本文所描述。
一旦用户101已在候选解释中进行了选择,就可显示、存储、传输,和/或以其它方式作用于选定的文本。举例来说,在一个实施例中,选定的文本可被解释为用以在装置102或另一装置上执行某一动作的命令。或者,选定的文本可存储为文档或文档的一部分、存储为电子邮件或另一形式的消息,或用于文本传输和/或存储的任何其它适当库或媒体。
操作方法
现在参看图4A,展示描绘根据本发明的一个实施例的用以产生合并候选结果列表的语音辨识处理器的总体操作的流程图。在一个实施例中,图4A所描绘的步骤可由图1或图2的语音辨识处理器108来执行;或者,这些步骤可由任何其它适当组件或系统来执行。
从语音辨识器206接收的结果包含例如表示为句子的候选解释的列表306。如上所论述,这些候选解释通常含有彼此相同的若干部分。呈现包含这些重复部分的候选解释可使用户101不知所措,且可因为使得系统更难以操作而促成贬损的用户体验。图4A所描绘的步骤提供用于合并候选解释以使得用户101可更容易地选择所需文本的方法。
语音辨识处理器108从语音辨识器206接收音频输入的候选解释的列表306。每一候选解释或候选项都含有若干单词;举例来说,每一候选解释可能是句子或句子式的结构。每一候选解释表示通过众所周知的语音辨识机制产生的对口述输入的一个可能解释。在一个实施例中,语音辨识处理器108还接收单词水平的时序,指示每一候选解释中的每一单词(或短语)的音频流内的开始和结束点。此种单词水平的时序可以从语音辨识器206或从任何其它适当来源接收。在一替代实施例中,不使用时序信息;此种实施例在下文进一步详细描述。
现在也参看图4B,展示在根据本文描述的技术加以处理之前的如可由语音辨识器206从单一音频流产生的候选项411的列表306的实例。每一候选项411都包含若干记号412,所述记号412可为单词和/或短语。如可从图4B的实例中看出,许多候选项411彼此类似,在许多情况下仅有一个单词或两个不同。以此形式向用户101呈现此种列表可能会令人不知所措且令人迷惑,因为这将使用户101难以辨别许多类似候选项411中的哪一个对应于他或她所需的候选项。如将看出,本发明的系统和方法产生经合并列表307,且提供改善的接口以帮助用户101在候选项中进行选择。
图4B还包含描绘一个候选项411的细节。时序代码413指示候选项411中的每一记号412的开始时间,例如以毫秒或任何其它适当时间单位来计。在一个实施例中,列表306中的每一候选项411包含用于其记号412中的每一者的此种时序代码413。可假定每一记号412的结束时间等于下一记号412的开始时间。为清楚起见,省略行中最后一个记号412的结束时间,但在一些实施例中,也可以指定结束时间。
再次参看图4A,语音辨识处理器108对列表306执行若干步骤,以便产生经合并列表307供呈现给用户101。首先,使用时序信息从列表306形成402个别单词或短语(本文称为记号)的网格。接着基于时序信息将网格分裂403成独立的列群组。在一个实施例中,通过识别不将个别记号分成两个或两个以上部分的可能最小的列来执行此分裂。接着从每一列移除404重复项,从而导致候选项的经合并列表307。
在一个实施例中,可执行额外步骤,但可省略这些步骤。举例来说,在一个实施例中,作出关于列中的所有条目是否以相同记号开始或结束的确定。如果是,则将列分裂405成两个列。接着可重新应用步骤404以便进一步简化经合并列表307。
在一个实施例中,如果确定经合并列表307仍含有过多的候选项,则可移除406多余的候选项。接着可重新应用步骤404和/或405以便进一步简化经合并列表307。
下文将更详细地描述图4A所描绘的步骤中的每一者。
形成记号网格402
现在参看图5A,展示描绘根据本发明的一个实施例的从候选项411的列表306形成记号网格505的方法的流程图。图5A所示的方法对应于图4A的步骤402。
对于每一候选项411中的每一记号412,基于包含于从语音辨识器206或从另一来源接收的数据中的时序代码413而确定501记号412的开始和结束时间。所有记号412的开始和结束时间形成唯一整数的集合502,所述整数经过排序。从这一经排序的集合,形成503网格,所述网格具有等于候选项411的数目的行数和等于经排序集合502中的唯一整数的数目减一的列数。网格中的每一单元因此由开始时间和结束时间界定。为清楚起见,在本申请案的各个图中,省略每一行中最后一个记号412的结束时间,但在一些实施例中,也可以指定结束时间。
对于每一候选项411中的每一记号412,将记号412插入504到单元的开始/结束时序所跨越的所有单元。每一记号412跨越一个或一个以上列;如果记号412的时序与其它候选项411中的其它记号412的时序重叠,则记号412可跨越多个列。结果是记号412的网格505。
现在参看图5B,展示通过图5A所描绘的方法产生的记号412的网格505的实例。网格505含有10行,对应于图4B的10个候选项411。网格505含有11个列513,对应于从时序代码413产生的11个唯一整数(假定省略最后一个列513的结束时间)。
每一行含有来自单一候选项411的记号412。对于每一行,根据与记号412相关联的时序代码413来填充网格505的单元。如可在图5B的实例中看出,一些记号412基于其时序代码413而跨越多个列。
将网格分裂成列群组403
现在参看图6A,展示描绘根据本发明的一个实施例的基于时序信息将网格505分裂成列群组集合的方法的流程图。图6A所示的方法对应于图4A的步骤403。
在一个实施例中,通过识别不将个别记号412分成两个或两个以上部分的可能最小的列来分裂此网格505。选择601网格505中的第一列513。作出602关于选定的列513是否已经处于列群组中的确定;如果否,则形成603包含选定的列513的新列群组。
作出604关于当前列513中的任何记号412是否具有跨越超出当前列513的结束时间的结束时间的确定。如果是这样,则将网格505中的下一列513添加到含有限定的列513的列群组。
作出609关于选定的列513是否为网格505中的最后一个列的确定。如果否,则选择下一列513,且所述方法返回到步骤602。如果选定的列513是网格505中的最后一个列,则产生625列群组列表。
图6A的方法的结果是列群组605的列表614。现在也参看图6B,展示通过图6A所描绘的方法产生的列群组615的列表614的实例。在所述实例中,列表614含有八个列群组615。每一列群组615可包含单一列513或一个以上列513。列群组615中的每一行含有包含一个或一个以上记号412的记号短语616。
移除重复项404
现在参看图7A,展示描绘根据本发明的一个实施例的移除列群组615的列表614中的重复项的方法的流程图。图7A所示的方法对应于图4A的步骤404。
选择701第一列群组615。选择702选定的列群组615中的第一记号短语616。移除703同一列群组615中的任何重复记号短语616。
如果在步骤704中,有任何记号短语616保持在选定的列群组615中,则选择705选定的列群组615中的下一记号短语616,且所述方法返回到步骤703。
如果在步骤704中,没有记号短语616保持在选定的列群组615中,则所述方法进行到步骤706。如果在步骤706中,已到达最后一个列群组615,则所述方法结束,且输出列群组715的去重复列表708。如果在步骤706中,尚未到达最后一个列群组615,则选择707下一列群组715,且所述方法返回到步骤702。
现在参看图7B,展示通过图7A所描绘的方法产生的列群组615的去重复列表708的实例。此处,每一列群组615仅含有唯一记号短语616。
在一个实施例中,将去重复列表708作为可呈现给用户101的候选解释的经合并列表307提供到文本编辑UI 109。本文提供关于文本编辑UI 109的操作和经合并列表307的呈现的进一步细节。
在另一实施例中,在将去重复列表708提供到文本编辑UI 109之前对去重复列表708执行进一步处理,如下文所述。
分离共享记号405
现在参看图8D、8E和8F,展示根据本发明的一个实施例的分离共享记号412的实例。
在一些情况下,即使记号短语616不具有相同时序代码,列群组615中的所有记号短语606也可能以相同记号412开始或结束。举例来说,在图8D中,列群组615A含有四个记号短语616A、616B、616C、616D。检查这四个记号短语发现,它们都以相同记号412(单词)“Call”开始。因此,在一个实施例中,将列群组615A分裂成两个新列群组615D和615E。列群组615D含有各自包含记号412“Call”的记号短语616E、616F、616G、616H。列群组615E含有各自包含分别来自记号短语616A、616B、616C、616D的剩余记号412的记号短语616J、616K、616L、616M。重新应用去重复步骤404以从列群组615D移除重复项,如图8F所示。
在一个实施例中,仅当此操作将不会产生任何空替代项时才分离共享记号412。举例来说,再次短暂参看图7B,第四列群组615中的单词“quietly”可被分离,但此将导致列群组含有用户101将不能看到或选择的空提示。因此,在一个实施例中,在此种情形下,不分离共享记号412。
现在参看图8A,展示描绘根据本发明的一个实施例的分离出共享记号的方法的流程图。图8A所示的方法对应于图4A的步骤405。
选择801第一列群组615。分离802(除非此分离将导致空替代项)出现在列群组615中的所有记号短语616的开头处的任何记号412。分离802(除非此分离将导致空替代项)出现在列群组615中的所有记号短语616的末尾处的任何记号412。
如果在步骤804中,已到达最后一个列群组615,则所述方法结束,且输出列群组615的经更新的列表806。否则,选择805下一列群组615,且所述方法返回到步骤802。
在一个实施例中,将步骤404应用到经更新的列表806以便移除重复项。
现在参看图8B,展示描绘根据本发明的一个实施例的分离出现在列群组615的所有记号短语616的开头处的记号412的方法的流程图。图8B所示的方法对应于图8A的步骤802。
到步骤802的输入是列群组615。选择822列群组615中的第一记号短语616。如果在步骤823中,记号短语616仅含有一个记号412,则所述方法结束,且输出为单一列群组615。这确保如果任何列群组615仅含有一个记号412,则将不会发生分离。
如果在步骤823中,记号短语616含有一个以上记号,则作出824关于记号短语616中的第一记号412是否匹配前一记号短语616中的第一记号412,或这是否是列群组615中的第一记号短语616的确定。如果这些条件中的任一者为真,则所述方法进行到步骤825。否则,所述方法结束,且输出为单一列群组615。
在步骤825中,作出关于所述方法是否已到达列群组615中的最后一个记号短语616的确定。如果是这样,则将列群组615分裂827成两个新列群组615。用来自每一记号短语616的第一记号412填充828第一新列群组615。用来自每一记号短语616的剩余记号412填充829第二新列群组615。
在一个实施例中,在步骤829之后,使用第二新列群组615重复830所述方法,以便可反复地执行进一步分裂。或者,在另一实施例中,在步骤829之后,输出新列群组615的集合。
现在参看图8C,展示描绘根据本发明的一个实施例的分离出现在列群组615的所有记号短语616的末尾处的记号412的方法的流程图。图8C所示的方法对应于图8A的步骤803。图8C的方法大体等同于图8B的方法,只是在记号短语616中的最后一个记号412与前一记号短语616中的最后一个记号412之间作出步骤834(替代步骤824)的比较。另外,如下文所述,用步骤838、839和840替换步骤828、829和830。
到步骤803的输入是列群组615。选择822列群组615中的第一记号短语616。如果在步骤823中,记号短语616仅含有一个记号412,则所述方法结束,且输出为单一列群组615。这确保如果任何列群组615仅含有一个记号412,则将不会发生分离。
如果在步骤823中,记号短语616含有一个以上记号,则作出834关于记号短语616中的最后一个记号412是否匹配前一记号短语616中的最后一个记号412,或这是否是列群组615中的第一记号短语616的确定。如果这些条件中的任一者为真,则所述方法进行到步骤825。否则,所述方法结束,且输出为单一列群组615。
在步骤825中,作出关于所述方法是否已到达列群组615中的最后一个记号短语616的确定。如果是这样,则将列群组615分裂827成两个新列群组615。用来自每一记号短语616的最后一个记号412填充838第二新列群组615。用来自每一记号短语616的剩余记号412填充839第一新列群组615。
在一个实施例中,在步骤839之后,使用第二新列群组615重复840所述方法,以便可反复地执行进一步分裂。或者,在另一实施例中,在步骤839之后,输出新列群组615的集合。
移除多余候选项406
在一些情况下,甚至在已执行了上文所描述的合并步骤之后,可能仍存在实际上要向用户101呈现的过多候选项。举例来说,在一些实施例中,可建立对候选项的数目的固定限制;该限制可为任何正数,例如5。如果用于列群组的候选项的数目超过此限制,那么可移除多余候选项406。在其它实施例中,可省略此步骤。
现在参看图9A,展示了描绘根据本发明的一个实施例的移除多余候选项的方法的流程图。图9A中所示的方法对应于图4A的步骤406。
将列群组615的经更新的列表806接收为输入。计算901最大当前列群组大小S;这等于最大的列群组615中的记号短语616的数目。作出902关于S是否超过预定阈值(例如5)的确定。可基于任何可适用的因素来确定所述预定阈值,所述可适用的因素例如为可用的屏幕大小中的限制、可用性约束、性能等。
如果S未超过阈值,那么方法结束,且可将经合并列表307作为输出提供给文本编辑UI 109。
如果S超过了阈值,那么通过移除一个记号短语616来缩短大小为S的所有列群组615(在一个实施例中,移除了最后一个记号短语616,但在其它实施例中,可移除其它记号短语616)。这可通过以下操作来完成:选择903第一列群组615;确定904列群组615的大小是否等于S,且如果是,则从列群组615中移除905最后一个记号短语616。在步骤906中,如果尚未到达最后一个列群组615,那么选择907下一列群组615,且重复步骤904。
一旦已到达906最后一个列群组615,方法便返回到步骤404,以使得可移除重复项,且/或可分离405共享的记号。一旦重复了步骤404和405,方法便可在需要时返回到步骤406以选择性地移除额外的候选项。
现在参看图9B到9F,展示了根据本发明的一个实施例的根据图9A中所描绘的方法来移除多余候选项的实例。
在图9B中,列群组列表614含有三个列群组615F、615G、615H。列群组615H含有18个记号短语616,这超过了预定阈值6。
在图9C中,移除列群组615H的最后一个记号短语616,从而留下17个记号短语616。这被连续地执行,以使得在图9D中,还有16个记号短语606。在对记号短语616的每一移除之后,在可能的情况下重复步骤404和405以允许移除重复项并分离共享的记号。
在此实例中,如图9E中所示,一旦还有12个记号短语616,步骤405便致使将列群组615H分裂成两个新的列群组615J、615K。对记号短语616的进一步移除产生用于呈现给用户的合理数目的替代项,如图9F中所示。
在一个实施例中,可执行额外的步骤来处置标点符号和/或空格。依据类型,标点符号可结合到左边和/或右边的相邻列。“末尾标点符号”(例如,句号、问好和感叹号)与前一记号412一起结合。在一个实施例中,未执行分离,其将导致末尾标点符号出现在列群组的开头处。其它标点符号(例如,空格、连字号、省略号、引号等)基于给定语言的规则而结合到邻近的记号412。
用户接口
一旦已执行上文所描述的合并步骤,便可将候选项的经合并列表307提供给文本编辑UI 109以用于在屏幕104上或经由某一其它输出装置向用户101呈现。在一个实施例中,文本编辑UI 109在客户端/服务器环境中在客户端装置102上操作,以使得候选项的经合并列表307经由电子网络从服务器203传输到客户端102,以便使列表307可用于UI 109。或者,在例如图1中所描绘的独立系统中,文本编辑UI 109可实施于装置102的组件上。在任一情况下,文本编辑UI 109实现经由输入装置110和屏幕104的用户101交互。
现在参看图10,展示了描绘根据本发明的一个实施例的用于向用户101呈现候选项且用于接受用户对候选项的选择的文本编辑UI 109的操作方法的流程图。现在还参看图11A到11D,展示了文本编辑UI 109的操作的实例。
在一个实施例中,UI 109呈现一组默认的候选项,且允许经由选择性地激活的弹出菜单来选择其它候选项。
使用来自列表307中的每一列群组615(每一列群组615可包含一个或一个以上列)的单一条目来构建1001句子1101。在一个实施例中,使用占据每一列群组615的第一行的条目,但在其它实施例中,可使用其它条目。在屏幕104上显示1002经构建的句子1101,如图11A中所示。
在一个实施例中,具有多个选择的单词和/或短语被突出显示或加下划线1003。此些单词和/或短语对应于含有一个以上记号短语616的那些列群组615。因此,含有单一记号短语616的列群组615未被突出显示;相反,含有至少两个不同记号短语616的列群组615被突出显示。
可使用任何形式的突出显示或加下划线,且/或任何其它用于在视觉上将此些单词和/或短语与其它单词和/或短语区分开的技术包含(但不限于):字体、大小、样式、背景、色彩等。在另一实施例中,未作出此视觉区别。在又一实施例中,仅当用户101致使光标悬停于具有多个选择的单词和/或短语上方时才可呈现此些视觉上区分的元件。
在一个实施例中,可使用不同形式的突出显示、加下划线或其它视觉特性,其(例如)取决于在所显示的替代项中的置信度的所确定的可能性。举例来说,如果替代项是可用的,但如果作出了所显示的默认选择比所述替代项中的任一者更可能是正确的确定,那么可用更柔和的突出显示效果来展示一些单词和/或短语。此方法向用户101指示其它替代项是可用的,而同时在用户101的输入可能更重要的地方(因为所显示的替代项中的置信度较低)提供一种用以强调那些单词和/或短语的方式。所属领域的技术人员将认识到,突出显示、加下划线或其它视觉特性中的差异可表示任何其它相关信息,包含(例如,且不限于)用于给定单词和/或短语的替代项的数目。
图11B描绘句子1101的显示的实例,句子1101具有突出显示的单词和突出显示的短语1102以指示替代项可用于句子1101的那些元素。在一个实施例中,图11B中所示的加下划线以有区别的色彩(例如,蓝色)出现。
为了易于命名,术语“突出显示的单词”将在本文中用于指示以一些区分视觉特性显示以指示可使用替代项的任何单词或短语。此外,在一个实施例中,未作出此视觉区别,在这种情况下,术语“突出显示的单词”仅仅涉及可使用替代项的任何单词或短语。
在一个实施例中,可由用户101选择任何突出显示的单词1102以激活提供所述单词或短语的替代项的弹出菜单1103。举例来说,在其中屏幕104是触敏的实施例中,用户101可在被突出显示的单词1102上点按1004,从而致使呈现1005含有替代项1104的弹出菜单1103。在另一实施例中,用户101可使用通过指向装置、键盘、操纵杆、鼠标、触控板等控制的屏幕上光标来选择突出显示的单词1102。在一个实施例中,弹出菜单1103还含有“键入…”条目1105,其允许用户手动地输入文本;这可在所列举的替代项中没有任何一者对应于用户101所期望的替代项的情况下使用。可使用任何合适的单词和/或图标来表示弹出菜单1103中的此条目;短语“键入…”的使用仅仅是示范性的。在一个实施例中,一旦用户101已从弹出菜单1103作出选择,便移除突出显示。
在其它实施例中,可提供用于输入替代项的其它机构。举例来说,在一个实施例中,弹出列表1103可提供用于接收针对讨论中的特定单词的进一步音频输入的命令。因此,用户可选择此命令,且随后重复曾不正确地解释的一个单词。这为用户提供了一种在不必重复整个句子的情况下阐明语音输入的方式。
在一个实施例中,还可提供用以允许用户针对句子1101的未突出显示的那些部分手动地输入文本(或以其它方式阐明)的命令;举例来说,用户可以能够选择任何单词(不管其是否被突出显示),以用于键入的输入、口述的阐明等。
图11C描绘响应于用户101已在句子1101中的“quietly”上点按而可在屏幕104上显示的弹出菜单1103的实例。在所述实例中,列举了两个替代项:“quietly”1104A和“quietly but”1104B。在弹出列表1103中还展示了“键入…”命令1105。
如果用户101选择1006了所列举的替代项1104中的一者,那么便更新1010所显示的句子1101。
图11D描绘在用户已在图11C中选择了“quietly but”替代项1104B之后的所显示的句子1101的实例。在所显示的句子1101中,“Quietly”已被“quietly but”取代。两个短语仍被突出显示以指示可使用替代项。
用户101可(例如)通过在确认按钮上点按或执行某一其它动作来指示他或她完成编辑句子1101。如果在步骤1011中,用户101指示他或她完成,那么解散菜单1103(如果其当前可见),且方法执行1012相对于所输入的文本是适当的任何动作。举例来说,所述文本可能指定装置102将要执行的某一动作或命令,在这种情况下,此装置102可用所述动作或命令进行。或者,所述文本可为将要传输、输出或保存的消息、文档或其它项目;如果是这样,那么执行适当的动作。另外,在一个实施例中,用户101的选择可返回1013到服务器203和/或语音服务器205以改进对用户101的语音的进一步辨识。当用户101作出此些选择时,可发生额外的学习,因此改进了语音辨识处理器108和/或语音辨识器206的性能。
如果用户1001未选择1006替代项,而是选择1007“键入…”命令,则显示1008文本光标(未图示),且给予用户101提供所键入的输入的机会。可经由物理或虚拟(触摸屏)键盘或通过任何其它合适的构件来接收1009此键入的输入。在所键入的输入完成后,方法即刻进行到步骤1010,其中更新对句子1101的显示。
如果在步骤1004或1007中,用户未指示需要进一步的输入,那么方法进行到步骤1011,其中作出关于用户是否完成编辑文本的确定。一旦用户完成,方法便进行到步骤1012以结合文本输入执行适当的动作,并进行到步骤1013以返回用户的选择101,以用于进一步改进语音辨识操作。
变化
在一个实施例中,如上文所描述,候选的解释在被接收时已被记号化,且时序信息可用于每一记号。在替代性实施例中,可对作为候选解释提供的一组纯文本句子执行本发明的技术,而没有必要包含时序信息。纯文本句子可被记号化并置于网格中,以作为对上文所描述的步骤402的替代。
现在参看图12A,展示了描绘根据本发明的一个实施例的从候选解释411的列表306形成记号412的网格505的替代性方法的流程图。所述方法包含可取代上文所描述的步骤402的一组1200步骤。
现在还参看图12B到12D,展示了根据本发明的一个实施例的通过图12A中所描绘的替代性方法产生记号412的网格505的实例。
候选解释411被分裂1201成多个记号412。如此项技术中众所周知的,可使用标准语言专有的字符串分词器。举例来说,对于是英语句子或句子片段的候选解释411,可基于空格字符来分解候选项411。
在一个实施例中,选择1202最长的候选项411;所属领域的技术人员将认识到,可选择411任何其它候选项。图12B展示其中以黑体字指示最长的候选项411A的实例列表306。在此实例中,“最长的”意味着具有最多单词的候选项411。
应用1203最小编辑距离/diff算法以确定相对于选定的候选项411A的对每一候选项411的最少的添加/移除。在一个实施例中,在记号水平下应用此算法,这与字符水平相对,从而减少处理和/或存储器消耗。图12C展示其中已应用最小编辑距离/diff算法的实例列表306。对于除了选定候选项411A之外的每一候选项411,通过加下划线来指示相对于选定候选项411A的改变,同时通过方括号来指示删除。
随后选择1204具有距所有其它候选项411最小编辑距离的候选项411。随后使用最小编辑距离/diff算法的结果将候选项411形成1205为网格505。图12D展示具有基于所述算法的多个列513的网格505的实例。所述算法的应用确保了空白区域在适当的情况下将留在网格505中(例如,在含有单词“but”的列513中),以使得彼此对应的记号412将出现在网格505的同一列中。
网格505可随后用作对如上文所描述的步骤403的输入。可通过将任意时间指派给每一列(例如,时间0、1、2、3等)而人为地引入时序代码,如图14A到14E中的实例所描绘。
在一些情况下,此方法可引入不确定性。现在还参看图13A到13C,展示了通过图12A中所描绘的替代性方法产生记号412的网格505的另一实例,其中引入了不确定性。在此实例中,如图13A中所示,最长的候选项411A是“Call Adam Shire at work”。图13B展示其中已应用最小编辑距离/diff算法的实例列表306。由于所述系统不具有充分信息来合并空单元,所以不知道“Adam”是否与“Call”或“Ottingshire”重叠,从而产生图13C中所示的网格505。更具体来说,新记号“”引入不确定性,因为不知道所述记号是与紧接左边的列513还是与紧接右边的列513相关联。在一个实施例中,可使用长度试探法,或通过作出第一列513全都相同的注解,或通过任何其它合适的机构来解决此情形。
在另一实施例中,可通过扩展边界记号412以使得对于具有空单元的若干行,所述空单元被删除且两个相邻的列513扩展成使得其彼此接触,来解决图13C中示范的情形。对于在对应于空单元的位置中具有记号412的若干行,所述记号与被曾扩展的列513占据的时间跨度的至少部分重叠。对共享记号412的分裂403、去重复404和分离405随后如上文所描述那样执行,从而实现最终结果。
现在参看图14A到14E,展示了以所描述的方式扩展边界记号412的实例。记号412B是通过最小编辑距离确定而计算出的“被添加的”单词。在图14A中,网格505已被修改以移除行3和4中的空单元,因为在那两行中不存在记号412B。记号412A和412C扩展成使得其彼此接触,从而构成记号412B的不存在。在行1和2中,记号412B横跨两列,以使得其与被行3和4中的记号412A和412C占据的时间周期重叠。
在图14B中,已执行分裂步骤403,从而产生三个列群组615L、615M和615N。列群组615L含有四列513,列群组615M和615N各自含有一列513。
在图14C中,已执行对重复项404的移除,以使得列群组615M和615N各自含有一个条目。列群组615L未变。
在图14D中,已执行对共享记号405的分离。此导致列群组615L被分裂成两列615P和615Q。
在图14E中,已再次执行对重复项404的移除,以使得列群组615P现在含有一个条目。可随后将所述结果提供为经合并列表307。
根据一些实施方案,图15展示根据上文所描述的本发明的原理而配置的电子装置1500的功能框图。装置的功能块可由硬件、软件或硬件与软件的组合来实施以实行本发明的原理。所属领域的技术人员应理解,图15中所描述的功能块可经组合或分离为若干子块以实施如上文所描述的本发明的原理。因此,本文中的描述可支持对本文中所描述的功能块的任何可能组合或分离或进一步定义。
如图15中所示,电子装置1500包含候选解释接收单元1502,候选解释接收单元1502经配置以接收口述输入的候选解释的列表。电子装置1500还包含处理单元1506,处理单元1506耦合到候选解释接收单元1502。在一些实施方案中,处理单元1506包含网格形成单元1508、网格分裂单元1510和重复项移除单元1512。在一些实施方案中,电子装置还包含耦合到处理单元1506的输出单元1514。
处理单元1506经配置以:从所接收的列表形成记号网格,所述网格被组织为多个行和多个列(例如,用网格形成单元1508);基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,且每一记号群组包括至少一个记号(例如,用网格分裂单元1510);且,响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并的网格(例如,用重复项移除单元1512)。在一些实施例方案中,输出单元1514经配置以基于所述经合并网格而致使输出装置输出所述候选解释。在一些实施例方案中,输出单元1514经配置以基于所述经合并网格而输出所述候选解释。
在一些实施方案中,所接收的列表中的每一候选解释包括多个记号,且处理单元1506经配置以(例如,用网格形成单元1508):针对每一候选解释中的每一记号,确定开始时间和结束时间;从所述确定的开始时间和结束时间形成唯一整数集合;形成包括对应于所接收的列表中的候选解释的数目的若干行的网格,每一行包括对应于所述唯一整数集合中的唯一整数的数目的若干单元,且所述单元被组织为若干列;以及将每一记号插入由所述记号的所述开始时间和结束时间所跨越的所有单元中。
在一些实施方案中,所接收的列表中的每一候选解释包括与开始时间和结束时间相关联的多个记号,且所述网格的每一列与开始时间和结束时间相关联,且处理单元1506经配置以(例如,用网格分裂单元1510):针对所述网格中的每一列:响应于所述列并未已属于列群组,形成包含当前列的列群组;针对所述列中的每一记号,确定所述列中的任何记号是否与跨越超过所述列的所述结束时间的结束时间相关联;以及响应于所述列中的任一记号跨越超过所述列的所述结束时间,将下一列添加到包含所述当前列的所述列群组。
在一些实施方案中,处理单元1506经配置以(例如,用重复项移除单元1512):界定多个记号短语,每一记号短语包括出现在列群组的一行内的至少一个记号;以及针对所述网格中的每一列群组:确定任何记号短语是否在所述列群组内重复;以及响应于任何记号短语是重复的,删除所述重复项。
在一些实施方案中,处理单元1506经配置以:响应于任何边缘记号是在于其所有记号短语中具有至少两个记号的列群组内的记号短语之间共享的,将所述列群组分裂成包括所述共享的边缘记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组(例如,用网格分裂单元1510)。
在一些实施方案中,处理单元1506经配置以:针对在其所有记号短语中具有至少两个记号的每一列群组:响应于任何记号出现在所述列群组中的所有记号短语的开始处,将所述列群组分裂为包括第一记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组;以及响应于任何记号出现在所述列群组中的所有记号短语的结束处,将所述列群组分裂为包括最后一个记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组(例如,用网格分裂单元1510)。
在一些实施方案中,处理单元1506经配置以:响应于任一列群组具有超过预定阈值的记号短语数目:移除至少一个记号短语;以及重复所述分裂所述网格和移除重复项的步骤(例如,用网格分裂单元1510和/或重复项移除单元1512)。
在一些实施方案中,处理单元1506经配置以,针对在其所有记号短语中具有至少两个记号的每一列群组:响应于任何记号出现在所述列群组中的所有记号短语的开始处,将所述列群组分裂为包括第一记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组(例如,用网格分裂单元1510);以及响应于任何记号出现在所述列群组中的所有记号短语的结束处,将所述列群组分裂为包括最后一个记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组(例如,用网格分裂单元1510)。
在一些实施方案中,处理单元1506经配置以,响应于任一列群组具有超过预定阈值的记号短语数目:移除至少一个记号短语;以及重复所述分裂所述网格和移除重复项的步骤(例如,用网格分裂单元1510和/或重复项移除单元1512)。
在一些实施方案中,候选解释接收单元1502经配置以:接收多个经记号化的候选解释,每一候选解释包括多个记号;以及接收每一记号的时序信息。
在一些实施方案中,处理单元1506经配置以(例如,用网格形成单元1508):将所接收的列表中的候选解释分裂为若干记号;选择所述候选解释中的一者;应用差分算法以相对于选定的候选解释来确定每一其它候选解释的差异;以及基于差分算法的结果而形成记号网格。
在一些实施方案中,输出单元1514经配置以:针对每一列群组:响应于所述列群组包括单个记号群组,在输出装置上显示所述单个记号群组;以及响应于所述列群组包括多个记号群组,显示所述多个记号群组。
在一些实施方案中,输出单元1514经配置以:针对每一列群组:响应于所述列群组包括单个记号群组,在输出装置上显示所述单个记号群组;以及响应于所述列群组包括多个记号群组,在所述输出装置上显示所述记号群组中的第一记号群组,且显示所述列群组中的剩余记号群组的至少一子集作为所述第一记号群组的替代项。
在一些实施方案中,输出单元1514经配置以:针对至少一个包括多个记号群组的列群组,在显示装置上显示包括来自所述列群组的至少一个替代记号群组的菜单。
在一些实施方案中,输出单元1514经配置以:针对每一列群组:响应于所述列群组包括单个记号群组,在输出装置上显示所述单个记号群组;以及响应于所述列群组包括多个记号群组,在所述输出装置上以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式在所述输出装置上显示所述记号群组中的第一记号群组。在一些实施方案中,输出单元1514经配置而以指示所显示的记号群组中的置信度的方式显示所述记号群组中的第一记号群组。在一些实施方案中,输出单元1514经配置而以指示所显示的记号群组是口述输入的正确解释的相对可能性的方式显示所述记号群组中的第一记号群组。
在一些实施方案中,输出单元1514经配置以:针对每一列群组:响应于所述列群组包括单个记号群组,在输出装置上显示所述单个记号群组;以及响应于所述列群组包括多个记号群组,在所述输出装置上显示且突出显示所述记号群组中的一者。
在一些实施方案中,所述电子装置进一步包括:输入接收单元,其经配置以接收与突出显示的记号群组相关联的用户输入;以及输出单元1514,其经配置以响应于与突出显示的记号群组相关联的用户输入,在显示装置上显示包括来自相同列群组的至少一个替代记号群组的菜单。在一些实施方案中,所述输入接收单元进一步经配置以接收从所述菜单选择替代记号群组的用户输入,且输出单元1514进一步经配置以响应于从所述菜单选择替代记号群组的所述用户输入,用所述替代记号群组取代所述突出显示的记号群组。在一些实施方案中,处理单元1506进一步经配置以,响应于从所述菜单选择替代记号群组的所述用户输入,将选定的替代记号群组提供给语音辨识引擎以用于训练所述语音辨识引擎。
根据一些实施方案,图15展示根据上文所描述的本发明的原理而配置的电子装置1500的功能框图。装置的功能块可由硬件、软件或硬件与软件的组合来实施以实行本发明的原理。所属领域的技术人员应理解,图15中所描述的功能块可经组合或分离为若干子块以实施如上文所描述的本发明的原理。因此,本文中的描述可支持对本文中所描述的功能块的任何可能组合或分离或进一步定义。
如图16中所示,电子装置1600包含候选解释接收单元1602,候选解释接收单元1602经配置以接收口述输入的候选解释的列表。经合并列表包括至少一个具有单个记号群组的列群组和至少一个具有多个记号群组的列群组。电子装置1600还包含输出单元1606,输出单元1606耦合到候选解释接收单元1602。输出单元1606经配置以:针对具有单个记号群组的每一列群组,在输出装置上显示所述单个记号群组;以及针对具有多个记号群组的每一列群组,在所述输出装置上以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式在所述输出装置上显示所述记号群组中的第一记号群组。
在一些实施方案中,输出单元1606经配置以:在输出装置上显示包括来自所述列群组的至少一个替代记号群组的菜单。在一些实施方案中,以视觉上有区别的方式显示所述记号群组中的第一记号群组包括突出显示所显示的记号群组。
在一些实施方案中,电子装置1600包含输入接收单元,所述输入接收单元经配置以接收与突出显示的记号群组相关联的用户输入,且输出单元1606经配置以:响应于与突出显示的记号群组相关联的用户输入,在输出装置上显示包括来自同一列群组的至少一个替代记号群组的菜单。在一些实施方案中,用户输入单元经配置以接收从菜单选择替代记号群组的用户输入,且所述输出单元1606经配置以:响应于从菜单选择替代记号群组的用户输入,用所述替代记号群组替换突出显示的记号群组。
如图17中所示,电子装置1700包含候选解释接收单元1702,所述候选解释接收单元1702经配置以获得口述输入的候选解释的列表。电子装置1700还包含处理单元1706,所述处理单元1706耦合到候选解释接收单元1702。在一些实施方案中,处理单元1706包含网格形成单元708、网格分裂单元1710以及重复项移除单元1712。在一些实施方案中,所述电子装置还包含输出单元1714,所述输出单元1714耦合到处理单元1706。
处理单元1706经配置以:从所接收列表形成记号网格,所述网格组织成多个行和多个列(例如,通过网格形成单元1708);基于时序信息将网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号(例如,通过网格分裂单元1710);以及,响应于在网格中检测到重复的记号群组,移除重复的记号群组以形成候选项的合并列表(例如,通过重复项移除单元。输出单元1714经配置以将候选项的合并列表的表示从服务器传输到客户端。
电子装置1700还包含输出单元1706,所述输出单元1706耦合到候选解释接收单元1702。输出单元1706经配置以:对于具有单一记号群组的每一列群组,在输出装置上显示单一记号群组;且对于具有多个记号群组的每一列群组,在输出装置上以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式显示所述记号群组中的第一记号群组。
在一些实施方案中,电子装置1700包含输入单元1716,所述输入单元1716经配置以接收音频流的表示。候选解释接收单元1702经配置以对音频流的所述表示执行语音辨识分析,以产生口述输入的候选解释的列表。
在一些实施方案中,电子装置1700经配置以:从服务器接收音频流的表示(例如,通过输入单元1716);将音频流的所述表示中继到语音辨识服务器(例如,通过输出单元1714);以及接收由语音辨识服务器产生的口述输入的候选解释的列表(例如,通过输入单元1716)。
已相对于可能的实施例特别详细地描述了本发明。所属领域的技术人员将了解,可在其它实施例中实践本发明。首先,对组件的特定命名、术语的大写、属性、数据结构,或任何其它编程或结构性方面不是强制性的或重要的,且实施本发明和/或其特征的机构可具有不同名称、格式或协议。此外,可经由硬件和软件的组合来实施所述系统,如所描述,或所述系统完全实施于硬件元件中,或完全实施于软件元件中。而且,在本文中所描述的各种系统组件之间对功能性的特定划分仅是示范性的,且不是强制性的;由单一系统组件执行的功能可替代地由多个组件执行,且由多个组件执行的功能可替代地由单一组件执行。
在各种实施例中,可将本发明实施为用于执行上文所描述的技术的系统或方法,单一地或以任何组合实施。在另一实施例中,可将本发明实施为包括非暂时性计算机可读存储媒体和计算机程序代码的计算机程序产品,所述计算机程序代码编码于媒体上,以用于致使计算装置或其它电子装置中的处理器执行上文所描述的技术。
说明书中提到“一个实施例”或“一实施例”是表示结合实施例所描述的特定特征、结构或特性包含在本发明的至少一个实施例中。短语“在一个实施例中”在说明书中各个地方的出现不一定全部涉及同一实施例。
以上内容的一些部分是依据对计算装置的存储器内的数据位的操作的算法和符号表示来呈现。这些算法描述和表示是由数据处理领域的技术人员用来将其工作的实质最有效地传达给此项技术中的其它技术人员的手段。算法在此处且一般被解释为产生所要结果的步骤(指令)的自一致序列。所述步骤是需要对物理量的物理操纵的步骤。通常,但不一定,这些量呈能够存储、传递、组合、比较或以其它方式操纵的电、磁或光学信号的形式。主要出于通用的原因,有时将这些信号称为位、值、元素、符号、字符、项、编号等是便利的。此外,在不失一般性的情况下,有时将需要对物理量的物理操纵的步骤的某些布置称为模块或代码装置也是便利的。
然而,应牢记,所有这些和类似术语将与适当的物理量相关联且仅为应用于这些量的便利的标记。如从以下论述显而易见的,除非另有具体规定,否则应了解,在整个描述中,利用例如“处理”或“计算”或“推算”或“显示”或“确定”等的术语的论述是指计算机系统的动作和过程,或操纵和转变被表示为计算机系统存储器或寄存器或其它此类信息存储、传输或显示装置内的物理(电子)量的数据的类似电子计算模块和/或装置。
本发明的某些方面包含在本文中以算法的形式描述的过程步骤和指令。应注意,本发明的过程步骤和指令可体现于软件、固件和/或硬件中,且当体现于软件中时,可被下载以驻留于由多种操作系统使用的不同平台上且从所述平台操作。
本发明还涉及一种用于执行本文中的操作的设备。此设备可针对所需目的而具体构建,或者其可包括由存储在计算装置中的计算机程序选择性激活或再配置的通用计算装置。此计算机程序可存储在非暂时性计算机可读存储媒体中,例如(但不限于)任一类型的盘,包含软磁盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、快闪存储器、固态驱动器、磁性或光学卡、专用集成电路(ASIC)或适合于存储电子指令的任一类型的媒体,且各自耦合到计算机系统总线。此外,本文涉及的计算装置可包含单个处理器,或者可为采用多处理器设计以获得增加的计算能力的架构。
本文呈现的算法和显示器不固有地涉及任何特定计算装置、虚拟化系统或其它设备。各种通用系统也可与根据本文的教示的程序一起使用,或者可证实可便利地构建更专门的设备来执行所需的方法步骤。用于多种这些系统的所需结构将从本文提供的描述中明了。另外,不参考任何特定编程语言来描述本发明。将了解,可使用多种编程语言来实施如本文描述的本发明的教示,且上文对特定语言的任何参考的提供是为了揭示本发明的实现和最佳模式。
因此,在各种实施例中,本发明可实施为软件、硬件和/或其它元件,用于控制计算机系统、计算装置或其它电子装置,或其任一组合或多数。根据此项技术中众所周知的技术,此电子装置可包含例如处理器、输入装置(例如键盘、鼠标、触摸板、跟踪板、操纵杆、跟踪球、麦克风和/或其任一组合)、输出装置(例如屏幕、扬声器和/或类似物)、存储器、长期存储装置(例如磁性存储装置、光学存储装置和/或类似物),和/或网络连接性。此电子装置可为便携式或非便携式的。可用于实施本发明的电子装置的实例包含:移动电话、个人数字助理、智能电话、一体机、服务器计算机、企业计算装置、桌上型计算机、膝上型计算机、平板计算机、消费型电子装置、电视机、机顶盒或类似物。用于实施本发明的电子装置可使用任何操作系统,例如:iOS,可从加利福尼亚州库珀蒂诺市的苹果公司购得;Mac OS X,可从加利福尼亚州库珀蒂诺市的苹果公司购得;Android,可从加利福尼亚州山景城的谷歌公司购得;Linux;Microsoft Windows,可从华盛顿州雷蒙德市的微软公司购得;和/或适于在装置上使用的任何其它操作系统。
在各种实施例中,本发明可在分布式处理环境、联网计算环境或基于网络的计算环境中实施。本发明的元件可在客户端计算装置、服务器、路由器和/或其它网络或非网络组件上实施。在一些实施例中,本发明是使用客户端/服务器架构来实施,其中一些组件是在一个或一个以上客户端计算装置上实施,且其它组件是在一个或一个以上服务器上实施。在一个实施例中,在实施本发明的技术的过程中,客户端从服务器请求内容,且服务器响应于请求而返回内容。可在客户端计算装置处安装浏览器以用于启用这些请求和响应,且提供用户接口,用户可通过所述用户接口来起始和控制此些交互并且查看呈现的内容。
在一些实施例中,用于实施本发明的网络组件中的任一者或全部可使用任何合适的电子网络(无论是有线还是无线或其任一组合)且使用用于实现此通信的任何合适协议而以通信方式彼此耦合。此网络的一个实例是因特网,但也可使用其它网络来实施本发明。
虽然已相对于有限数目的实施例描述了本发明,但得益于上述描述的所属领域的技术人员将了解,可设想不脱离如本文描述的本发明的范围的其它实施例。另外应注意,已主要针对可读性和指示性目的而选择了在说明书中使用的语言,且可能不是进行选择以描绘或限制发明性标的物。因此,本发明的揭示内容既定是说明而不是限制在权利要求书中陈述的本发明的范围。

Claims (20)

1.一种用于产生语音辨识结果的经合并列表的计算机实施的方法,其包括:
在处理器处,接收口述的输入的候选解释的列表;
在所述处理器处,从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列;
在所述处理器处,基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号;
在所述处理器处,响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格;以及
基于所述经合并网格而致使输出装置输出所述候选解释。
2.根据权利要求1所述的计算机实施的方法,其中所述接收的列表中的每一候选解释包括多个记号,且其中从所述接收的列表形成记号网格包括:
在所述处理器处,针对每一候选解释中的每一记号,确定开始时间和结束时间;
在所述处理器处,从所述确定的开始时间和结束时间形成唯一整数集合;
在所述处理器处,形成包括对应于所述接收的列表中的候选解释的数目的若干行的网格,每一行包括对应于所述唯一整数集合中的唯一整数的数目的若干单元,所述单元被组织为若干列;以及
在所述处理器处,将每一记号插入由所述记号的所述开始时间和结束时间所跨越的所有单元中。
3.根据权利要求1所述的计算机实施的方法,其中所述接收的列表中的每一候选解释包括与开始时间和结束时间相关联的多个记号,且其中所述网格的每一列与开始时间和结束时间相关联,且其中基于时序信息将所述网格分裂成列群组集合包括:
在所述处理器处,针对所述网格中的每一列:
响应于所述列并未已属于列群组,形成包含当前列的列群组;
针对所述列中的每一记号,确定所述列中的任何记号是否与跨越超过所述列的所述结束时间的结束时间相关联;以及
响应于所述列中的任一记号跨越超过所述列的所述结束时间,将下一列添加到包含所述当前列的所述列群组。
4.根据权利要求1所述的计算机实施的方法,其中移除所述重复的记号群组以形成候选解释的所述经合并网格包括:
在所述处理器处,界定多个记号短语,每一记号短语包括出现在列群组的一行内的至少一个记号;以及
针对所述网格中的每一列群组:
确定任何记号短语是否在所述列群组内重复;以及
响应于任何记号短语是重复的,删除重复项。
5.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其进一步包括:
在所述处理器处,响应于任何边缘记号是在于所有其记号短语中具有至少两个记号的列群组内的记号短语之间共享,将所述列群组分裂成包括所述共享的边缘记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组。
6.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其进一步包括:
在所述处理器处,针对在所有其记号短语中具有至少两个记号的每一列群组:
响应于任何记号出现在所述列群组中的所有记号短语的开始处,将所述列群组分裂为包括第一记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组;以及
响应于任何记号出现在所述列群组中的所有记号短语的结束处,将所述列群组分裂为包括最后一个记号的第一列群组和包括所述记号短语中的至少一个剩余记号的第二列群组。
7.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其进一步包括:
在所述处理器处,响应于任一列群组具有超过预定阈值的记号短语数目:
移除至少一个记号短语;以及
重复所述分裂所述网格和移除重复项的步骤。
8.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其中接收口述的输入的候选解释的所述列表包括:
在所述处理器处,接收多个经记号化的候选解释,每一候选解释包括多个记号;以及
在所述处理器处,接收每一记号的时序信息。
9.根据权利要求1到4中任一权利要求所述的计算机实施的方法,其中候选解释的所述经合并网格包括:
至少一个具有单个记号群组的列群组;以及
至少一个具有多个记号群组的列群组。
10.根据权利要求9所述的计算机实施的方法,其中致使所述输出装置输出所述候选解释包括:
针对每一列群组:
响应于所述列群组包括单个记号群组,致使所述输出装置在所述输出装置上显示所述单个记号群组;以及
响应于所述列群组包括多个记号群组,致使所述输出装置在所述输出装置上显示所述多个记号群组。
11.根据权利要求9所述的计算机实施的方法,其中致使所述输出装置输出所述候选解释包括:
针对每一列群组:
响应于所述列群组包括单个记号群组,致使所述输出装置在所述输出装置上显示所述单个记号群组;以及
响应于所述列群组包括多个记号群组,致使所述输出装置在所述输出装置上显示所述记号群组中的第一记号群组,且显示所述列群组中的剩余记号群组的至少一子集作为所述第一记号群组的替代项。
12.根据权利要求11所述的计算机实施的方法,其进一步包括:
针对至少一个包括多个记号群组的列群组,致使所述输出装置显示包括来自所述列群组的至少一个替代记号群组的菜单。
13.根据权利要求9所述的计算机实施的方法,其中致使所述输出装置输出所述候选解释包括:
针对每一列群组:
响应于所述列群组包括单个记号群组,致使所述输出装置在所述输出装置上显示所述单个记号群组;以及
响应于所述列群组包括多个记号群组,致使所述输出装置以与包括单个记号群组的列群组的显示相比在视觉上有区别的方式在所述输出装置上显示所述记号群组中的第一记号群组。
14.根据权利要求9所述的计算机实施的方法,其中致使所述输出装置输出所述候选解释包括:
针对每一列群组:
响应于所述列群组包括单个记号群组,致使所述输出装置在所述输出装置上显示所述单个记号群组;以及
响应于所述列群组包括多个记号群组,致使所述输出装置在所述输出装置上显示且突出显示所述记号群组中的一者。
15.一种电子装置,其包括:
用于接收口述的输入的候选解释的列表的构件;
用于从所述接收的列表形成记号网格的构件,所述网格被组织为多个行和多个列;
用于基于时序信息将所述网格分裂成列群组集合的构件,每一列群组包括多个记号群组,每一记号群组包括至少一个记号;
用于响应于在所述网格中检测到重复的记号群组而移除所述重复的记号群组以产生经合并网格的构件;以及
用于基于所述经合并网格而致使输出装置输出所述候选解释的构件。
16.根据权利要求15所述的电子装置,其中所述用于移除所述重复的记号群组以形成候选解释的所述经合并网格的构件包括:
用于界定多个记号短语的构件,每一记号短语包括出现在列群组的一行内的至少一个记号;以及
用于针对所述网格中的每一列群组进行以下操作的构件:
确定任何记号短语是否在所述列群组内重复;以及
响应于任何记号短语是重复的,删除重复项。
17.一种供在电子装置中使用的信息处理设备,其包括:
用于接收口述的输入的候选解释的列表的构件;
用于从所述接收的列表形成记号网格的构件,所述网格经组织为多个行和多个列;
用于基于时序信息将所述网格分裂成列群组集合的构件,每一列群组包括多个记号群组,每一记号群组包括至少一个记号;
用于响应于在所述网格中检测到重复的记号群组而移除所述重复的记号群组以产生经合并网格的构件;以及
用于基于所述经合并网格而致使输出装置输出所述候选解释的构件。
18.根据权利要求17所述的信息处理设备,其中所述用于移除所述重复的记号群组以形成候选解释的所述经合并网格的构件包括:
用于界定多个记号短语的构件,每一记号短语包括出现在列群组的一行内的至少一个记号;以及
用于针对所述网格中的每一列群组进行以下操作的构件:
确定任何记号短语是否在所述列群组内重复;以及
响应于任何记号短语是重复的,删除重复项。
19.一种电子装置,其包括:
候选解释接收单元,其经配置以用于接收口述的输入的候选解释的列表;
处理单元,其经配置以用于:
从所述接收的列表形成记号网格,所述网格被组织为多个行和多个列;
基于时序信息将所述网格分裂成列群组集合,每一列群组包括多个记号群组,每一记号群组包括至少一个记号;
响应于在所述网格中检测到重复的记号群组,移除所述重复的记号群组以产生经合并网格;以及
基于所述经合并网格而致使输出装置输出所述候选解释。
20.根据权利要求19所述的电子装置,其中所述处理单元进一步经配置以用于:
界定多个记号短语,每一记号短语包括出现在列群组的一行内的至少一个记号;以及
针对所述网格中的每一列群组:
确定任何记号短语是否在所述列群组内重复;以及
响应于任何记号短语是重复的,删除重复项。
CN201210353495.7A 2011-09-20 2012-09-20 合并语音辨识结果 Expired - Fee Related CN103077715B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/236,942 2011-09-20
US13/236,942 US20130073286A1 (en) 2011-09-20 2011-09-20 Consolidating Speech Recognition Results

Publications (2)

Publication Number Publication Date
CN103077715A true CN103077715A (zh) 2013-05-01
CN103077715B CN103077715B (zh) 2015-07-29

Family

ID=46875688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210353495.7A Expired - Fee Related CN103077715B (zh) 2011-09-20 2012-09-20 合并语音辨识结果

Country Status (6)

Country Link
US (1) US20130073286A1 (zh)
EP (1) EP2573764B1 (zh)
JP (1) JP2013068952A (zh)
KR (1) KR101411129B1 (zh)
CN (1) CN103077715B (zh)
AU (1) AU2012227212B2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205616A (zh) * 2014-11-05 2016-12-07 现代自动车株式会社 具有语音识别功能的车辆和音箱主机、及语音识别方法

Families Citing this family (201)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5652652B2 (ja) * 2010-12-27 2015-01-14 ソニー株式会社 表示制御装置および方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US8769624B2 (en) 2011-09-29 2014-07-01 Apple Inc. Access control utilizing indirect authentication
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9761228B2 (en) * 2013-02-25 2017-09-12 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014143776A2 (en) 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Providing remote interactions with host device using a wireless device
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US11343335B2 (en) 2014-05-29 2022-05-24 Apple Inc. Message processing by subscriber app prior to message forwarding
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9967401B2 (en) 2014-05-30 2018-05-08 Apple Inc. User interface for phone call routing among devices
JP6328797B2 (ja) 2014-05-30 2018-05-23 アップル インコーポレイテッド 1つのデバイスの使用から別のデバイスの使用への移行
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9509799B1 (en) 2014-06-04 2016-11-29 Grandios Technologies, Llc Providing status updates via a personal assistant
US8995972B1 (en) 2014-06-05 2015-03-31 Grandios Technologies, Llc Automatic personal assistance between users devices
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10339293B2 (en) 2014-08-15 2019-07-02 Apple Inc. Authenticated device used to unlock another device
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR102429260B1 (ko) 2015-10-12 2022-08-05 삼성전자주식회사 음성 에이전트 기반의 제어 명령 처리 장치 및 방법과, 에이전트 장치
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DK179186B1 (en) 2016-05-19 2018-01-15 Apple Inc REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
DE102016113428A1 (de) 2016-07-24 2018-01-25 GM Global Technology Operations LLC Paneel und Verfahren zur Herstellung und Verwendung desselben
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10992795B2 (en) 2017-05-16 2021-04-27 Apple Inc. Methods and interfaces for home media control
US11431836B2 (en) 2017-05-02 2022-08-30 Apple Inc. Methods and interfaces for initiating media playback
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102429501B1 (ko) * 2017-11-29 2022-08-05 현대자동차주식회사 음성 안내 제어 장치 및 방법, 그리고 차량 시스템
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN111971647A (zh) 2018-04-09 2020-11-20 麦克赛尔株式会社 语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11107475B2 (en) * 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
KR20240049648A (ko) 2019-05-31 2024-04-16 애플 인크. 오디오 미디어 제어를 위한 사용자 인터페이스
US11477609B2 (en) 2019-06-01 2022-10-18 Apple Inc. User interfaces for location-related communications
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11481094B2 (en) 2019-06-01 2022-10-25 Apple Inc. User interfaces for location-related communications
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
US20230401331A1 (en) * 2020-10-07 2023-12-14 Visa International Service Association Secure and scalable private set intersection for large datasets
US11810558B2 (en) * 2021-05-26 2023-11-07 International Business Machines Corporation Explaining anomalous phonetic translations
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282507B1 (en) * 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US20070033003A1 (en) * 2003-07-23 2007-02-08 Nexidia Inc. Spoken word spotting queries
CN1959805A (zh) * 2005-11-03 2007-05-09 乐金电子(中国)研究开发中心有限公司 利用模糊理论的话方独立型语音识别方法
US20080052073A1 (en) * 2004-11-22 2008-02-28 National Institute Of Advanced Industrial Science And Technology Voice Recognition Device and Method, and Program
US20100057457A1 (en) * 2006-11-30 2010-03-04 National Institute Of Advanced Industrial Science Technology Speech recognition system and program therefor
US20100161554A1 (en) * 2008-12-22 2010-06-24 Google Inc. Asynchronous distributed de-duplication for replicated content addressable storage clusters

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP4274962B2 (ja) * 2004-02-04 2009-06-10 株式会社国際電気通信基礎技術研究所 音声認識システム
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
EP2259252B1 (en) * 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282507B1 (en) * 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US20070033003A1 (en) * 2003-07-23 2007-02-08 Nexidia Inc. Spoken word spotting queries
US20080052073A1 (en) * 2004-11-22 2008-02-28 National Institute Of Advanced Industrial Science And Technology Voice Recognition Device and Method, and Program
CN1959805A (zh) * 2005-11-03 2007-05-09 乐金电子(中国)研究开发中心有限公司 利用模糊理论的话方独立型语音识别方法
US20100057457A1 (en) * 2006-11-30 2010-03-04 National Institute Of Advanced Industrial Science Technology Speech recognition system and program therefor
US20100161554A1 (en) * 2008-12-22 2010-06-24 Google Inc. Asynchronous distributed de-duplication for replicated content addressable storage clusters

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205616A (zh) * 2014-11-05 2016-12-07 现代自动车株式会社 具有语音识别功能的车辆和音箱主机、及语音识别方法
CN106205616B (zh) * 2014-11-05 2021-04-27 现代自动车株式会社 具有语音识别功能的车辆和音箱主机、及语音识别方法

Also Published As

Publication number Publication date
EP2573764B1 (en) 2014-06-18
AU2012227212B2 (en) 2015-05-21
CN103077715B (zh) 2015-07-29
US20130073286A1 (en) 2013-03-21
KR20130031231A (ko) 2013-03-28
EP2573764A1 (en) 2013-03-27
AU2012227212A1 (en) 2013-04-04
KR101411129B1 (ko) 2014-06-23
JP2013068952A (ja) 2013-04-18

Similar Documents

Publication Publication Date Title
CN103077715B (zh) 合并语音辨识结果
CN108255290B (zh) 移动装置上的模态学习
CN105830011B (zh) 用于交叠手写文本输入的用户界面
US9865264B2 (en) Selective speech recognition for chat and digital personal assistant systems
CN101526879B (zh) 设备上的语言输入接口
CN1779783B (zh) 普通拼写助记法
JP5141695B2 (ja) 記号挿入装置および記号挿入方法
CN102439540A (zh) 输入法编辑器
CN105869446B (zh) 一种电子阅读装置和语音阅读加载方法
CN102141889A (zh) 用于编辑的打字辅助
EP3491641B1 (en) Acoustic model training using corrected terms
CN105283914A (zh) 用于识别语音的系统和方法
CN105074817A (zh) 用于使用手势来切换处理模式的系统和方法
CN103777774B (zh) 终端装置及输入法的文字纠错方法
CN103369122A (zh) 语音输入方法及系统
CN108108094A (zh) 一种信息处理方法、终端及计算机可读介质
CN102945120B (zh) 一种基于儿童应用中的人机交互辅助系统及交互方法
US20140207453A1 (en) Method and apparatus for editing voice recognition results in portable device
CN102422245A (zh) 输入法编辑器
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
CN102323858A (zh) 识别输入时修改项的输入方法、终端及系统
CN1965349A (zh) 多形式的非歧意性语音识别
JP5318030B2 (ja) 入力支援装置、抽出方法、プログラム、及び情報処理装置
US10896293B2 (en) Information processing apparatus and information processing method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1183154

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150729

Termination date: 20150920

EXPY Termination of patent right or utility model
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1183154

Country of ref document: HK