CN104699236A - 利用境况解释自然语言语音识别命令 - Google Patents

利用境况解释自然语言语音识别命令 Download PDF

Info

Publication number
CN104699236A
CN104699236A CN201410527778.8A CN201410527778A CN104699236A CN 104699236 A CN104699236 A CN 104699236A CN 201410527778 A CN201410527778 A CN 201410527778A CN 104699236 A CN104699236 A CN 104699236A
Authority
CN
China
Prior art keywords
word
ambiguity
circumstances data
signal conditioning
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410527778.8A
Other languages
English (en)
Inventor
彼得·哈米尔顿·韦特塞尔
乔纳森·盖瑟·诺克斯
苏珊娜·玛丽恩·博蒙
拉塞尔·斯佩格特·范布恩
罗德·D·沃特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN104699236A publication Critical patent/CN104699236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明一般地涉及利用境况解释自然语言语音识别命令,并公开了信息处理方法、信息处理装置以及信息处理产品。根据一个实施方式的信息处理方法包括:在信息处理装置的音频接收器处接收用户语音输入;利用处理器识别包含在所述用户语音输入中的文字;利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的至少一个文字;利用所述处理器访问境况数据;基于所述境况数据,利用所述处理器消除所述命令的歧义;以及利用所述处理器根据所述命令进行预定动作。还描述并且要求保护了其他方面。

Description

利用境况解释自然语言语音识别命令
技术领域
本发明涉及信息处理的技术领域,具体地涉及利用境况解释自然语言语音识别命令。
背景技术
例如膝上型计算机、平板计算机、智能电话、桌面计算机、智能电视、导航装置、汽车控制台等信息处理装置(“装置”)可以用于处理语音输入,语音输入例如由诸如麦克风的音频接收器接收。例如,语音识别技术使装置能够将口头的词汇转换为机器文本(例如,通过将数字音频信号转换为机器文本文字),以用于潜在应用中,例如文字处理文档、搜索应用等。语音识别技术的传统改进主要集中于识别的准确性,即,准确地识别由用户实际说出的一个或多个字。
发明内容
总的来说,本发明的一个方面提供了一种方法,该方法包括:在信息处理装置的音频接收器处接收用户语音输入;利用处理器识别包含在所述用户语音输入中的文字;利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字;利用所述处理器访问境况数据;基于所述境况数据,利用所述处理器消除所述命令的歧义;以及利用所述处理器根据所述命令进行预定动作。
另一个方面提供了一种信息处理装置,该信息处理装置包括:音频接收器;处理器;以及存储装置,所述存储装置存储指令,所述指令能够由所述处理执行,以:在所述信息处理装置的所述音频接收器处接收用户语音输入;识别包含在所述用户语音输入中的文字;确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字;访问境况数据;基于所述境况数据,消除所述命令的歧义;以及根据所述命令进行预定动作。
又一个方面提供了一种产品,该产品包括:存储装置,所述存储装置存储有代码,所述代码包括:在信息处理装置的音频接收器处接收用户语音输入的代码;利用处理器识别包含在所述用户语音输入中的文字的代码;利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字的代码;利用所述处理器访问境况数据的代码;基于所述境况数据,利用所述处理器消除所述命令的歧义的代码;以及利用所述处理器根据所述命令进行预定动作的代码。
前述的描述是概要性的说明,从而会包含对细节的简化、概括和省略;因此,本领域的技术人员能够理解,概要仅仅是说明性的并且不意在以任何方式进行限制。
为了更好地理解实施方式以及实施方式的其他和另外的特征和优点,结合附图对以下说明进行参考。本发明的范围将在所附权利要求中指出。
附图说明
图1示出了信息处理装置电路系统的示例。
图2示出了信息处理装置的另一个示例。
图3示出了利用境况来解释自然语言语音识别命令的示例方法。
具体实施方式
容易理解,除所描述的示例实施方式之外,本文附图中总体描述和示出的实施方式的部件可以以多种不同的配置来布置和设计。因此,如在附图中表示的,对示例实施方式的以下更详细的描述并非意在限制实施方式所要求保护的范围,而是仅代表示例实施方式。
在本说明书全文中,对“一个实施方式”或“实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此,在本说明书全文的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指代同一实施方式。
此外,在一个或多个实施方式中,可以以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中,提供了许多具体的细节,以给出对实施方式的透彻的理解。然而,相关领域的技术人员将认识到,可以在不具有一个或多个具体细节的情况下或使用其他的方法、部件、材料等的情况下实施各种实施方式。在其他的实例中,未详细示出或描述公知的结构、材料或操作,以避免混淆。
语音识别技术是流行的并且结合多种应用使用。例如,诸如因特网搜索应用、文字处理应用、通信应用(聊天、电子邮件、SMS文本等)等的许多装置应用可以获得用户的语音输入,将该语音输入转变为机器可用形式(本文称为机器文本——无论是否将语音信号逐字地转换为文本)以供应用使用。例如,用户可以提供诸如“发送这个文件给我的朋友Jon”的语音输入命令。
当前语音识别技术将如实地并且准确地识别该语音输入。即,传统语音识别将准确地确定用户已经逐字地讲出文字“发送这个文件给我的朋友Jon”。然而,以用户想要的方式作用于该语音输入完全是另一回事。即,必须解析并且理解该语音输入,以使装置执行恰当的动作,例如,确定哪个文件是“这个”文件,哪个目的地与“Jon”相关联,要使用哪种通信模式(例如,电子邮件、文本等)。
因此,实施方式提供了用于利用境况来解释自然语言语音识别命令的机制。在实施方式中,例如,如传统上已知的,对命令的各个文字进行识别。实施方式用以下能力对预先编程的或预先确定的命令的标准执行进行补充(例如,使用某些关键词或触发短语):对命令中的歧义源(即,其通常致使命令不可执行)进行识别的能力,以及有效利用消除命令的歧义的境况数据(来自多种源)以使得命令可以被执行的能力。
参照附图将会最好地理解所示出的示例实施方式。下面的描述意在仅作为示例,并且简单地示出了某些示例实施方式。
虽然在信息处理装置中可以利用各种其他电路、电路系统或部件,但是对于智能电话和/或平板电路系统100,图1示出的示例包括建立在例如平板或其他移动计算平台中的片上系统设计。软件和(一个或多个)处理器结合在单个芯片110中。处理器包括在本领域中所公知的内部算术单元、寄存器、高速缓冲存储器、总线、I/O端口等。内部总线等依赖于不同的供应商,但是基本上所有的外围装置(120)都可以附接到单个芯片110。电路系统100将处理器、存储器控制和I/O控制器集线器全部组合到单个芯片110中。此外,这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。
存在(一个或多个)电力管理芯片130,例如电池管理单元BMU,该电力管理芯片130对例如经由可再充电电池140供应的电力进行管理,可再充电电池140可以通过连接到电源(未示出)而再充电。在至少一个设计中,单个芯片(例如110)用于提供类似BIOS的功能和DRAM存储器。
系统100通常包括WWAN收发器150和WLAN收发器160中的一个或多个,用于连接到各种网络,例如电信网络和无线互联网装置(如接入点)。另外,附加装置120之一通常是麦克风,麦克风可以包括将声波转换为电音频信号的物理元件。通常,系统100将包括用于数据输入和显示/表示的触摸屏幕170。系统100通常还包括各种存储器装置,例如闪存180和SDRAM190。
图2描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2所描绘的示例可以对应于计算系统,例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人计算机或其他装置。根据本文的描述可以看出,实施方式可以包括其他特征或仅仅包括图2中示出的示例的特征中的某些特征。
图2的示例包括所谓的芯片组210(一起工作的一组集成电路或芯片,芯片组),该芯片组210具有可以根据制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是因特尔公司在美国和其他国家的注册商标。AMD是超微半导体公司在美国和其他国家的注册商标。ARM是ARM控股有限公司在美国和其他国家的未注册商标。芯片组210的架构包括核与存储器控制组220以及I/O控制器集线器250,该I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,DMI242是芯片到芯片的接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制组220包括经由前端总线(FSB)224交换信息的一个或多个处理器222(例如单核或多核的)和存储器控制器集线器226;注意,组220的部件可以被集成在芯片中,该芯片代替传统的“北桥”式架构。一个或多个处理器222包括本领域所公知的内部算术单元、寄存器、高速缓冲存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如为可被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226还包括用于显示装置292(例如CRT、平板、触摸屏等)的LVDS接口232。块238包括可以经由LVDS接口232(例如串行数字视频、HDMI/DVI、显示端口)支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI-Express接口(PCI-E)234。
在图2中,I/O集线器控制器250包括SATA接口251(例如用于HDD、SDD等的280)、PCI-E接口252(例如用于无线连接282)、USB接口253(例如用于诸如数字化仪、键盘、鼠标、照相机、电话、麦克风、存储装置、其他连接装置等的装置284)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC271、TPM272、超级I/O273、固件集线器274、BIOS支持275、以及诸如ROM277、闪存278和NVRAM279的各种类型的存储器276)、电力管理接口261、时钟发生器接口262、音频接口263(例如用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括BIOS268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆位以太网支持。
系统在通电时可以被配置成执行存储在SPI闪存266内的用于BIOS268的启动代码290,此后,系统在一个或多个操作系统和应用软件(例如,存储在系统存储器240中的)的控制下处理数据。操作系统可以存储在各种位置中的任何位置处,并且例如可以根据BIOS268的指令来访问。如本文所描述的,装置可以包括比图2的系统中示出的特征更少或更多的特征。
如图1或图2中示出的示例的信息处理装置电路系统可以被用于使得用户能够提供语音输入的装置中,例如使用各装置的麦克风,语音输入转而可以被装置上正在运行的应用利用。在这方面,图1和图2中示出的装置电路系统可以例如在装置存储器中包括语音识别技术,该语音识别技术对由用户说出的文字(或多个文字)进行识别,用作为输入,以做出动作(例如,形成机器文本输入;执行命令以控制应用等)。
图3概括示出了利用境况来解释自然语言语音识别命令的示例方法。如所示的,实施方式例如通过包括在装置中的麦克风,在301处接收用户语音输入。然后,在302,可以通过讲话者识别引擎对该语音输入进行处理,以准确地识别逐字的输入。例如,用户说出的输入“发送这个文件给我的朋友Jon”会在302处由语音识别引擎识别为“发送”、“这个”、“文件”、“给”、“我的”、“朋友”和“Jon”的逐字输入。
虽然的确存在某些技术,用于解析和分析该串输入,即“发送”、“这个”、“文件”、“给”、“我的”、“朋友”和“Jon”,以识别命令,但是在这种情况下,尽管“发送”命令被准确地识别,但是该输入的剩余文字从确定要发送什么(例如哪个“文件”)、给谁(例如哪个“Jon”)以及如何发送(例如通过电子邮件、SMS文本等)的角度看,仍然有歧义。
因此,实施方式利用例如在语音输入自身中发现的境况、其他境况数据中的境况或上述的组合,使得用户语音输入中的这些歧义被消除。在该示例中,实施方式识别所识别的文字中的哪些致使用户语音输入有歧义。考虑到文字“发送”可以被映射至诸如传递文件的命令动作,所以可不将它识别为歧义源。
然而,正如在303处所确定的,文字“文件”和“Jon”可以是尤其有问题的。对用户语音输入中的歧义文字的识别自身可有效利用境况数据。例如,使用直接的境况分析(例如“发送”被映射至传递命令,并且形式默认为接收输入的、当前运行的应用,如电子邮件应用、SMS文本应用等),可以将文字“发送”从所识别的、引起歧义的文字中忽略。
另一方面,其他文字不会那么容易地消除歧义,并且因此可以被识别为使用另外的境况进一步分析的对象,例如本示例中的“文件”和“Jon”。对于在303处被识别为歧义源的文字“Jon”,实施方式可以有效利用用户语音输入中的境况数据,即,“朋友”,来确定境况数据的另外的源,例如装置上的“朋友”联系人。因此,在304处,实施方式访问用户语音输入内的境况数据以及诸如联系人列表和其子组的用户语音输入外部的境况数据,从而试图消除语音输入的歧义并且因此对要被执行的合适的命令功能进行识别。
另外,可以利用其他境况数据。在本示例中,文字“这个”可以被预先确定为或者默认识别为歧义文字,并因此在303处被识别。因此,文字“这个”可以被用作触发事件,实施方式通过该触发事件访问另外的境况数据,从而解释文字“这个”/消除文字“这个”的歧义。应当注意:其他这样的文字可以被类似地处理,并且文字“这个”被用作一个非限制性示例。例如,在选择要发送多个文件或多个文件被打开等的情况下,实施方式可以与“这个”类似地消除“这些”的歧义。
因此,考虑到用户语音输入中诸如“这个”的歧义源在303处的识别,实施方式在适当的时候在304处访问另外的境况数据。在文字“这个”的示例中,实施方式可以进行境况的分析,在该境况中,文字“这个”出现在用户语音输入中,例如在文字“文件”之前与其紧邻。因此,利用境况数据(在该情况下,从用户语音输入自身获得)来确定文字“文件”和“这个”之间的关联。这允许进一步的分析,即利用与“文件”相关的境况数据。
在这点上,在304处被访问的境况数据可包括已知与当前情况相关的文件,例如应用中当前打开的文件、正在运行的应用中被选择或被突出的文件、最近使用过的一个或多个文件等。因此,可收集“对象”的可疑列表,即可以表示“这个”文件的数据或文件。
因此在305处,实施方式可以确定歧义是否已经被解决。例如,通过找出装置上位于“个人”或“朋友”子组中的一组联系人中的单个“Jon”,围绕文字“Jon”的歧义可以被确定为已解决。可替代地,如果在联系人中只找出了一个“Jon”,则在305处,该歧义可以被确定为被解决。类似地,如果只选择了一个文件或者只识别出了具有打开文件的一个应用,则在305处,关于哪个文件是“这个”文件的歧义可以被确定为被解决。
此后,根据要被解决的歧义的数量和/或歧义(或歧义的组)在其上已经被解决的置信水平,实施方式可以在306处执行或进行动作或命令。例如,如果仅仅一个文件被识别并且仅仅一个Jon被识别,则实施方式可以自动进行与语音输入“发送这个文件给我的朋友Jon”相对应的预先确定的动作。这可通过再次部分地基于如上所述的消除歧义分析或者根据预定的默认规则而完成,预定的默认规则例如选择可能的传送形式(例如,对于可接受的置信程度,例如基于这种类型的传输文件的用户历史,很可能电子邮件是本境况中优选的形式)或者关于形式的预确规则(例如,使用SMS文本消息发送形式将图片文件发送给只列出电话号码且未列出电子邮件的联系人)。
在解决歧义时,消除歧义可以考虑例如如在自然语言语音命令中出现的多个语音输入。通过示例,如果发出语音命令“发送这个文件给我的朋友Jon”的用户已经预先查找过文件(例如使用语音命令“找出名为quarterlyearnings.ppt的文件”),则实施方式可以有效利用这个以前的语音输入(例如作为境况数据被保存的),从而正确地推断哪个文件是“这个”文件。就此而言,境况可以是跨应用和/或装置的(例如,活动的应用、机器状态等)。因此,考虑到实施方式可以存储为用于消除“这个”的歧义以找出特定文件的境况数据信息,“将这个发送给昨天在会议上的每个人”的用户语音命令也可以将“每个人”的歧义消除为包含在存储于装置约会日程表“昨天”中的日程表条目中的人。
如果实施方式不确定歧义在305处已经被解决(例如对于预定的置信度阈值),则为了进一步输入,实施方式可以询问用户。例如,如果在联系人的朋友子组中发现了多于一个名叫“Jon”的联系人,则实施方式可以询问用户,以消除输入的歧义,例如在进行或执行命令之前,从名叫“Jon”的联系人列表中进行选择,询问姓、地址(或其一部分)等。当然,如果没有检测到歧义,则实施方式可以在306处执行命令而没有进一步的延迟。
因此,在305处利用境况数据解决歧义时,消除歧义包括:将境况数据项目(例如联系人列表条目)与经识别致使命令有歧义的文字(如Jon)相关联。因此,这些项目的关联可以被认为是利用境况数据项目将装置对象(例如,联系人“Jon”的电子邮件或联系人号码)与经识别致使命令有歧义的文字(例如“Jon”)相联系。考虑到该联系,实施方式可以基本上用诸如联系人号码的装置对象标识符来代替诸如“Jon”的经识别致使命令有歧义的文字,从而将语音输入转换为“发送[文件对象标识符]给我的朋友[联系人对象标识符]”或者具体地“(发送[文件a]给[123-456-7890])”。
因此,实施方式允许用户表达自然语言命令,识别并且解决这些自然语言命令中的歧义,使得命令可以在具有或不具有进一步的用户输入(例如,确认)的情况下被执行。如从上述可以被理解的,实施方式允许用户继续使用关于相应的命令或动作的执行失败次数最少的自然语言语音输入或命令。
如本领域技术人员理解的,各方面可以被实施为系统、方法或装置程序产品。因此,多个方面可以采取在本文中通常都可以被称为“电路”、“模块”或“系统”的完全硬件的实施方式或包括软件的实施方式的形式。此外,多个方面可以采取装置程序产品的形式,该装置程序产品包含在具有装置可读程序代码的一个或多个装置可读介质中。
应该注意,本文中描述的各种功能可以使用存储在例如非信号存储装置的装置可读存储介质上由处理器执行的指令实现。可利用一个或多个非信号装置可读存储介质的任意组合。存储介质可以是例如电子的、磁的、光学的、电磁的、红外的或半导体的系统、设备或装置,或前述的系统、设备或装置的任何适当组合。存储介质的更具体示例可以包括如下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或其任何适当的组合。在本文的上下文中,存储介质不是信号并且是“非瞬时的”,包括除了信号介质以外的所有介质。
可以使用任何适当的介质,包括但不限于无线、有线、光纤线缆、RF等或其任何适当的组合,来传输在存储介质上实施的程序代码。
可以以一种或者多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个装置上执行、部分地在单个装置上执行、作为独立软件包部分地在单个装置上且部分地在另一装置上执行、或者完全地在其他装置上执行。在某些情况下,可以通过任何类型的连接或包括局域网(LAN)或广域网(WAN)的网络来连接装置,或可以通过其他的装置(例如通过使用因特网服务提供商的因特网)、通过如近场通信的无线连接或通过如USB连接的硬线连接来进行连接。
本文参照附图描述了多个示例实施方式,这些附图示出了根据各种示例实施方式的示例方法、装置和程序产品。可以理解的是,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或其他的可编程数据处理装置的处理器,以产生这样一种机制,使得经由装置的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了具体的块,并且已示出了块的特定排序,但是这些是非限制性的示例。因为明确示出的示例仅用于描述性的目的并不应该被理解为限制,所以在某些上下文中,可以将两个或更多个块组合,块可以被分成两个或更多个块,或某些块可以适当地重新排序或重新组织。
除非明确地另外指出,如在本文中所使用的,单数“a”和“an”可以被理解为包括复数“一个或多个”。
本发明提出的公开内容用于说明和描述的目的,而非意在穷举或限制。对本领域的技术人员来说,许多修改和变化是明显的。本发明中选择并描述的示例实施方式用于说明原理和实际应用,并且使得本领域其他技术人员能够理解本发明的具有各种修改的各种实施方式适合于预期的特定用途。
因此,尽管本文已参考附图描述了说明性的示例实施方式,但是应当理解该描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以作出各种其他变化和修改。

Claims (19)

1.一种信息处理方法,包括:
在信息处理装置的音频接收器处接收用户语音输入;
利用处理器识别包含在所述用户语音输入中的文字;
利用所述处理器确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的至少一个文字;
利用所述处理器访问境况数据;
基于所述境况数据,利用所述处理器消除所述命令的歧义;以及
利用所述处理器根据所述命令进行预定动作。
2.根据权利要求1所述的方法,其中所述境况数据是从所述语音输入获得的。
3.根据权利要求2所述的方法,其中从所述语音输入获得的所述境况数据包括选自联系人和应用名称所构成的文字组的、包含在所述用户语音输入中的所识别的文字。
4.根据权利要求1所述的方法,其中所述境况数据是从所述信息处理装置上的打开应用的列表获得的。
5.根据权利要求1所述的方法,其中所述境况数据是从所述信息处理装置上的最近使用应用的列表获得的。
6.根据权利要求1所述的方法,其中所述境况数据是从所述信息处理装置上的最近使用对象的列表获得的。
7.根据权利要求1所述的方法,其中所述消除歧义包括:将境况数据项目与致使所述命令有歧义的所识别的文字相关联。
8.根据权利要求7所述的方法,其中所述相关联包括:利用所述境况数据项目,使装置对象与致使所述命令有歧义的所识别的文字相联系。
9.根据权利要求8所述的方法,其中所述相关联还包括:用装置对象标识符来代替致使所述命令有歧义的所识别的文字。
10.根据权利要求9所述的方法,其中所述装置对象标识符是指向服从于所述命令的装置对象的文件名。
11.一种信息处理装置,包括:
音频接收器;
处理器;以及
存储装置,所述存储装置存储指令,所述指令能够由所述处理器执行,以:
在所述信息处理装置的所述音频接收器处接收用户语音输入;
识别包含在所述用户语音输入中的文字;
确定所识别的文字中致使包含在所述用户语音输入中的命令有歧义的一个文字;
访问境况数据;
基于所述境况数据,消除所述命令的歧义;以及
根据所述命令进行预定动作。
12.根据权利要求11所述的信息处理装置,其中所述境况数据是从所述语音输入获得的。
13.根据权利要求12所述的信息处理装置,其中从所述语音输入获得的所述境况数据包括选自联系人和应用名称所构成的文字组的、包含在所述用户语音输入中的所识别的文字。
14.根据权利要求11所述的信息处理装置,其中所述境况数据是从所述信息处理装置上的打开应用的列表获得的。
15.根据权利要求11所述的信息处理装置,其中所述境况数据是从所述信息处理装置上的最近使用应用的列表获得的。
16.根据权利要求11所述的信息处理装置,其中所述境况数据是从所述信息处理装置上的最近使用对象的列表获得的。
17.根据权利要求11所述的信息处理装置,其中所述消除歧义包括:将境况数据项目与致使所述命令有歧义的所识别的文字相关联。
18.根据权利要求17所述的信息处理装置,其中所述相关联包括:利用所述境况数据项目,使装置对象与致使所述命令有歧义的所识别的文字相联系。
19.根据权利要求18所述的信息处理装置,其中所述相关联还包括:用装置对象标识符来代替致使所述命令有歧义的所识别的文字。
CN201410527778.8A 2013-12-05 2014-10-09 利用境况解释自然语言语音识别命令 Pending CN104699236A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/097,954 US11138971B2 (en) 2013-12-05 2013-12-05 Using context to interpret natural language speech recognition commands
US14/097,954 2013-12-05

Publications (1)

Publication Number Publication Date
CN104699236A true CN104699236A (zh) 2015-06-10

Family

ID=53185434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410527778.8A Pending CN104699236A (zh) 2013-12-05 2014-10-09 利用境况解释自然语言语音识别命令

Country Status (3)

Country Link
US (1) US11138971B2 (zh)
CN (1) CN104699236A (zh)
DE (1) DE102014117504B4 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022357A (zh) * 2016-05-11 2016-10-12 珠海市魅族科技有限公司 一种数据输入校准的方法及终端
CN107728783A (zh) * 2017-09-25 2018-02-23 联想(北京)有限公司 人工智能处理方法及其系统
CN111539219A (zh) * 2017-05-19 2020-08-14 北京蓦然认知科技有限公司 一种用于自然语言内容标题消歧的方法、设备和系统

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US10741182B2 (en) * 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
US10276154B2 (en) 2014-04-23 2019-04-30 Lenovo (Singapore) Pte. Ltd. Processing natural language user inputs using context data
JP6024719B2 (ja) * 2014-09-09 2016-11-16 カシオ計算機株式会社 検出装置、検出方法、及びプログラム
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
US11238090B1 (en) 2015-11-02 2022-02-01 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US11341338B1 (en) 2016-08-31 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for interactively using narrative analytics to focus and control visualizations of data
CA2982196C (en) * 2015-04-10 2022-07-19 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
US20160372112A1 (en) * 2015-06-18 2016-12-22 Amgine Technologies (Us), Inc. Managing Interactions between Users and Applications
US11232268B1 (en) 2015-11-02 2022-01-25 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts
US11222184B1 (en) 2015-11-02 2022-01-11 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts
US11170038B1 (en) 2015-11-02 2021-11-09 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from multiple visualizations
US10276162B2 (en) 2016-02-12 2019-04-30 Samsung Electronics Co., Ltd. Method and electronic device for performing voice based actions
US20170286133A1 (en) * 2016-03-29 2017-10-05 Microsoft Technology Licensing, Llc One Step Task Completion
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10741174B2 (en) * 2017-01-24 2020-08-11 Lenovo (Singapore) Pte. Ltd. Automatic language identification for speech
US11068661B1 (en) 2017-02-17 2021-07-20 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on smart attributes
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US10719542B1 (en) * 2017-02-17 2020-07-21 Narrative Science Inc. Applied artificial intelligence technology for ontology building to support natural language generation (NLG) using composable communication goals
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
US10943069B1 (en) 2017-02-17 2021-03-09 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on a conditional outcome framework
CN108632776A (zh) * 2017-03-21 2018-10-09 上海传英信息技术有限公司 一种手机充值方法及装置
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11221823B2 (en) * 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
US10614030B2 (en) 2017-06-02 2020-04-07 Microsoft Technology Licensing Llc Task creation and completion with bi-directional user interactions
US11042708B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language generation
US11003866B1 (en) 2018-01-17 2021-05-11 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service and data re-organization
JP2019185360A (ja) * 2018-04-09 2019-10-24 富士ゼロックス株式会社 情報処理装置およびプログラム
US10706236B1 (en) 2018-06-28 2020-07-07 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
US10848443B2 (en) * 2018-07-23 2020-11-24 Avaya Inc. Chatbot socialization
US11341330B1 (en) 2019-01-28 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding with term discovery
US11494647B2 (en) * 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
US20230081605A1 (en) * 2021-09-16 2023-03-16 Apple Inc. Digital assistant for moving and copying graphical elements

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647023A (zh) * 2002-02-15 2005-07-27 Sap股份公司 语音控制的数据输入
JP2008152580A (ja) * 2006-12-18 2008-07-03 Matsushita Electric Ind Co Ltd 通信装置、及び通信方法
CN101297355A (zh) * 2005-08-05 2008-10-29 沃伊斯博克斯科技公司 响应自然语言语音口头表达的系统和方法
CN101432679A (zh) * 2006-03-22 2009-05-13 字源加拿大公司 移动装置系统和实现高效输入的方法
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
WO2012019028A1 (en) * 2010-08-06 2012-02-09 Google Inc. Disambiguating input based on context
TW201339862A (zh) * 2012-03-29 2013-10-01 Hon Hai Prec Ind Co Ltd 語言歧義消除系統及方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
US6839669B1 (en) 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
JP2001188555A (ja) 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US8374875B2 (en) 2000-01-31 2013-02-12 Intel Corporation Providing programming information in response to spoken requests
US7027975B1 (en) * 2000-08-08 2006-04-11 Object Services And Consulting, Inc. Guided natural language interface system and method
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
WO2004027685A2 (en) * 2002-09-19 2004-04-01 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US7324943B2 (en) 2003-10-02 2008-01-29 Matsushita Electric Industrial Co., Ltd. Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing
US20060041564A1 (en) * 2004-08-20 2006-02-23 Innovative Decision Technologies, Inc. Graphical Annotations and Domain Objects to Create Feature Level Metadata of Images
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US7418281B2 (en) 2005-09-13 2008-08-26 International Business Machines Corporation Centralized voice recognition unit for wireless control of personal mobile electronic devices
US20070061712A1 (en) 2005-09-14 2007-03-15 Bodin William K Management and rendering of calendar data
US8620667B2 (en) * 2005-10-17 2013-12-31 Microsoft Corporation Flexible speech-activated command and control
US8112402B2 (en) 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8543622B2 (en) 2007-12-07 2013-09-24 Patrick Giblin Method and system for meta-tagging media content and distribution
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US9311917B2 (en) * 2009-01-21 2016-04-12 International Business Machines Corporation Machine, system and method for user-guided teaching of deictic references and referent objects of deictic references to a conversational command and control system
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR20110114997A (ko) 2010-04-14 2011-10-20 한국전자통신연구원 자동 키워드 검출을 통한 방송서비스 제공장치 및 그 방법
US8655901B1 (en) * 2010-06-23 2014-02-18 Google Inc. Translation-based query pattern mining
US8700655B2 (en) 2010-11-08 2014-04-15 At&T Intellectual Property I, L.P. Systems, methods, and computer program products for location salience modeling for multimodal search
EP2518722A3 (en) 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Method for providing link list and display apparatus applying the same
US9183835B2 (en) 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9699485B2 (en) 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8606568B1 (en) * 2012-10-10 2013-12-10 Google Inc. Evaluating pronouns in context
KR20140054643A (ko) 2012-10-29 2014-05-09 삼성전자주식회사 음성인식장치 및 음성인식방법
US9100694B1 (en) 2013-03-14 2015-08-04 Google Inc. TV mode change in accordance with number of viewers present
US20150046418A1 (en) 2013-08-09 2015-02-12 Microsoft Corporation Personalized content tagging

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647023A (zh) * 2002-02-15 2005-07-27 Sap股份公司 语音控制的数据输入
CN101297355A (zh) * 2005-08-05 2008-10-29 沃伊斯博克斯科技公司 响应自然语言语音口头表达的系统和方法
CN101432679A (zh) * 2006-03-22 2009-05-13 字源加拿大公司 移动装置系统和实现高效输入的方法
JP2008152580A (ja) * 2006-12-18 2008-07-03 Matsushita Electric Ind Co Ltd 通信装置、及び通信方法
CN102137085A (zh) * 2010-01-22 2011-07-27 谷歌公司 语音命令的多维消歧
WO2012019028A1 (en) * 2010-08-06 2012-02-09 Google Inc. Disambiguating input based on context
TW201339862A (zh) * 2012-03-29 2013-10-01 Hon Hai Prec Ind Co Ltd 語言歧義消除系統及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022357A (zh) * 2016-05-11 2016-10-12 珠海市魅族科技有限公司 一种数据输入校准的方法及终端
CN111539219A (zh) * 2017-05-19 2020-08-14 北京蓦然认知科技有限公司 一种用于自然语言内容标题消歧的方法、设备和系统
CN111539217A (zh) * 2017-05-19 2020-08-14 北京蓦然认知科技有限公司 一种用于自然语言内容标题消歧的方法、设备和系统
CN111539217B (zh) * 2017-05-19 2024-01-12 无锡小飞玛信息技术有限公司 一种用于自然语言内容标题消歧的方法、设备和系统
CN111539219B (zh) * 2017-05-19 2024-04-26 吴晨曦 一种用于自然语言内容标题消歧的方法、设备和系统
CN107728783A (zh) * 2017-09-25 2018-02-23 联想(北京)有限公司 人工智能处理方法及其系统

Also Published As

Publication number Publication date
US11138971B2 (en) 2021-10-05
DE102014117504A1 (de) 2015-06-11
DE102014117504B4 (de) 2023-10-12
US20150161997A1 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
CN104699236A (zh) 利用境况解释自然语言语音识别命令
US10818285B2 (en) Electronic device and speech recognition method therefor
KR102391100B1 (ko) 인터페이스 제공 방법 및 장치
US10204624B1 (en) False positive wake word
US10546587B2 (en) Electronic device and method for spoken interaction thereof
US20210352059A1 (en) Message Display Method, Apparatus, and Device
CN104700834A (zh) 信息处理方法及信息处理装置
CN104423576A (zh) 虚拟助理操作项目的管理
CN109427331B (zh) 语音识别方法及装置
US11282528B2 (en) Digital assistant activation based on wake word association
CN104850542A (zh) 非可听语音输入校正
US9996517B2 (en) Audio input of field entries
CN105005468A (zh) 使用自然用户界面输入加强预测置信和命令优先级
CN107643909B (zh) 用于协调多个本地设备上的输入的方法和电子设备
US20160371340A1 (en) Modifying search results based on context characteristics
US10649635B2 (en) Multi-modal fusion engine
US11423893B2 (en) Response to secondary inputs at a digital personal assistant
US20210005189A1 (en) Digital assistant device command performance based on category
US10963466B2 (en) Contextual associations for entity queries
CN111488307A (zh) 多处理器串行通信方法、装置、电子终端及存储介质
US20150235638A1 (en) Method for transmitting phonetic data
CN112883152A (zh) 一种内容查询方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150610