CN104810019A - 利用上下文信息调节语音识别 - Google Patents

利用上下文信息调节语音识别 Download PDF

Info

Publication number
CN104810019A
CN104810019A CN201510006921.3A CN201510006921A CN104810019A CN 104810019 A CN104810019 A CN 104810019A CN 201510006921 A CN201510006921 A CN 201510006921A CN 104810019 A CN104810019 A CN 104810019A
Authority
CN
China
Prior art keywords
contextual information
messaging device
user
voice
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510006921.3A
Other languages
English (en)
Inventor
罗德·D·沃特曼
马克·埃文·科恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN104810019A publication Critical patent/CN104810019A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开提供了一种信息处理方法、信息处理设备和产品。所述方法包括:利用处理器获得与信息处理设备有关的上下文信息;利用处理器、通过使用上下文信息来调节自动语音识别引擎;在信息处理设备的音频接收器处接收用户语音输入;以及利用处理器、基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。

Description

利用上下文信息调节语音识别
技术领域
本发明总体上涉及信息处理的技术领域,更具体地,涉及利用上下文信息调节语音识别。
背景技术
许多信息处理设备(“装置”)给用户提供输入语音命令或提供语音输入的能力。通常,自动语音识别(ASR)引擎试图识别口头语言并且随后将用户的语音输入匹配或映射到某些动作,例如基于语音的命令。
例如,用户可以说“电子邮件联系姓名A”,当ASR引擎从语法上分析和处理这句话时,在所有东西适当工作的情况下,将会导致“电子邮件”、“联系”和“姓名A”的识别的语音。此外,同样在所有东西适当工作的情况下,ASR引擎例如利用命令模板将这些特定字词映射或匹配到与自然语言含义匹配的命令输入,即电子邮件应用应当被用于开始起草新的电子邮件消息至“姓名A”的用户联系方式。基于该处理,装置因而可以响应于以适当方式输入的用户的自然语言。
发明内容
总的来说,一方面提供了一种方法,包括:利用处理器获得涉及信息处理设备的上下文信息;利用处理器通过使用上下文信息来调节自动语音识别引擎;在信息处理设备的音频接收器处接收用户语音输入;以及利用处理器、基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。
另一方面提供了一种信息处理设备,包括:音频接收器;操作上耦接到音频接收器的处理器;以及存储可由处理器执行的指令的存储器装置,处理器执行指令以:获得与信息处理设备有关的上下文信息;利用上下文信息来调节自动语音识别引擎;在音频接收器处接收用户语音输入;以及基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音。
又另一方面提供了一种程序产品,包括:包括装置可读程序代码的存储介质,该代码可由处理器执行并且包括:用于利用处理器获得与信息处理设备有关的上下文信息的代码;用于利用处理器通过使用上下文信息来调节自动语音识别引擎的代码;用于在信息处理设备的音频接收器处接收用户语音输入的代码;以及用于利用处理器基于所接收的用户语音输入和对自动语音识别引擎的上下文信息调节来提供所识别的语音的代码。
以上内容是概要,并且因此可以包含详细内容的简化、概括和省略;因此,本领域的技术人员应当认识到,概要仅是说明性的,并且不旨在以任何方式进行限制。
为了更好地理解实施方式以及实施方式的其他和另外的特征和优点,结合附图参照下面的描述。在所附权利要求中指出本发明的范围。
附图说明
图1示出了信息处理设备的电路系统的示例;
图2示出了信息处理设备的电路系统的另一示例;
图3示出了用于利用上下文信息调节语音识别的示例性方法。
具体实施方式
容易理解,如本文附图中所示和一般描述的实施方式中的部件还可以被布置和设计成除所描述的示例性实施方式之外的多种不同的配置。因此,如图所示,对示例性实施方式的以下更详细的描述不旨在限制要求保护的实施方式的范围,而仅代表了示例性实施方式。
本说明书中提到的“一个实施方式”或“实施方式”(等)意为结合实施方式所描述的特定特性、结构或特征被包括在至少一个实施方式中。因此,本说明书中各种地方出现的短语“在一个实施方式中”或“在实施方式中”不一定都指同一实施方式。
此外,在一个或更多个实施方式中可以以任何适当的方式结合所描述的特性、结构或特征。在下面的描述中,提供许多特定细节以给出对实施方式的全面理解。然而,相关领域的技术人员将认识到,在没有一个或更多个特定细节的情况下或者利用其他方法、部件、材料等,也可以实践各种实施方式。在其他实例中,未详细描述或示出已知的结构、材料或操作以避免模糊。
在大多数情况下虽然ASR引擎趋于适当地忠实识别/鉴别字词,然而在某些方面尤其在嘈杂环境中,这个过程可能受挫。通过首先确定上下文,例如确定用户是否处于特定情形中或在执行特定任务,可以大大改进语音识别。
因此,实施方式获得这样的上下文信息并且使用上下文信息以使语音识别偏向于用户在特定上下文中最可能说或请求的字词和/或命令。例如,如果用户在听音乐,与完全不相关的事情相比,例如使用地图应用来搜索餐馆位置,其更可能的是,后续话语将是播放其他东西或调节音量的命令,或者是操作用于音乐播放器应用的命令等。
在嘈杂环境中这是特别真实和有用的。可以被实施方式使用的这种类型的上下文信息包括但不一定限于与用户利用装置做什么(例如,听音乐、看电影、浏览图片、用办公文件工作等)有关的上下文信息,与装置最近接收的什么激励(例如,呼入的电话、文本消息、正在进行的编入日程的约会等)有关的上下文信息,以及与装置正在发生什么(例如,装置在车中移动、装置位于嘈杂环境中、装置位于已知位置中等)有关的上下文信息。
因此,通过使用上下文信息来确定相关上下文是什么,例如用户正在做什么或用户正在从事哪个活动等,实施方式随后可以调节ASR引起,例如使ASR引擎“准备好(prime)”,以智能地将其提示成相关上下文。正如可以全面认识到的,该调节过程可以采取各种形式,其中一些形式可以与另一形式结合。作为非限制性示例,实施方式可以通过基于上下文预先确定哪些字词或短语在统计上更可能被接收、通过基于上下文预先确定哪些命令在统计上更可能被调用等,来调节ASR引擎。
例如,给定的上下文信息诸如装置的音乐播放器应用当前在播放音乐,命令诸如“播放”、“停止”等可以相比上下文命令之外的命令如“增加屏幕亮度”而言被给予更多权重。此外,被认为上下文相关的特定字词,例如(装置上或外的)用户音乐集中的艺术家或包括在歌曲名内的字词,在例如如果词语“播放”被ASR检测到的情况下,也可以类似地被给予用于识别的增加的权重或偏爱(bias)。同样地,这防止ASR引擎例如简单地基于语音输入的内容而在上下文字识别/命令的识别结果之外、不太可能地促进,但不妨碍用户给出不同命令。换句话说,实施方式利用上下文信息以给上下文上更可能的字词/命令更好的机会被正确识别。
参照附图将最好地理解所示的示例性实施方式。下面的描述仅旨在作为示例并且简单地说明某些示例性实施方式。
尽管在关于智能电话和/或平板电路100的信息处理设备中可以利用各种其他电路、电路系统或部件,然而图1所示的示例包括例如在平板或其他移动计算平台中发现的芯片设计上的系统。软件和一个或更多个处理器结合在单芯片110中。内部总线等取决于不同的供应商,但本质上所有外围设备(120)都可以附接到单芯片110。电路系统100将处理器、存储器控制和I/O控制器集线器都结合在单芯片110中。同样,这种类型的系统100通常不使用SATA或PCI或LPC。常见接口例如包括SDIO和I2C。
存在一个或更多个电力管理芯片130,例如电池管理单元BMU,其例如经由可充电电池140管理所供应的电力,可充电电池140可以通过连接到电源(未示出)来充电。在至少一个设计中,单芯片例如110用于供应如BIOS的功能和DRAM存储器。
系统100通常包括一个或更多个WWAN收发器150和WLAN收发器160用于连接到各种网络,例如电信网络和无线互联网设备例如接入点。通常包括附加设备120,例如音频接收器如麦克风。系统100通常包括用于数据输入和显示的触摸屏170。系统100通常还包括各种存储器设备,例如闪存180和SDRAM 190。
图2示出了信息处理设备的电路、电路系统或部件的另一示例的框图。图2所示的示例可以对应于计算系统,例如由Morrisville,NC的Lenovo(US)Inc.销售的个人计算机的THINKPAD系列,或其他设备。正如从本文描述中可以明显看出的,实施方式可以包括其他特征或只是图2所示示例的一些特征。
图2的示例包括所谓的芯片组210(一组集成电路或一起工作的芯片,芯片组),芯片组210具有可以随制造商(例如INTEL、AMD、ARM等)而变的架构。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250,I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244来交换信息(例如,数据、信号、命令等)。在图2中,DMI 242是芯片到芯片接口(有时称为“北桥”和“南桥”之间的链路)。核和存储器控制组220包括一个或更多个处理器222(例如,单核或多核)和经由前端总线(FSB)224交换信息的存储器控制器集线器226,值得注意的是,组220中的部件可以被集成在取代传统“北桥”型架构的芯片中。
在图2中,存储器控制器集线器226与存储器240对接(例如以提供对于可以称为“系统存储器”或“存储器”的RAM类型的支持)。存储器控制器集线器226还包括用于显示设备292(例如,CRT、平板、触摸屏等)的LVDS接口232。块238包括可以经由LVDS接口232(例如,串行数字视频、HDMI/DVI、显示端口)来支持的一些技术。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。
在图2中,I/O控制器集线器250包括SATA接口251(例如,用于HDD、SDD 280等)、PCI-E接口252(例如,用于无线连接282)、USB接口253(例如,用于设备384诸如数字转换器、键盘、鼠标、相机、电话、麦克风、存储设备、其他连接设备等)、网络接口254(例如,LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276例如ROM277、闪存278和NVRAM 279)、电力管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、TCO接口264、系统管理总线接口265和SPI闪存266,SPI闪存266可以包括BIOS 268和启动代码290。I/O控制器集线器250可以包括吉比特以太网支持。
系统在上电时可以被配置成执行SPI闪存266中存储的用于BIOS268的启动代码290,然后在一个或更多个操作系统和(例如,存储在系统存储器240中的)应用软件的控制下处理数据。操作系统可以被存储在各种位置中的任何位置中并且例如根据BIOS 268的指令而被访问。正如本文所描述的,设备可以包括比图2的系统中所示的特征更多或更少的特征。
例如如图1或图2所概述的信息处理设备的电路系统可以被用在用于基于上下文信息调节ASR引擎的设备中。例如,图1和图2中概述的电路系统可以包括在以下设备中:该设备例如经由设备的麦克风而接收语音输入,在考虑各种上下文信息源的同时,处理所接收的语音输入以提供例如包括将语音输入映射到命令的识别结果,正如本文进一步描述的那样。
参照图3,例如,在301,实施方式可以获得例如与信息处理设备的操作有关的上下文信息。上下文信息涉及其中用户试图使用ASR引擎的上下文,例如设备位置、设备移动、运行应用、设备事件(例如所接收的通信等),而不是可能常规认为的用于ASR的上下文信息,例如与语音输入的内容有关的上下文信息。
在能够访问(可以例如经由记账云而源自设备或与其通信的另一设备的)上下文信息的情况下,实施方式可以在302确定上下文并且随后在303利用上下文信息调节自动语音识别引擎。实施方式可以基于可用的上下文信息、以多种方式来确定上下文存在,例如将一个或更多个预定的上下文信息输入映射到一个或多个已知的上下文,例如音乐播放器、工作、家、车中、导航等。
在303对ASR引擎的调节还可以采取多种形式。例如,调节可以包括基于上下文信息选择知识领域或模板(例如,用于导航上下文的地图、用于所接收的通信上下文的电话等)。调节可以包括基于上下文信息选择词典,例如选择给定的上下文可用的字词和/或命令。调节可以包括基于上下文信息对一个或更多个字词和/或一个或更多个命令不同地进行加权。调节还可以包括基于上下文信息调节所识别的语音和预定动作(例如,与命令匹配的动作)之间的匹配。这些调节可以被单独使用或适当结合使用。
在已经调节ASR引擎或使ASR引擎“准备好”的情况下,实施方式可以在304例如在音频接收器诸如麦克风处接收用户的语音输入,并且在305利用所调节的ASR引擎来处理所接收的输入。这使得实施方式能够基于可用的上下文信息来利用所调节的ASR以促进上下文相关的字词和/或命令和/或上下文上相关的预定动作。因此,实施方式可以在306基于用户语音输入和对ASR引擎的上下文信息调节来提供所识别的语音。306的所识别语音当然可以包括自动动作交付,例如基于对所调节的ASR引擎的使用而被映射到所识别的语音。
由于设备连通性一直在增加,因此上下文信息源可以通过如下方式被提供:经由本地设备例如通过使用一个或多个设备传感器和/或处理,或者经由直接或间接连接的设备,以及其适当组合。因此,上下文信息可以选自还包括如下的组:与用户与信息处理设备的交互有关的上下文信息、与信息处理设备的运行应用有关的上下文信息、与所接收的信息处理设备的激励有关的上下文信息和与信息处理设备的感测环境有关的上下文信息。同样地,在302确定的上下文可以从设备转移到设备,使得用户可以例如在设备之间转变时具有经验的连续性。
因此,实施方式提供语音识别的调节,使得考虑使用上下文。正如本文所述,这不排除上下文使用,而是趋于上下文中的字词/命令/动作的目标误识别。因此,实施方式便利用户的ASR引擎经验,这是因为其使得ASR引擎在监听在特定上下文内所接收、过滤和理解的命令的情况下表现得更加像人类。
如本领域的技术人员将认识到的,各种不同的方面可以体现为系统、方法或设备程序产品。因此,各个方面可以采取全部硬件实施方式或包括软件的实施方式的形式,其在本文中都可以统称为“电路”、“模块”或“系统”。此外,各个方面可以采取体现为一个或更多个设备可读介质的设备程序产品的形式,所述一个或更多个设备可读介质具有设备可读程序代码。
可以利用一个或更多个非信号设备可读介质的任意组合。非信号介质可以使存储介质。存储介质可以是例如电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或前述的任何适当的组合。存储介质的更多特定示例可以包括如下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任何适当的组合。在本文的上下文中,存储介质不是信号,并且“非暂态”包括除信号介质之外的所有介质。
可以利用任何适当的介质来传输存储介质上所体现的程序代码,包括但不限于无线、有线、光纤线缆、RF等或前述的任何适当的组合。
可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全地在单个设备上执行、部分地在单个设备上执行、作为独立软件包、部分地在单个设备上执行且部分地在另一设备上执行、或完全在其他设备上执行。在一些情况下,可以通过任何类型的连接或网络来连接设备,包括局域网(LAN)或广域网(WAN),或者可以通过其他设备(例如,通过使用互联网服务提供商的互联网)、通过无线连接如近场通信或通过硬线连接如通过USB连接来实现连接。
本文参照附图描述了各方面,这些附图示出了根据各种示例性实施方式的示例性方法、设备以及程序产品。应当理解,动作和功能性可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理设备、专用信息处理设备或者其他可编程数据处理设备或信息处理设备的处理器以制造机器,使得经由设备的处理器执行的指令能够实现指定的功能/动作。
正如本文所使用的,单数“一个”、“一”可以被看作是包括复数“一个或更多个”,除非明确指出。
本公开内容已经出于说明和描述的目的而被介绍并且不旨在穷举或限制。对于本领域的普通技术人员而言,许多修改和变型是显而易见的。选择并描述示例性实施方式,以便说明原理和实际应用,并且使得本领域的其他普通技术人员能够理解针对具有适于预期的特定用途的各种修改的各种实施方式的公开内容。
因此,虽然本文参照附图描述了说明性的示例实施方式,但是要理解本描述不是限制性的,并且在不脱离本公开内容的范围或精神的情况下,本领域的技术人员可以对其做出各种其他变化和修改。

Claims (19)

1.一种信息处理方法,包括:
利用处理器获得与信息处理设备有关的上下文信息;
利用处理器、使用所述上下文信息来调节自动语音识别引擎;
在所述信息处理设备的音频接收器处接收用户语音输入;以及
利用处理器、基于所接收的用户语音输入和对所述自动语音识别引擎的上下文信息调节来提供所识别的语音。
2.如权利要求1所述的方法,其中,所述调节包括基于所述上下文信息选择知识领域。
3.如权利要求1所述的方法,其中,所述调节包括基于所述上下文信息选择词典。
4.如权利要求1所述的方法,其中,所述调节包括基于所述上下文信息对一个或更多个字词加权。
5.如权利要求1所述的方法,还包括交付与所识别的语音相匹配的预定动作;
其中,所述调节包括基于所述上下文信息调节所识别的语音和预定动作之间的匹配。
6.如权利要求1所述的方法,还包括:
基于所述用户语音输入和对所述自动语音识别引擎的上下文信息调节,向所述用户提供包括估计的所识别语音的通信;以及
交付与所识别语音相匹配的预定动作。
7.如权利要求6所述的方法,还包括接收与所述通信相关联的用户输入;
其中,所述的交付与所识别语音相匹配的预定动作对其做出响应。
8.如权利要求1所述的方法,其中,所述上下文信息选自包括以下的组:与用户同所述信息处理设备交互有关的上下文信息、与所述信息处理设备的运行应用有关的上下文信息、与所述信息处理设备的所接收的激励有关的上下文信息和与所述信息处理设备的所感测环境有关的上下文信息。
9.如权利要求1所述的方法,其中,所述上下文信息源自所述信息处理设备。
10.如权利要求1所述的方法,其中,所述上下文信息能够转移到另外的信息处理设备。
11.一种信息处理设备,包括:
音频接收器;
操作上耦接到所述音频接收器的处理器;以及
存储能够由所述处理器执行的指令的存储器装置,所述处理器执行指令以:
获得与所述信息处理设备有关的上下文信息;
利用所述上下文信息来调节自动语音识别引擎;
在所述音频接收器处接收用户语音输入;以及
基于所接收的用户语音输入和对所述自动语音识别引擎的上下文信息调节来提供所识别的语音。
12.如权利要求11所述的信息处理设备,其中,所述调节包括基于所述上下文信息选择知识领域。
13.如权利要求11所述的信息处理设备,其中,所述调节包括基于所述上下文信息选择词典。
14.如权利要求11所述的信息处理设备,其中,所述调节包括基于所述上下文信息对一个或更多个字词加权。
15.如权利要求11所述的信息处理设备,其中,所述指令能够被所述处理器进一步执行以交付与所识别语音相匹配的预定动作;
其中,所述调节包括基于所述上下文信息来调节所识别语音和预定动作之间的匹配。
16.如权利要求11所述的信息处理设备,其中,所述指令能够被所述处理器进一步执行以:
基于所述用户语音输入和对所述自动语音识别引擎的上下文信息调节,向所述用户提供包括估计的所识别语音的通信;以及
交付与所识别语音相匹配的预定动作。
17.如权利要求16所述的信息处理设备,其中,所述指令能够被所述处理器进一步执行以接收与所述通信相关联的用户输入;
其中,所述的交付与所识别语音相匹配的预定动作对其做出响应。
18.如权利要求11所述的信息处理设备,其中,所述上下文信息选自包括以下的组:与用户同所述信息处理设备的交互有关的上下文信息、与所述信息处理设备的运行应用有关的上下文信息、与所述信息处理设备的所接收激励有关的上下文信息和与所述信息处理设备的所感测环境有关的上下文信息。
19.如权利要求11所述的信息处理设备,其中,所述上下文信息源自所述信息处理设备。
CN201510006921.3A 2014-01-28 2015-01-07 利用上下文信息调节语音识别 Pending CN104810019A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/166,197 2014-01-28
US14/166,197 US11386886B2 (en) 2014-01-28 2014-01-28 Adjusting speech recognition using contextual information

Publications (1)

Publication Number Publication Date
CN104810019A true CN104810019A (zh) 2015-07-29

Family

ID=52674031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510006921.3A Pending CN104810019A (zh) 2014-01-28 2015-01-07 利用上下文信息调节语音识别

Country Status (4)

Country Link
US (1) US11386886B2 (zh)
CN (1) CN104810019A (zh)
DE (1) DE102015100900A1 (zh)
GB (1) GB2524864A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376416A (zh) * 2015-12-04 2016-03-02 广东小天才科技有限公司 一种通话终端的控制方法和装置
CN106407176A (zh) * 2015-07-31 2017-02-15 联想(新加坡)私人有限公司 在语音识别中插入字符的方法和设备
CN110070861A (zh) * 2018-01-22 2019-07-30 丰田自动车株式会社 信息处理装置和信息处理方法
CN111295708A (zh) * 2017-12-07 2020-06-16 三星电子株式会社 语音识别设备及其操作方法

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
KR102348084B1 (ko) * 2014-09-16 2022-01-10 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11416212B2 (en) 2016-05-17 2022-08-16 Microsoft Technology Licensing, Llc Context-based user agent
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) * 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
DE102018221712B4 (de) 2018-12-13 2022-09-22 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US20200311605A1 (en) * 2019-03-26 2020-10-01 Jacada Ltd. System and method for extracting and parsing free text and automating execution of data entry, data retrieval and processes from the extracted and parsed text
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN112397062A (zh) * 2019-08-15 2021-02-23 华为技术有限公司 语音交互方法、装置、终端及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1659624A (zh) * 2002-04-05 2005-08-24 英特尔公司 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US20070294084A1 (en) * 2006-06-13 2007-12-20 Cross Charles W Context-based grammars for automated speech recognition
CN101290770A (zh) * 2007-04-20 2008-10-22 明基电通股份有限公司 语音识别系统及方法
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
CN103430232A (zh) * 2011-01-21 2013-12-04 谷歌公司 利用设备停靠情境的语音识别

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484136B1 (en) 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US20080091426A1 (en) * 2006-10-12 2008-04-17 Rod Rempel Adaptive context for automatic speech recognition systems
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8417526B2 (en) 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method
US8914290B2 (en) * 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US20150281853A1 (en) * 2011-07-11 2015-10-01 SoundFest, Inc. Systems and methods for enhancing targeted audibility
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN103999152A (zh) 2011-12-29 2014-08-20 英特尔公司 利用动态语法元素集的语音识别
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9646604B2 (en) * 2012-09-15 2017-05-09 Avaya Inc. System and method for dynamic ASR based on social media
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1659624A (zh) * 2002-04-05 2005-08-24 英特尔公司 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US20070294084A1 (en) * 2006-06-13 2007-12-20 Cross Charles W Context-based grammars for automated speech recognition
CN101290770A (zh) * 2007-04-20 2008-10-22 明基电通股份有限公司 语音识别系统及方法
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
CN103430232A (zh) * 2011-01-21 2013-12-04 谷歌公司 利用设备停靠情境的语音识别

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407176A (zh) * 2015-07-31 2017-02-15 联想(新加坡)私人有限公司 在语音识别中插入字符的方法和设备
CN106407176B (zh) * 2015-07-31 2021-02-09 联想(新加坡)私人有限公司 在语音识别中插入字符的方法和设备
CN105376416A (zh) * 2015-12-04 2016-03-02 广东小天才科技有限公司 一种通话终端的控制方法和装置
CN111295708A (zh) * 2017-12-07 2020-06-16 三星电子株式会社 语音识别设备及其操作方法
CN110070861A (zh) * 2018-01-22 2019-07-30 丰田自动车株式会社 信息处理装置和信息处理方法

Also Published As

Publication number Publication date
GB2524864A (en) 2015-10-07
GB201501383D0 (en) 2015-03-11
US20150213796A1 (en) 2015-07-30
DE102015100900A1 (de) 2015-07-30
US11386886B2 (en) 2022-07-12

Similar Documents

Publication Publication Date Title
CN104810019A (zh) 利用上下文信息调节语音识别
EP3608906B1 (en) System for processing user voice utterance and method for operating same
US9653073B2 (en) Voice input correction
US9766852B2 (en) Non-audio notification of audible events
CN108073275B (zh) 信息处理方法、信息处理设备及程序产品
CN104700834A (zh) 信息处理方法及信息处理装置
CN107643922A (zh) 用于语音辅助的设备、方法及计算机可读存储介质
US20180324703A1 (en) Systems and methods to place digital assistant in sleep mode for period of time
CN108694941A (zh) 用于交互式会话的方法、信息处理装置及产品
GB2565420A (en) Interactive sessions
US10257363B2 (en) Coordinating input on multiple local devices
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
US10163455B2 (en) Detecting pause in audible input to device
US20180090126A1 (en) Vocal output of textual communications in senders voice
US20210005189A1 (en) Digital assistant device command performance based on category
CN111902863B (zh) 用于处理用户语音输入的装置
US20220013135A1 (en) Electronic device for displaying voice recognition-based image
US9659480B2 (en) Reminders based on virtual locations
US9282538B2 (en) Device call notification extension
US20180343233A1 (en) Contextual name association
US20180364809A1 (en) Perform function during interactive session
US11048782B2 (en) User identification notification for non-personal device
US10055976B2 (en) Using device data collected from other proximate devices
US20160253996A1 (en) Activating voice processing for associated speaker
US9332525B2 (en) Intelligent repeat of notifications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150729

RJ01 Rejection of invention patent application after publication