CN107025906A - 扩展语音识别的周期的方法和产品以及信息处理设备 - Google Patents

扩展语音识别的周期的方法和产品以及信息处理设备 Download PDF

Info

Publication number
CN107025906A
CN107025906A CN201610832337.8A CN201610832337A CN107025906A CN 107025906 A CN107025906 A CN 107025906A CN 201610832337 A CN201610832337 A CN 201610832337A CN 107025906 A CN107025906 A CN 107025906A
Authority
CN
China
Prior art keywords
order
action
relation
message processing
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610832337.8A
Other languages
English (en)
Other versions
CN107025906B (zh
Inventor
拉塞尔·斯佩格特·范布恩
纳林·J·彼得森
阿诺德·S·韦克斯勒
约翰·卡尔·梅谢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo PC International Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN107025906A publication Critical patent/CN107025906A/zh
Application granted granted Critical
Publication of CN107025906B publication Critical patent/CN107025906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本申请涉及扩展语音识别的周期的方法和产品以及信息处理设备。实施方式提供了一种方法,包括:在音频捕获设备处接收激活提示;在音频捕获设备处接收在激活指示之后的至少一个命令;使用处理器基于至少一个命令来执行动作;在音频捕获设备处接收至少一个另外的命令;以及在无需另外的激活提示的情况下使用处理器基于另外的命令来执行另外的动作。还描述和要求保护了其他方面。

Description

扩展语音识别的周期的方法和产品以及信息处理设备
技术领域
本发明涉及扩展语音识别的周期的方法和产品以及信息处理设备。
背景技术
电子设备如膝上型计算机、平板计算机、智能电话、个人助理等接受用户输入(例如,在音频输入设备处)。通常,用户向这些设备提供输入以控制设备以及输入数据(例如,请求信息、访问信息,或者为通信应用提供信息)。
发展最快的用户输入方法之一是语音命令。语音命令技术使得能够通过用户语音指令来操作设备。能够接受语音控制的设备的数量和类型随着时间的过去而稳定增长。对于蜂窝电话和独立的个人智能助理尤其如此。消除使用按钮或开关来控制设备的需要使得用户能够安全有效地执行并行任务。然而,使用这些设备仍然会感到不自然或难使用,尤其当需要用户重复地激活设备时(例如,通过使用关键词或触发短语如“Ok Google”)。GOOGLE是谷歌公司在美国和其他国家的注册商标。
发明内容
总之,一方面提供了一种方法,该方法包括:在音频捕获设备处接收激活提示;在音频捕获设备处接收在激活指示之后的至少一个命令;使用处理器基于至少一个命令来执行动作;在音频捕获设备处接收至少一个另外的命令;以及在无需另外的激活提示的情况下使用处理器基于该另外的命令来执行另外的动作。
另一方面提供了一种信息处理设备,该信息处理设备包括:处理器;音频捕获设备;存储设备,其存储有指令,所述指令能够由处理器执行以:在音频捕获设备处接收激活提示;在音频捕获设备处接收在激活指示之后的至少一个命令;使用处理器基于至少一个命令来执行动作;在音频捕获设备处接收至少一个另外的命令;以及在无需另外的激活提示的情况下使用处理器基于该另外的命令来执行另外的动作。
又一方面提供了一种产品,该产品包括:存储设备,其存储有代码,所述代码能够由处理器执行并且所述代码包括:用于在音频捕获设备处接收激活提示的代码;用于在音频捕获设备处接收在激活指示之后的至少一个命令的代码;用于使用处理器基于至少一个命令来执行动作的代码;用于在音频捕获设备处接收至少一个另外的命令的代码;以及用于在无需另外的激活提示的情况下使用处理器基于至少一个另外的命令来执行另外的动作的代码。
前述是总结性的并且因此可能包含对细节的简化、概括及省略;因此,本领域技术人员要理解的是,该总结仅是说明性的并且不意在以任何方式进行限制。
为了更好地理解实施方式连同实施方式的其他特征和进一步的特征及优点,参考以下结合附图的描述。本发明的范围将在所附权利要求中指出。
附图说明
图1示出了信息处理设备线路的示例。
图2示出了信息处理设备线路的另一示例。
图3示出了扩展语音识别的周期的示例方法。
具体实施方式
将容易理解的是,可以用除了所描述的示例实施方式之外的多种不同的配置来布置和设计如本文附图中大体描述并示出的实施方式的部件。从而,如在附图中示出的示例实施方式的以下更详细的描述,并不意在限制所要求保护的实施方式的范围,而是仅代表示例实施方式。
遍及本说明书,对“一个(one)实施方式”或“一种(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包括在至少一个实施方式中。因此,遍及本说明书的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指同一实施方式。
而且,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体细节以给出对实施方式的透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下实施各种实施方式,或者可以使用其他的方法、部件、材料等来实施各种实施方式。在其他情况下,不再详细地示出或描述公知的结构、材料或操作以避免混淆。
为了接收音频数据作为输入(例如,语音命令),必须启用音频捕获设备并主动地聆听音频输入。然而,由于各种因素(例如,电池寿命、隐私顾虑等),大多数音频捕获设备无法不断地处理音频。因此,用户必须通过一些用户输入方法来激活语音命令模式。一种方法是按下设备上提示用户随后输入语音命令的按钮(例如,软件按钮或硬件按钮)。可替选地,可以使用触发词或短语来激活个人助理应用(例如,“Ok Google”、“Hey Siri”、“HeyCortana”、“Alexa”等)。SIRI是苹果公司在美国和其他国家的注册商标。CORTANA是微软公司在美国和其他国家的注册商标。
通常,每个单独的命令需要唤醒词或触发短语。一些语音命令会导致对来自数字助理的问题的确认或澄清,但这仅适用于不完整的命令或需要更多信息的命令。对用户而言,这产生的技术问题是:即使用户连续地或在短期内发出多个命令,仍然需要他们不断地重复唤醒词或短语。这种对单个短语的不断重复引起用户与设备之间笨拙并且令人不愉快的交互。因此,需要以下解决方案:在大多数情境下所述解决方案方便得多,并且不抑制人们交谈的流畅自然。
因此,实施方式扩展了初始唤醒词会话以聆听可能跟随的音频数据(例如,语音命令)。可以将这些跟随的命令过滤成与初始命令本质上相似的命令。例如,这些命令可以在以下方面相似:它们包括相同的应用、相似的软件等。在一个实施方式中,可以基于预定时间周期(例如,30秒、1分钟等)和/或直到在接受最后一个命令或执行了与该命令相关联的动作之后在静态时间周期期间给出/接收总的预定数量命令为止,接受(一个或多个)次级命令。另外,只要先前的任务或命令是活动的,实施方式就可以接受附加命令。例如,如果实施方式正在给用户阅读当前的新闻,则用户可以请求关于正在阅读的特定新闻文章的进一步的细节(例如,通过说“告诉我关于这个故事的更多情况”)。
一个实施方式可以接收音频输入(例如,用户语音输入),并且对输入进行解析以识别激活提示或触发短语(例如,Ok Google)及命令。此外,实施方式可以基于所接收的命令来采取动作(例如,基于请求给出天气预报)。此外,实施方式可以接收不包含激活提示的附加音频输入(例如,另一用户语音命令)。对附加音频输入进行分析以确定附加音频输入与先前输入的音频输入之间是否存在关系。本文中详细讨论了可能的关系的示例。一旦确定了关系,则实施方式可以执行附加输入中所请求的动作。
参照附图可以最好地理解所示出的示例实施方式。下面的描述意在举例说明,并且仅示出了某些示例实施方式。
虽然可以在信息处理设备中利用各种其他电路、线路或部件,但是对于智能电话和/或平板计算机线路100而言,图1所示的示例包括例如在平板或其他移动计算平台中发现的片上系统设计。软件和(一个或多个)处理器被组合在单芯片110中。处理器包括如本领域公知的内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。内部总线等取决于不同的供应商,但基本上所有外围设备(120)可以附接至单芯片110。线路100将处理器、存储器控制以及I/O控制器集线器全部组合到单芯片110中。此外,这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。
存在有(一个或多个)电力管理芯片130,例如电池管理单元BMU,电池管理单元BMU管理例如经由可再充电电池140供给的电力,可再充电电池140可以通过连接至电源(未示出)来再充电。在至少一个设计中,单芯片如110用于提供类似BIOS的功能和DRAM存储器。
系统100通常包括用于连接至各种网络(例如电信网络和无线因特网设备,如接入点)的WWAN收发器150和WLAN收发器160中的一个或更多个。另外,设备120通常包括例如音频输入设备,如将模拟音频处理成数字输入信号的麦克风。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器设备,例如闪速存储器180和SDRAM(同步动态随机存储器)190。
图2示出了信息处理设备电路、线路或部件的另一示例的框图。图2中示出的示例可以与计算系统(例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人计算机或其他设备)相对应。根据此处的描述明显的是,实施方式可以包括图2中示出的示例的特征中的仅一些特征或其他特征。
图2的示例包括所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组),芯片组210具有可以取决于制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是英特尔公司在美国和其他国家的注册商标。AMD是超微半导体公司在美国和其他国家的注册商标。ARM是安谋公司(ARM Holdings plc)在美国和其他国家的未注册商标。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250,该核和存储器控制组220和I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,DMI 242是芯片到芯片的接口(有时也被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226;注意,组220的部件可以被集成在代替传统的“北桥”式架构的芯片中。一个或更多个处理器222包括现有技术中已知的内部运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。
在图2中,存储器控制器集线器226与存储器240对接(例如,为可以被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226还包括用于显示设备292(例如CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以经由LVDS接口232来支持的一些技术(例如,串行数字视频、HDMI/DVI、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。
在图2中,I/O集线器控制器250包括SATA接口251(例如,用于HDD、SDD 280等)、PCI-E接口252(例如,用于无线连接282)、USB接口253(例如,用于设备284如数字转换器、键盘、鼠标、相机、电话、麦克风、存储器、其他连接设备等)、网络接口254(例如LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276,如ROM 277、闪存278和NVRAM 279)、电力管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括BIOS 268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆以太网支持。
系统在通电时可以被配置成执行在SPI闪存266内存储的用于BIOS 268的启动代码290,此后,在一个或多个操作系统和应用软件(例如,存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任何位置处,并且可以例如根据BIOS 268的指令来访问。如本文中所述,设备可以包括与在图2的系统中示出的特征相比更少或者更多的特征。
信息处理设备线路,如在图1中或图2中所示出的示例,可以用于如平板电脑、智能电话、个人计算机设备等设备中和/或用于用户通常可以发出语音命令以执行特定动作的电子设备中。例如,图1中所示出的线路可以在平板电脑或智能电话实施方式中实现,然而,图2中所示出的线路可以在个人计算机实施方式中实现。
现在参照图3,在310处,实施方式可以接收音频输入。音频输入可以具有各种类型,例如以命令输入形式的人类语音。另外,可以从媒体设备(例如,无线电广播设备、电视机、计算机等)产生音频输入。在310处,当接收到音频时,实施方式可以对音频进行解析以确定音频是否包括激活提示或触发短语。激活提示或触发短语使得设备能够“唤醒”(例如,使得设备能够捕获并分析音频以执行关联命令)。通常,该唤醒周期短暂并且仅意在允许输入单个命令。因此,如果用户想输入多个命令,则需要他们重复特定短语或词来唤醒设备并进入活动语音处理模式,以基于所给出的命令采取每个后续动作。
在310处,实施方式可以识别所捕获的音频数据中的一个或更多个命令。因此,实施方式可以接收包括激活提示以及命令的音频输入(例如,“明天天气怎么样?”)。一旦实施方式确定所捕获的音频包括激活提示,在320处,它就可以基于所接收的关联命令来执行动作。例如,用户可以要求实施方式读取/显示电子邮件、读取/显示当前的新闻、读取/显示用户的约会日程等。虽然本文公开了各种示例动作,然而,应当理解,在320处,可以由电子设备执行的任何可想到的命令可以作为音频输入的一部分来接收并且作为命令来处理。
在320处,一旦已经执行了动作,在330处,实施方式就可以接收附加音频输入。与所接收的第一音频输入类似,附加音频可以包括至少一个命令。然后,在340处,实施方式确定附加音频输入与先前确定的命令之间是否存在关系。此关系可以采用多种形式如本文中所讨论的那些形式。
例如,在340处,实施方式可以基于初始音频输入与次级音频输入之间经过的预定时间量来确定关系存在。另外地或可替选地,预定时间量可以在当在320处执行动作时与当在330处接收第二音频输入(即,第二命令)时之间。例如,实施方式可以接收包括激活提示和第一命令的第一音频输入。如果在预定时间段(例如,10秒、30秒、1分钟等)内接收到了包括第二命令的第二音频输入,则即使还没有为第二命令提供唤醒提示,在360处,实施方式仍然可以基于所接收的第二命令来执行动作。然而,如果在330处在预定时间段外接收到了附加输入,则在350处实施方式可以不采取行动。
在340处,实施方式可以通过识别初始动作或在前动作与另一动作(即,基于附加音频输入中的次级命令的次级动作)之间的相关性或关联性来确定命令与附加输入之间存在关系。例如,如果用户请求实施方式打开他们的灯,则他们可以随后请求使灯变暗或变亮。使灯变暗的命令将由实施方式识别为与先前命令紧密相关或关联(在这种情况下,专题性地或上下文地)。从而,随后的命令将不要求附加激活提示。识别这种相关性或关联性大大提高语音命令的可用性。
在实施方式中,可以在先前动作的处理期间所接收的命令之间进行相关或关联。例如,用户可以请求全面的天气信息(例如,说“Cortana,天气怎么样”),然后,当所请求的信息正被递送给用户时,实施方式可以接收并解析由用户进一步提供的音频输入。因此,如果在正递送信息时例如用户说“停”,则实施方式可以停止提供天气信息。可选地,实施方式可以结束唤醒周期直到此后接收到附加激活提示为止。可替选地,实施方式可以停止递送天气信息并且使得用户能够在无需激活提示(例如,唤醒词或短语)的情形下来输入附加语音数据。
另外,在340处所确定的关系可以基于通用短语或任务特定短语。例如,通用短语可以是术语如可以与其他命令一起使用的“停止”。因此,如果用户的初始命令涉及可以在一段时间内发生的动作(例如,报告新闻、阅读天气、阅读电子邮件等),则术语“停止”是与正在进行的动作一般相关或关联的术语。可替选地,在任务特定短语的情况下,例如在打开灯之后立即请求使灯变暗,则第一命令与第二命令之间存在特定相关性或关联性。因此,如果先前命令具有很强的专题相关,如打开灯的行为(例如,基于关键词并使用局部层级进行分析),则实施方式将仅采取关于“变暗”命令的行动。
在实施方式中,在340处识别的关系可以基于地理位置。因此,实施方式可以知道用户或设备在地理位置(例如,用户的家)内并且可以基于预期的命令来扩展唤醒周期。例如,如果实施方式检测到设备在用户家中,并且用户发出打开灯的命令,接着发出调节温度的命令,则实施方式可以基于地理位置来确定两个请求之间存在很强的相关性,原因是通常房主一回到家就会采取某些行动。可替选地,如果两个命令之间不存在地理联系,则不会确定出这两个命令关于彼此具有关系或相关性。
在实施方式中,在340处确定的关系可以基于一天中的时间。与上面的示例类似,如果实施方式确定时间为下午6:30,则实施方式可以例如基于默认规则和/或经由用户的输入历史来确定通常用户在每个工作日下午6:30回到家并且发出一个或更多个命令。因此,由于一天中的时间(例如,一天中用户回到家并随后调节与家里舒适相关的各种因素的时间),可以确定一系列命令如打开灯、调节温度和打开电视具有很强的关系。因此,实施方式可以作用于在缺少特定激活触发(例如唤醒词或短语)的情况下检测到的这些语音输入中的一个或更多个语音输入。
在340处确定的关系可以基于一个或更多个当前活动的应用。例如,如果用户请求实施方式播放特定媒体文件(例如,音乐、视频等),则这种实施方式可以预测与媒体播放应用相关的后续请求,如:开大/调小音量、暂停、跳过曲目/章节等。借助于进一步的示例,实施方式可以基于语音命令(例如,“Cortana,播放汤姆佩蒂”)来播放音乐,并且然后在没有唤醒词(例如,激活提示)的情况下使得用户能够发出附加的相关命令(例如,“开大音量”、“跳过”、“我喜欢这个”、“暂停”“停止”等)。从而,与音乐或媒体回放相关的任何命令不需要唤醒词。如本文中所讨论的,另一实施方式可以在预定时间段内聆听与音乐相关的命令。
另外地或可替选地,关系可以基于一个或更多个最近活动的应用。借助于示例,如果用户在查看电子邮件之后立即发出阅读新闻的命令,则即使先前的命令关于对新闻的请求,实施方式仍然可以使得用户能够输入与电子邮件帐户相关的后续命令(例如,撰写、答复、删除等)。
可以使用个人语音识别。基于对个人的识别,例如,在310处,实施方式可以仅接受来自发出初始命令的人的命令。这样做,实施方式可以扩展可用时间以输入命令,同时还确保由单个用户发出命令。因此,通过语音过滤,实施方式可以在例如预定时间段内识别发出第一命令的个人并且从该用户接收后续命令。因此,在340处确定的关系基于在360处执行次级动作之前执行的语音识别算法。
在340处,实施方式还可以基于外部因素来确定关系。例如,实施方式可以仅接受用户是否正主动查看设备的命令。从而,如果在310处当设备接收第一音频时用户正在查看设备,则可以建立与用户是否继续查看或再次查看设备(例如,移动设备、计算机、智能助理等)的第二命令的关系。可替选地,如果用户在输入第二命令(即,在330处接收附加音频输入)之前转移目光,则在350处实施方式可以不采取行动。
除了本文中所讨论的通用相关性和特定相关性以外,实施方式可以基于历史用户数据来识别命令之间的关系。例如,实施方式可以存储或访问由用户输入的任何历史命令。因而,如果用户定期发出一系列不相关的命令,则实施方式可以随着时间进行学习并且基于所存储的历史数据来创建命令之间的关系。例如,如果用户在调节了房间中的亮度水平(例如,使灯变暗)之后立即调节电视机的音量(例如,调小音量),则即使这两个命令通常不相关或例如默认先前不相关,实施方式仍然可以创建两个命令之间的关系。
可以维持先前发出的命令的列表并用于识别用户过去已经做出跟随的命令的请求。因而,实施方式可以聆听通常跟随有其他命令(例如,由一般人群或由特定用户)的命令。例如,在请求播放媒体(例如,音乐、视频等)之后,用户通常可以例如基于媒体类型(例如,硬摇滚、古典音乐等)、设备应用的当前音量设置等立即或马上调节设备的回放音量。因而,实施方式可以基于媒体类型等来预测即将到来的音量控制命令(例如,开大或调小),并且扩展指令输入的时间段。另外地或可替选地,实施方式可以确定出(例如,基于历史用户输入随时间进行学习)默认关系是不必要的。例如,如果用户从未调节他们的音乐音量,则设备可以在播放音乐之后停止聆听跟随的命令。实施方式还可以允许在时间段内接收不相似的命令。不相似的命令可以使得用户能够给出一连串不相关的命令。可以学习、启用或过滤掉这些不相关的命令。
因此,如由示例实施方式和附图所示出的,实施方式提供了一种在音频捕获设备处接收音频输入的方法。这个初始音频输入通常包括激活提示和至少一个命令。此外,实施方式基于所接收的命令来执行动作。在随后的一些时刻,由实施方式接收附加音频输入,并且该实施方式确定是否需要新的激活提示。为了做出该确定,实施方式试图识别初始音频输入与次级输入之间是否存在关系。在本文最后讨论了可能的关系的示例。随后,基于该确定,实施方式将基于次级命令来执行动作或者如果不存在关系则不采取行动。
因此,本文中描述的各种实施方式表示通过改变处理音频输入的方式来改进与电子设备交互的技术。此改进还使得设备能够基于先前的用户动作随时间进行学习。因此,实施方式存储先前输入的用户命令的历史库,并且基于历史数据来创建特定命令之间的相关性。该相关性的创建使得用户能够更自然地讲话,并且以高效舒适的方式执行任务。
如本领域的技术人员将理解的,各个方面可以实施为系统、方法或设备程序产品。因此,各个方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式,这些形式在本文中可以全部统称为“电路”、“模块”或“系统”。此外,各个方面可以采用包含在一个或更多个设备可读介质中的设备程序产品的形式,所述一个或更多个设备可读介质包含有设备可读程序代码。
应当注意,本文中所描述的各种功能可以使用由处理器执行的存储在设备可读存储介质(例如非信号存储设备)上的指令来实现。存储设备可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或设备或者前述各项的任何适当的组合。存储介质的更多具体示例包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式压缩盘只读存储器(CD-ROM)、光存储设备、磁存储设备,或前述各项的任何适当的组合。在本文献的上下文中,存储介质不是信号并且是“非暂时的”,包括除信号介质之外的全部介质。
可以使用任何适当的介质,包括但不限于无线、有线、光纤电缆、RF等或前述各项的任何适当的组合,来传输在存储介质上所包含的程序代码。
可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包部分地在一个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接设备,或者可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接(例如近场通信)或通过硬线连接(如通过USB连接)来进行连接。
本文参照示出了根据各种示例实施方式的示例方法、设备和程序产品的附图来描述示例实施方式。应当理解,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供至设备的处理器、专用信息处理设备的处理器或其他可编程数据处理设备的处理器以产生机器,使得经由设备的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性示例。由于明确说明的示例仅用于描述的目的而不应被解释为限制,所以在某些情况下,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以根据需要将某些块重新排序或重新组织。
如本文所使用的,除非另外清楚地指明,否则单数“一个(a)”和“一个(an)”可以被解释为包括复数“一个或更多个”。
提出本公开内容是为了说明和描述的目的,而非意在是穷举或限制。对本领域普通技术人员而言,许多修改和变型是明显的。选择并描述了示例实施方式以解释原理和实际应用,并且使得本领域其他技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容。
因此,尽管本文已经参照附图描述了说明性的示例实施方式,但要理解的是,这种描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以做出各种其他变化和修改。

Claims (20)

1.一种扩展语音识别的周期的方法,包括:
在音频捕获设备处接收激活提示;
在所述音频捕获设备处接收在所述激活指示之后的至少一个命令;
使用处理器基于所述至少一个命令来执行动作;
在所述音频捕获设备处接收至少一个另外的命令;以及
在无需另外的激活提示的情况下使用所述处理器基于所述至少一个另外的命令来执行另外的动作。
2.根据权利要求1所述的方法,其中,执行所述另外的动作要求在执行所述动作之后在预定时间量内接收附加音频输入。
3.根据权利要求1所述的方法,其中,基于所述至少一个另外的命令来执行所述另外的动作还包括:
识别所述至少一个另外的命令与所述至少一个命令之间的关系。
4.根据权利要求3所述的方法,其中,所述关系基于所述动作与所述另外的动作之间的关联。
5.根据权利要求3所述的方法,其中,所述关系基于位置。
6.根据权利要求3所述的方法,其中,所述关系基于一天中的时间。
7.根据权利要求3所述的方法,其中,所述关系基于至少一个当前活动的应用。
8.根据权利要求3所述的方法,其中,所述关系基于至少一个最近活动的应用。
9.根据权利要求1所述的方法,其中,基于所述至少一个另外的命令来执行所述另外的动作还包括:
在存储设备中访问历史用户语音数据;
使用所述历史用户语音数据基于所述至少一个命令来识别至少一个关联命令;以及
如果所述至少一个另外的命令与所述至少一个关联命令相关联,则执行所述另外的动作。
10.根据权利要求1所述的方法,其中,基于所述至少一个另外的命令来执行所述另外的动作还包括:
响应于确定出所述至少一个另外的命令与至少一个通用命令匹配而执行所述另外的动作。
11.一种信息处理设备,包括:
处理器;
音频捕获设备;
存储设备,所述存储设备存储有指令,所述指令能够由所述处理器执行以:
在所述音频捕获设备处接收激活提示;
在所述音频捕获设备处接收在所述激活指示之后的至少一个命令;
使用所述处理器基于所述至少一个命令来执行动作;
在所述音频捕获设备处接收至少一个另外的命令;以及
在无需另外的激活提示的情况下使用所述处理器基于所述至少一个另外的命令来执行另外的动作。
12.根据权利要求11所述的信息处理设备,其中,执行所述另外的动作要求在执行所述动作之后在预定时间量内接收附加音频输入。
13.根据权利要求11所述的信息处理设备,其中,基于所述至少一个另外的命令来执行所述另外的动作还包括:
识别所述至少一个另外的命令与所述至少一个命令之间的关系。
14.根据权利要求13所述的信息处理设备,其中,所述关系基于所述动作与所述另外的动作之间的关联。
15.根据权利要求13所述的信息处理设备,其中,所述关系基于位置。
16.根据权利要求13所述的信息处理设备,其中,所述关系基于一天中的时间。
17.根据权利要求13所述的信息处理设备,其中,所述关系基于以下因素,所述因素选自:至少一个当前活动的应用以及至少一个最近活动的应用。
18.根据权利要求11所述的信息处理设备,其中,基于所述至少一个另外的命令来执行所述另外的动作还包括:
在存储设备中访问历史用户语音数据;
使用所述历史用户语音数据基于所述至少一个命令来识别至少一个关联命令;以及
如果所述至少一个另外的命令与所述至少一个关联命令相关联,则执行所述另外的动作。
19.根据权利要求11所述的信息处理设备,其中,基于所述至少一个另外的命令来执行所述另外的动作还包括:
响应于确定出所述另外的命令与至少一个通用命令匹配而执行所述另外的动作。
20.一种扩展语音识别的周期的产品,包括:
存储设备,所述存储设备存储有代码,所述代码能够由处理器执行并且所述代码包括:
用于在音频捕获设备处接收激活提示的代码;
用于在所述音频捕获设备处接收在所述激活指示之后的至少一个命令的代码;
用于使用所述处理器基于所述至少一个命令来执行动作的代码;
用于在所述音频捕获设备处接收至少一个另外的命令的代码;以及
用于在无需另外的激活提示的情况下使用所述处理器基于所述至少一个另外的命令来执行另外的动作的代码。
CN201610832337.8A 2015-12-09 2016-09-19 扩展语音识别的周期的方法和产品以及信息处理设备 Active CN107025906B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/963,995 2015-12-09
US14/963,995 US9940929B2 (en) 2015-12-09 2015-12-09 Extending the period of voice recognition

Publications (2)

Publication Number Publication Date
CN107025906A true CN107025906A (zh) 2017-08-08
CN107025906B CN107025906B (zh) 2020-10-02

Family

ID=58773693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610832337.8A Active CN107025906B (zh) 2015-12-09 2016-09-19 扩展语音识别的周期的方法和产品以及信息处理设备

Country Status (3)

Country Link
US (1) US9940929B2 (zh)
CN (1) CN107025906B (zh)
DE (1) DE102016122708A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388365A (zh) * 2017-08-09 2019-02-26 联想(新加坡)私人有限公司 信息处理方法、信息处理设备及计算机可读存储介质
CN109427333A (zh) * 2017-08-25 2019-03-05 三星电子株式会社 激活语音识别服务的方法和用于实现所述方法的电子装置
CN112243526A (zh) * 2018-06-05 2021-01-19 三星电子株式会社 语音辅助设备及其方法
CN112272819A (zh) * 2018-06-05 2021-01-26 三星电子株式会社 被动唤醒用户交互设备的方法和系统
CN112530419A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956485B2 (en) * 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US10630751B2 (en) 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
KR101820291B1 (ko) * 2016-01-15 2018-01-19 현대자동차주식회사 차량용 음성 인식 제어 장치 및 그 방법
JP6659514B2 (ja) * 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107564517A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
KR102098633B1 (ko) * 2017-08-22 2020-04-08 네이버 주식회사 인공지능 기기에서의 연속 대화 기능
US10847149B1 (en) * 2017-09-01 2020-11-24 Amazon Technologies, Inc. Speech-based attention span for voice user interface
US10685648B2 (en) 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US11016729B2 (en) 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
WO2019107145A1 (ja) * 2017-11-28 2019-06-06 ソニー株式会社 情報処理装置、及び情報処理方法
KR102079979B1 (ko) * 2017-12-28 2020-02-21 네이버 주식회사 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템
KR102101373B1 (ko) * 2018-02-19 2020-04-16 주식회사 셀바스에이아이 기준 화자 모델을 이용한 음성 인식 장치 및 이를 이용한 음성 인식 방법
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
KR102173841B1 (ko) * 2018-09-20 2020-11-05 현대오토에버 주식회사 복수의 인공지능 음성단말장치를 이용하여 구역별 전자장치를 제어하는 시스템 및 방법
CN110444210B (zh) * 2018-10-25 2022-02-08 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
KR20210013607A (ko) * 2019-02-27 2021-02-04 구글 엘엘씨 컴퓨팅 장치를 사용한 지속적인 대화 감지
US11676582B2 (en) * 2019-02-27 2023-06-13 Google Llc Detecting conversations with computing devices
WO2020226213A1 (ko) * 2019-05-09 2020-11-12 엘지전자 주식회사 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
CN114174972B (zh) 2019-07-19 2024-05-17 谷歌有限责任公司 用于复杂应用gui的自动化助理控制的压缩口头话语
KR20220005590A (ko) * 2019-07-22 2022-01-13 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
CN112533041A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
CN112669831B (zh) * 2019-09-29 2022-10-21 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质
CN112581945A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN112581969A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11418358B2 (en) 2019-11-04 2022-08-16 International Business Machines Corporation Smart device active monitoring
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
JP7405660B2 (ja) * 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
KR102241792B1 (ko) * 2020-04-02 2021-04-19 네이버 주식회사 인공지능 기기에서의 연속 대화 기능
US11557278B2 (en) * 2020-12-10 2023-01-17 Google Llc Speaker dependent follow up actions and warm words

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020078A (ja) * 1998-07-02 2000-01-21 Daiichikosho Co Ltd 選曲履歴を表示する通信カラオケ演奏端末
US20020152190A1 (en) * 2001-02-07 2002-10-17 International Business Machines Corporation Customer self service subsystem for adaptive indexing of resource solutions and resource lookup
CN1460246A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 在同步回放的过程中文本编辑所识别的语音
CN1460245A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 编辑期间使音频光标与文本光标同步
CN103842773A (zh) * 2011-09-13 2014-06-04 三菱电机株式会社 导航装置
US20140195252A1 (en) * 2010-01-18 2014-07-10 Apple Inc. Systems and methods for hands-free notification summaries
CN104076916A (zh) * 2013-03-29 2014-10-01 联想(北京)有限公司 一种信息处理方法以及电子设备
US20140337028A1 (en) * 2013-05-12 2014-11-13 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
US20150019217A1 (en) * 2005-08-05 2015-01-15 Voicebox Technologies Corporation Systems and methods for responding to natural language speech utterance
WO2015049198A1 (fr) * 2013-10-01 2015-04-09 Aldebaran Robotics Procede de dialogue entre une machine, telle qu'un robot humanoïde, et un interlocuteur humain, produit programme d'ordinateur et robot humanoïde pour la mise en œuvre d'un tel procede
US20150302855A1 (en) * 2014-04-21 2015-10-22 Qualcomm Incorporated Method and apparatus for activating application by speech input

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
US7139713B2 (en) * 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US9190074B1 (en) * 2013-01-30 2015-11-17 Google Inc. Multi-level voice menu
US20150199965A1 (en) * 2014-01-16 2015-07-16 CloudCar Inc. System and method for recognition and automatic correction of voice commands
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020078A (ja) * 1998-07-02 2000-01-21 Daiichikosho Co Ltd 選曲履歴を表示する通信カラオケ演奏端末
US20020152190A1 (en) * 2001-02-07 2002-10-17 International Business Machines Corporation Customer self service subsystem for adaptive indexing of resource solutions and resource lookup
CN1460246A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 在同步回放的过程中文本编辑所识别的语音
CN1460245A (zh) * 2001-03-29 2003-12-03 皇家菲利浦电子有限公司 编辑期间使音频光标与文本光标同步
US20150019217A1 (en) * 2005-08-05 2015-01-15 Voicebox Technologies Corporation Systems and methods for responding to natural language speech utterance
US20140195252A1 (en) * 2010-01-18 2014-07-10 Apple Inc. Systems and methods for hands-free notification summaries
CN103842773A (zh) * 2011-09-13 2014-06-04 三菱电机株式会社 导航装置
CN104076916A (zh) * 2013-03-29 2014-10-01 联想(北京)有限公司 一种信息处理方法以及电子设备
US20140337028A1 (en) * 2013-05-12 2014-11-13 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
WO2015049198A1 (fr) * 2013-10-01 2015-04-09 Aldebaran Robotics Procede de dialogue entre une machine, telle qu'un robot humanoïde, et un interlocuteur humain, produit programme d'ordinateur et robot humanoïde pour la mise en œuvre d'un tel procede
US20150302855A1 (en) * 2014-04-21 2015-10-22 Qualcomm Incorporated Method and apparatus for activating application by speech input

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388365A (zh) * 2017-08-09 2019-02-26 联想(新加坡)私人有限公司 信息处理方法、信息处理设备及计算机可读存储介质
CN109427333A (zh) * 2017-08-25 2019-03-05 三星电子株式会社 激活语音识别服务的方法和用于实现所述方法的电子装置
CN109427333B (zh) * 2017-08-25 2024-04-16 三星电子株式会社 激活语音识别服务的方法和用于实现所述方法的电子装置
CN112243526A (zh) * 2018-06-05 2021-01-19 三星电子株式会社 语音辅助设备及其方法
CN112272819A (zh) * 2018-06-05 2021-01-26 三星电子株式会社 被动唤醒用户交互设备的方法和系统
CN112272819B (zh) * 2018-06-05 2024-04-26 三星电子株式会社 被动唤醒用户交互设备的方法和系统
CN112530419A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质
CN112530419B (zh) * 2019-09-19 2024-05-24 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN107025906B (zh) 2020-10-02
US20170169817A1 (en) 2017-06-15
DE102016122708A1 (de) 2017-06-14
US9940929B2 (en) 2018-04-10

Similar Documents

Publication Publication Date Title
CN107025906A (zh) 扩展语音识别的周期的方法和产品以及信息处理设备
TWI665584B (zh) 語音控制系統及方法
CN110770772A (zh) 被配置为自动定制动作组的虚拟助手
CN108538291A (zh) 语音控制方法、终端设备、云端服务器及系统
EP3611724A1 (en) Voice response method and device, and smart device
CN105453070B (zh) 基于机器学习的用户行为表征
US10599469B2 (en) Methods to present the context of virtual assistant conversation
CN104951335B (zh) 应用程序安装包的处理方法及装置
CN107209781A (zh) 使用自然语言的上下文搜索
KR102343084B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
CN106133826A (zh) 用于语言模型自定义的灵活模式
US11527251B1 (en) Voice message capturing system
CN108701127A (zh) 电子设备及其操作方法
JP2016062239A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US11178280B2 (en) Input during conversational session
CN104035995A (zh) 群标签生成方法及装置
CN111177453A (zh) 控制音频播放的方法、装置、设备及计算机可读存储介质
CN108694941A (zh) 用于交互式会话的方法、信息处理装置及产品
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
JP6355974B2 (ja) 発話装置、発話制御装置、発話制御システム、発話装置の制御方法、発話制御装置の制御方法、および制御プログラム
CN106407176A (zh) 在语音识别中插入字符的方法和设备
CN109388365A (zh) 信息处理方法、信息处理设备及计算机可读存储介质
CN111063350A (zh) 基于任务栈的语音交互状态机及其实现方法
CN107870899A (zh) 信息处理方法、信息处理设备及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210831

Address after: 23 / F, Lincoln building, 979 King's road, Quarry Bay, Hong Kong, China

Patentee after: Lenovo PC International Limited

Address before: Singapore City

Patentee before: Lenovo (Singapore) Pte. Ltd.