CN113841118A - 多个语音助理的激活管理 - Google Patents

多个语音助理的激活管理 Download PDF

Info

Publication number
CN113841118A
CN113841118A CN202080037174.9A CN202080037174A CN113841118A CN 113841118 A CN113841118 A CN 113841118A CN 202080037174 A CN202080037174 A CN 202080037174A CN 113841118 A CN113841118 A CN 113841118A
Authority
CN
China
Prior art keywords
voice assistant
voice
assistant applications
keyword
uninterruptible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080037174.9A
Other languages
English (en)
Other versions
CN113841118B (zh
Inventor
A·M·特鲁芬内斯库
A·J·B·布鲁什
K·J·恩德雷斯
L·J·斯蒂夫曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202311513748.7A priority Critical patent/CN117542360A/zh
Publication of CN113841118A publication Critical patent/CN113841118A/zh
Application granted granted Critical
Publication of CN113841118B publication Critical patent/CN113841118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

一种系统和方法包括:检测多个语音关键词中的一个语音关键词的用户话语,该多个语音关键词中的每个语音关键词与相应的语音助理应用相关联;响应于对多个相应语音关键词中的一个语音关键词的检测,确定多个语音助理应用中的任何语音助理应用是否被指定为不可中断的;以及如果确定多个语音助理应用中没有一个语音助理应用被指定为不可中断的,则激活多个语音助理应用中的与检测到的关键词相关联的一个语音助理应用。

Description

多个语音助理的激活管理
背景技术
语音助理在现代计算设备中迅速变得无处不在。用户可以与语音助理交互以控制计算设备的功能性。当计算设备接收并识别与语音助理相关联的语音关键词时,语音助理被激活并启动,以使用户参与语音驱动的计算体验。
各种计算平台提供它自己的相应语音助理。每个语音助理都会响应于专用关键词而被激活,该关键词可以由一个或多个词语组成。例如,在Windows操作系统上,语音助理小娜用关键词“你好小娜(Hey Cortana)”激活,在谷歌设备上,语音助理用关键词“好的谷歌(OK Google)”激活,并且在亚马逊设备上,语音助理用关键词“亚莉克莎(Alexa)”激活。
计算平台可以被配置为支持多于一个语音助理。因此,这种计算平台必须能够检测并响应于每个支持的语音助理的每个关键词而行动。而且,在语音助理中的一个语音助理是活动时一个或多个助理的关键词被接收到的情况下,系统必须管理激活。期望有效地解决在多助理平台上管理语音助理激活中的困难的系统。
附图说明
图1是根据一些实施例的在操作期间的多助理平台的框图;
图2是根据一些实施例的在操作期间的多助理平台的框图;
图3是根据一些实施例的在操作期间的多助理平台的框图;
图4是根据一些实施例的在操作期间的多助理平台的框图;
图5是根据一些实施例的在操作期间的多助理平台的框图;
图6是根据一些实施例的在操作期间的多助理平台的框图;
图7是根据一些实施例的在操作期间的多助理平台的框图;
图8是根据一些实施例的在操作期间的多助理平台的框图;
图9是根据一些实施例的在操作期间的多助理平台的框图;
图10是根据一些实施例的在操作期间的多助理平台的框图;
图11是根据一些实施例的在多语音助理平台上管理语音助理激活的过程的流程图;
图12是根据一些实施例的在多语音助理平台上管理语音助理激活的过程的流程图;
图13是根据一些实施例的多语音助理平台的软件组件的框图;
图14图示了根据一些实施例的可以支持多语音助理平台的设备;
图15是根据一些实施例的支持多个语音助理的云计算系统的框图;以及
图16是根据一些实施例的实现多语音助理平台的计算系统的框图。
具体实施方式
以下描述被提供,以使本领域的任何人都能够制造和使用所描述的实施例。然而,各种修改对于本领域技术人员来说仍然是明显的。
本文描述的一些实施例提供了对管理由单个计算平台提供的多个语音助理的激活的技术问题的技术解决方案。根据一些实施例,在给定时间只有一个语音助理是活动的。如果在语音助理是活动时另一语音助理的语音关键词被检测到,则其他语音助理不被激活,并且活动的语音助理不被中断。
一些实施例由此保护用户体验免于由于环境噪声或由于检测到正在与当前助理的谈话中使用的关键词而随机激活。在后者方面中,一个示例被考虑,其中用户说“你好小娜,提醒我呼叫我的妻子亚莉克莎”。根据一些实施例,关键词“你好小娜”导致小娜语音助理的激活,并且关键词亚莉克莎不会导致亚莉克莎语音助理的激活。多个替代实现的细节在下面提供。
图1是根据一些实施例的在操作期间的多助理平台100的框图。平台100由激活服务器110、语音助理120和语音助理130组成。通常,用户140说出关键词150,并且激活服务器110检测关键词150并基于关键词150和本文描述的逻辑来激活语音助理120和语音助理130中的一个语音助理。
平台100可以由任何合适的一个或多个计算设备来实现。在一些实施例中,平台100是执行操作系统的个人计算机,激活服务器110是其组件。语音助理120和语音助理130可以包括与操作系统兼容并且能够经由各种应用编程接口(API)与激活服务器110通信的应用。本文描述的每个组件都可以由可执行代码实现。
如下面将描述的,平台100可以在执行操作系统的其他设备中实现,诸如智能手机或智能扬声器。激活服务器110、语音助理120和语音助理130中的一个或多个可以远离平台100的其他组件,例如在基于云的部署中。
激活服务器110、语音助理120和语音助理130中的一个或多个可以在设备固件中实现。激活服务器110、语音助理120和语音助理130中的两个或更多个可以由不同的软件供应商提供。
在本示例中,图1的虚线指示语音助理120和语音助理130在用户140说出关键词150时最初是不活动的。出于本示例的目的,关键词150是与语音助理120相关联的语音激活关键词。根据一些实施例,表示关键词150的音频信号由平台110的音频输入设备(例如麦克风)接收,并且平台110的其他组件处理音频信号以标识关键词150,确定关键词150与语音助理120相关联,并且向激活服务器110传输对应的消息。在一些实施例中,其他组件处理音频信号以标识关键词150,并且确定关键词150与注册的语音助理相关联,并且将关键词150传递给激活服务器110。激活服务器110然后确定关键词150与语音助理120相关联。
如上面提及的,语音助理120和语音助理130中的每个语音助理都可以与相应的专用关键词相关联,并且“关键词”可以由一个或多个词语组成。在一些实施例中,语音助理120和语音助理130中的一个或两者可以与多于一个相应关键词相关联,关键词中的每个关键词可以包括多于一个词语。一些实施例被设想,其中两个或更多个语音助理共享相同的一个或多个关键词。
不管激活服务器110如何确定语音助理120的语音关键词已经被接收到,如图2所示,激活服务器110向语音助理120传输激活信号。语音助理120的后续激活使用粗实线表示。如下面将描述的,语音助理120可以在激活之前对接收到的音频信号执行第二次检查,以确认关键词150被接收到(即,接收到的音频信号表示关键词150)。
如图3所描绘的,活动语音助理120可以发送语音助理120不可中断的信号(例如使用由激活服务器110公开的API)。因此,激活服务器110设置标志或者存储指示语音助理120不可中断的其他数据。
对话会话然后在活动语音助理120和用户140之间进行,如本领域已知的。为了简单起见,图4将这种对话会话图示为直接在用户140和语音助理120之间进行,但是根据已知系统,多个硬件和软件组件通常可以促进对话会话。在一些示例中,对话会话可能需要语音助理120访问平台100的其他组件(例如“设置早上6点的闹钟”)和/或外部服务(例如“今天的天气预报是什么?”),为了清晰起见,其细节在本文中省略。
图5示出了用户140在与活动语音助理120的正在进行的对话会话期间说出关键词160。例如,假设语音助理120与关键词“你好小娜”相关联并且语音助理130与关键词亚莉克莎相关联,图1至5可以描绘在说出“你好小娜,呼叫我的妻子亚莉克莎”期间平台100的操作。
如图6所示,即使在接收到与语音助理130相关联的关键词160之后,语音助理120仍然是活动的,并且与用户140进行对话会话。如下面将详细描述的,在一些实施例中,说出关键词160使激活服务器110接收关键词160的指示。作为响应,激活服务器110确定语音助理120是活动的并且已被标记为不可中断。因此,激活服务器110不将激活信号发送给语音助理130,即使平台100接收并检测到与语音助理130相关联的关键词160。
图7描绘了用户140和语音助理120之间的对话会话的终止。具体地,语音助理120向激活服务器110传输信号,指示语音助理120将变得不活动。在一些实施例中,在进入会话的最终说话状态时,语音助理120向激活服务器发送信号,指示语音助理120不再是不可中断的(例如“可中断”信号),然后如图7所描绘的,变得不活动。这种实施例允许在语音助理120变得不活动之前激活另一语音助理。
图8描绘了在语音助理120向激活服务器110指示其不活动之后平台100的状态。语音助理120和语音助理130是不活动的,并且没有与用户140的对话会话正在进行。
现在假设用户140说出关键词160,如图9所示,并且关键词160是与语音助理130相关联的语音激活关键词。同样,表示关键词160的音频信号可以由平台110的音频输入设备接收,并且平台110的其他未示出的组件可以处理音频信号以标识关键词160,确定关键词160与语音助理130相关联,并且将对应的消息传输给激活服务器110。备选地,其他组件处理音频信号以标识关键词160,以确定关键词160与注册的语音助理相关联,并且将关键词160传递给激活服务器110。然后激活服务器110确定接收到的关键词160与语音助理130相关联。
响应于确定语音助理160的语音关键词已被接收到,激活服务器110向语音助理130传输激活信号,如图10所示。语音助理130接收激活信号,并且作为响应激活。语音助理130还可以在激活之前对接收到的音频信号执行第二次检查,以确认接收到的音频信号表示关键词160。
图11是根据一些实施例的过程1100的流程图。过程1100和本文描述的其他过程可以使用硬件和软件的任何合适的组合来执行。实施这些过程的软件程序代码可以由任何非瞬态有形介质存储,包括固定盘、易失性或非易失性随机存取存储器、DVD、闪存驱动器或磁带,并且由任何数量的处理单元执行,包括但不限于处理器、处理器核心和处理器线程。实施例不被限于下面描述的示例。
过程1100可以由诸如平台100的激活服务器110等激活服务器来执行,但实施例不被限于此。过程1100可以由支持两个或更多个语音助理的平台来执行。
流程在S1110中循环,直到与语音助理相关联的关键词被检测到为止。平台执行过程1100的一个或多个语音助理可以与两个或更多个关键词相关联。在S1110中检测关键词可以包括从平台的另一组件接收关键词检测信号。S1110中的关键词检测可以包括接收音频信号(例如经由对周围音频环境的被动监测),并且确定接收到的音频信号表示与注册到平台的语音助理相关联的关键词。该确定可以包括对音频信号的语音到文本处理以及将所得文本与关联于注册的语音助理的关键词列表进行比较。
一旦与语音助理相关联的关键词被检测到,流程就从S1110进行到S1120。在S1120中,确定是否有任何注册的语音助理当前是不可中断的。如上面描述的,先前激活的语音助理可以将其自身指示为不可中断的,例如使用由激活服务器公开的API。该指示可以被存储并且用于S1120中的确定中。
根据一些实施例,语音助理的不可中断性的确定基于语音助理的状态。例如,语音助理可能处于非活动状态或活动状态。活动状态可以包括诸如说话、聆听和思考等状态。在S1120中,由于语音助理处于“思考”活动状态,可以确定平台的语音助理不可中断。
S1120中的确定可以基于语音助理状态信息和/或不可中断性标志的任何合适的组合。
如果在S1120中确定任何当前注册的语音助理是不可中断的,则没有激活响应于检测到的关键词而传输,并且流程返回到S1110以等待上面描述的对关键词的检测。
如果确定没有注册的语音助理是不可中断的,则流程从S1120进行到S1130。在S1130中,激活被发送给与检测到的关键词相关联的语音助理。然后流程返回到S1110以等待对关键词的检测。同时,接收激活的语音助理可以激活,并且开始与用户的对话会话。如上面描述的,为了S1120中的任何后续确定的目的,该语音助理还可以指示它是不可中断的。
图12图示了可以由多语音助理平台的激活服务器执行的替代过程1200。过程1200可以被执行,以基于接收到的关键词来管理语音助理的激活。
最初,在S1210中,确定与注册的语音助理相关联的关键词是否已经被检测到。流程在S1210中循环,直到这种关键词被检测到为止。如上面提及的,对关键词的检测例如可以包括从平台的另一组件接收关键词检测信号,或者接收音频信号并且确定接收到的音频信号表示与注册到平台的语音助理相关联的关键词。
一旦与语音助理相关联的关键词被检测到,则在S1220中确定关联的语音助理是否是活动的。该确定可以基于关联语音助理的报告和监测状态。如果关联的语音助理不是活动的,则流程进行到S1230,以确定平台的语音助理当前是否被标记为不可中断。
语音助理的不可中断性的评估可以基于指示语音助理不可中断的标志当前是否被设置。这种标志可以响应于先前从语音助理接收到的不可中断性的指示来设置。不可中断性的确定还可以或备选地基于语音助理的当前状态。根据一些实施例,已将自身标记为不可中断但然后变得不活动的语音助理不再被认为是不可中断的。在一些实施例中,语音助理需要在变得不活动之前指示它是可中断的。
如果在S1230中确定没有注册的语音助理是不可中断的,则激活被发送给与检测到的关键词相关联的语音助理。然后语音助理激活,并且进入本领域已知的对话会话。激活的语音助理可以在对话会话期间将其自身指示为不可中断的。同时,流程返回到S1210以等待关键词检测。
返回到S1220,如果与检测到的关键词相关联的语音助理是活动的,则流程进行到S1240以向语音助理发送激活。这种动作允许语音助理基于检测到自己的关键词,是否已将自身标记为不可中断来确定是否中断其当前对话会话。
实施例可以支持用于响应于检测到它们的关联关键词或与其他语音助理相关联的关键词来中断或不中断活动语音助理的任何其他期望的逻辑。
图13图示了实现实施例的计算系统的软件架构1300。这种实施例可以包括除了图13所图示的那些软件组件之外的软件组件。软件架构1300可以由任何合适的计算平台来实现,包括例如个人计算机、智能手机和执行诸如智能扬声器等操作系统的物联网边缘设备。软件架构1300或其部分可以在嵌入式系统内实现。软件架构1300的一个或多个组件可以由基于云的服务器的虚拟机部署。软件架构1300的每个组件可以由可执行代码实现。
激活运行时用户服务1310可以包括操作系统组件。激活运行时用户服务1310负责在激活事件被检测到时激活在软件架构1300内注册的语音助理应用。
例如,麦克风1311可以接收音频信号,并且关键词检测组件1312可以检测在音频信号内表示的注册语音关键词。检测通过语音激活管理器1313暴露到激活运行时用户服务1310。
激活运行时用户服务1310可以检测其他激活事件,诸如经由人机接口设备服务1314按压按钮。通过蓝牙接收的激活事件也可以暴露作为通过蓝牙服务1315的按钮按压。任何合适的逻辑可以被实现以基于按钮按压激活事件来确定是否向语音助理应用发送激活。在一些实施例中,激活运行时用户服务1310响应于接收到的按钮按压激活事件而向对应的语音助理发送激活,而不管任何活动语音助理的活动或非活动状态或者任何语音助理是否已被标记为不可中断。鉴于可以通过按钮按压推断的意图程度,这种实施例旨在反映用户意图。
根据一些实施例,对话会话管理器1316可以执行过程1100或过程1200,以基于接收到的激活事件来确定是否向语音助理应用发送激活。在本示例中,假设在语音助理应用1320和语音助理应用1330均未被激活时,与语音助理应用1320相关联的语音关键词被接收到。激活管理器1317因此向语音助理应用1320发送激活以激活语音触发器1322,这是与语音助理应用1320相关联的后台任务。
响应于语音触发器1322的激活,语音助理应用1320验证其关键词已被接收。在这方面,语音助理应用1320包括助理专用关键词检测器1324。助理专用关键词检测器1324对接收到的激活执行验证通过,以确认说出其关联关键词。这种验证通过可以允许检测组件1312实现比需要的更不稳健的检测模型,从而节省平台资源。
如果验证通过成功,则对话会话客户端1326被创建。对话会话客户端1326然后可以将其状态和可中断性信息提供给对话会话管理器1316。例如,对话会话客户端1326可以指示它是活动的、聆听的和不可中断的。对话会话管理器1316维护该信息的记录。
因此,在接收到另一关键词检测时,对话会话管理器1316可以基于软件架构1300的所有语音助理应用的状态和/或不可中断性信息来确定是否向关联的语音助理应用发送激活。该确定可以遵循上面相对于过程1100和1200描述的逻辑和/或任何其他合适的逻辑。如果活动语音助理没有将自身标记为可中断(例如经由对话会话客户端1326和对话会话管理器1316之间的通信),则可以确定只要关键词被检测到,就简单地向对应的语音助理发送激活。
图14图示了根据一些实施例的可以实现系统的计算设备。图14的计算设备不包括实施例可以被实现的系统的非详尽集合。
设备1410至1450中的每个设备可以执行包括上面描述的激活管理器的操作系统。操作系统还可以允许注册多于一个语音助理应用。个人计算机1410和膝上型计算机1420可以执行桌面操作系统,而智能手机1440和智能手表1450可以执行移动操作系统。智能扬声器1430可以执行移动操作系统或专用智能设备操作系统。同样,实施例不被限于这些描述。
图15图示了根据一些实施例的分布式系统1500。分布式系统1500可以向车载没有这种功能性的设备提供多语音助理功能性。系统1500的基于云的组件可以使用按需虚拟机、虚拟服务器和云存储实例来实现。
根据图15的示例,客户端设备1510和1520可以选择性地连接至云服务1530,以向其传输检测到的关键词。在一些实施例中,客户端设备1510和1520中的一个或两者将所有接收到的音频信号发送给云服务1530,以便基于碰巧出现在接收到的音频信号中的任何关键词来接收语音助理服务。
助理激活服务1532可以被实现为基于接收到的音频信号或关键词检测事件提供语音助理应用的激活的云服务。云服务1532可以包括可以由助理激活服务1532激活的语音助理应用1534。可以由不同于操作云服务1530的服务提供方的服务提供方操作的云服务1550可以提供语音助理应用1552。语音助理应用1552也可以由助理激活服务1532基于从客户端设备1510和/或1520接收的信号来激活。
语音助理应用1534和语音助理应用1552中的每个语音助理应用可以与助理激活服务1532通信,以将其自身标记为可中断的。因此,助理激活服务1532可以如本文描述的那样操作,以选择性地确定是否向语音助理应用1534和语音助理应用1552中的任一个发送激活。
图16是根据一些示例的系统1600的框图。系统1600可以包括任何合适的计算系统,并且可以执行程序代码以提供本文描述的语音助理。
系统1600包括可操作地耦合至通信设备1620的处理单元1610、持久性数据存储系统1630、一个或多个输入设备1640、一个或多个输出设备1650和易失性存储器1660。处理单元1610可以包括一个或多个处理器、处理核心等,以用于执行程序代码。通信接口1620可以促进与外部网络的通信。(多个)输入设备1640可以包括例如键盘、小键盘、鼠标或其他指向设备、麦克风、触摸屏和/或眼睛追踪设备。(多个)输出设备1650可以包括例如显示器和/或扬声器。
数据存储系统1630可以包括任何数量的适当的持久性存储设备,包括磁性存储设备(例如磁带、硬盘驱动器和闪存)、光学存储设备、只读存储器(ROM)设备等的组合。存储器1660可以包括随机存取存储器(RAM)、存储类存储器(SCM)或任何其他快速访问存储器。
语音助理应用1632可以包括由处理单元1610执行的程序代码,以使系统1600执行与用户的对话会话。语音助理应用1632中的每个语音助理应用都与用于其激活的语音关键词相关联,如本文描述的。操作系统1634包括本领域已知的操作系统组件,并且还可以包括激活服务,以选择性地激活本文描述的语音助理应用1632。数据1636可以包括由系统1600的任何系统或应用使用的任何数据。这种数据可以包括本文描述的会话状态信息和/或不可中断标志。
本文描述的每个功能组件可以至少部分地在计算机硬件、程序代码和/或执行本领域已知的这种程序代码的一个或多个计算系统中实现。这种计算系统可以包括一个或多个处理单元,其执行存储在存储器系统中的处理器可执行程序代码。
前述附图表示根据一些实施例的用于描述过程的逻辑架构,并且实际实现可以包括以其他方式布置的更多或不同的组件。其他拓扑可以结合其他实施例使用。而且,本文描述的每个组件或设备可以由经由任何数量的其他公共和/或私有网络进行通信的任何数量的设备来实现。两个或更多个这种计算设备可以彼此远离,并且可以经由任何已知方式的(多个)网络和/或专用连接彼此通信。每个组件或设备可以包括适合于提供本文描述的功能以及任何其他功能的任何数量的硬件和/或软件元件。例如,在根据一些实施例的系统的实现中使用的任何计算设备可以包括用于执行程序代码的处理器,使得计算设备如本文描述的那样操作。
本文讨论的所有系统和过程可以在存储在一个或多个非瞬态计算机可读介质上的程序代码中实施。这种介质可以包括例如硬盘、DVD-ROM、闪存驱动器、磁带和固态随机存取存储器(RAM)或只读存储器(ROM)存储单元。因此,实施例不被限于硬件和软件的任何具体组合。
本领域技术人员将了解,上述实施例的各种适应和修改能够在不脱离权利要求的情况下配置。因此,要理解的是,权利要求可以以不同于本文具体描述的方式来实践。

Claims (15)

1.一种包括一个或多个处理单元的计算系统,所述一个或多个处理单元用以执行处理器可执行程序代码以使所述计算系统:
执行多个语音助理应用,所述多个语音助理应用中的每个语音助理应用与相应语音关键词相关联;
检测所述多个相应语音关键词中的一个相应语音关键词;
响应于对所述多个相应语音关键词中的所述一个相应语音关键词的所述检测,确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的;以及
如果确定所述多个语音助理应用中没有一个语音助理应用被指定为不可中断的,则向所述多个语音助理应用中的与检测到的所述关键词相关联的一个语音助理应用传输激活。
2.根据权利要求1所述的计算系统,包括以下一个或多个处理单元:所述一个或多个处理单元用以执行处理器可执行程序代码以使所述计算系统:
如果确定所述多个语音助理应用中的一个语音助理应用被指定为不可中断的,则不向所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用传输激活。
3.根据权利要求2所述的计算系统,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是否是活动的;以及
如果确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是活动的,则向所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用传输激活。
4.根据权利要求1所述的计算系统,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的任何语音助理应用是否将自身标记为不可中断的。
5.根据权利要求1所述的计算系统,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的任何语音助理应用是否是活动的、并且被指定为不可中断的。
6.根据权利要求1所述的计算系统,包括以下一个或多个处理单元:所述一个或多个处理单元用以执行处理器可执行程序代码以使所述计算系统:
检测所述多个相应语音关键词中的一个第二相应语音关键词;
响应于对所述多个相应语音关键词中的所述一个第二相应语音关键词的所述检测,确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的;以及
如果响应于对所述多个相应语音关键词中的所述一个第二相应语音关键词的所述检测,确定所述多个语音助理应用中没有一个语音助理应用被指定为不可中断的,则向所述多个语音助理应用中的与检测到的所述第二关键词相关联的一个第二相应语音助理应用传输激活。
7.根据权利要求1所述的计算系统,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是否是活动的;以及
如果确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是活动的,则向所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用传输激活。
8.一种用于计算设备提供多个语音助理应用的方法,所述多个语音助理应用中的每个语音助理应用与相应语音关键词相关联,所述方法包括:
检测所述多个相应语音关键词中的一个相应语音关键词;
响应于对所述多个相应语音关键词中的所述一个相应语音关键词的所述检测,确定所述多个语音助理应用中的一个语音助理应用是否被指定为不可中断的;以及
如果确定所述多个语音助理应用中的一个语音助理应用被指定为不可中断的,则不向所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用传输激活。
9.根据权利要求8所述的方法,包括:
如果确定所述多个语音助理应用中没有一个语音助理应用被指定为不可中断的,则向所述多个语音助理应用中的与检测到的所述关键词相关联的一个语音助理应用传输激活。
10.根据权利要求9所述的方法,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是否是活动的;以及
如果确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是活动的,则向所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用传输激活。
11.根据权利要求8所述的方法,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的任何语音助理应用是否将自身标记为不可中断的。
12.根据权利要求8所述的方法,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的任何语音助理应用是否是活动的、并且被指定为不可中断的。
13.根据权利要求8所述的方法,还包括:
检测所述多个相应语音关键词中的一个第二相应语音关键词;
响应于对所述多个相应语音关键词中的所述一个第二相应语音关键词的所述检测,确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的;以及
如果响应于检测到所述多个相应语音关键词中的所述一个第二相应语音关键词,确定所述多个语音助理应用中没有一个语音助理应用被指定为不可中断的,则向所述多个语音助理应用中的与检测到的所述第二关键词相关联的一个第二语音助理应用传输激活。
14.根据权利要求8所述的方法,其中确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的包括:
确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是否是活动的;以及
如果确定所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用是活动的,则向所述多个语音助理应用中的与检测到的所述关键词相关联的所述一个语音助理应用传输激活。
15.一种系统,包括:
多个语音助理应用,所述多个语音助理应用中的每个语音助理应用与相应语音关键词相关联,并且响应于所述相应语音关键词而执行用户对话会话;
语音助理激活组件,用以:
检测所述多个相应语音关键词中的一个相应语音关键词的用户话语;
响应于对所述多个相应语音关键词中的所述一个相应语音关键词的所述检测,确定所述多个语音助理应用中的任何语音助理应用是否被指定为不可中断的;以及
如果确定所述多个语音助理应用中没有一个语音助理应用被指定为不可中断的,则指示所述多个语音助理应用中的与检测到的所述关键词相关联的一个语音助理应用激活。
CN202080037174.9A 2019-05-22 2020-03-26 多个语音助理的激活管理 Active CN113841118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311513748.7A CN117542360A (zh) 2019-05-22 2020-03-26 多个语音助理的激活管理

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/419,503 2019-05-22
US16/419,503 US11189279B2 (en) 2019-05-22 2019-05-22 Activation management for multiple voice assistants
PCT/US2020/025066 WO2020236309A1 (en) 2019-05-22 2020-03-26 Activation management for multiple voice assistants

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311513748.7A Division CN117542360A (zh) 2019-05-22 2020-03-26 多个语音助理的激活管理

Publications (2)

Publication Number Publication Date
CN113841118A true CN113841118A (zh) 2021-12-24
CN113841118B CN113841118B (zh) 2023-11-03

Family

ID=70296136

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311513748.7A Pending CN117542360A (zh) 2019-05-22 2020-03-26 多个语音助理的激活管理
CN202080037174.9A Active CN113841118B (zh) 2019-05-22 2020-03-26 多个语音助理的激活管理

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311513748.7A Pending CN117542360A (zh) 2019-05-22 2020-03-26 多个语音助理的激活管理

Country Status (12)

Country Link
US (2) US11189279B2 (zh)
EP (1) EP3973389A1 (zh)
JP (1) JP2022533308A (zh)
KR (1) KR20220009963A (zh)
CN (2) CN117542360A (zh)
AU (1) AU2020279846A1 (zh)
BR (1) BR112021021554A2 (zh)
CA (1) CA3138926A1 (zh)
IL (1) IL288130A (zh)
MX (1) MX2021014190A (zh)
SG (1) SG11202110928TA (zh)
WO (1) WO2020236309A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903763B (zh) * 2019-01-11 2022-02-22 百度在线网络技术(北京)有限公司 服务控制方法、装置及设备
KR20210064594A (ko) * 2019-11-26 2021-06-03 삼성전자주식회사 전자장치 및 그 제어방법
KR20210089295A (ko) * 2020-01-07 2021-07-16 엘지전자 주식회사 인공지능 기반의 정보 처리 방법
US11557278B2 (en) * 2020-12-10 2023-01-17 Google Llc Speaker dependent follow up actions and warm words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171928A1 (en) * 2002-02-04 2003-09-11 Falcon Stephen Russel Systems and methods for managing interactions from multiple speech-enabled applications
EP3389044A1 (en) * 2017-04-13 2018-10-17 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US20190013019A1 (en) * 2017-07-10 2019-01-10 Intel Corporation Speaker command and key phrase management for muli -virtual assistant systems
CN109767761A (zh) * 2017-11-02 2019-05-17 通用汽车环球科技运作有限责任公司 唤醒词检测

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374879B2 (en) * 2002-02-04 2013-02-12 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US11164570B2 (en) 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
CN107919123B (zh) 2017-12-07 2022-06-03 北京小米移动软件有限公司 多语音助手控制方法、装置及计算机可读存储介质
CN111357048A (zh) * 2017-12-31 2020-06-30 美的集团股份有限公司 用于控制家庭助手装置的方法和系统
TWI683306B (zh) * 2018-08-28 2020-01-21 仁寶電腦工業股份有限公司 多語音助理之控制方法
US10996919B2 (en) * 2018-09-28 2021-05-04 Microsoft Technology Licensing, Llc Providing historical captured audio data to applications
US11315556B2 (en) * 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171928A1 (en) * 2002-02-04 2003-09-11 Falcon Stephen Russel Systems and methods for managing interactions from multiple speech-enabled applications
EP3389044A1 (en) * 2017-04-13 2018-10-17 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US20190013019A1 (en) * 2017-07-10 2019-01-10 Intel Corporation Speaker command and key phrase management for muli -virtual assistant systems
CN109767761A (zh) * 2017-11-02 2019-05-17 通用汽车环球科技运作有限责任公司 唤醒词检测

Also Published As

Publication number Publication date
EP3973389A1 (en) 2022-03-30
CN113841118B (zh) 2023-11-03
WO2020236309A1 (en) 2020-11-26
IL288130A (en) 2022-01-01
AU2020279846A1 (en) 2021-11-18
US11626114B2 (en) 2023-04-11
SG11202110928TA (en) 2021-10-28
CN117542360A (zh) 2024-02-09
US11189279B2 (en) 2021-11-30
US20220139391A1 (en) 2022-05-05
KR20220009963A (ko) 2022-01-25
MX2021014190A (es) 2022-01-06
BR112021021554A2 (pt) 2022-04-19
CA3138926A1 (en) 2020-11-26
JP2022533308A (ja) 2022-07-22
US20200372907A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
CN113841118B (zh) 多个语音助理的激活管理
US11955124B2 (en) Electronic device for processing user speech and operating method therefor
JP6474762B2 (ja) 発話者の検証のための動的な閾値
US9953654B2 (en) Voice command recognition apparatus and method
US20210241775A1 (en) Hybrid speech interface device
KR20190077059A (ko) 컴퓨팅 디바이스 근처의 가상 어시스턴트 식별
US10142485B1 (en) Conference call mute management
US20220068272A1 (en) Context-based dynamic tolerance of virtual assistant
US20180048610A1 (en) Contextually driven messaging system
US11610578B2 (en) Automatic hotword threshold tuning
EP3857544B1 (en) Speaker awareness using speaker dependent speech model(s)
US9508345B1 (en) Continuous voice sensing
RU2817625C2 (ru) Управление активацией для нескольких голосовых помощников
US20230061929A1 (en) Dynamically configuring a warm word button with assistant commands
CN113038063B (zh) 用于输出提示的方法、装置、设备、介质和产品
CN113593619B (zh) 用于录制音频的方法、装置、设备和介质
WO2017119901A1 (en) System and method for speech detection adaptation
US20230297321A1 (en) Handling of noise and interruption during online meetings
US20230197072A1 (en) Warm word arbitration between automated assistant devices
US20240013781A1 (en) Context-based deactivation of a recording device
KR20230025907A (ko) 생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정
CN117157615A (zh) 选择性地实施便于助理交互的辅助设备的角色改变请求
CN116682424A (zh) 车载语音交互方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40061183

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant