CN112272819A - 被动唤醒用户交互设备的方法和系统 - Google Patents

被动唤醒用户交互设备的方法和系统 Download PDF

Info

Publication number
CN112272819A
CN112272819A CN201980038193.0A CN201980038193A CN112272819A CN 112272819 A CN112272819 A CN 112272819A CN 201980038193 A CN201980038193 A CN 201980038193A CN 112272819 A CN112272819 A CN 112272819A
Authority
CN
China
Prior art keywords
user
wake
probability
voice
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980038193.0A
Other languages
English (en)
Other versions
CN112272819B (zh
Inventor
维贾亚·库玛·涂卡
德普拉吉·普拉巴卡尔·帕特卡
哈里什·比什诺伊
切森·科纳纳克里·普塔纳
苏洛尚·奈克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112272819A publication Critical patent/CN112272819A/zh
Application granted granted Critical
Publication of CN112272819B publication Critical patent/CN112272819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0225Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
    • H04W52/0229Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal where the received signal is a wanted signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices
    • H04W52/0251Power saving arrangements in terminal devices using monitoring of local events, e.g. events related to user activity
    • H04W52/0254Power saving arrangements in terminal devices using monitoring of local events, e.g. events related to user activity detecting a user operation or a tactile contact or a motion of the device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • H04M1/73Battery saving arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文中的实施例公开了用于被动唤醒用户交互设备和配置用户交互设备的动态唤醒时间的方法和系统,该方法包括检测与存在于物联网(IoT)环境中的至少一个设备相关的至少一个第一非语音事件的发生。该方法包括检测与至少一个设备相关的至少一个后续事件的发生。该方法包括在检测到发生至少一个第一事件和至少一个后续事件中的至少一个时,估计用户发起与用户交互设备的至少一个交互的上下文概率。在确定所估计的上下文概率高于预定义的阈值时,该方法包括配置动态唤醒时间以将用户交互设备切换到被动唤醒状态。

Description

被动唤醒用户交互设备的方法和系统
技术领域
本公开涉及基于人工智能(AI)的用户交互设备,并且更具体地涉及用户交互设备的自动唤醒,而不从用户接收触发字。
背景技术
通常,诸如基于人工智能(AI)的扬声器的用户交互设备理解自然语言语音命令,并相应地为用户执行任务。然而,需要用户说出触发字或唤醒字来激活这种用户交互设备并与其交互。
发明内容
【技术问题】
图1a和图1b描述了示例情景,其中用户可以使用触发字与用户交互设备100交互。如图1A所示,用户提供语音命令来激活/唤醒用户交互设备100以获取所需信息,其中语音命令可以不包含触发字。由于用户忘记说触发字,用户交互设备100可以继续处于休眠状态,直到接收到触发字。因此,可没有来自用户交互设备100的对用户提供的语音命令的响应,并且用户可能必须用触发字重复整个语音命令。此外,如果用户从远距离说出触发字,或者在嘈杂环境的情况下,用户交互设备100可能错过触发字,并且用户实际上可能无法知道用户交互设备100是否仍在收听。
此外,为了避免重复使用触发字来与用户交互设备100交互,可以提出后续模式。如图1b所示,用户提供用于激活用户交互设备100的具有触发字的初始语音命令。在为初始语音命令提供响应之后,用户交互设备100进入后续模式。在后续模式中,用户交互设备100通过检查用户是否具有附加请求而继续处于激活状态达固定的时间量(例如,5秒)。用户可以在后续模式期间提供进一步的不包括触发字的语音命令。然而,唤醒时间总是固定的。如果用户在唤醒时间结束时开始说话(不带触发字),则表达可能丢失,并且用户可能需要再次重复该表达。此外,用户将总是考虑固定的唤醒超时,这甚至是更令人烦恼的。在后续模式中,用户必须事先准备好会话的所有问题;否则,他可能难以在固定唤醒时间内考虑下一个查询。此外,跟踪时间是上下文无关的,并且总是打开的。
【技术方案】
本文中的实施例的主要目的是公开用于为用户交互设备配置动态唤醒时间而不从用户接收触发字的方法和系统。
本文中的实施例的另一个目的是公开用于估计由用户发起与用户交互设备的交互的上下文概率的方法和系统。
本文中的实施例的另一个目的是公开用于使用所估计的上下文概率来配置用户交互设备的动态唤醒时间的方法和系统。
相应地,本文中的实施例提供了用于通过为用户交互设备配置动态唤醒时间来被动唤醒用户交互设备的方法和系统。本文中公开的方法包括检测与存在于物联网(IoT)环境中的至少一个设备相关的至少一个第一事件的发生,其中至少一个设备连接到配置设备,并且至少一个第一事件包括至少一个非语音事件。该方法还包括检测与存在于IoT环境中的至少一个设备相关的至少一个后续事件的发生。该方法还包括在检测到发生至少一个第一事件和至少一个后续事件中的至少一个事件时,估计用户发起与用户交互设备的至少一个语音交互的上下文概率。此外,该方法包括在确定所估计的上下文概率高于预定义的阈值时配置动态唤醒时间以将用户交互设备切换到被动唤醒状态,并且基于所估计的上下文概率来配置动态唤醒时间。
相应地,本文中的实施例提供了一种配置设备。配置设备包括事件检测单元,事件检测单元配置为检测与存在于物联网(IoT)环境中的至少一个设备相关的至少一个第一事件的发生,其中,至少一个设备连接到配置设备,并且至少一个第一事件包括至少一个非语音事件。事件检测单元还配置为检测与存在于IoT环境中的至少一个设备相关的至少一个后续事件的发生。配置设备还包括上下文概率估计单元,上下文概率估计单元配置为在检测到发生至少一个第一事件和至少一个后续事件中的至少一个时估计用户发起与用户交互设备的至少一个语音交互的上下文概率。配置设备还包括唤醒时间配置单元,唤醒时间配置单元配置为在确定估计的上下文概率高于预定义的阈值时配置动态唤醒时间以将用户交互设备切换到被动唤醒状态,其中,基于估计的上下文概率来配置动态唤醒时间。
相应地,本文中的实施例提供了一种语音辅助设备的方法。最初,在语音辅助设备的唤醒模式期间接收来自至少一个用户的至少一个语音输入,并且识别与至少一个语音输入相关联的意图。基于意图、历史数据和一个或多个上下文因素中的至少一个来确定从至少一个用户发出后续语音输入的概率。当概率大于预定义的阈值时,估计语音辅助设备的延长唤醒持续时间。此外,语音辅助设备的唤醒模式的持续时间被延长了延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
相应地,本文中的实施例提供了一种语音辅助设备,该语音辅助设备包括接收器,接收器配置为当在唤醒模式中操作时接收来自至少一个用户的至少一个语音输入。语音辅助设备还包括处理器和通信地联接到处理器的存储器。存储器存储处理器可执行指令,在执行可执行指令时使处理器识别与来自至少一个用户的由语音辅助设备输入的至少一个语音相关联的意图。此外,处理器配置为基于意图、历史数据和一个或多个上下文因素中的至少一个来确定从至少一个用户发出后续语音输入的概率。当概率大于预定义的阈值时,估计语音辅助设备的延长唤醒持续时间。此外,唤醒模式的持续时间被延长了延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
相应地,本文中的实施例提供了一种用于控制语音辅助设备的方法。最初,识别与来自至少一个用户的由语音辅助设备接收的至少一个语音输入相关联的意图。基于意图、历史数据和一个或多个上下文因素中的至少一个来确定从至少一个用户发出后续语音输入的概率。当概率大于预定义的阈值时,估计语音辅助设备的延长唤醒持续时间。此外,语音辅助设备的唤醒模式的持续时间被延长了延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
相应地,本文中的实施例提供了一种用于控制语音辅助设备的控制装置。控制装置与语音辅助设备相关联,并且包括第一处理器和通信地联接到第一处理器的第一存储器。第一存储器存储处理器可执行指令,处理器可执行指令在被执行时使第一处理器控制语音辅助设备。最初,识别与来自至少一个用户的由语音辅助设备接收的至少一个语音输入相关联的意图。基于意图、历史数据和一个或多个上下文因素中的至少一个来确定从至少一个用户发出后续语音输入的概率。当概率大于预定义的阈值时,估计语音辅助设备的延长唤醒持续时间。此外,语音辅助设备的唤醒模式的持续时间被延长了延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
相应地,本文中的实施例提供了用于确定向语音辅助设备发出后续语音输入的概率的方法。最初,为了确定,基于语音输入的意图,从语音辅助设备接收的至少一个语音输入中的多个词中提取一个或多个关键词。基于一个或多个关键词来识别与至少一个语音输入相关联的域。此外,计算所识别的域与和至少一个用户相关的多个预存域的域匹配得分。基于域匹配得分、历史数据以及与至少一个用户相关的一个或多个上下文因素来确定向语音辅助设备发出后续语音输入的概率。
相应地,本文中的实施例提供了概率确定装置,概率确定装置用于确定向语音辅助设备发出后续语音输入的概率。概率确定装置与语音辅助设备相关,并且包括第二处理器和通信地联接到第二处理器的第二存储器。第二存储器存储处理器可执行指令,处理器可执行指令在被执行时使第二处理器确定向语音辅助设备发出后续语音输入的概率。最初,为了确定,基于语音输入的意图,从语音辅助设备接收的至少一个语音输入中的多个词中提取一个或多个关键词。基于一个或多个关键词来识别与至少一个语音输入相关的域。此外,计算所识别的域与和至少一个用户相关的多个预存域的域匹配得分。基于域匹配得分、历史数据以及与至少一个用户相关的一个或多个上下文因素来确定向语音辅助设备发出后续语音输入的概率。
当结合以下描述和附图考虑时,将更好地领会和理解本文中的示例性实施例的这些和其它方面。然而,应该理解的是,下面的描述虽然指示了示例性实施例及其许多具体细节,但是是通过说明而非限制的方式给出的。在不脱离本文中的示例性实施例的精神的情况下,可以在本文中的示例性实施例的范围内进行许多改变和修改,并且本文中的示例性实施例包括所有这些修改。
附图说明
在附图中示出了本文中的实施例,在所有附图中,相同的附图标记表示各个附图中的相应部分。从以下参考附图的描述中,将更好地理解本文中的实施例,其中:
图1a和图1b描述了示例场景,其中用户可以使用触发字与用户交互设备交互;
图2a、图2b、图2c和图2d示出了根据本文中所公开的实施例的用于配置动态唤醒时间以激活用户交互设备的系统;
图3是示出根据本文中所公开的实施例的用于配置动态唤醒时间以激活用户交互设备的配置设备的各种单元的框图;
图4是示出根据本文中所公开的实施例的用于为用户交互设备配置动态唤醒时间的方法的流程图;
图5a、图5b和图5c示出了根据本文中所公开的实施例的用于配置动态唤醒时间以激活用户交互设备的系统的示例架构;
图6是示出根据本文中所公开的实施例的用于用户交互设备的基于上下文概率的激活的方法的示例流程图;
图7a、图7b和图7c示出了根据本文中所公开的实施例的语音辅助设备的示例环境;
图8示出了根据本文中所公开的实施例的用于控制语音辅助设备的控制装置的详细框图;
图9示出了根据本文中所公开的实施例的用于确定向语音辅助设备发出后续语音输入的概率的概率确定装置的详细框图;
图10a至图10b示出了根据本文中所公开的实施例的用于控制语音辅助设备的示意图;
图11a至图11f示出了根据本文中所公开的实施例的语音辅助设备的示例性实施例;
图12a示出了根据本文中所公开的实施例的用于控制语音辅助设备的方法的流程图;
图12b示出了根据本公开的一些实施例的用于确定向语音辅助设备发出后续语音输入的概率的方法的流程图;
图13示出了用于实现本文中所公开的实施例的示例性计算机系统的框图;
图14示出了根据本文中所公开的实施例的示例场景,其中基于上下文概率的动态唤醒时间可以配置为激活用户交互设备;
图15是示出根据本文中所公开的实施例的用户交互设备的基于上下文概率的激活的示例性序列图;以及
图16a、图16b、图16c和图16d示出了根据本文中所公开的实施例的示例情景,其中可以根据基于上下文概率的动态唤醒时间来激活用户交互设备。
具体实施方式
本文中的示例性实施例及其各种特征和有利细节将参考附图中所示和以下描述中所详述的非限制性实施例来更全面地解释。省略了对众所周知的组件和处理技术的描述,以便不会不必要地使本文中的实施例含糊不清。本文中的描述仅旨在有助于理解可实践本文中的示例性实施例的方式,并进一步使本领域技术人员能够实践本文中的示例性实施例。因此,本公开不应被解释为限制本文中的示例性实施例的范围。
本文中的实施例公开了被动唤醒用户交互设备以及基于上下文概率配置用户交互设备的动态唤醒时间的方法和系统。现在参考附图,并且更具体地参考示出了示例性实施例的图2至图16d,其中相似的附图标记始终表示相应的特征。
本公开提出了用于控制语音辅助设备以提供最佳用户体验的方法和装置。当从至少一个用户接收到语音输入时,语音辅助设备配置为检查后续语音输入的发出概率。如果概率大于预定义的阈值,则延长语音辅助设备的唤醒时间。本公开还提出基于概率来确定语音辅助设备的延长唤醒持续时间。唤醒持续时间是基于语音输入的上下文、概率和与至少一个用户相关的各种其它因素动态地确定的。
图2a、图2b、图2c和图2d示出了根据本文所公开的实施例的用于配置动态唤醒时间以激活用户交互设备202的系统200。如图2a所示,系统200包括用户交互设备202、配置设备204和多个设备206。多个设备206可以存在于物联网(IoT)环境中。
用户交互设备202可以是使得用户208能够使用所发出的短语/查询/语句/命令与设备进行交互的设备。本文中的实施例可以使用术语“用户交互设备”、“智能扬声器”、“基于人工智能(AI)的扬声器”、“语音辅助设备”、“聊天机器人”等来指代用户208可以使用所发出的短语/查询/语句/命令来与之交互的设备。应当注意,如可以从本说明书和相应附图中推断出来的,本文中公开的实施例可以使用任何类型的用户交互设备,而不会另外阻止基于从用户接收的所发出的短语/查询/语句/命令来与用户交互的预期功能。此外,用户交互设备202可以是独立设备或者可以与另一设备集成,另一设备诸如为但不限于计算机、膝上型计算机、智能电话、电话、IoT设备、可穿戴设备、车辆信息娱乐系统、电视(TV)、相机等。用户交互设备202还可以访问数据库(未示出),以获取从用户接收的用于查询的信息。此外,用户交互设备202还可以使用至少一个通信网络连接到云、专用用户交互设备云、服务器等中的至少一个,以用于访问从用户接收的用于查询的信息。通信网络的示例可以是但不限于互联网、有线网络(局域网(LAN)、以太网等)、无线网络(Wi-Fi网络、蜂窝网络、Wi-Fi热点、蓝牙、Zigbee等)等。
在实施例中,系统200可以包括如图2c所示的多个用户交互设备202a-202n。多个用户交互设备202a-202n可以放置在不同的位置(起居室、厨房、房间等)。在另一实施例中,如图2d所示,多个用户208a-208n可以存在于不同的位置并且可以与多个用户交互设备202a-202n交互。
本文中所指的配置设备204可以是专用服务器、云、集线器、路由器、用户设备(例如移动电话、平板电脑、计算机、膝上型计算机、IoT设备、可穿戴设备、相机等)等中的至少一个。配置设备204可以通过通信网络连接到用户交互设备202。配置设备204还可以通过通信网络连接到设备206。
设备206可以包括适当的硬件和软件,以通过通信网络与配置设备204直接通信。设备206的示例可以是但不限于移动电话、智能电话、平板电脑、平板电话、个人数字助理(PDA)、膝上型计算机、计算机、可穿戴设备、车辆信息娱乐系统、家用电器(烤箱、冰箱、洗衣机等)、医疗设备、相机、电视机(TV)、车辆显示器、车辆信息娱乐系统、传感器(门传感器、运动传感器、温度计、麦克风、接近传感器、接触传感器等)等。
在实施例中,配置设备204可以是如图2b所示的用户交互设备202。用户交互设备202(配置设备204)可以通过通信网络连接到设备206。用户交互设备202可以执行配置设备204的所有预期功能。
在实施例中,系统200还可以使用诸如但不限于智能电话、可穿戴设备、相机、IoT设备、传感器(运动传感器、接近传感器、接触传感器等)或连接到配置设备204的任何其它专用设备或通用设备的设备,以用于监控用户208的活动。
在实施例中,配置设备204可以配置为基于上下文概率将用户交互设备202唤醒/激活到被动唤醒状态中。在被动唤醒状态中,用户交互设备202可以与用户208交互而无需任何触发词/唤醒词。配置设备204在确定发生与设备206相关联的事件序列时估计上下文概率。可以基于用户的活动、用户上下文、用户语音属性、设备206的状态以及语音交互历史等中的至少一个来估计上下文概率。在实施例中,配置设备204使用各种机器学习模型/神经网络模型来估计上下文概率。此外,配置设备204将上下文概率与预定义的阈值进行比较。在确定上下文概率超过预定义的阈值时,配置设备204配置动态唤醒时间以将用户交互设备202切换到被动唤醒状态。配置设备204还向用户交互设备202发送唤醒命令以及关于动态唤醒时间的信息。唤醒命令可以作为自然语言生成(NLG)响应的一部分发送。此外,在接收到唤醒命令和关于动态唤醒时间的信息时,用户交互设备202可以在所配置的唤醒时间内激活,并且收听由用户208提供的语音命令。因此,用户交互设备202可以被激活并且可以在没有来自用户208的任何触发词/唤醒词的情况下与用户208交互。
在另一实施例中,配置设备204可以配置为唤醒/激活存在于不同位置的多个用户交互设备202a-202n中的至少一个用户交互设备(例如:202a)。配置设备204估计用户208发起与至少一个用户交互(202a)的语音交互的上下文概率。可以基于检测与设备206相关联的事件序列的发生以及位置信息来估计上下文概率。位置信息可以是但不限于检测到的事件序列的源位置、发生事件序列时确定的用户208的位置等。基于所估计的上下文概率,配置设备204为至少一个用户交互设备202a配置动态唤醒时间。
在又一实施例中,配置设备204可以配置为估计由多个用户208a-208n中的至少一个用户(例如:208a)发起与存在于不同位置的多个用户交互设备202a-202n中的至少一个用户交互设备202a的语音交互的上下文概率。可以基于检测与设备206相关联的事件序列的发生以及位置信息来估计上下文概率。位置信息可以是但不限于检测到的事件序列的源位置、发生事件序列时确定的多个用户208的位置等。基于所估计的上下文概率,配置设备204为至少一个用户交互设备202a配置动态唤醒时间。
图2示出了系统200的各种单元,但是应当理解,其它实施例不限于此。在其它实施例中,系统200可以包括更少或更多数量的单元。此外,单元的标签或名称仅用于说明的目的,并不限制本文中的实施例的范围。一个或多个单元可以在系统200中组合在一起以执行相同或基本上类似的功能。
图3是示出根据本文中所公开的实施例的用于配置动态唤醒时间以激活用户交互设备202的配置设备204的各种单元的框图。配置设备204(或用户交互设备202)包括事件检测单元302、位置检测单元304、用户相关信息确定单元306、上下文概率估计单元308、唤醒时间配置单元310、通信接口单元312和存储器314。
事件检测单元302可以配置为检测与至少一个设备206相关的第一事件的发生。设备206可以连接到配置设备204。在本文中的实施例中,第一事件可以是非语音事件,其可以是用户活动的改变、存在于IoT环境中的至少一个设备206的状态改变、调度事件、日历事件、发生的预定义事件等中的至少一个。事件检测单元302连续地接收和处理来自设备206的信息。从设备206接收的信息可以包括设备206的状态、关于设备206周围的信息、用户208的活动等中的至少一个。信息的处理包括将从设备206提取/接收的信息存储在存储器中,形成与提取的信息相关联的这类事件的流水线以及基于用户来过滤事件以检测第一事件的发生。
事件检测单元302将处理后的信息与先前从设备206接收的信息进行比较,以检测存在于IoT环境中的至少一个设备206的状态改变和用户208的活动的改变中的至少一个。在确定至少一个设备206的状态改变和用户活动的改变中的至少一个时,事件检测单元302检测与存在于IoT环境中的至少一个设备206相关的第一事件的发生。检测到第一事件的发生有助于确定用户208发起与用户交互设备202的交互/会话的概率。在本文中的示例中,第一事件可以是但不限于(使用接触传感器或门锁IoT设备检测的)开门事件、(使用可穿戴设备检测的)用户从睡眠事件醒来、(使用智能电话上存在的应用程序检测的)出租车预订事件等。
此外,事件检测单元302可以配置为检测与存在于IoT环境中的至少一个设备206相关的第二事件/事件序列/后续事件(后续事件)。后续事件可以是语音事件、用户208的活动变化和存在于IoT环境中的至少一个设备206的状态变化中的至少一个。事件检测单元302处理从IoT设备206接收的信息,以检测后续事件的发生。信息的处理包括将从设备206提取/接收的信息存储在存储器中,形成与提取的信息相关联的这类事件的流水线以及基于用户来过滤事件以检测后续事件的发生。后续事件的发生的检测有助于基于上下文确定估计用户208发起与用户交互设备202的会话的更概率估计。在本文中的示例中,后续事件可以是但不限于开门事件之后的用户存在检测事件、用户从睡眠事件醒来之后的用户行走事件、出租车预订事件之后的出租车到达事件等。
位置检测单元304可以配置为确定关于检测到的第一事件和后续事件的源位置的信息、用户208/多个用户(208a-208n)在发生第一事件和后续事件中的至少一个时的位置等。位置检测单元304使用由系统200用于监控用户的活动和设备206的设备(例如智能电话、可穿戴设备、相机、IoT设备、运动传感器等)中的至少一个来确定位置信息。
用户相关信息确定单元306可以配置为基于对第一事件和后续事件中的至少一个的发生的检测来确定用户相关信息。用户相关信息可以是但不限于用户发生在第一事件和后续事件中的至少一个时的定位/位置、用户发生在第一事件和后续事件中的至少一个时的行为、用户的姿态/用户在发生第一事件和后续事件中的至少一个期间与其他用户的交互等。用户相关信息可以基于从系统200用于监控用户活动的诸如智能电话、可穿戴设备、相机、IoT设备、运动传感器等的设备收集的数据来确定。
上下文概率估计单元308可以配置为响应于对第一事件和后续事件中的至少一个的检测来估计上下文概率。上下文概率指示用户208发起与用户交互设备202的交互/会话的概率。可以使用检测到的第一事件和后续事件以及上下文中的至少一个来估计上下文概率。上下文概率估计单元308使用上下文参数来确定上下文,上下文参数诸如为但不限于用户上下文、用户个人语言建模(PLM)数据、与设备206相关联的设备上下文、语音交互历史等。用户上下文可以包括关于用户的活动、用户的位置、用户的存在等中的至少一个的信息。用户PLM数据包括关于用户调度(会议、感兴趣的事件、会议呼叫等)和用户语音参数(音调、音高、幅度、频率等)等中的至少一个的信息。上下文概率估计单元308通过从系统200的用于监控用户的活动和设备206的设备(例如智能电话、可穿戴设备、相机、IoT设备、运动传感器等)中的至少一个收集数据并分析该数据来确定用户上下文和用户PLM数据。因此,可以执行用户分析以确定用户上下文。设备上下文可以包括关于设备206的当前状态、与设备206相关联的事件模式等中的至少一个的信息。上下文概率估计单元308通过从设备206收集并分析信息来确定设备上下文。上下文概率估计单元308可以访问外部数据库(未示出)或存储器314以获得与用户交互设备202的语音交互历史。
在实施例中,上下文概率估计单元308可以使用任何神经网络模型或基于AI的模型来估计上下文概率。为了估计上下文概率,上下文概率估计单元308将检测到的第一事件和后续事件以及确定的上下文传递到神经网络模型。上下文包括事件序列的历史和来自用户的语音命令交互的历史。神经网络模型从事件序列的历史和来自用户的语音命令交互的历史中提取(刚好在来自用户的每个语音唤醒之前发生的)事件序列的有意义的模型。在实施例中,可以使用各种序列挖掘技术来提取事件序列的有意义的模型。此外,神经网络模型执行事件序列的有意义的模型与(从上下文导出的)来自用户的语音命令交互的相关。该相关指示事件序列与从历史中导出的来自用户的语音命令交互之间的相关性。利用上下文使用这种相关、第一事件和后续事件,神经网络模型可以预测指示用户发起与用户交互设备202的语音交互的可能性的置信度值。在本文中的实施例中,置信度值指示用户208发起与用户交互设备202的会话的上下文概率。
在实施例中,上下文概率估计单元308可以配置为基于检测第一事件和后续事件中的至少一个的发生以及发生第一事件和后续事件中的至少一个时确定的用户相关信息来估计上下文概率。
在另一实施例中,上下文概率估计单元308可以配置为估计由用户208发起与多个用户交互设备202a-202n中的至少一个用户交互设备(202a)的语音交互的上下文概率。可以基于由位置检测单元304确定的位置信息(第一事件和后续事件的源位置以及用户的位置)来估计上下文概率。
在又一实施例中,上下文概率估计单元308可以配置为估计由至少一个用户208a发起与多个用户交互设备202a-202n中的至少一个用户交互设备(202a)的语音交互的上下文概率。可以基于第一事件和后续事件的源位置以及在发生第一事件和后续事件中的至少一个时确定的多个用户208a-208n的位置来估计上下文概率。
唤醒时间配置单元310可以配置用于将用户交互设备202切换到被动唤醒状态的动态唤醒时间。在被动唤醒状态中,用户交互设备202可以在后台被唤醒达所配置的动态唤醒时间,并且用户不需要发起会话。然而,当用户交互设备202处于被动唤醒状态中时,用户208可以发起新生/新的会话,而无需说出触发词或唤醒词。
在实施例中,唤醒时间配置单元310可以基于由用户208发起与多个用户交互设备202a-202n中的至少一个用户交互设备(202a)的语音交互的估计的上下文概率来配置用于至少一个用户交互设备202a的动态唤醒时间。
唤醒时间配置单元310基于用户208发起与用户交互设备202会话的估计的上下文概率来配置动态唤醒时间。唤醒时间配置单元310将估计的上下文概率与预定义的阈值(预定概率)进行比较。预定义的阈值可以基于用户与用户交互设备202的会话频率而静态地或动态地确定。此外,预定义的阈值在不同的设备之间以及不同的用户之间是变化的。在确定所估计的上下文概率不超过预定义的阈值时,唤醒时间配置单元310不估计唤醒时间。因此,用户交互设备202保持在休眠状态中。
在确定所估计的上下文概率超过预定义的阈值时,唤醒时间配置单元310决定激活用户交互设备202以及用于激活处于被动唤醒状态中的用户交互设备202的增量唤醒持续时间(动态唤醒时间)。唤醒时间配置单元310基于所估计的上下文概率、语音交互历史等中的至少一个来估计增量唤醒持续时间。增量唤醒持续时间可以与上下文概率成正比。因此,上下文概率越高,增量唤醒持续时间越长。可以基于诸如但不限于所接收的序列事件的类型、用户上下文等因素来动态地估计增量唤醒时间。
一旦估计了增量唤醒时间,唤醒时间配置单元310向用户交互设备202提供被动唤醒命令。被动唤醒命令包括关于用户交互设备202需要处于被动唤醒状态/激活状态的估计的增量唤醒持续时间的信息。在本文中的实施例中,唤醒时间配置单元310可以以自然语言生成(NLG)形式向用户交互设备202发送被动唤醒命令。在接收到被动唤醒命令时,用户交互设备202从休眠状态切换到被动唤醒状态,在增量唤醒持续时间内继续唤醒,并监听来自用户208的任何命令。
在实施例中,在识别由用户208发起的语音命令/会话时,用户交互设备202可以进入响应唤醒状态,同时唤醒达所估计的增量唤醒持续时间。在响应唤醒状态中,用户208可以提供语音命令/查询,而无需说出触发字,并且用户交互设备202可以在估计的增量唤醒持续时间内与用户208交互。
在另一实施例中,唤醒时间配置单元310延长用户交互设备202的增量唤醒持续时间。基于由用户208发起的语音命令/会话(在用户交互设备202切换到被动唤醒状态之后),唤醒时间配置单元310确定用户208需要更多的时间来完成查询并延长增量唤醒持续时间。因此,用户交互设备202保持在唤醒状态中,并且用户208可以完成查询。在实施例中,可以基于诸如但不限于序列事件、用户上下文等因素来动态地估计延长增量唤醒持续时间。
考虑用户208在早晨醒来的示例场景。事件检测单元302将用户唤醒事件确定为第一事件,并将用户行走活动确定为后续事件。基于事件的检测,上下文概率估计单元308估计用户208在唤醒之后发起与用户交互设备202的语音交互的上下文概率。此外,基于上下文概率,唤醒时间配置单元310激活用户交互设备202,来指示用户交互设备202需要被唤醒的被动唤醒持续时间。
考虑另一场景,其中用户208在早晨醒来,并且多个用户交互设备202a-202n存在于不同的位置。在本文中的示例中,用户交互设备202a位于起居厅,而用户交互设备202b位于用户房间。事件检测单元302将用户唤醒事件确定为第一事件,并将用户行走活动确定为后续事件。位置检测单元304确定检测到的事件的源位置和用户在发生事件时的位置。在本文中的示例中,检测到的事件的源位置和用户位置可以被确定为房间。上下文概率估计单元308估计用户208发起与位于房间的用户交互设备202b语音交互的上下文概率。可以基于事件的发生的检测和位置信息来估计上下文概率。此外,基于上下文概率,唤醒时间配置单元310激活用户交互设备202b,指示用户交互设备202b需要被唤醒的被动唤醒持续时间。
考虑又一场景,其中用户208a在早晨醒来,同时用户208b进入家中。此外,用户交互设备202a位于起居厅,而用户交互设备202b位于用户房间。事件检测单元302同时检测与用户208a和用户208b相关联的事件的发生。对于用户208a,事件检测单元302将唤醒事件确定为第一事件,并将行走活动确定为后续事件。对于用户208b,事件检测单元302将门解锁事件确定为第一事件,并将用户存在确定为后续事件。基于对事件发生的检测,位置检测单元304确定事件的源位置以及用户208a和用户208b在事件发生时的位置。在本文中的示例中,与用户208a相关联的事件的源位置和用户208a在事件发生时的位置可以是房间。类似地,与用户208b相关联的事件的源位置和用户208b在事件发生时的位置可以是起居厅。基于事件的发生的检测和与用户208a相关联的位置信息,上下文概率估计单元308估计用户208a发起与位于房间的用户交互设备202b的语音交互的上下文概率。类似地,基于对事件的发生的检测以及与用户208b相关联的位置信息,上下文概率估计单元308估计用户208b发起与位于起居厅的用户交互设备202a语音交互的上下文概率。基于上下文概率,唤醒时间配置单元310激活用户交互设备202a和用户交互设备202b,指示用户交互设备需要被唤醒的被动唤醒持续时间。因此,多个用户208a-208n可以同时与(位于不同位置处的)多个用户交互设备202a-202n交互,而不使用触发字。
考虑又一场景,其中用户208在早晨醒来。事件检测单元302将用户唤醒事件确定为第一事件,并将用户行走活动确定为后续事件。此外,用户相关信息确定单元306确定事件发生时用户208是否正在与另一用户通话/用户的位置/用户208的姿态等。在本文中的示例中,用户相关信息确定单元306确定用户208在行走时与另一用户通话。基于事件的检测和用户相关信息,上下文概率估计单元308估计用户208在醒来之后发起与用户交互设备202的语音交互的上下文概率。在本文中的示例中,由于用户在行走(后续事件)时与另一个用户谈话,所以估计的上下文概率可能低于预定义的阈值。因此,唤醒时间配置单元310不激活用户交互设备202,并且用户交互设备202保持在休眠状态中。
通信接口单元312可以通过通信网络在配置设备204与用户交互设备202、设备206等中的至少一个之间建立通信。
存储器314可以配置为存储语音交互、唤醒时间配置、事件序列、用户相关信息等。存储器314可以包括一个或多个计算机可读存储介质。存储器314可以包括非易失性存储元件。此类非易失性存储元件的示例可包括磁性硬盘、光盘、软盘、闪存存储器或者电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。此外,在一些示例中,存储器314可以被视为非暂时性存储介质。术语“非暂时性的”可以表示存储介质不包含在载波或传播信号中。然而,术语“非暂时性”不应被解释为意味着存储器314是不可移动的。在一些示例中,存储器314可配置为存储比存储器更大量的信息。在某些示例中,非暂时性存储介质可(例如,在随机存取存储器(RAM)或高速缓冲存储器中)存储可随时间改变的数据。
图3示出了配置设备204的各种单元,但应理解,其它实施例不限于此。在其它实施例中,配置设备204可以包括更少或更多数量的单元。此外,单元的标签或名称仅用于说明的目的,并且不限制本文中的实施例的范围。可以将一个或多个单元组合在一起以在配置设备204中执行相同或基本上类似的功能。
图4是示出根据本文中所公开的实施例的用于配置用户交互设备202的动态唤醒时间的方法的流程图400。
在步骤402,该方法包括由配置设备204检测第一事件。在本文中的实施例中,第一事件可以是非语音事件。在步骤404,该方法包括由配置设备204检测与设备206相关联的后续事件(后续事件)。后续事件可以是语音事件、用户208的活动变化和存在于IoT环境中的至少一个设备206的状态变化中的至少一个。配置设备204通过连续地收集和处理来自设备206的信息来检测第一事件和后续事件。
在步骤406,该方法包括由配置设备204估计用户发起与用户交互设备202的交互的上下文概率。在确定发生第一事件和后续事件中的至少一个事件时,配置设备204估计上下文概率。配置设备204基于事件的发生和上下文来估计上下文概率。可以使用诸如但不限于用户上下文、用户PLM数据、设备上下文、语音交互历史以及事件序列历史等的上下文参数来确定上下文。从事件序列历史和来自用户的语音命令交互历史中,配置设备204可以提取事件序列的有意义的模型和相关性。利用上下文使用相关性、第一事件和后续事件,配置设备204可以利用用户发起与用户交互设备202的语音会话的可能性的置信度值来进行预测。置信度值指示发起与用户交互设备202的语音会话的上下文概率。在实施例中,配置设备204使用神经网络模型或任何其它机器学习算法来检测上下文概率。
在步骤408,该方法包括由配置设备204配置用于将用户交互设备202切换到被动唤醒状态的动态唤醒时间。配置设备204将估计的上下文概率与预定义的阈值进行比较。在确定所估计的上下文概率不高于预定义的阈值时,配置设备204将用户交互设备202切换到休眠状态。在确定上下文概率高于预定义的阈值时,配置设备204估计用于将用户交互设备202切换到被动唤醒状态的增量唤醒持续时间。在被动唤醒状态中,用户交互设备202在后台状态中继续唤醒达增量唤醒持续时间,收听用户命令,并在没有任何触发字的情况下向用户208提供响应。可以基于上下文概率和用户语音交互的历史来配置增量唤醒持续时间。增量唤醒持续时间可以与上下文概率成正比。可以基于诸如所接收的序列事件的类型、用户上下文等因素来动态地估计增量唤醒时间。
方法和流程图400中的各种动作、行为、框、步骤等可以以所呈现的顺序执行,可以以不同的顺序执行或者可以同时执行。此外,在一些实施例中,在不脱离本公开的范围的情况下,动作、行为、框、步骤等中的一些可以被省略、添加、修改、跳过。
图5a、图5b和图5c示出了根据本文中所公开的实施例的用于配置动态唤醒时间以激活用户交互设备202的系统200的示例性架构。
图5a示出了系统200的示例性架构,其中系统200包括云作为用于激活用户交互设备202的配置设备204。云204可以配置为检测与存在于IoT环境中的至少一个设备206相关联的第一事件和后续事件中的至少一个的发生。可以通过连续地收集和处理来自设备206的信息来检测第一事件和后续事件中的至少一个。无论何时存在至少一个设备206的状态变化,云都可以识别该事件。一旦检测到第一事件和后续事件中的至少一个事件的发生,则云204估计用户208发起与用户交互设备202会话的上下文概率。可以基于用户上下文、用户PLM数据、设备上下文和语音交互历史以及事件历史来估计上下文概率。基于上下文概率,云204确定激活用户交互设备202的增量唤醒持续时间。云204还向用户交互设备202发送被动唤醒命令,以唤醒达估计的增量唤醒持续时间。因此,用户交互设备202可以从休眠状态切换到激活状态,而无需从用户208接收唤醒字。
图5b示出了系统200的示例性架构,其中系统200包括本地设备(集线器、路由器等中的至少一个)作为用于激活用户交互设备202的配置设备204。本地设备204可以在本地存在于IoT环境中并且与用户交互设备202通信。本地设备204检测与设备206相关联的事件的发生,并相应地估计用户208发起会话的上下文概率。基于所估计的上下文概率,本地设备204配置增量唤醒持续时间。本地设备204还向用户交互设备202发送被动唤醒命令,进而用户交互设备202在估计的持续时间内唤醒。
图5c示出了系统200的示例性架构,其中系统200包括用户交互设备202,并且用户交互设备202本身基于上下文概率来激活。用户交互设备202本身分析与设备206相关联的事件的发生,并确定用户208发起会话的上下文概率。基于上下文概率,用户交互设备202可以估计期望的唤醒时间并唤醒自身至被动唤醒状态/被动收听模式。
图6是示出根据本文中所公开的实施例的用户交互设备202的基于上下文概率激活的方法的示例流程图。如图6所示,配置设备204计算用户208发起与用户交互设备202会话的上下文概率。配置设备204在确定发生与设备206相关联的事件时计算上下文概率。配置设备204基于上下文和检测到的事件来计算上下文概率。可以使用诸如但不限于用户上下文、用户PLM数据、设备上下文、语音交互历史等参数来确定上下文。用户上下文包括关于用户在IoT环境中的存在的信息(例如,提供关于多少用户正在观看TV、多少用户在汽车中存在等的信息)、用户的位置(例如,用户在家或办公室、用户在汽车中等)以及用户的活动(例如,打开门、预订出租车、从睡眠中醒来等)。用户PLM数据包括关于用户日程安排(诸如会议、相交事件、通话)、用户的语音参数(音调、音高、幅度、频率等)、用户的常规活动以及相应的时序信息等的信息。设备上下文可以包括关于传感器数据(捕获用户与用户交互设备202交谈的意图的相机)、存在于IoT环境中的设备206(TV、移动设备、烤箱、扬声器等)的状态等的信息。
配置设备204还检查所计算的上下文概率是否大于或等于预定义的阈值。在确定所计算的上下文概率小于预定义的阈值时,用户交互设备202继续处于休眠状态。在确定上下文概率大于或等于预定义的阈值时,配置设备204基于上下文概率和用户语音交互的历史动态地估计增量唤醒持续时间。此外,配置设备204向用户交互设备202发送指示所估计的增量唤醒持续时间的被动唤醒命令。在从配置设备204接收到被动唤醒命令时,用户交互设备202唤醒并且在估计的增量唤醒持续时间内保持在唤醒状态中。因此,用户208可以与用户交互设备202交互而不使用任何触发字。
图7a示出了语音辅助设备701的示例环境。语音辅助设备701可以配置为执行语音识别、语音合成和自然语言处理(NLP),以向至少一个用户702提供服务。语音辅助设备701可以实施人工智能(AI)以向至少一个用户702提供服务。语音辅助设备701可以与触发相关以向至少一个用户702发起服务。当不使用时,语音辅助设备701配置为在休眠模式中操作,并且当使用时,语音辅助设备701配置为在唤醒模式中操作。当向语音辅助设备701提供触发时,语音辅助设备701可以从休眠模式切换到唤醒模式。在实施例中,触发可以是与语音辅助设备701相关联的特定词。当至少一个用户702说出触发时,语音辅助设备701启动以收听触发之后的请求。通常,由至少一个用户702向语音辅助设备701说出该请求。该请求可以是由语音辅助设备701接收的语音输入的形式。在实施例中,语音辅助设备701可以是专用硬件组件,其注册有至少一个用户702的帐户。在实施例中,语音辅助设备701可以嵌入在至少一个用户702的用户设备中。例如,语音辅助设备701可以嵌入在至少一个用户702的智能电话、智能手表、平板电脑、膝上型计算机等中。在实施例中,语音辅助设备701可以嵌入在至少一个用户702的车辆的信息娱乐系统中。在实施例中,语音辅助设备可以嵌入在装置中并且配置为使用语音命令来控制装置。该装置可以包括但不限于冷冻机、冰箱、电视、洗衣机、音乐播放器等。语音辅助设备701可以是从至少一个用户702接收语音输入并基于语音输入提供服务的任何设备。在实施例中,语音辅助设备701可以与其他设备或应用程序连接,以向至少一个用户702提供服务。例如,如果语音辅助设备701嵌入在车辆中,则语音辅助设备701可以与车辆的音乐系统、导航系统、照明系统等连接。在至少一个用户702请求语音辅助设备701导航到目的地的情况下,语音辅助设备701可以与导航系统通信,以向至少一个用户702提供服务。考虑语音辅助设备701放置在家庭环境中。语音辅助设备701可以与家庭环境中的家用电器连接,以控制家用电器的操作。家用电器可以是基于来自至少一个用户702的请求的控制器。例如,如果至少一个用户702请求打开AC。语音辅助设备701可以通信以控制AC的操作并打开AC。在进一步的请求下,语音辅助设备701还可以配置为控制AC的温度。
在实施例中,语音辅助设备701可以与一个或多个输出装置相关联,以向至少一个用户702提供响应。在实施例中,一个或多个输出装置可以包括显示单元、音频输出单元、发光二极管(LED)等。该响应可以通过视觉显示或音频输出来提供,或者可以通过LED来指示。可以在语音辅助设备701中实现本领域中已知的一个或多个其它装置,以向至少一个用户702提供响应。
此外,语音辅助设备701可以包括处理器703、I/O接口704、存储器705和接收器706。在一些实施例中,存储器705可以通信地联接到处理器703。存储器705存储可由处理器703执行的指令,指令在被执行时可使语音辅助设备701向至少一个用户702提供服务。在实施例中,存储器705可以包括一个或多个模块707和数据708。一个或多个模块707可以配置为使用数据708执行本公开的步骤,以向至少一个用户702提供服务。在实施例中,一个或多个模块707中的每一个可以是硬件单元,该硬件单元可以在存储器705外部并且与语音辅助设备701联接。语音辅助设备701可以在各种计算系统中实现,诸如膝上型计算机、台式计算机、个人计算机(PC)、笔记本电脑、智能电话、平板电脑、电子书阅读器、服务器、网络服务器等。
在实施例中,语音辅助设备701可以由控制装置709控制。控制装置709可以配置为基于从至少一个用户702接收的至少一个语音输入来控制语音辅助设备701的操作。此外,控制装置709可以配置为识别与来自至少一个用户702的至少一个语音输入相关的意图。在实施例中,该意图可以传达从至少一个用户702接收的至少一个语音输入的上下文或含义。在实施例中,可以通过对至少一个语音输入执行自然语言理解(NLU)来识别与至少一个语音输入相关的意图。在实施例中,语音辅助设备701的先前语音输入的会话知识可用于确定所接收的至少一个语音输入的意图。
进一步地,针对至少一个语音输入确定从至少一个用户702发出后续语音输入的概率。可以基于意图、历史数据或一个或多个上下文因素中的至少一个来确定概率。历史数据可以与至少一个用户702相关联。在实施例中,历史数据可以包括至少一个用户702的过去请求和由语音辅助设备701提供的相应响应。在实施例中,历史数据可以包括请求时间、请求日期、请求位置以及与来自至少一个用户702的过去请求有关的其它数据。在实施例中,一个或多个上下文因素可以包括用户相关因素、时间相关因素数据和环境相关因素中的至少一个。在实施例中,用户相关因素可以包括与至少一个用户702相关的每日例程、位置、偏好等。在实施例中,时间相关数据可以包括请求的时间、请求的日期、请求是否在上午、下午或晚间等。在实施例中,环境相关因素包括与语音辅助设备701连接的设备或应用的连接性细节和状态细节。可以用于确定发出后续语音输入的概率的一个或多个其它因素可以包括在一个或多个上下文因素中。
在实施例中,与控制装置709和语音辅助设备701相关联的概率确定装置710可以配置为确定发出后续语音输入的概率。为了确定发出概率,概率确定装置710可以配置成从至少一个语音输入中的多个词中提取一个或多个关键词。可以基于至少一个语音输入的意图来提取一个或多个关键词。在实施例中,可以通过向至少一个语音输入的多个词中的每一个分配权重来提取一个或多个关键词。此外,多个词中的具有大于预定权重值的权重的关键词可以被识别为一个或多个关键词。
在实施例中,概率确定装置710可以配置为基于一个或多个所提取的关键词来建立用于至少一个语音输入的会话知识。在实施例中,会话知识可用于识别对语音辅助设备701的后续语音输入的意图。
在提取一个或多个关键词之后,可以基于一个或多个关键词来识别与至少一个语音输入相关联的域。此外,利用与至少一个用户702相关联的多个预存域,为所识别的域计算域匹配得分。概率确定装置710基于域匹配得分、一个或多个上下文因素以及与至少一个用户702相关联的历史数据来确定向语音辅助设备701发出后续语音输入的概率。
在确定发出后续语音输入的概率之后,控制装置709可以配置为将该概率与预定义的阈值进行比较。在实施例中,可以通过连接到语音辅助设备701的设备通过分析历史数据来确定预定义的阈值。当所确定的概率大于预定义的阈值时,可以确定语音辅助设备701的延长唤醒持续时间。此外,语音辅助设备701的唤醒模式的持续时间可以被延长达延长持续时间,以接收来自至少一个用户702的后续语音输入。在实施例中,延长唤醒持续时间可以被估计为与发出后续语音输入的概率成正比。例如,如果所确定的概率是高的,则可以将延长唤醒持续时间确定为更长的持续时间。类似地,当所确定的概率为低但等于或大于预定义的阈值时,可以将延长唤醒持续时间确定为较短的持续时间。
在实施例中,当概率被确定为小于预定义的阈值时。控制装置709可以将语音辅助设备701配置为处于休眠模式,直到检测到用于在唤醒模式中操作语音辅助设备701的触发为止。
此外,在延长唤醒持续时间期间,如果检测到没有后续语音输入,则语音辅助设备701可以配置为处于休眠模式。
在实施例中,如图7b所示,控制装置709和概率确定装置710可以是语音辅助设备701的组成部分。由接收器706接收的至少一个语音输入可以由控制装置709用于控制语音辅助设备701,并且概率确定装置710确定发出后续语音输入的概率。在实施例中,概率确定装置710可以是控制装置709(图7b中未示出)的组成部分。在实施例中,如图7c所示,控制装置709和概率确定装置710可以是与语音辅助设备701通信的专用服务器或基于云的服务器。语音辅助设备701可以经由通信网络(图中未示出)与这种服务器进行通信。通信网络包括但不限于直接互连、对等(P2P)网络、局域网(LAN)、广域网(WAN)、无线网络(例如,使用无线应用协议)、控制器区域网(CAN)、互联网、Wi-Fi等。语音辅助设备701的I/O接口704可以帮助发送和接收数据。接收到的数据可以包括至少一个语音输入、来自控制装置709的指令等。发送的数据可以包括对控制装置709的至少一个语音输入、对至少一个用户702的响应等。
图8示出了用于控制语音辅助设备701的控制装置709的详细框图。控制装置709可以包括第一处理器801、第一I/O接口802和第一存储器803。在一些实施例中,第一存储器803可以通信地联接到第一处理器801。第一存储器803存储可由第一处理器801执行的指令,指令在执行时可使控制装置709控制语音辅助设备701。在实施例中,第一存储器803可以包括一个或多个第一模块804和第一数据805。一个或多个第一模块804配置为使用第一数据805执行本公开的步骤,以提供对语音辅助设备701的控制。在实施例中,一个或多个第一模块804中的每一个可以是硬件单元,该硬件单元可以在第一存储器803外部并且与控制装置709联接。控制装置709可以在各种计算系统中实现,例如膝上型计算机、台式计算机、个人计算机(PC)、笔记本电脑、智能电话、平板电脑、电子书阅读器、服务器、网络服务器等。
本文中可以详细描述控制装置709的第一存储器803中的第一数据805以及一个或多个第一模块804。
在一个实现方式中,一个或多个第一模块804可以包括但不限于意图识别模块806、发出概率确定模块807、延长唤醒持续时间估计模块808、模式配置模块809以及与控制装置709相关联的一个或多个其它模块810。
在实施例中,第一存储器803中的第一数据805可以包括语音输入数据811(也称为至少一个语音输入811)、意图数据812(也称为意图812)、概率数据813(也称为发出概率813)、历史数据814、上下文因素815(也称为一个或多个上下文因素815)、延长唤醒持续时间数据816(也称为延长唤醒持续时间816)、模式配置数据817、预定义的阈值818和与控制装置709相关联的其它数据819。
在实施例中,第一存储器803中的第一数据805可以由控制装置709的一个或多个第一模块804处理。在实施例中,一个或多个第一模块804可以被实现为专用单元,并且当以这种方式实现时,所述模块可以配置为具有在本公开中定义的功能,以产生新颖的硬件。如本文中所使用的,术语“模块”可以指专用集成电路(ASIC)、电子电路、现场可编程门阵列(FPGA)、可编程片上系统(PSoC)、组合逻辑电路和/或提供所述功能的其它适当组件。
控制装置709可以配置为基于由语音辅助设备701接收的至少一个语音输入811来控制语音辅助设备701的操作。至少一个语音输入811可以由控制装置709处理以控制语音辅助设备701。在实施例中,提供给语音辅助设备701的每个语音输入可以动态地提供给控制装置709,以动态地控制语音辅助设备701。
在接收到至少一个语音输入811之后,控制装置709的意图识别模块806可以配置为识别至少一个语音输入811的意图812。在实施例中,可以通过对至少一个语音输入811执行语音识别、语音合成、NLU来识别至少一个语音输入811的意图812。在实施例中,语音辅助设备701的先前语音输入的会话知识可用于确定所接收的至少一个语音输入811的意图812。本领域技术人员已知的一种或多种其它处理技术可以在意图识别模块806中实现,以识别至少一个语音输入811的意图812。
此外,发出概率接收模块807可以被配置成接收来自概率确定装置710的后续语音输入的发出概率813。在实施例中,概率确定装置710可以是控制装置709的其它模块810中的一个。在实施例中,概率确定装置710可以经由通信网络与控制装置709连接。概率确定装置710可以确定发出概率813,并且发出概率接收模块807可以配置为与概率确定装置710通信以接收所确定的发出概率813。
图9示出了用于确定发出概率813的概率确定装置710的详细框图。
概率确定装置710可以包括第二处理器901、第二I/O接口902和第二存储器903。在一些实施例中,第二存储器903可以通信地联接到第二处理器901。第二存储器903存储可由第二处理器901执行的指令,指令在被执行时可使概率确定装置710确定发出概率813。在实施例中,第二存储器903可以包括一个或多个第二模块904和第二数据905。一个或多个第二模块904可以配置为使用第二数据905来执行本公开的步骤,以确定概率813。在实施例中,一个或多个第二模块904中的每一个可以是硬件单元,该硬件单元可以在第二存储器903外部并且与概率确定装置710联接。概率确定装置710可以在各种计算系统中实现,例如膝上型计算机、台式计算机、个人计算机(PC)、笔记本电脑、智能电话、平板电脑、电子书阅读器、服务器、网络服务器等。
本文中可以详细描述概率确定装置710的第二存储器903中的第二数据905以及一个或多个第二模块904。
在一个实现方式中,一个或多个第二模块904可以包括但不限于关键词提取模块906、域识别模块907、域匹配得分计算模块908、概率确定模块909以及与概率确定装置710相关联的一个或多个其它模块910。
在实施例中,第二存储器903中的第二数据905可以包括语音输入数据911(也称为至少一个语音输入911)、关键词数据912(也称为一个或多个关键词912)、域数据913(也称为域913)、域匹配分数数据914(也称为域匹配分数914)、概率数据915(也称为发出概率915)以及与概率确定装置710相关的其它数据916。在实施例中,控制装置709的第一存储器803中的语音输入数据811可以与概率确定装置710的第二存储器903中的语音输入数据911相同。在实施例中,控制装置709的第一存储器803中的概率数据814可以与概率确定装置710的第二存储器903中的概率数据915相同。
在实施例中,第二存储器903中的第二数据905可以由概率确定装置710的一个或多个第二模块904处理。在实施例中,一个或多个第二模块904可以被实现为专用单元,并且当以这种方式实现时,所述模块可以配置为具有在本公开中定义的功能,以产生新颖的硬件。如本文中所使用的,术语“模块”可以指专用集成电路(ASIC)、电子电路、现场可编程门阵列(FPGA)、可编程片上系统(PSoC)、组合逻辑电路和/或提供所述功能的其它适当组件。
关键词提取模块906可以配置成从至少一个语音输入911中的多个词中提取一个或多个关键词912。在实施例中,关键词提取模块906可以配置为识别至少一个语音输入911中的多个词。在识别多个词之后,多个词中的每一个被分配权重。在实施例中,基于至少一个语音输入911的意图812向多个词中的每一个分配权重。例如,与至少一个语音输入911的意图812密切相关的词可以分配较高的权重,并且与意图812最不相关的词可以被分配较低的权重。此外,关键词提取模块906可以配置为将权重大于预定权重值的词标识为至少一个语音输入911的一个或多个关键词912。这样的一个或多个关键词912表示至少一个语音输入911。域识别模块907可以配置为使用一个或多个关键词912来识别与至少一个语音输入911相关联的域913。在实施例中,概率确定装置710可以与包括与语音辅助设备701相关的多个预存域的储存库相关联。在实施例中,可以基于先前的语音输入或来自至少一个用户702的请求来识别多个预存域并将其存储在储存库中。在实施例中,多个预存域可以包括娱乐、新闻、体育、音乐、电器配置等。此外,多个预存域中的每一个可以与相应的关键词相关联。在从至少一个语音输入911提取一个或多个关键词912之后,一个或多个关键词912可以与多个预存域的关键词相匹配。通过这种匹配,域识别模块907可以识别与至少一个语音输入911相关联的域913。
此外,域匹配得分计算模块908可配置为计算所识别的域913的域匹配得分914。在实施例中,可以利用与多个预存域中的每一个针对域913来计算域匹配得分914。此外,基于域匹配得分914,概率确定装置710的概率确定模块909可以配置为确定对语音辅助设备701的后续语音输入的发出概率915。此外,为了确定概率915,连同域匹配得分914还考虑一个或多个上下文因素815和历史数据814。在实施例中,历史数据814可以包括至少一个用户702的过去请求和由语音辅助设备701提供的相应响应。在实施例中,历史数据814可以包括请求时间、请求日期、请求位置以及与来自至少一个用户702的过去请求相关的其它数据。在实施例中,一个或多个上下文因素815包括用户相关因素、时间相关因素数据和环境相关因素中的至少一个。例如,在醒来之后,考虑至少一个用户702具有触发语音辅助设备701并给出命令来检索与天气、新闻和交通有关的信息的习惯。在这种情况下,在早晨从至少一个用户702接收到初始命令之后,后续的语音输入的发出概率915可以被确定为高。类似地,考虑至少一个用户702连续地询问与单个域相关的问题。由于存在至少一个用户702可以询问与单个域相关的进一步问题的可能性,所以概率915可以被确定为高。此外,考虑用户打开电视的命令,并且然后进行电话呼叫。在这种情况下,概率915可以被确定为低,因为从至少一个用户702接收进一步命令的概率是低的。
在实施例中,概率确定装置710的其它模块911可以包括会话知识建立模块,其配置为基于一个或多个所提取的关键词913来为至少一个语音输入911建立会话知识。可以为至少一个用户702与语音辅助设备701的的每个会话建立这样的会话知识。在实施例中,会话知识可以被存储在储存库中。
在实施例中,意图识别模块806可以配置为使用至少一个用户702的先前会话的会话知识来识别至少一个语音输入811的意图812。
发出概率915由概率确定装置710确定并提供给控制装置709。基于概率813,延长唤醒持续时间估计模块808可配置为确定语音辅助设备701的延长唤醒持续时间8167。最初,将概率813与预定义的阈值818进行比较。在所确定的概率813大于预定义的阈值818的情况下,可以确定语音辅助设备701的延长唤醒持续时间816。此外,语音辅助设备701的唤醒模式的持续时间可以延长达延长唤醒持续时间816,以接收来自至少一个用户702的后续语音输入。在实施例中,可以通过分析历史数据814通过连接到语音辅助设备701的设备来确定预定义的阈值818。例如,如果至少一个用户702频繁地与语音辅助设备701进行深度会话,则可以将预定义的阈值818选择为较低值。在这样的情况下,即使概率813的值较小,也可以确定延长唤醒持续时间816。类似地,考虑至少一个用户702主要使用语音辅助设备701来控制家用电器,而不是用于检索新闻更新。当意图812与新闻更新相关时,可以将预定义的阈值818设置为较高值,因为需要较高的概率来延长唤醒持续时间。
在实施例中,延长唤醒持续时间816可以估计为与后续语音输入的发出概率813成正比。例如,如果确定的概率813是高的,则延长唤醒持续时间816可以被确定为更长的持续时间。类似地,当所确定的概率813为低但等于或大于预定义的阈值818时。延长唤醒持续时间816可以被确定为较短的持续时间。
此外,在确定延长唤醒持续时间816之后,模式配置模块809可以将语音辅助设备701配置为以唤醒模式操作达延长唤醒持续时间816。在实施例中,当概率813被确定为小于预定义的阈值818时,模式配置模块809可以将语音辅助设备701配置为在休眠模式中操作,直到检测到在唤醒模式中操作的触发为止。此外,在延长唤醒持续时间816期间,如果检测到没有后续语音输入,则模式配置模块809可以将语音辅助设备701配置为在休眠模式中操作。语音辅助设备701将进行操作的模式被存储为模式配置数据817。模式配置数据817可以是休眠模式和唤醒模式之一。
其它数据820和917可以存储由用于执行控制装置709和概率确定装置710的各种功能的模块生成的数据,包括临时数据和临时文件。一个或多个第一模块804和一个或多个第二模块904还可以分别包括其它模块811和911,以执行控制装置709和概率确定装置710的各种不同功能。应当理解,这类模块可以被表示为单个模块或不同模块的组合。
图10a至图10b示出了用于控制语音辅助设备701的示例性示意图。考虑用户1001与语音辅助设备1002相关联。语音辅助设备1002可以由控制装置1003使用概率确定装置1004来控制。
最初,语音辅助设备1002可以在休眠模式中操作。当从用户1001接收到触发和第一命令时,语音辅助设备1002可以在唤醒模式中操作。控制装置1003接收第一命令,第一命令被提供给概率确定装置1004以于确定发出概率。当概率大于预定义的阈值时,确定关于第一命令的延长唤醒持续时间T1。随着对第一命令的响应,语音辅助设备1002的唤醒模式被延长到延长唤醒持续时间T1。下面描述与控制语音辅助设备1002相关联的一些使用情况。
考虑如图11a中所示的示例性实施例。考虑用户1101具有在早晨从语音辅助设备1102请求新闻更新的习惯。用户1101通过提供语音输入为“(触发词)、早上好”来启动语音辅助设备1102的服务。语音输入由语音辅助设备1102接收并提供给包括概率确定装置(在示例实施例中未示出)的控制单元1103。由于历史数据包括来自用户1102的进一步请求,因此可以确定后续语音输入的发出概率较高。因此,延长唤醒持续时间可以被确定为更长的持续时间。例如,在这种情况下,延长唤醒持续时间可以是60秒。使用自然语言生成(NLG),对语音输入的响应可以被提供为“早上好,拥有美好的一天”。与响应一起,唤醒持续时间也可以延长60秒。如所预测的,用户1101可以提供随后的语音输入为“读新闻更新”。语音输入由语音辅助设备1102接收并提供给控制装置1103。由于用户1101的历史数据指示用户1101通常在早晨仅请求新闻更新,并且还指示新闻更新已经被提供给用户1101,所以概率可为低的。因此,延长唤醒持续时间可以为较短的持续时间。例如,与后续语音输入相关的延长唤醒持续时间可以是20秒。使用NLG,对语音输入的响应可以被设置为“这是新闻更新…”。与响应一起,唤醒持续时间也可以延长20秒。如果在所述20秒内没有接收到语音输入,则语音辅助设备1102可以配置为处于休眠模式。
考虑如图11B所示的示例性实施例。考虑用户在旁晚从办公室进入家中时具有控制家用电器的习惯。用户1101通过提供语音输入“(触发词),打开灯”来启动语音辅助设备1102的服务。语音输入由语音辅助设备1102接收并提供给控制装置1103,并且历史数据包括请求进一步的请求,后续语音输入的发出概率可以被确定为更高,此外,延长唤醒持续时间可以被确定为更长的持续时间。例如,在这种情况下,延长唤醒持续时间可以是60秒。语音辅助设备1102可以打开灯并且使用NLG,对语音输入的响应可以被提供为“欢迎回家,我打开了灯”。与响应一起,唤醒持续时间也可以延长60秒。如所预测的,用户1101提供随后的语音输入为“打开AC并将温度设置为20”。语音输入由语音辅助设备1102接收并提供给控制装置1103。由于用户1101的历史数据指示几个家用电器在旁晚被控制,所以概率可为高的。因此,延长唤醒持续时间可以是较长的持续时间,但是比先前的唤醒持续时间短。例如,与后续语音输入相关的延长唤醒持续时间可以是40秒。语音辅助设备1102可以打开AC并将温度设置为20。此外,使用NLG,对语音输入的响应可以被提供为“AC被打开并温度被设置为20”。与该响应一起,唤醒持续时间也可以延长40秒,并且在40秒内等待来自用户1101的进一步的语音输入。如果在所述40秒内没有接收到语音输入,则语音辅助设备1102可以配置为处于休眠模式。
考虑如图11C所示的示例性实施例,其中,用户1101与语音辅助设备1102进行深度会话。深度会话可以包括来自用户1101的与单个上下文相关的几个问题。用户1101通过提供语音输入“(触发词),谁是唐纳德〃特朗普”来启动语音辅助设备1102的服务。语音输入由语音辅助设备1102接收并提供给控制装置1103。对于用户过去的请求,语音输入可能具有的新上下文,因此,所确定的概率可以是较低的值。然而,如果用户1101先前沉迷于与语音辅助设备1102进行深度会话,则概率可大于预定义的阈值。因此,延长唤醒持续时间可以是较短的持续时间。例如,在这种情况下,延长唤醒持续时间可以是20秒。语音辅助设备1102可以使用NLG,并将对语音输入的响应提供为“唐纳德〃特朗普是第45届现任美国总统”。与响应一起,唤醒持续时间也可以延长20秒。用户1101在20秒内提供随后的语音输入为“他多大?”。语音输入由语音辅助设备1102接收并提供给控制装置1103。由于后续的语音输入与先前的语音输入相关,所以接收后续语音输入的概率可以被确定为高。因此,延长唤醒持续时间可以比先前的唤醒模式持续时间更长。例如,与后续语音输入相关的延长唤醒持续时间可以是40秒。使用NLG,对语音输入的响应可以被提供为“他生于1946年并且他72岁”。与该响应一起,唤醒持续时间也可以延长40秒,并且在40秒内等待来自用户1101的进一步的语音输入。如果在所述40秒内没有接收到语音输入,则语音辅助设备1102可以配置为处于休眠模式。用户1101在40秒内将随后的语音输入提供为“他之前的美国总统是谁?”。语音输入由语音辅助设备1102接收并提供给控制装置1103。再次地,由于后续语音输入与先前语音输入相关,所以接收后续语音输入的概率可以被确定为高。因此,延长唤醒持续时间可以比先前的唤醒模式持续时间更长。例如,与后续语音输入相关的延长唤醒持续时间可以是60秒。使用NLG,对语音输入的响应可以被提供为“唐纳德〃特朗普之前的总统是巴拉克〃奥巴马”。与该响应一起,唤醒持续时间也可以延长60秒,并且在60秒内等待来自用户1101的进一步的语音输入。如果在所述60秒内没有接收到语音输入,则语音辅助设备1102可以配置为处于休眠模式。
返回参考图10a至图10b,考虑用户1001沉迷于连续语音并且在延长唤醒持续时间T1期间提供第二命令,在这种情况下,连续语音连同第二命令被语音辅助设备1002接收并且被提供给控制装置1003和概率确定装置1004。当针对第二命令确定的概率大于预定义的阈值时,确定关于第二命令的延长唤醒持续时间T2。随着对第二命令的响应,语音辅助设备1002的唤醒模式被延长至延长唤醒持续时间T2。进一步考虑,用户1001仅沉迷于连续语音而不向语音辅助设备1102发出任何命令。延长唤醒持续时间T2中的连续语音被接收。基于连续语音的意图,可以确定关于连续语音的概率。如果连续语音与先前命令的上下文相关,则概率可以高于预定义的阈值。如果连续语音与先前命令的上下文无关,则概率可以小于预定义的阈值。考虑概率大于预定义的阈值,确定关于第二命令的延长唤醒持续时间T3。语音辅助设备1102的唤醒模式被延长到延长唤醒持续时间T3。
考虑如图11d所示的示例性实施例,其中,用户1101通过提供语音输入“(触发词),任何关于我的通知”来启动语音辅助设备1102的服务。语音输入由语音辅助设备1102接收并提供给控制装置1103。语音输入可以与一次性请求相关联,因此,所确定的概率可以是较低的值。因此,延长唤醒持续时间可以是较短的时间段。例如,在这种情况下,延长唤醒持续时间可以是20秒。语音辅助设备1102可以使用NLG,并将对语音输入的响应提供为“你有来自安娜的消息‘让我们今晚共进晚餐’”。与响应一起,唤醒持续时间也可以延长20秒。用户1101提供作为连续语音的后续语音输入“向她发消息‘我很抱歉,我安排了一顿正式晚宴。我今晚无法和你吃饭了,明天怎么样?’”。语音输入是持续超过20秒的连续语音。此外,由于后续语音输入与先前语音输入相关,所以接收后续语音输入的概率可以被确定为高。因此,延长唤醒持续时间可以比先前唤醒模式持续时间更长。例如,与后续语音输入相关的延长唤醒持续时间可以是60秒。然而,如果仍然从用户1101接收到语音输入,则控制装置1103可以配置为进一步延长语音辅助设备1102的唤醒模式持续时间。延长唤醒模式持续时间的过程可以继续,直到语音输入完成接收并且在预定持续时间内没有语音输入。例如,最初,唤醒持续时间被延长60秒并进一步延长20秒。在完成延长唤醒持续时间之后,使用NLG,对语音输入的响应可以被提供为“好的,我会发送消息”。语音辅助设备1102可配置为在发送响应之后处于休眠模式。
考虑如图11e所示的示例性实施例,其中,第一用户1101.1和第二用户1101.2进行会话。第一用户1101.1可以与第二用户1101.2交谈,说“你想去电影院吗?”。第二用户1101.2可以回答说“当然,你想看哪部电影?”。由于第一用户1101.1和第二用户1101.2都没有发出所述触发字,所以语音辅助设备1102仍然可以是休眠模式。此外,第一用户1101.1通过说“(触发词),电影院正在上映哪些英文电影?”来发起语音辅助设备1102的服务。语音输入由语音辅助设备1102接收并提供给控制装置1103。语音输入的概率可以被确定为大于预定义的阈值,并且延长唤醒持续时间可以被确定为30秒。语音辅助设备1102可以使用NLG,并将对语音输入的响应提供为“电影院现在上映的英文电影中的一些是:复仇者:终局之战、惊奇队长、大侦探皮卡丘、阿拉丁、哥斯拉”。与响应一起,唤醒持续时间也可以延长30秒。在听到响应时,第一用户1101.1与第二用户1101.2进行会话,说“你想看哪一部?”。第二用户1101.2可以回复第一用户1101.1,说“哪部都可以”。针对此,第一用户1101.1回答说“好的,那我们去看复仇者:终局之战吧!”。在第一用户1101.1和第二用户1101.2之间的会话期间,语音辅助设备1102可以配置为接收来自第一用户1101.1和第二用户1101.2的语音输入,并将语音输入提供给控制装置1103。在会话期间,由于每个语音输入与来自第一用户1101.1的初始请求相关,所以控制装置1103确定概率大于预定义的阈值。此外,语音辅助设备1102的唤醒持续时间可以增加,直到接收到对语音辅助设备1102的进一步请求。例如,如图所示,唤醒模式最初可以延长20秒,并且进一步地延长20秒和40秒。当第一用户1101.1说出“定晚上6:30的复仇者:终局之战的票”时。语音辅助设备1102可以检测语音输入作为请求并相应地作出响应。语音辅助设备1102可以订票,并且可以使用NLG响应,说出“已经为您预订了晚上6:30的复仇者:终局之战的票”。由于任务完成,语音辅助设备1102可以配置为在发送响应之后处于休眠模式。
返回参考图10a至图10b,考虑用户1001沉迷于连续语音,并且在延长唤醒持续时间T1期间提供第三命令。在这种情况下,语音辅助设备1002接收连续语音以及第二命令,并将其提供给控制装置1003和概率确定装置1004。当针对第二命令确定的概率小于预定义的阈值时,可以将延长唤醒持续时间确定为0。连同对第二命令的响应,语音辅助设备1002可以配置为在休眠模式中操作。
考虑如图11f所示的示例性实施例。考虑用户1101具有在他进入车辆时使用车辆中的语音辅助设备1102播放音乐的习惯。用户1101通过提供语音输入“(触发词),导航至机场”来启动语音辅助设备1102的服务。语音输入由语音辅助设备1102接收并提供给控制装置1103。由于仍然没有接收到音乐请求,因此后续语音输入的发出概率可以被确定为更高,并且延长唤醒持续时间也可以被确定为更长的持续时间。例如,在这种情况下,延长唤醒持续时间可以是60秒。语音辅助设备1102可以提供到机场的导航,并且使用NLG,对语音输入的响应可以被提供为“好的,我开始导航到班加罗尔国际机场”。与响应一起,唤醒持续时间也可以延长60秒。如所预测的,用户1101提供随后的语音输入作为“播放一些音乐”。语音输入由语音辅助设备1102接收并提供给控制装置1103。由于预期请求已经被接收,所以概率可以被确定为小于预定义的阈值。因此,延长唤醒持续时间可以被确定为0。使用NLG,响应可以被提供为“好的,播放最新的好莱坞音乐”。此外,语音辅助设备1102可以配置为处于休眠模式。
图12a说明了示出语音辅助设备701的示例方法1200的流程图。
在框1201,语音辅助设备701可以配置为在语音辅助设备的唤醒模式期间接收来自至少一个用户702的至少一个语音输入。在实施例中,可以从语音辅助设备701动态地接收至少一个语音输入。
在框1202,语音辅助设备701可以配置为识别与来自至少一个用户702的至少一个语音输入相关的意图。在实施例中,来自至少一个用户702的先前语音输入的会话知识可用于识别意图。
在框1203,语音辅助设备701确定后续语音输入的发出概率。后续语音输入的发出概率可以基于意图、历史数据和一个或多个上下文因素来确定。图12b示出了根据本公开的一些实施例的用于确定后续语音输入的发出概率的示例方法1203的流程图。
在框1206,语音辅助设备701可以配置为基于语音输入的意图从至少一个语音输入中的多个词中提取一个或多个关键词。为了提取一个或多个关键词,将权重分配给至少一个语音输入的多个词中的每一个。此外,多个词中的具有大于预定权重值的权重的关键词被识别为一个或多个关键词。
在框1207,语音辅助设备701可以配置为基于一个或多个关键词来识别与至少一个语音输入相关的域。可以实施本领域技术人员已知的一种或多种技术来识别域。
在框1208,语音辅助设备701可以配置为计算所识别的域与和至少一个用户702相关联的多个预存域的域匹配得分。在实施例中,可以基于来自至少一个用户702的先前语音输入来识别多个预存域。
在框1209,语音辅助设备701可以配置为基于域匹配得分、一个或多个上下文因素以及与至少一个用户702相关联的历史数据来确定向语音辅助设备701发出后续语音输入的概率。
返回参考图12a,在框1204,当概率大于预定义的阈值时,语音辅助设备701可以配置为估计语音辅助设备的延长唤醒持续时间。在实施例中,当概率小于预定义的阈值时,延长唤醒持续时间可以被确定为0。
在框1205,语音辅助设备701可以配置为将语音辅助设备701的唤醒模式的持续时间延长到延长唤醒持续时间,以接收来自至少一个用户702的后续语音输入。当确定概率小于预定义的阈值时,语音辅助设备701可以配置为处于休眠模式,直到检测到触发以在唤醒模式中操作。
图12a至图12b中所示的方法可以包括用于在语音辅助设备701、控制装置709和概率确定装置710中的至少一个中执行处理的一个或多个块。图12a至图12b中所示的方法可以以计算机可执行指令的一般上下文描述。通常,计算机可执行指令可以包括例程、程序、对象、组件、数据结构、过程、模块和功能,它们执行特定的功能或实现特定的抽象数据类型。
所描述的图12a至图12b中所示的方法的顺序可不旨在被解释为限制,并且可以以任何顺序组合任何数量的所描述的方法块以实现该方法。另外,在不脱离本文中所描述的主题的范围的情况下,可以从方法中删除单独的块。此外,该方法可以在任何合适的硬件、软件、固件或其组合中实现。
图13示出了用于实现符合本公开的实施例的示例计算机系统1300的框图。在实施例中,计算机系统1300用于实现语音辅助设备1301、控制装置1309和概率确定装置1310中的至少一个。计算机系统1300可以包括中央处理单元(“CPU”或“处理器”)1302。处理器1302可以包括用于执行虚拟存储区域网络中的进程的至少一个数据处理器。处理器1302可包括专用处理单元,诸如集成系统(总线)控制器、存储器管理控制单元、浮点单元、图形处理单元、数字信号处理单元等。
处理器1302可以设置为经由I/O接口1301与一个或多个输入/输出(I/O)设备1309和1310通信。I/O接口1301可以采用以下通信协议/方法,诸如但不限于音频、模拟、数字、单声道、RCA、立体声、IEEE-1394、串行总线、通用串行总线(USB)、红外、PS/2、BNC、数码同轴接口、组件、复合结构、数字视觉接口(DVI)、高清晰度多媒体接口(HDMI)、RF天线、S-视频、VGA、IEEE 802.n/b/g/n/x、蓝牙、蜂窝(例如,码分多址(CDMA)、高速分组接入(HSPA+)、全球移动通信系统(GSM)、长期演进(LTE)、WiMax等)等。
使用I/O接口1301,计算机系统1300可以与一个或多个I/O设备1309和1310通信。例如,输入设备1309可以是天线、键盘、鼠标、操纵杆、(红外)遥控器、相机、读卡器、传真机、电子狗、生物测定读取器、麦克风、触摸屏、触摸板、跟踪球、触笔、扫描仪、储存设备、收发器、视频设备/源等。输出设备1310可以是打印机、传真机、视频显示器(例如,阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、等离子体、等离子体显示面板(PDP)、有机发光二极管显示器(OLED)等)、音频扬声器等。
在一些实施例中,计算机系统1300可以包括语音辅助设备1301、控制装置1309和概率确定装置1310中的至少一个。处理器1302可以设置为经由网络接口1303与通信网络1311通信。网络接口1303可以与通信网络1311通信。网络接口1303可以采用连接协议,连接协议包括但不限于直接连接、以太网(例如,双绞线10/100/1000Base T)、传输控制协议/互联网协议(TCP/IP)、令牌环、IEEE802.11 a/b/g/n/x等。通信网络1311可以包括但不限于直接互连、局域网(LAN)、广域网(WAN)、无线网络(例如,使用无线应用协议)、互联网等。使用网络接口1303和通信网络1311,计算机系统1300可以与用户1312通信以向用户1312提供服务。网络接口1303可以采用连接协议,连接协议包括但不限于直接连接、以太网(例如,双绞线10/100/1000Base T)、传输控制协议/互联网协议(TCP/IP)、令牌环、IEEE802.11 a/b/g/n/x等。
通信网络1311包括但不限于直接互连、电子商务网络、对等(P2P)网络,局域网(LAN)、广域网(WAN),无线网络(例如,使用无线应用协议)、互联网、Wi-Fi等。第一网络和第二网络可以是专用网络或共享网络,共享网络表示使用各种协议(例如,超文本传输协议(HTTP)、传输控制协议/互联网协议(TCP/IP)、无线应用协议(WAP)等)来彼此通信的不同类型网络的关联。此外,第一网络和第二网络可以包括各种网络设备,包括路由器、网桥、服务器、计算设备、储存设备等。
在一些实施例中,处理器1302可以设置为经由储存接口1304与存储器1305(例如,图13中未示出的RAM、ROM等)通信。储存接口1304可以使用连接协议连接到存储器1305,包括但不限于存储器驱动器、可移动磁盘驱动器等,连接协议诸如为串行高级技术附件(SATA)、集成驱动器电子(IDE)、IEEE-1394、通用串行总线(USB)、光纤信道、小型计算机系统接口(SCSI)等。存储器驱动器还可以包括鼓、磁盘驱动器、磁光驱动器、光驱动器、独立磁盘冗余阵列(RAID)、固态存储器设备、固态驱动器等。
存储器1305可以存储程序或数据库组件的集合,包括但不限于用户接口1306、操作系统1307、web浏览器1308等。在一些实施例中,计算机系统1300可以存储用户/应用数据1306,诸如如本公开中所描述的数据、变量、记录等。这样的数据库可以被实现为容错、关系、可扩展的安全数据库,诸如
Figure BDA0002820747740000371
Figure BDA0002820747740000372
操作系统1307可以促进计算机系统1300的资源管理和操作。操作系统的示例包括但不限于APPLE
Figure BDA0002820747740000373
OS X、
Figure BDA0002820747740000374
类UNIX系统发行版(例如,伯克利软件发行版(BSD)、FREEBSDTM、NetBSDTM、OPENBSDTM等)、LINUX发行版(例如,RED HATTM、UBUNTUTM、KUBUNTUTM等)、IBMTM OS/2、MICROSOFTTM、WINDOWSTM(XPTM、VISTATM/7/8、10等)、
Figure BDA0002820747740000375
IOSTM、
Figure BDA0002820747740000376
ANDROIDTM、
Figure BDA0002820747740000377
OS等。
在一些实施例中,计算机系统1300可以实现web浏览器1308存储的程序组件。web浏览器1308可以是超文本查看应用,诸如Microsoft Internet Explorer、Google Chrome、Mozilla Firefox、Apple Safari等。安全web浏览可以使用安全超文本传输协议(HTTPS)、安全套接层(SSL)、传输层安全(TLS)等来提供。Web浏览器1108可以利用诸如AJAX、DHTML、Adobe Flash、JavaScript、Java、应用编程接口(API)等的工具。在一些实施例中,计算机系统1300可以实现邮件服务器存储的程序组件。邮件服务器可以是互联网邮件服务器,诸如Microsoft Exchange等。邮件服务器可以利用诸如ASP、ActiveX、ANSI C++/C#、Microsoft.NET、CGI脚本、Java、JavaScript、PERL、PHP、Python、WebObjects等的工具。邮件服务器可以利用通信协议,诸如互联网消息访问协议(IMAP)、消息传送应用程式接口(MAPI)、微软交流群组软件、邮局协议(POP)、简单邮件传输协议(SMTP)等。在一些实施例中,计算机系统1300可以实现邮件客户端存储的程序组件。邮件客户端可以是邮件查看应用程序,诸如Apple Mail、Microsoft Entourage、Microsoft Outlook、MozillaThunderbird等。
本公开的实施例配置为通过动态确定语音辅助设备的唤醒模式的延长持续时间来提供最佳用户体验。
本公开的实施例通过考虑语音输入的意图、历史数据和与用户相关联的上下文因素来提供后续语音输入的精确发出概率。
图12a至图12b所示的操作示出了以特定顺序发生的特定事件。在替代实施例中,某些操作可以以不同的顺序执行、修改或移除。此外,可将步骤添加到上述逻辑且仍符合所述实施例。此外,本文中描述的操作可以顺序地发生,或者可以并行地处理某些操作。此外,操作可由单个处理单元或由分布式处理单元执行。
图14描绘了根据本文中所公开的实施例的示例场景,其中基于上下文概率的动态唤醒时间可以配置为激活用户交互设备202。如图14所示,配置设备204估计用于激活处于被动唤醒状态的用户交互设备202的动态唤醒时间/被动唤醒时间。被动唤醒时间可以基于与设备206的事件的发生和上下文参数来估计。被动唤醒时间可以与用户发起与用户交互设备202的会话的概率成正比。在本文中的示例中,估计的被动唤醒时间可以是15秒。用户交互设备202可以通过进入被动唤醒状态而被唤醒15秒内。在被动唤醒状态期间,用户交互设备202识别由用户208提供的查询(语音命令)并提供对查询的响应。
在估计的被动唤醒时间(例如,15秒)结束时,配置设备204通过连续地感测设备206的事件发生并计算上下文概率来估计下一唤醒时间/响应唤醒时间。在本文中的示例中,响应唤醒时间可以被估计为10秒。此外,在10秒结束时,配置设备204确定上下文概率小于预定义的阈值,并且使用户交互设备202能够切换到休眠状态。
图15是示出根据本文中所公开的实施例的用户交互设备202的基于上下文概率的激活的示例性序列图。本文中的实施例使得设备206能够将信息连续地发送到IoT云。IoT云还可以将从设备206接收的信息传送到云204/配置设备204。本文中的实施例被进一步解释为将云作为配置设备204的示例,但是对于本领域的普通技术人员显而易见的,可以考虑其他合适的设备。在接收到来自IoT云的信息时,云204检测与存在于IoT环境中的至少一个设备206相关联的至少一个事件的发生。一旦检测到事件,则云204基于上下文参数来估计用户发起与用户交互设备202会话的上下文概率。在确定上下文概率大于或等于预定义的阈值时,云204向用户交互设备202发送被动唤醒命令以进行激活。被动唤醒命令包括被动唤醒持续时间,被动唤醒持续时间可以是‘t1’。在本文中的实施例中,云204可以向用户交互设备202发送与NLG一起捆绑的被动唤醒命令。在接收到被动唤醒命令时,用户交互设备202切换到被动唤醒状态。在被动唤醒状态中,用户交互设备202唤醒并且在被动唤醒时间‘t1’内继续处于相同状态。此外,用户交互设备202。因此,用户可以在没有任何触发字的情况下启动用户交互设备202。
当用户交互设备202处于被动唤醒状态时,云204可以识别来自用户208的语音命令(连续语音)。云204通过使用自动语音识别(ASR)技术、自然语言处理(NLP)技术等中的至少一种来处理语音命令。基于所处理的语音命令,云204可以以NLG形式向用户交互设备202发送响应唤醒时间。用户交互设备202为用户说出NLG,并在给定的响应唤醒持续时间内自动唤醒。
此外,当用户停止提供语音命令并且不发生与设备206相关联的事件时,云204可以识别出上下文概率小于预定义的阈值。在确定上下文概率小于预定义的阈值时,云204向用户交互设备202发送休眠命令,以将其状态切换到休眠状态。
图16a至图16d描述了根据本文中所公开的实施例的示例情景,其中,可以根据基于上下文概率的动态唤醒时间来激活用户交互设备202。
考虑一种场景,如图16a所示,其中用户208在早晨醒来。云204(配置设备204)通过从用户的可穿戴设备收集信息来检测作为第一事件的用户唤醒事件。云204检测作为后续事件的用户行走活动。用户行走活动可以通过从运动传感器收集信息来检测。在确定发生事件时,云204基于上下文和检测到的事件来估计上下文概率。在本文中的示例中,使用上下文参数检测的上下文可以指示用户208在夜间睡眠。上下文概率指示用户208在从睡眠醒来之后发起会话的概率。基于所估计的上下文概率,云204向用户交互设备202发送被动唤醒命令,以指示用户交互设备202需要被唤醒的被动唤醒持续时间。
此外,用户可以说“早晨好,读出新的摘要”,而无需从睡眠中醒来之后的触发字。当用户交互设备202处于被动唤醒状态时,用户设备交互设备202自动地以NLG形式向用户提供响应。
考虑一种场景,如图16b所示,其中用户208在忙碌的日程安排之后回到家。云204检测门解锁事件作为第一事件。可以通过从存在于IoT环境中的接触传感器收集信息来检测门解锁事件。云204还通过从IoT环境中存在的相机收集信息来检测作为后续事件的用户存在事件。基于事件的发生,云204使用上下文参数和检测到的事件来估计上下文概率。上下文参数可以将上下文指示为在家中没有任何人并且预期用户从办公室返回。上下文概率指示用户208在到家之后发起会话的概率。云204基于上下文概率为用户交互设备202配置被动唤醒持续时间。被动唤醒时间可以配置为60秒。
此外,用户208提供语音命令“打开灯和AC”。在识别用户的语音命令时,用户交互设备202自动执行用户命令,而不从用户208接收任何触发字,因为用户交互设备202处于被动唤醒状态。
考虑一种场景,如图16c所示,其中用户208处于汽车中。云204通过从设备206收集信息来确定车门关闭事件和汽车发动机启动事件。一旦检测到事件,则云204使用上下文参数来识别上下文。可以识别上下文,因为用户单独在汽车中并且不涉及通过语音/视频呼叫与任何其他人的任何会话并且不收听音乐。此外,云204认识到,如果用户说话,则更可能的是,用户202可与用户交互设备202交谈。基于所识别的上下文,云204确定上下文概率,并通过指示被动唤醒持续时间来相应地向用户交互设备202发送被动唤醒命令。在本文中的示例中,被动唤醒时间可以配置为60秒。用户交互设备202继续处于唤醒状态达60秒。因此,当用户208开始驾驶或处于停车模式时,用户交互设备202切换到被动唤醒状态,因为说话的概率更大。此外,当用户交互设备202处于被动唤醒状态时,用户可以提供语音命令“导航到机场”。在识别语音命令时,用户交互设备202向用户208提供响应,而不从用户208接收任何触发字。
考虑一种场景,如图16d所示,其中,用户208急于出门。云204通过从用户的智能电话收集信息来检测出租车预订事件和出租车到达事件。云204还使用上下文参数来识别上下文。上下文可以被标识为TV、灯和AC被打开。基于所识别的上下文和所检测的事件,云204确定上下文概率并相应地配置被动唤醒时间。被动唤醒时间可以以被动唤醒命令形式被发送到用户交互设备202。在接收到被动唤醒命令时,用户交互设备202切换到被动唤醒状态。此外,用户208可以提供语音命令“执行外出模式”。用户交互设备202自动执行外出模式,而不从用户208接收任何触发字。
本文中的实施例通过避免在与用户交互设备通话之前唤醒用户交互设备的繁琐工作来提供更好的用户体验。因此,节省了用户的时间。本文中的实施例尤其在用户试图与用户交互设备进行流畅会话时能够实现简单和顺利的会话。本文中的实施例还提供了自然会话体验,例如与人交谈。
在本文中公开的实施例可以通过运行在至少一个硬件设备上并执行网络管理功能以控制元件的至少一个软件程序来实现。图中所示的元件可以是硬件设备或者硬件设备和软件模块的组合中的至少一个。
本文中公开的实施例描述了用于为用户交互设备配置动态唤醒时间的方法和系统。因此,应当理解,保护的范围被扩展到这种程序,并且除了其中具有消息的计算机可读装置之外,这种计算机可读存储装置还包含程序代码,当程序在服务器或移动设备或任何合适的可编程设备上运行时,实现该方法的一个或多个步骤。在优选实施例中,该方法通过以例如超高速集成电路硬件描述语言(VHDL)另一种编程语言编写的软件程序来实现,或者与该软件程序一起实现,或者通过在至少一个硬件设备上执行的一个或多个VHDL或若干软件模块来实现。硬件设备可以是能够被编程的任何类型的便携式设备。该设备还可以包括例如可以是硬件装置(例如ASIC)或硬件和软件装置的组合(例如ASIC和FPGA)的装置或者至少一个微处理器和至少一个具有位于其中的软件模块的存储器。本文中描述的方法实施例可以部分地以硬件实现并且部分地以软件实现。替代地,本发明可以在不同的硬件设备上实现,例如使用多个CPU。
前面对具体实施例的描述将完全地揭示本文中的实施例的一般性质,使得其他人可在不脱离通用构思的情况下通过应用现有知识而容易地修改和/或调整这类特定实施例的各种应用,且因此,此类调整和修改应该且旨在被理解为在所揭示实施例的等同的意义和范围内。应当理解,本文中使用的措辞或术语是为了描述的目的而不是限制的目的。因此,虽然已经根据实施例描述了本文中的实施例,但是本领域技术人员将认识到,可以在如本文中所描述的实施例的精神和范围内通过修改来实践本文中的实施例。

Claims (15)

1.配置设备,包括:
事件检测单元,配置为:
检测与存在于物联网(IoT)环境中的至少一个设备相关的至少一个第一事件的发生,其中,所述至少一个设备连接到所述配置设备,并且所述至少一个第一事件包括至少一个非语音事件,以及
检测与存在于所述IoT环境中的所述至少一个设备相关的至少一个后续事件的发生,
上下文概率估计单元,配置为:
基于检测到发生所述至少一个第一事件或所述至少一个后续事件中的至少一个,估计用户发起与用户交互设备的至少一个语音交互的上下文概率,以及
唤醒时间配置单元,配置为:
基于确定所估计的上下文概率高于预定义的阈值来配置动态唤醒时间,以将所述用户交互设备切换到被动唤醒状态,其中,基于所估计的上下文概率来配置所述动态唤醒时间。
2.根据权利要求1所述的配置设备,其中,所述唤醒时间配置单元还配置为基于确定所估计的上下文概率不高于所述预定义的阈值,将所述用户交互设备切换到休眠状态。
3.根据权利要求1所述的配置设备,其中,所述上下文概率估计单元还配置为:
使用至少一个上下文参数来确定上下文,其中,至少一个上下文参数包括用户上下文、用户个人语言建模数据、设备上下文、所述用户的语音命令交互的历史或与所述至少一个设备相关的事件序列的历史中的至少一个,
从所述用户的语音命令交互的历史和所述事件序列的历史中提取事件序列的有意义的模型,
执行所述事件序列的有意义的模型与从所述历史中导出的所述用户的所述语音命令交互的关联,以及
基于所述关联、与所述至少一个设备相关的所述至少一个第一事件和所述至少一个后续事件来预测置信度值,其中,所述置信度值指示由所述用户发起与所述用户交互设备的所述至少一个语音交互的上下文概率。
4.根据权利要求1所述的配置设备,其中,所述唤醒时间配置单元还配置为:
将所述上下文概率与所述预定义的阈值进行比较,其中,所述预定义的阈值是基于所述用户与所述用户交互设备的会话频率估计的,以及
基于确定所述上下文概率高于预定义的阈值来配置所述动态唤醒时间,其中,基于所述至少一个后续事件或用户上下文中的至少一个来配置所述动态唤醒时间。
5.根据权利要求1所述的配置设备,其中,所述唤醒时间配置单元还配置为向所述用户交互设备发送用于切换到所述被动唤醒状态的被动唤醒命令,其中,所述被动唤醒命令包括关于所配置的动态唤醒时间的信息。
6.语音辅助设备,包括:
接收器,配置为当在唤醒模式中操作时接收来自至少一个用户的至少一个语音输入;
处理器;以及
存储器,通信地联接到所述处理器,其中,所述存储器存储处理器可执行指令,所述处理器可执行指令在被执行时使所述处理器执行以下步骤:
识别与来自所述用户的至少一个语音输入相关联的意图,
基于所述意图、历史数据和一个或多个上下文因素中的至少一个来确定从所述至少一个用户发出后续语音输入的概率,
当所述概率大于预定义的阈值时,估计所述语音辅助设备的延长唤醒持续时间,以及
将所述唤醒模式的持续时间延长为所述延长唤醒持续时间以接收来自所述至少一个用户的后续语音输入。
7.根据权利要求6所述的语音辅助设备,其中,通过连接到所述语音辅助设备的设备分析所述历史数据来确定所述预定义的阈值。
8.根据利要求6所述的语音辅助设备,还包括所述处理器,所述处理器配置为:
确定所述概率小于预定义的阈值,以及
配置为在休眠模式中操作,直到检测到在所述唤醒模式中操作的触发。
9.根据权利要求6所述的语音辅助设备,其中,通过对所述至少一个语音输入执行自然语言理解(NLU)来确定与所述至少一个语音输入相关联的意图。
10.根据权利要求6所述的语音辅助设备,其中,所述一个或多个上下文因素包括用户相关因素、时间相关因素数据和环境相关因素中的至少一个。
11.根据权利要求6所述的语音辅助设备,其中,所述延长唤醒持续时间被估计为与所述后续语音输入的发出概率成正比。
12.根据权利要求6所述的语音辅助设备,其中,所述处理器配置为通过执行以下步骤来确定所述后续语音输入的发出概率:
从所述至少一个语音输入中的多个词中提取一个或多个关键词;
基于所述一个或多个关键词来识别与所述至少一个语音输入相关的域;
计算所识别的域与和所述用户相关的多个预存域的域匹配得分;以及
基于所述域匹配得分,确定向所述语音辅助设备发出所述后续语音输入的概率。
13.根据权利要求12所述的语音辅助设备,其中,通过以下步骤执行提取所述一个或多个关键词:
向所述至少一个语音输入的所述多个词中的每一个分配权重;以及
将所述多个词中的具有大于预定权重值的权重的一个或多个关键词识别为所述一个或多个关键词。
14.根据权利要求6所述的语音辅助设备,还包括所述处理器,所述处理器配置为:
基于所提取的一个或多个关键词来构建用于所述至少一个语音输入的会话知识,其中,所述会话知识用于识别对所述语音辅助设备的所述后续语音输入的意图。
15.根据权利要求6所述的语音辅助设备,还包括所述处理器,所述处理器配置为:
如果在所述延长唤醒持续时间期间没有检测到所述后续语音输入,则将所述语音辅助设备配置为休眠模式。
CN201980038193.0A 2018-06-05 2019-06-05 被动唤醒用户交互设备的方法和系统 Active CN112272819B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN201841021011 2018-06-05
IN201841021011 2019-01-16
PCT/KR2019/006834 WO2019235863A1 (en) 2018-06-05 2019-06-05 Methods and systems for passive wakeup of a user interaction device

Publications (2)

Publication Number Publication Date
CN112272819A true CN112272819A (zh) 2021-01-26
CN112272819B CN112272819B (zh) 2024-04-26

Family

ID=68695472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980038193.0A Active CN112272819B (zh) 2018-06-05 2019-06-05 被动唤醒用户交互设备的方法和系统

Country Status (4)

Country Link
US (1) US11501781B2 (zh)
EP (2) EP3756087A4 (zh)
CN (1) CN112272819B (zh)
WO (1) WO2019235863A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356275A (zh) * 2021-12-06 2022-04-15 上海小度技术有限公司 交互控制方法、装置、智能语音设备及存储介质
WO2022206602A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 语音唤醒方法、装置、存储介质及系统

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018126128A2 (en) * 2016-12-29 2018-07-05 Caeden, Inc. Detecting resonance breathing using a wearable device and related methods and systems
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
JP7055721B2 (ja) * 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
KR20200042627A (ko) * 2018-10-16 2020-04-24 삼성전자주식회사 전자 장치 및 그 제어 방법
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
JPWO2020235141A1 (zh) * 2019-05-17 2020-11-26
US11379016B2 (en) 2019-05-23 2022-07-05 Intel Corporation Methods and apparatus to operate closed-lid portable computers
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11543873B2 (en) 2019-09-27 2023-01-03 Intel Corporation Wake-on-touch display screen devices and related methods
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11574339B1 (en) * 2019-10-31 2023-02-07 Google Llc Modeling lift of metrics for triggering push notifications
US11418358B2 (en) * 2019-11-04 2022-08-16 International Business Machines Corporation Smart device active monitoring
US11733761B2 (en) 2019-11-11 2023-08-22 Intel Corporation Methods and apparatus to manage power and performance of computing devices based on user presence
US11395221B2 (en) 2019-11-13 2022-07-19 Schlage Lock Company Llc Wireless device power optimization utilizing artificial intelligence and/or machine learning
CN110868471B (zh) * 2019-11-18 2022-09-30 北京小米移动软件有限公司 设备构建方法、装置及存储介质
JP2021085982A (ja) * 2019-11-27 2021-06-03 キヤノン株式会社 情報処理装置、入出力デバイスの起動方法
CN110944064B (zh) * 2019-12-11 2022-02-22 北京网聘咨询有限公司 嵌入式网络的远程访问控制系统、方法、设备和介质
US11200900B2 (en) * 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11809535B2 (en) 2019-12-23 2023-11-07 Intel Corporation Systems and methods for multi-modal user device authentication
US11360528B2 (en) 2019-12-27 2022-06-14 Intel Corporation Apparatus and methods for thermal management of electronic user devices based on user activity
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN113192499A (zh) * 2020-01-10 2021-07-30 青岛海信移动通信技术股份有限公司 一种语音唤醒方法及终端
US11211072B2 (en) * 2020-01-23 2021-12-28 International Business Machines Corporation Placing a voice response system into a forced sleep state
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111429902B (zh) * 2020-03-17 2023-08-18 阿波罗智联(北京)科技有限公司 用于唤醒设备的方法和装置
CN112739507B (zh) * 2020-04-22 2023-05-09 南京阿凡达机器人科技有限公司 一种交互沟通实现方法、设备和存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111640426A (zh) * 2020-06-10 2020-09-08 北京百度网讯科技有限公司 用于输出信息的方法和装置
JP2023538989A (ja) * 2020-06-26 2023-09-13 インテル コーポレイション コンピューティングシステムにおけるウェイクパターンを動的にスケジュールする方法、システム、製造物品、及び装置
CN112084768A (zh) * 2020-08-06 2020-12-15 珠海格力电器股份有限公司 一种多轮交互方法、装置及存储介质
CN111949178B (zh) * 2020-08-13 2022-02-22 百度在线网络技术(北京)有限公司 技能切换方法、装置、设备以及存储介质
CN111954288B (zh) * 2020-08-18 2021-05-07 深圳市微网力合信息技术有限公司 一种无线通信方法、装置、系统及存储介质
US11721338B2 (en) * 2020-08-26 2023-08-08 International Business Machines Corporation Context-based dynamic tolerance of virtual assistant
CN115734323B (zh) * 2020-09-25 2024-01-30 华为技术有限公司 功耗优化方法和装置
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN112700775A (zh) * 2020-12-29 2021-04-23 维沃移动通信有限公司 语音接收周期的更新方法、装置和电子设备
WO2022193116A1 (zh) * 2021-03-16 2022-09-22 华为技术有限公司 鉴权方法、装置及存储介质
US20220317635A1 (en) * 2021-04-06 2022-10-06 International Business Machines Corporation Smart ecosystem curiosity-based self-learning
US11557293B2 (en) * 2021-05-17 2023-01-17 Google Llc Contextual suppression of assistant command(s)
US11769501B2 (en) 2021-06-02 2023-09-26 International Business Machines Corporation Curiosity based activation and search depth
US11741957B2 (en) 2021-06-17 2023-08-29 International Business Machines Corporation Chatbot with augmented reality based voice command navigation
US11677832B2 (en) 2021-09-23 2023-06-13 International Business Machines Corporation Voice activated device enabling
US11985595B2 (en) 2021-10-14 2024-05-14 Wiliot, LTD. Low power wireless device with sensitive wakeup radio
US11889420B2 (en) 2021-10-14 2024-01-30 Wiliot, LTD. Techniques for wakeup in a low-power wireless device
US20230178083A1 (en) * 2021-12-03 2023-06-08 Google Llc Automatically adapting audio data based assistant processing
CN115412381B (zh) * 2022-08-26 2024-03-19 普联技术有限公司 通知方法、智能门禁设备、门铃模组、服务器及存储介质
CN115294983B (zh) * 2022-09-28 2023-04-07 科大讯飞股份有限公司 一种自主移动设备唤醒方法、系统及基站
CN115801479B (zh) * 2023-02-02 2023-05-16 卧安科技(深圳)有限公司 物联网设备低功耗唤醒方法、唤醒装置以及物联网设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283836A (zh) * 2013-07-11 2016-01-27 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
US20160042748A1 (en) * 2014-08-11 2016-02-11 Rawles Llc Voice application architecture
CN106796497A (zh) * 2014-09-12 2017-05-31 苹果公司 用于始终监听语音触发的动态阈值
CN107025906A (zh) * 2015-12-09 2017-08-08 联想(新加坡)私人有限公司 扩展语音识别的周期的方法和产品以及信息处理设备
CN107112017A (zh) * 2015-02-16 2017-08-29 三星电子株式会社 操作语音识别功能的电子设备和方法
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
US20170323642A1 (en) * 2013-10-11 2017-11-09 Apple Inc. Speech Recognition Wake-Up of a Handheld Portable Electronic Device

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311150B1 (en) * 1999-09-03 2001-10-30 International Business Machines Corporation Method and system for hierarchical natural language understanding
US7620627B2 (en) * 2005-11-01 2009-11-17 Lycos, Inc. Generating keywords
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9063731B2 (en) 2012-08-27 2015-06-23 Samsung Electronics Co., Ltd. Ultra low power apparatus and method to wake up a main processor
US9081571B2 (en) * 2012-11-29 2015-07-14 Amazon Technologies, Inc. Gesture detection management for an electronic device
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
US9911415B2 (en) 2014-12-19 2018-03-06 Lenovo (Singapore) Pte. Ltd. Executing a voice command during voice input
US20160232897A1 (en) 2015-02-06 2016-08-11 Microsoft Technology Licensing, Llc Adapting timeout values based on input scopes
JP6768283B2 (ja) 2015-10-29 2020-10-14 シャープ株式会社 電子機器およびその制御方法
US10129510B2 (en) * 2016-02-18 2018-11-13 Samsung Electronics Co., Ltd. Initiating human-machine interaction based on visual attention
WO2018013564A1 (en) * 2016-07-12 2018-01-18 Bose Corporation Combining gesture and voice user interfaces
US10572270B1 (en) * 2017-03-03 2020-02-25 Amazon Technologies, Inc. Wakeup from hibernation state using motion sensor
US20180293974A1 (en) * 2017-04-10 2018-10-11 Intel IP Corporation Spoken language understanding based on buffered keyword spotting and speech recognition
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
US10574824B2 (en) * 2017-11-02 2020-02-25 [24]7.ai, Inc. Method and apparatus for facilitating agent conversations with customers of an enterprise
US20190318283A1 (en) * 2018-04-12 2019-10-17 Crosswind Communications System and method for adaptively executing user routines based on user interactions
US10490207B1 (en) * 2018-05-11 2019-11-26 GM Global Technology Operations LLC Automated speech recognition using a dynamically adjustable listening timeout
US11361756B2 (en) * 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283836A (zh) * 2013-07-11 2016-01-27 英特尔公司 利用相同的音频输入的设备唤醒和说话者验证
US20170323642A1 (en) * 2013-10-11 2017-11-09 Apple Inc. Speech Recognition Wake-Up of a Handheld Portable Electronic Device
US20160042748A1 (en) * 2014-08-11 2016-02-11 Rawles Llc Voice application architecture
CN106796497A (zh) * 2014-09-12 2017-05-31 苹果公司 用于始终监听语音触发的动态阈值
CN107112017A (zh) * 2015-02-16 2017-08-29 三星电子株式会社 操作语音识别功能的电子设备和方法
CN107025906A (zh) * 2015-12-09 2017-08-08 联想(新加坡)私人有限公司 扩展语音识别的周期的方法和产品以及信息处理设备
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206602A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 语音唤醒方法、装置、存储介质及系统
CN114356275A (zh) * 2021-12-06 2022-04-15 上海小度技术有限公司 交互控制方法、装置、智能语音设备及存储介质
CN114356275B (zh) * 2021-12-06 2023-12-29 上海小度技术有限公司 交互控制方法、装置、智能语音设备及存储介质

Also Published As

Publication number Publication date
EP3756087A4 (en) 2021-04-21
CN112272819B (zh) 2024-04-26
EP3753017C0 (en) 2023-08-02
US20190371342A1 (en) 2019-12-05
EP3753017B1 (en) 2023-08-02
WO2019235863A1 (en) 2019-12-12
EP3753017A1 (en) 2020-12-23
US11501781B2 (en) 2022-11-15
EP3756087A1 (en) 2020-12-30
EP3753017A4 (en) 2021-06-16

Similar Documents

Publication Publication Date Title
CN112272819B (zh) 被动唤醒用户交互设备的方法和系统
US11900930B2 (en) Method and apparatus for managing voice-based interaction in Internet of things network system
US20220122607A1 (en) Controlling an engagement state of an agent during a human-machine dialog
US11670302B2 (en) Voice processing method and electronic device supporting the same
US11270695B2 (en) Augmentation of key phrase user recognition
US11145302B2 (en) System for processing user utterance and controlling method thereof
EP3321928B1 (en) Operation of a virtual assistant on an electronic device
EP3528243A1 (en) System for processing user utterance and controlling method thereof
US11042703B2 (en) Method and device for generating natural language expression by using framework
US20210274001A1 (en) Electronic device, server and recording medium supporting task execution using external device
CN112313741A (zh) 选择性注册到自动助理
US11145299B2 (en) Managing voice interface devices
CN112243526A (zh) 语音辅助设备及其方法
US20190019509A1 (en) Voice data processing method and electronic device for supporting the same
US11631406B2 (en) Method for responding to user utterance and electronic device for supporting same
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
US11194545B2 (en) Electronic device for performing operation according to user input after partial landing
US20200090663A1 (en) Information processing apparatus and electronic device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant