CN112243526A - 语音辅助设备及其方法 - Google Patents

语音辅助设备及其方法 Download PDF

Info

Publication number
CN112243526A
CN112243526A CN201980037283.8A CN201980037283A CN112243526A CN 112243526 A CN112243526 A CN 112243526A CN 201980037283 A CN201980037283 A CN 201980037283A CN 112243526 A CN112243526 A CN 112243526A
Authority
CN
China
Prior art keywords
voice
user
speech
probability
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980037283.8A
Other languages
English (en)
Inventor
维贾亚·库玛·涂卡
切森·K·普塔纳
德普拉吉·普拉巴卡尔·帕特卡
哈里什·比什诺伊
苏洛尚·奈克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112243526A publication Critical patent/CN112243526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

本公开的实施方式涉及语音辅助设备和用于控制语音辅助设备的方法。该语音辅助设备包括接收器,该接收器配置成当以唤醒模式操作时接收来自用户的至少一个语音输入。意图与来自至少一个用户的至少一个语音输入相关联。此外,基于意图、历史数据和一个或多个上下文因素中的至少一个来确定来自至少一个用户的后续语音输入的发出的概率。当概率大于预定阈值时,估计语音辅助设备的延长唤醒持续时间。此外,将唤醒模式的持续时间延长延长唤醒持续时间以接收来自至少一个用户的后续语音输入。

Description

语音辅助设备及其方法
技术领域
本申请主题总体涉及数字辅助系统,更具体地,但不排他地涉及用于控制语音辅助设备的装置和方法。
背景技术
语音辅助设备为使用语音识别、语音合成与自然语言处理(NLP)以通过特定应用程序提供服务的数字辅助。使用与语音辅助设备相关联的触发字来触发语音辅助设备从休眠模式切换至唤醒模式。用户可通过首先说出触发字、随后说出请求来向语音辅助设备提出请求。
在与语音辅助设备进行对话期间,尤其是正在与语音辅助设备进行对话时,用户可能必须反复地保持说出触发字以将语音辅助设备保持在唤醒模式中。通过此方法,可由语音辅助设备维护对话的上下文,并且随后的请求可由语音辅助设备容易地解释以用于准确的响应。在用户忘记在对话期间使用触发字的情况下,语音辅助设备可切换至休眠模式。在这种情况下,来自用户的进一步请求可能被语音辅助设备错过。可能必须再次说出触发字来启动新的对话链,新的对话链对于语音辅助设备将为新的上下文。
在本公开部分的该背景技术中公开的信息仅用于对本发明的总体背景技术的理解的增强,而不应被理解为对本领域技术人员已知的现有技术的承认或任何形式的建议。
发明内容
[技术问题]
语音辅助设备中的一些设备可配置成以追踪模式操作。在这些语音辅助设备中,在唤醒模式期间以及当从用户接收到请求时,语音辅助设备可配置成提供响应并切换至追踪模式。在追踪模式中,语音辅助设备配置成在预定持续时间内保持在唤醒模式中。用户需要在预定持续时间的范围内提供进一步请求。如果在跟踪模式期间没有从用户接收到请求,则语音辅助设备可切换至休眠模式。通常,预定持续时间是静态的,并且可为非常短的时间段。在用户在预定持续时间之后提供进一步请求的情况下,则这种请求可能不被语音辅助设备接收。此外,存在这种跟踪模式的静态时间段,用户可能会为在静态时间段内准备好要传达的进一步请求感到负担。在一些情况下,当提供请求时,用户可能不知道语音辅助设备是否在追踪模式中操作。并且,请求可能必须在预定持续时间结束之前被很好地传达。
[问题的解决方案]
在实施方式中,本公开涉及语音辅助设备的方法。首先,在语音辅助设备的唤醒模式期间接收来自至少一个用户的至少一个语音输入,并且识别与至少一个语音输入相关联的意图。基于意图、历史数据和一个或多个上下文因素中的至少一个来确定来自至少一个用户的后续语音输入的概率。当概率大于预定阈值时,估计语音辅助设备的延长唤醒持续时间。另外,将语音辅助设备的唤醒模式的持续时间延长延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
在实施方式中,本公开涉及语音辅助设备,该语音辅助设备包括配置成当以唤醒模式操作时接收来自至少一个用户的至少一个语音输入的接收器。语音辅助设备还包括处理器和通信地联接至处理器的存储器。存储器存储可由处理器执行的指令,在执行时该指令使处理器识别与通过语音辅助设备来自至少一个用户的至少一个语音输入相关联的意图。此外,处理器配置成基于意图、历史数据和一个或多个上下文因素中的至少一个来确定来自至少一个用户的后续语音输入的发出的概率。当概率大于预定阈值时,估计语音辅助设备的延长唤醒持续时间。此外,将唤醒模式的持续时间延长延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
在实施方式中,本公开涉及用于控制语音辅助设备的方法。首先,识别与由语音辅助设备从至少一个用户接收的至少一个语音输入相关联的意图。基于意图、历史数据和一个或多个上下文因素中的至少一个来确定来自至少一个用户的后续语音输入的发出的概率。当概率大于预定阈值时,估计语音辅助设备的延长唤醒持续时间。此外,将语音辅助设备的唤醒模式的持续时间延长延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
在实施方式中,本公开涉及用于控制语音辅助设备的控制装置。控制装置与语音辅助设备相关联,并且包括第一处理器和通信地联接至第一处理器的第一存储器。第一存储器存储可由处理器执行的指令,在执行时该指令使第一处理器控制语音辅助装置。首先,识别与由语音辅助设备从至少一个用户接收的至少一个语音输入相关联的意图。基于意图、历史数据和一个或多个上下文因素中的至少一个来确定来自至少一个用户的后续语音输入的发出的概率。当概率大于预定阈值时,估计语音辅助设备的延长唤醒持续时间。此外,将语音辅助设备的唤醒模式的持续时间延长延长唤醒持续时间,以接收来自至少一个用户的后续语音输入。
在实施方式中,本公开涉及用于确定向语音辅助设备的后续语音输入的发出的概率的方法。首先,为了确定,基于语音输入的意图,从由语音辅助设备接收的至少一个语音输入中的多个字中提取一个或多个关键字。基于一个或多个关键字来识别与至少一个语音输入相关联的域。此外,利用与至少一个用户相关联的多个预存的域为所识别的域计算域匹配分数。基于域匹配分数、历史数据以及与至少一个用户相关联的一个或多个上下文因素来确定向语音辅助设备的后续语音输入的发出的概率。
在实施方式中,本发明涉及用于确定向语音辅助设备的后续语音输入的发出的概率的概率确定装置。概率确定装置与语音辅助设备相关联,并且包括第二处理器和通信地联接至第二处理器的第二存储器。第二存储器存储可由处理器执行的指令,在执行时该指令使第二处理器确定向语音辅助设备的后续语音输入的发出的概率。首先,为了确定,基于语音输入的意图,从由语音辅助设备接收的至少一个语音输入中的多个字中提取一个或多个关键字。基于一个或多个关键字来识别与至少一个语音输入相关联的域。此外,利用与至少一个用户相关联的多个预存的域为所识别的域计算域匹配分数。基于与至少一个用户相关联的域匹配分数、历史数据以及一个或多个上下文因素来确定向语音辅助设备的后续语音输入的发出的概率。
上述发明内容仅为说明性的,并不旨在以任何方式进行限制。除了以上描述的说明性方面、实施方式和特征之外,进一步的方面、实施方式和特征将通过参考附图和以下详细描述变得显而易见。
[发明的有益效果]
本公开的实施方式配置成通过动态地确定语音辅助设备的唤醒模式的延长持续时间来提供最佳用户体验。
本公开的实施方式通过考虑与用户相关联的语音输入的意图、历史数据和上下文因素来提供后续语音输入的发出的精确概率。
附图说明
包括在本公开中并组成本公开的一部分的附图示出示例性实施方式,并且连同说明书一起用于解释所公开的原理。在附图中,参考标号的最左侧数字标识参考标号首次出现在其中的附图。在所有附图中使用相同的标号来表示相似的特征和组件。现在仅通过示例的方式且针对附图来描述根据本申请主题的实施方式的系统和/或方法的一些实施方式,在附图中:
图1a至图1c示出根据本公开的一些实施方式的语音辅助设备的示例性环境;
图2示出根据本公开的一些实施方式的用于控制语音辅助设备的控制装置的详细框图;
图3示出根据本公开的一些实施方式的用于确定向语音辅助设备的后续语音输入的发出概率的概率确定装置的详细框图;
图4a至图4b示出根据本公开的一些实施方式的用于控制语音辅助设备的示意图;
图5a至图5f示出根据本公开的一些实施方式的语音辅助设备的示例性实施方式;
图6a示出根据本公开的一些实施方式的用于控制语音辅助设备的方法的流程图;
图6b示出根据本公开的一些实施方式的用于确定向语音辅助设备的后续语音输入的发出概率的方法的流程图;以及
图7示出用于实现符合本公开的实施方式的示例性计算机系统的框图。
本领域的技术人员应理解,本文中的任何框图表示体现本申请主题的原理的说明性系统的概念视图。类似地,将理解,任何流程表、流程图、状态转换图、伪代码等表示可在计算机可读介质中大体表示并由计算机或处理器执行的各种过程,无论这些计算机或处理器是否被明确地示出。
具体实施方式
在本文中,本文中使用的词“示例性”意指“作为示例、实例或说明”。本文中描述为“示例性”的本申请主题的任何实施方式或实现方式不一定被解释为比其它实施方式优选或有利。
尽管本公开内容可以具有各种修改和替换形式,但其具体实施方式已在附图中以示例的方式示出,并且将在以下详细描述。然而,应理解,本公开不旨在将本公开限制于所公开的形式,而是相反,本公开覆盖落入本公开的精神和范围内的所有修改、等同和替代。
术语“包括”、“包括有”或其任何其它变型旨在覆盖非排他性的包含,使得包括一系列组件或步骤的设置、设备或方法不仅包括那些组件或步骤,而且可包括未明确列出或这种设置或设备或方法固有的其它组件或步骤。换言之,在系统或装备中由“包括”限制的一个或多个元件在没有更多的限制的情况下不排除在系统或方法中的其它元件或附加元件的存在。
术语“包含”、“包含有”或其任何其它变型旨在覆盖非排他性的包含,使得包含一系列组件或步骤的设置、设备或方法不仅包含那些组件或步骤,而且可包含未明确列出或这种设置或设备或方法固有的其它组件或步骤。换言之,在系统或装置中由“包含”限制的一个或多个元件在没有更多的限制的情况下不排除在系统或方法中的其它元件或附加元件的存在。
在本公开的实施方式的以下详细描述中,参考形成本公开的一部分的附图,并且在附图中通过说明示出可实践本公开的具体实施方式。充分详细地描述这些实施方式以使本领域的技术人员能够实践本发明,且应理解,在不背离本公开的范围的情况下,可利用其它实施方式和做出改变。因此,以下描述不应以限制意义理解。
本公开提出用于控制语音辅助设备的方法和装置以提供最佳用户体验。当从至少一个用户接收到语音输入时,语音辅助设备配置成检查后续语音输入的发出概率。如果该概率大于预定阈值,则延长语音辅助设备的唤醒时间。本公开还提出基于该概率来确定语音辅助设备的延长唤醒持续时间。唤醒持续时间是基于语音输入的上下文、所述概率和与至少一个用户相关的各种其它因素动态地确定的。
图1a示出语音辅助设备101的示例性环境。语音辅助设备101可配置成执行语音识别、语音合成和自然语言处理(NLP),以向至少一个用户102提供服务。语音辅助设备101可实施人工智能(AI)以向至少一个用户102提供服务。语音辅助设备101可与用于向至少一个用户102启动服务的触发相关联。当未使用时,语音辅助设备101配置成以睡眠模式操作,并且当使用时,语音辅助设备101配置成以唤醒模式操作。当向语音辅助设备101提供触发时,语音辅助设备101可从休眠模式切换至唤醒模式。在实施方式中,触发可为与语音辅助设备101相关联的特定字。当至少一个用户102说出该触发时,语音辅助设备101被启动以收听触发之后的请求。通常,由至少一个用户102向语音辅助设备101说出请求。请求可为由语音辅助设备101接收的语音输入的形式。在实施方式中,语音辅助设备101可为使用至少一个用户102的账户注册的专用硬件组件。在实施方式中,语音辅助设备101可被嵌入在至少一个用户102的用户设备中。例如,语音辅助设备101可嵌入在至少一个用户102的智能电话、智能手表、平板电脑、膝上型电脑等中。在实施方式中,语音辅助设备101可被嵌入在至少一个用户102的车辆的信息娱乐系统中。在实施方式中,语音辅助设备可被嵌入在装置中并且配置成使用语音命令来控制装置。该装置可包括但不限于冰箱、电冰箱、电视、洗衣机、音乐播放器等。语音辅助设备101可为从至少一个用户102接收语音输入并基于语音输入提供服务的任何设备。在实施方式中,语音辅助设备101可与其他设备或应用程序连接,以向至少一个用户102提供服务。例如,如果语音辅助设备101被嵌入在车辆中,则语音辅助设备101可与车辆的音乐系统、导航系统、照明系统等连接。在至少一个用户102请求语音辅助设备101用于导航至目的地的情况下,语音辅助设备101可与导航系统通信,以向至少一个用户102提供服务。考虑语音辅助设备101被放置在家庭环境中。语音辅助设备101可与家庭环境中的家用电器连接,以控制家用电器的操作。家用电器可为基于来自至少一个用户102的请求的控制器。例如,如果至少一个用户102请求打开AC。语音辅助设备101可通信以控制AC的操作并打开AC。在进一步请求下,语音辅助设备101也可配置成控制AC的温度。
在实施方式中,语音辅助设备101可与一个或多个输出装置相关联,以向至少一个用户102提供响应。在实施方式中,一个或多个输出装置可包括显示单元、音频输出单元、发光二极管(LED)等。所述响应可通过视觉显示或音频输出来提供,或者可通过LED来指示。可在语音辅助设备101中实施本领域中已知的一个或多个其它方法,用于向至少一个用户102提供响应。
此外,语音辅助设备101可包括处理器103、I/O接口104、存储器105和接收器106。在一些实施方式中,存储器105可通信地联接至处理器103。存储器105存储可由处理器103执行的指令,在执行时,该指令可使语音辅助设备101向至少一个用户102提供服务。在实施方式中,存储器105可包括一个或多个模块107和数据108。一个或多个模块107可配置成使用数据108执行本公开的步骤,以向至少一个用户102提供服务。在实施方式中,一个或多个模块107中的每个可为硬件单元,该硬件单元可在存储器105的外部并且与语音辅助设备101联接。语音辅助设备101可在各种计算系统中实现,例如,膝上型电脑、台式电脑、个人电脑(PC)、笔记本、智能电话、平板电脑、电子书阅读器、服务器、网络服务器等。
在实施方式中,语音辅助设备101可由控制装置109控制。控制装置109可配置成基于从至少一个用户102接收的至少一个语音输入来控制语音辅助设备101的操作。此外,控制装置109可配置成识别与来自至少一个用户102的至少一个语音输入相关联的意图。在实施方式中,意图可传达从至少一个用户102接收的至少一个语音输入的上下文或含义。在实施方式中,可通过对至少一个语音输入执行自然语言理解(NLU)来识别与所述至少一个语音输入相关联的意图。在实施方式中,语音辅助设备101的先前语音输入的对话知识可用于确定所接收的至少一个语音输入的意图。
此外,为至少一个语音输入确定来自至少一个用户102的后续语音输入的发出概率。可基于意图、历史数据和一个或多个上下文因素中的至少一个来确定概率。历史数据可与至少一个用户102相关联。在实施方式中,历史数据可包括至少一个用户102的过去请求和由语音辅助设备101提供的相应响应。在实施方式中,历史数据可包括请求的时间、请求的日期、请求的位置以及与来自至少一个用户102的过去请求有关的其它数据。在实施方式中,一个或多个上下文因素可包括用户相关因素、时间相关因素数据和环境相关因素中的至少一个。在实施方式中,用户相关因素可包括与至少一个用户102相关的日常工作、位置、偏好等。在实施方式中,时间相关数据可包括请求的时间、请求的日期、请求是否在上午、下午或晚间等。在实施方式中,环境相关因素包括与语音辅助设备101连接的设备或应用的连接细节和状态细节。可用于确定后续语音输入的发出概率的一个或多个其它因素可包括在一个或多个上下文因素中。
在实施方式中,与控制装置109和语音辅助设备101相关联的概率确定装置110可配置成确定后续语音输入的发出概率。为了确定发出概率,概率确定装置110可配置成从至少一个语音输入中的多个字中提取一个或多个关键字。可基于至少一个语音输入的意图来提取一个或多个关键字。在实施方式中,可通过向至少一个语音输入的多个字中的每个分配权重来提取一个或多个关键字。此外,来自多个字的具有大于预定权重值的权重的关键字可被识别为一个或多个关键字。
在实施方式中,概率确定装置110可配置成基于一个或多个所提取的关键字来为至少一个语音输入建立对话知识。在实施方式中,对话知识可用于识别向语音辅助设备101的后续语音输入的意图。
在提取一个或多个关键字时,可基于一个或多个关键字来识别与至少一个语音输入相关联的域。此外,利用与至少一个用户102相关联的多个预存的域来为所识别的域计算域匹配分数。概率确定装置110基于与至少一个用户102相关联的域匹配分数、一个或多个上下文因素和历史数据来确定向语音辅助设备101的后续语音输入的发出概率。
在确定后续语音输入的发出概率时,控制装置109可配置成将该概率与预定阈值进行比较。在实施方式中,可利用连接至语音辅助设备101的设备通过分析历史数据来确定预定阈值。当所确定的概率大于预定阈值时,可确定语音辅助设备101的延长唤醒持续时间。此外,可延长语音辅助设备101的唤醒模式的持续时间至延长唤醒持续时间,以接收来自至少一个用户102的后续语音输入。在实施方式中,可将延长唤醒持续时间估计为与后续语音输入的发出概率成正比。例如,如果所确定的概率高,则可将延长唤醒持续时间确定为持续较长的持续时间。类似地,当所确定的概率低但等于或大于预定阈值时,则可将延长唤醒持续时间确定为持续较短的持续时间。
在实施方式中,当概率被确定为小于预定阈值时,控制装置109可将语音辅助设备101配置成处于休眠模式,直到检测到以唤醒模式操作语音辅助设备101的触发为止。
此外,在延长唤醒持续时间期间,如果没有检测到后续语音输入,则语音辅助设备101可配置成处于休眠模式。
在实施方式中,控制装置109和概率确定装置110可为语音辅助设备101的组成部分,如图1b中所示。由接收器106接收的至少一个语音输入可由控制装置109用来控制语音辅助设备101,以及可由概率确定装置110用来确定后续语音输入的发出概率。在实施方式中,概率确定装置110可为控制装置109的组成部分(未在图1b中示出)。在实施方式中,控制装置109和概率确定装置110可为与语音辅助设备101通信的专用服务器或基于云的服务器,如图1c中所示。语音辅助设备101可经由通信网络(未在图中示出)与这种服务器进行通信。通信网络包括但不限于直接互连、对等(P2P)网络、局域网(LAN)、广域网(WAN)、无线网络(例如,使用无线应用协议)、控制器区域网络(CAN)、因特网、Wi-Fi等。语音辅助设备101的I/O接口104可帮助发送和接收数据。所接收到的数据可包括来自控制装置109的至少一个语音输入、指令等。发送的数据可包括向控制装置109输入的至少一个语音输入、对至少一个用户102的响应等。
图2示出根据本公开的一些实施方式的用于控制语音辅助设备101的控制装置109的详细框图。
控制装置109可包括第一处理器201、第一I/O接口202和第一存储器203。在一些实施方式中,第一存储器203可通信地联接至第一处理器201。第一存储器203存储可由第一处理器201执行的指令,在执行时该指令可使控制装置109控制语音辅助设备101。在实施方式中,第一存储器203可包括一个或多个第一模块204和第一数据205。一个或多个第一模块204配置成使用第一数据205执行本公开的步骤,以提供对语音辅助设备101的控制。在实施方式中,一个或多个第一模块204中的每个可为硬件单元,该硬件单元可在第一存储器203的外部并且与控制装置109联接。控制装置109可在各种计算系统中实施,例如,膝上型电脑、台式电脑、个人电脑(PC)、笔记本、智能电话、平板电脑、电子书阅读器、服务器、网络服务器等。
本文中可详细描述控制装置109的第一存储器203中的第一数据205和一个或多个第一模块204。
在一个实现方式中,一个或多个第一模块204可包括但不限于与控制装置109相关联的意图识别模块206、发出概率确定模块207、延长唤醒持续时间估计模块208、模式配置模块209和一个或多个其它模块210。
在实施方式中,第一存储器203中的第一数据205可包括语音输入数据211(也称为至少一个语音输入211)、意图数据212(也称为意图212)、概率数据213(也称为发出的概率213)、历史数据214、上下文因素215(也称为一个或多个上下文因素215)、延长唤醒持续时间数据216(也称为延长唤醒持续时间216)、模式配置数据217、预定阈值218和与控制装置109相关联的其它数据219。
在实施方式中,第一存储器203中的第一数据205可由控制装置109的一个或多个第一模块204处理。在实施方式中,一个或多个第一模块204可实施为专用单元,并且当以这种方式实施时,所述模块可配置成具有在本公开中定义的功能,以产生新颖的硬件。如本文所用,术语模块可指提供所述功能的应用专用集成电路(ASIC)、电子电路、现场可编程门阵列(FPGA)、可编程片上系统(PSoC)、组合逻辑电路和/或其它合适的组件。
控制装置109可配置成基于由语音辅助设备101接收的至少一个语音输入211来控制语音辅助设备101的操作。至少一个语音输入211可由控制装置109处理以控制语音辅助设备101。在实施方式中,提供给语音辅助设备101的语音输入中的每个可动态地提供至控制装置109,以动态地控制语音辅助设备101。
在接收到至少一个语音输入211时,控制装置109的意图识别模块206可配置成识别至少一个语音输入211的意图212。在实施方式中,可通过对至少一个语音输入211执行语音识别、语音合成、NLU来识别至少一个语音输入211的意图212。在实施方式中,语音辅助设备101的先前语音输入的对话知识可用于确定所接收的至少一个语音输入211的意图212。本领域技术人员已知的一种或多种其它处理技术可在意图识别模块206中实施,以识别至少一个语音输入211的意图212。
此外,发出概率接收模块207可配置成接收来自概率确定装置110的后续语音输入的发出概率213。在实施方式中,概率确定装置110可为控制装置109的其它模块210中的一个模块。在实施方式中,概率确定装置110可经由通信网络与控制装置109连接。概率确定装置110可确定发出概率213,并且发出概率接收模块207可配置成与概率确定装置110通信以接收所确定的发出概率213。
图3示出根据本公开的一些实施方式的用于确定发出概率213的概率确定装置110的详细框图。
概率确定装置110可包括第二处理器301、第二I/O接口302和第二存储器303。在一些实施方式中,第二存储器303可通信地联接至第二处理器301。第二存储器303存储可由第二处理器301执行的指令,在执行时该指令可使概率确定装置110确定发出概率213。在实施方式中,第二存储器303可包括一个或多个第二模块304和第二数据305。一个或多个第二模块304可配置成使用第二数据305来执行本公开的步骤,以确定概率213。在实施方式中,一个或多个第二模块304中的每个可为硬件单元,该硬件单元可在第二存储器303的外部并且与概率确定装置110联接。概率确定装置110可在各种计算系统中实施,例如,膝上型电脑、台式电脑、个人电脑(PC)、笔记本、智能电话、平板电脑、电子书阅读器、服务器、网络服务器等。
本文中可详细描述概率确定装置110的第二存储器303中的第二数据305和一个或多个第二模块304。
在一个实现方式中,一个或多个第二模块304可包括但不限于与概率确定装置110相关联的关键字提取模块306、域识别模块307、域匹配分数计算模块308、概率确定模块309以及一个或多个其它模块310。
在实施方式中,第二存储器303中的第二数据305可包括语音输入数据311(也称为至少一个语音输入311)、关键字数据312(也称为一个或多个关键字312)、域数据313(也称为域313)、域匹配分数数据314(也称为域匹配分数314)、概率数据315(也称为发出的概率315),以及与概率确定装置110相关联的其它数据316。在实施方式中,控制装置109的第一存储器203中的语音输入数据211可与概率确定装置110的第二存储器303中的语音输入数据311相同。在实施方式中,控制装置109的第一存储器203中的概率数据214可与概率确定装置110的第二存储器303中的概率数据315相同。
在实施方式中,第二存储器303中的第二数据305可由概率确定装置110的一个或多个第二模块304处理。在实施方式中,一个或多个第二模块304可实施为专用单元,并且当以这种方式实施时,所述模块可配置成具有在本公开中定义的功能,以产生新颖的硬件。如本文所用,术语模块可指提供所述功能的应用专用集成电路(ASIC)、电子电路、现场可编程门阵列(FPGA)、可编程片上系统(PSoC)、组合逻辑电路和/或其它合适的组件。
关键字提取模块306可配置成从至少一个语音输入311中的多个字中提取一个或多个关键字312。在实施方式中,关键字提取模块306可配置成识别至少一个语音输入311中的多个字。一旦识别到多个字,多个字中的每个被分配权重。在实施方式中,基于至少一个语音输入311的意图212为多个字中的每个分配权重。例如,可为与至少一个语音输入311的意图212密切相关的字分配较高的权重,并且可为与意图212最不相关的字分配较低的权重。此外,关键字提取模块306可配置成将权重大于预定权重值的字识别为至少一个语音输入311的一个或多个关键字312。这样的一个或多个关键字312代表至少一个语音输入311。域识别模块307可配置成使用一个或多个关键字312来识别与至少一个语音输入311相关联的域313。在实施方式中,概率确定装置110可与库相关联,该库包括与语音辅助设备101相关的多个预存的域。在实施方式中,可基于来自至少一个用户102的先前的语音输入或请求来识别多个预存的域并将该多个预存的域存储在库中。在实施方式中,多个预存的域可包括娱乐、新闻、体育、音乐、电器配置等。此外,多个预存的域中的每个可与相应的关键字相关联。在从至少一个语音输入311中提取一个或多个关键字312时,一个或多个关键字312可与多个预存的域的关键字相匹配。通过这种匹配,与至少一个语音输入311相关联的域313可由域识别模块307识别。
此外,域匹配分数计算模块308可配置成为所识别的域313计算域匹配分数314。在实施方式中,可利用多个预存的域中的每个为域313计算域匹配分数314。此外,基于域匹配分数314,概率确定装置110的概率确定模块309可配置成确定向语音辅助设备101的后续语音输入的发出概率315。此外,为了确定概率315,还与域匹配分数314一起考虑一个或多个上下文因素215和历史数据214。在实施方式中,历史数据214可包括至少一个用户102的过去请求和由语音辅助设备101提供的相应响应。在实施方式中,历史数据214可包括请求的时间、请求的日期、请求的位置以及与来自至少一个用户102的过去请求相关的其它数据。在实施方式中,一个或多个上下文因素215包括用户相关因素、时间相关因素数据和环境相关因素中的至少一个。例如,在唤醒时,考虑至少一个用户102具有触发语音辅助设备101并给出命令来检索与天气、新闻和交通有关的信息的习惯。在这种情况下,在早上从至少一个用户102接收初始命令时,可将后续语音输入的发出概率315确定为高。类似地,考虑至少一个用户102连续地询问与单个域相关的问题。由于存在至少一个用户102可能询问与单个域有关的其它问题的可能性,所以可将概率315确定为高。此外,考虑用户打开电视然后进行电话呼叫的命令。在这种情况下,可将概率315确定为低,因为从至少一个用户102接收进一步命令的可能性是低的。
在实施方式中,概率确定装置110的其它模块311可包括对话知识建立模块,对话知识建立模块配置成基于一个或多个所提取的关键字313来为至少一个语音输入311建立对话知识。可利用语音辅助设备101为至少一个用户102的每个对话建立这样的对话知识。在实施方式中,对话知识可被存储在库中。
在实施方式中,意图识别模块206可配置成使用至少一个用户102的先前对话的对话知识来识别至少一个语音输入211的意图212。
发出概率315由概率确定装置110确定并提供至控制装置109。基于概率213,延长唤醒持续时间估计模块208可配置成为语音辅助设备101确定延长唤醒持续时间2167。首先,将概率213与预定阈值218进行比较。在所确定的概率213大于预定阈值218的情况下,可确定语音辅助设备101的延长唤醒持续时间216。此外,可延长语音辅助设备101的唤醒模式的持续时间至延长唤醒持续时间216,以接收来自至少一个用户102的后续语音输入。在实施方式中,可由连接至语音辅助设备101的设备通过分析历史数据214来确定预定阈值218。例如,如果至少一个用户102频繁地与语音辅助设备101进行深度对话,则可将预定阈值218选择为较低值。在即使概率213的值较小的情况下,也可确定延长唤醒持续时间216。类似地,考虑至少一个用户102主要使用语音辅助设备101来控制家用电器,而较少用于检索新闻更新。当意图212与新闻更新相关时,可将预定阈值218设置为较高值,因为需要较高的概率来延长唤醒持续时间。
在实施方式中,可将延长唤醒持续时间216估计为与后续语音输入的发出概率213成正比。例如,如果所确定的概率213高,则可确定延长唤醒持续时间216持续较长的持续时间。类似地,当所确定的概率213低但等于或大于预定阈值218时,可确定延长唤醒持续时间216持续较短的持续时间。
此外,在确定延长唤醒持续时间216时,模式配置模块209可将语音辅助设备101配置成在延长唤醒持续时间216内以唤醒模式操作。在实施方式中,当概率213被确定为小于预定阈值218时,模式配置模块209可将语音辅助设备101配置成以休眠模式操作,直到检测到以唤醒模式操作的触发。此外,在延长唤醒持续时间216期间,如果没有检测到后续语音输入,则模式配置模块209可将语音辅助设备101配置成以休眠模式操作。语音辅助设备101将被操作的模式被存储为模式配置数据217。模式配置数据217可为休眠模式和唤醒模式中的一个模式。
其它数据220和317可存储由用于执行控制装置109和概率确定装置110的各种功能的模块生成的数据,包括临时数据和临时文件。一个或多个第一模块204和一个或多个第二模块304还可分别包括其它模块211和其它模块311,以执行控制装置109和概率确定装置110的各种不同功能。应理解,这样的模块可被表示为单个模块或不同模块的组合。
图4a和图4b示出根据本公开的一些实施方式的用于控制语音辅助设备101的示例性示意图。考虑用户401与语音辅助设备402相关联。语音辅助设备402可由控制装置403使用概率确定装置404来控制。
首先,语音辅助设备402可以睡眠模式操作。当从用户401接收到触发和第一命令时,语音辅助设备402可以唤醒模式操作。控制装置403接收第一命令,第一命令被提供以用于通过概率确定装置404确定发出的概率。当概率大于预定阈值时,确定相对于第一命令的延长唤醒持续时间T1。随着对第一命令的响应,延长语音辅助设备402的唤醒模式至延长唤醒持续时间T1。以下描述与控制语音辅助设备402相关联的一些使用例。
考虑图5a中所示的示例性实施方式。考虑用户501具有在早上从语音辅助设备502请求新闻更新的习惯。用户501通过提供如“(触发字),早上好”的语音输入来启动语音辅助设备502的服务。通过语音辅助设备502接收语音输入并将语音输入提供至包括概率确定装置(未在示例性实施方式中示出)的控制单元503。由于历史数据包括请求来自用户502的进一步请求,因此可将后续语音输入的发出概率确定为较高的值。因此,可确定延长唤醒持续时间持续较长的持续时间。例如,在这种情况下,延长唤醒持续时间可为60秒。使用自然语言生成(NLG),对语音输入的响应可被提供为“早上好,祝你有美好的一天”。在响应的同时,也可将唤醒持续时间延长至60秒。如所预测的,用户501可提供如“读新闻更新”的后续语音输入。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。由于用户501的历史数据指示用户501通常在早晨只请求新闻更新,并且已将新闻更新提供给用户501,所以概率可以是低的。因此,延长唤醒持续时间可持续较短的持续时间。例如,涉及后续语音输入的延长唤醒持续时间可为20秒。使用NLG,对语音输入的响应可提供为“以下是新闻更新”。在响应的同时,也可将唤醒持续时间延长至20秒。如果在20秒内没有接收到语音输入,则可将语音辅助设备502配置成处于休眠模式。
考虑图5B中示出的示例性实施方式。考虑用户具有在晚上一从办公室进入家中时就控制家用电器的习惯。用户501通过提供语音输入“(触发字),打开灯”来启动语音辅助设备502的服务。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503,并且历史数据包括请求进一步请求,可将后续语音输入的发出概率确定为较高的值,并且还可将延长唤醒持续时间确定为持续较长的持续时间。例如,在这种情况下,延长唤醒持续时间可为60秒。语音辅助设备502可打开灯并且可使用NLG将对语音输入的响应提供为“欢迎回家,我将把灯打开”。在响应的同时,可将唤醒持续时间延长至60秒。如所预测的,用户501提供如“打开AC并将温度设置成20”的后续语音输入。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。由于用户501的历史数据指示在晚上控制多个家用电器,所以概率可能是高的。因此,延长唤醒持续时间可持续较长的持续时间,但比先前的唤醒持续时间短。例如,与后续语音输入相关的延长唤醒持续时间可为40秒。语音辅助设备502可打开AC并将温度设置为20。此外,可使用NLG将对语音输入的响应提供为“AC已打开且温度设置为20”。在响应的同时,还可将唤醒时间延长至40秒,并且在40秒的跨度内等待来自用户501的进一步语音输入。如果在所述40秒内没有接收到语音输入,则可将语音辅助设备502配置成处于休眠模式。
考虑图5C中所示的其中用户501与语音辅助设备502进行深度对话的示例性实施方式。深度对话可包括来自用户501的与单个上下文相关的多个问题。用户501通过提供语音输入“(触发字),谁是唐纳德·特朗普”来启动语音辅助设备502的服务。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。语音输入可为关于过去对用户的请求的新的上下文,因此,所确定的概率可为较低的值。然而,如果用户501先前已与语音辅助设备502进行深度对话,则概率可大于预定阈值。因此,延长唤醒持续时间可持续较短的时间段。例如,在这种情况下,延长唤醒持续时间可为20秒。语音辅助设备502可使用NLG并将对语音输入的响应提供为“唐纳德·特朗普是美国的第45任和现任总统”。在响应的同时,还可将唤醒时间延长至20秒。用户501在20秒内将后续语音输入提供为“他多大年纪?”。由语音辅助设备502接收语音输入并将语音输入提供至控制装置503。由于后续语音输入与先前的语音输入相关,所以可将接收后续语音输入的概率确定为高的值。因此,延长唤醒持续时间可比先前的唤醒模式持续时间更长。例如,与后续语音输入相关的延长唤醒持续时间可为40秒。可使用NLG将对语音输入的响应提供为“他出生于1946年并且他72岁”。在响应的同时,还可将唤醒时间延长至40秒,并且在40秒的跨度内等待来自用户501的进一步语音输入。如果在所述40秒内没有接收到语音输入,则可将语音辅助设备502配置成处于休眠模式。在40秒持续时间内,用户501将后续语音输入提供为“他之前的总统是谁”。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。此外,由于后续语音输入与先前的语音输入相关,所以可将接收后续语音输入的概率确定为高的值。因此,延长唤醒持续时间可比先前的唤醒模式持续时间更长。例如,与后续语音输入相关的延长唤醒持续时间可为60秒。可使用NLG将对语音输入的响应提供为“巴拉克·奥巴马为唐纳德·特朗普之前的总统”。在响应的同时,还可将唤醒时间延长至60秒,并且在60秒的跨度内等待来自用户501的进一步语音输入。如果在所述60秒内没有接收到语音输入,则可将语音辅助设备502配置成处于休眠模式。
再参照图4a和图4b,考虑用户401沉浸在持续对话中并且在延长唤醒持续时间T1期间提供第二命令,在这种情况下,持续对话连同第二命令一起由语音辅助设备402接收并且被提供至控制装置403和概率确定装置404。当为第二命令确定的概率大于预定阈值时,确定相对于第二命令的延长唤醒持续时间T2。在响应第二命令的同时,将语音辅助设备402的唤醒模式延长至延长唤醒持续时间T2。进一步考虑用户401仅沉浸在持续对话中而没有对语音辅助设备502发出任何命令。在延长唤醒持续时间T2中接收持续对话。基于持续对话的意图,可确定关于持续对话的概率。如果持续对话与先前命令的上下文相关,则概率可高于预定阈值。如果持续对话与先前命令的上下文无关,则概率可小于预定阈值。考虑概率大于预定阈值,确定关于第二命令的延长唤醒持续时间T3。延长语音辅助设备502的唤醒模式至延长唤醒持续时间T3
考虑图5d中所示的其中用户501通过提供语音输入“(触发字),任何给我的通知”来启动语音辅助设备502的服务的示例性实施方式。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。语音输入可与一次性请求相关联,并且因此,所确定的概率可为较低的值。因此,延长唤醒持续时间可持续较短的时间段。例如,在这种情况下,延长唤醒持续时间可为20秒。语音辅助设备502可使用NLG,并将对语音输入的响应提供为“您收到来自安娜的消息说,今晚我们一起晚餐”。在响应的同时,还可将唤醒时间延长至20秒。用户501提供后续语音输入作为持续对话,如“给她发消息说,抱歉,我今晚计划有办公室晚餐会议,我今晚不能参加,明天怎样?”。语音输入为持续超过20秒的持续对话。另外,由于后续语音输入与先前的语音输入相关,所以可将接收后续语音输入的概率确定为高的值。因此,延长唤醒持续时间可比先前的唤醒模式持续时间持续更长的持续时间。例如,与后续语音输入相关的延长唤醒持续时间可为60秒。然而,如果仍然从用户501接收到语音输入,则控制装置503可配置成进一步延长语音辅助设备502的唤醒模式持续时间。延长唤醒模式持续时间的过程可继续直到完成接收语音输入并且在预定持续时间内没有语音输入。例如,首先,延长唤醒持续时间至60秒并进一步延长至20秒。在延长唤醒持续时间的完成时,可使用NLG将对语音输入的响应提供为“好的,我发送信息"。语音辅助设备502可配置成在发送响应时处于休眠模式。
考虑图5e中所示的其中第一用户501.1和第二用户501.2进行对话的示例性实施方式。第一用户501.1可与第二用户501.2交谈说“你想去看电影吗”。第二用户501.2可回答说“当然,你想看哪部电影”。由于第一用户501.1和第二用户501.2都没有说出触发字,语音辅助设备502仍然可处于休眠模式。此外,第一用户501.1通过说“(触发字),现在影院中正在上映那几部英文电影”来启动语音辅助设备502的服务。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。可将语音输入的概率确定为大于预定阈值,并且可将延长唤醒持续时间确定为30秒。语音辅助设备502可使用NLG并将对语音输入的响应提供为“现在影院中上映的一些英文电影为:复仇者联盟:终局之战、惊奇队长、大侦探皮卡丘、阿拉丁、哥斯拉”。在响应的同时,还可将唤醒时间延长至30秒。在听到响应时,第一用户501.1与第二用户501.2进行对话说“你想看哪部电影”。第二用户501.2可回答第一用户501.1说“好吧,我们去看复仇者联盟:终局之战”。在第一用户501.1和第二用户501.2之间的对话期间,语音辅助设备502可配置成接收来自第一用户501.1和第二用户501.2的语音输入,并将语音输入提供至控制装置503。在对话期间,由于语音输入中的每个与来自第一用户501.1的初始请求相关,所以控制装置503可确定概率大于预定阈值。此外,可增加语音辅助设备502的唤醒持续时间直到接收到语音辅助设备502的进一步请求。例如,如图中所示,可首先将唤醒模式延长至20秒,再进一步延长至20秒和40秒。当第一用户501.1说出“预定下午6:30场的复仇者联盟:终局之战的电影票”时,语音辅助设备502可将语音输入检测为请求并相应地做出响应。语音辅助设备502可使用NLG预定电影票,可响应说“您的下午6:30场的复仇者联盟:终局之战的电影票已预定”。由于任务完成,语音辅助设备502可配置成在发送响应时处于休眠模式。
再次参照图4a和图4b,考虑用户401进行持续对话,并且在延长唤醒持续时间T1期间提供第三命令。在这种情况下,由语音辅助设备402接收和第二命令一起的持续对话,并将持续对话提供至控制装置403和概率确定装置404。当为第二命令确定的概率小于预定阈值时,可将延长唤醒持续时间确定为0。在响应第二命令时,语音辅助设备402可配置成以睡眠模式操作。
考虑图5f中所示的示例性实施方式。考虑用户501具有一旦他进入车辆就在车辆中使用语音辅助设备502播放音乐的习惯。用户501通过提供语音输入“(触发字),导航至机场”来启动语音辅助设备502的服务。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。由于还没有接收到音乐的请求,因此可将后续语音输入的发出的概率确定为较高的值,并且可将延长唤醒持续时间确定为持续较长的持续时间。例如,在这种情况下,延长唤醒持续时间可为60秒。语音辅助设备502可提供导航至机场,并且可使用NLG将对语音输入的响应提供为“好的,我开始导航至班加罗尔国际机场”。在响应的同时,还可将唤醒时间延长至60秒。如所预测的,用户501提供“播放一些音乐”作为后续语音输入。通过语音辅助设备502接收语音输入并将语音输入提供至控制装置503。由于已接收预期请求,所以可将概率确定为小于预定阈值。因此,可将延长唤醒持续时间确定为0。可使用NLG将响应提供为“好的,播放最新的宝莱坞音乐”。此外,可将语音辅助设备502配置成处于休眠模式。
图6a示出根据本公开的一些实施方式的示出语音辅助设备101的示例性方法600的流程图。
在框601处,语音辅助设备101可配置成在语音辅助设备的唤醒模式期间接收来自至少一个用户102的至少一个语音输入。在实施方式中,可从语音辅助设备101动态地接收至少一个语音输入。
在框602处,语音辅助设备101可配置成识别与来自至少一个用户102的至少一个语音输入相关联的意图。在实施方式中,可使用来自至少一个用户102的先前语音输入的对话知识识别意图。
在框603处,语音辅助设备101确定后续语音输入的发出概率。后续语音输入的发出概率可基于意图、历史数据和一个或多个上下文因素来确定。图6b示出根据本公开的一些实施方式的用于确定后续语音输入的发出概率的示例性方法603的流程图。
在框606处,语音辅助设备101可配置成基于语音输入的意图从至少一个语音输入中的多个字中提取一个或多个关键字。为了提取一个或多个关键字,将权重分配给至少一个语音输入的多个字中的每个。此外,将多个字中的具有大于预定权重值的权重的关键字识别为一个或多个关键字。
在框607处,语音辅助设备101可配置成基于一个或多个关键字来标识与至少一个语音输入相关联的域。可实施本领域技术人员已知的一种或多种技术来识别域。
在框608处,语音辅助设备101可配置成利用与至少一个用户102相关联的多个预存的域为所识别的域计算域匹配分数。在实施方式中,可基于来自至少一个用户102的先前语音输入来识别多个预存的域。
在框609处,语音辅助设备101可配置成基于与至少一个用户102相关联的域匹配分数、一个或多个上下文因素以及历史数据来确定向语音辅助设备101的后续语音输入的发出概率。
回到参照图6a,在框604处,当概率大于预定阈值时,语音辅助设备101可配置成估计语音辅助设备的延长唤醒持续时间。在实施方式中,当概率小于预定阈值时,可将延长唤醒持续时间确定为0。
在框605处,语音辅助设备101可配置成将语音辅助设备101的唤醒模式的持续时间延长至延长唤醒持续时间,以接收来自至少一个用户102的后续语音输入。当确定概率小于预定阈值时,语音辅助设备101可配置成处于休眠模式直到检测到在唤醒模式中操作的触发。
图6a和图6b中所示的方法可包括用于在语音辅助设备101、控制装置109和概率确定装置110中的至少一个中执行过程的一个或多个框。可在计算机可执行指令的一般上下文中描述图6a和图6b中所示的方法。通常,计算机可执行指令可包括执行特定功能或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构、过程、模块和功能。
描述图6a和图6b中所示的方法的顺序可不旨在被解释为限制性的,并且可以任何顺序组合所描述的方法框的任何标号以实现该方法。另外,在不背离本文所述主题内容的范围的情况下,可从方法中删除单独的框。此外,方法可在任何合适的硬件、软件、固件或其组合中实施。
计算系统
图7示出用于实施符合本公开的实施方式的示例性计算机系统700的框图。在实施方式中,计算机系统700用于实施语音辅助设备101、控制装置109和概率确定装置110中的至少一个。计算机系统700可包括中央处理单元(CPU或处理器)702。处理器702可包括用于在虚拟存储区域网络中执行进程的至少一个数据处理器。处理器702可包括专用处理单元,例如,集成系统(总线)控制器、存储器管理控制单元、浮点单元、图形处理单元、数字信号处理单元等。
处理器702可被设置为经由I/O接口701与一个或多个输入/输出(I/O)设备709和输入/输出(I/O)设备710通信。I/O接口701可采用通信协议/方法,例如但不限于,音频、模拟、数字、单声道、RCA、立体声、IEEE-1394、串行总线、通用串行总线(USB)、红外、PS/2、BNC、同轴、组件、合成、数字视觉接口(DVI)、高清多媒体接口(HDMI)、RF天线、S-视频、VGA、IEEE802.n/b/g/n/x、蓝牙、诸如码分多址(CDMA)、高速分组接入(HSPA+)、全球移动通信系统(GSM)、长期演进(LTE)、WiMax等的蜂窝等。
使用I/O接口701,计算机系统700可与一个或多个I/O设备709和I/O设备710通信。例如,输入设备709可为天线、键盘、鼠标、操纵杆、(红外)遥控器、相机、读卡器、传真机、电子狗、生物识别读取器、麦克风、触摸屏、触摸板、跟踪球、触笔、扫描仪、存储设备、收发器、视频设备/源等。输出设备710可为打印机、传真机、诸如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED),等离子体、等离子体显示板(PDP)、有机发光二极管显示器(OLED)等的视频显示器、音频扬声器等。
在一些实施方式中,计算机系统700可由语音辅助设备101、控制装置109和概率确定装置110中的至少一个组成。处理器702可设置为经由网络接口703与通信网络711通信。网络接口703可与通信网络711通信。网络接口703可采用连接协议,包括但不限于,直接连接、以太网(例如,双绞线10/100/1000BaseT)、传输控制协议/因特网协议(TCP/IP)、令牌环、IEEE 802.11a/b/g/n/x等。通信网络711可包括但不限于,直接互连、局域网(LAN)、广域网(WAN)、无线网络(例如,使用无线应用协议)、因特网等。使用网络接口703和通信网络711、计算机系统700可与用户712通信以向用户712提供服务。网络接口703可采用连接协议,包括但不限于,直接连接、以太网(例如,双绞线10/100/1000BaseT)、传输控制协议/因特网协议(TCP/IP)、令牌环、IEEE 802.11a/b/g/n/x等。
通信网络711包括但不限于直接互连、电子商务网络、对等(P2P)网络、局域网(LAN)、广域网(WAN)、无线网络(例如,使用无线应用协议)、因特网、Wi-Fi等。第一网络和第二网络可为专用网络,也可为共享网络,其表示使用诸如超文本传输协议(HTTP)、传输控制协议/因特网协议(TCP/IP)、无线应用协议(WAP)等的各种协议来彼此通信的不同类型的网络的关联。此外,第一网络和第二网络可包括各种网络设备,包括路由器、桥、服务器、计算设备、存储设备等。
在一些实施方式中,处理器702可设置为经由存储接口704与存储器705(例如,图7中未示出的RAM、ROM等)通信。存储接口704可采用诸如串行高级技术附件(SATA)、集成驱动电子(IDE)、IEEE-1394、通用串行总线(USB)、光纤信道、小型计算机系统接口(SCSI)等的连接协议连接至存储器705,存储器705包括但不限于存储器驱动器、可移动磁盘驱动器等。存储器驱动器还可包括鼓、磁盘驱动器、磁光驱动器、光驱动器、独立磁盘冗余阵列(RAID)、固态存储器设备、固态驱动器等。
存储器705可存储程序或数据库组件的集合,包括但不限于,用户接口706、操作系统707、web浏览器708等。在一些实施方式中,如本公开中所描述的,计算机系统700可存储用户/应用数据706,诸如数据、变量、记录等。这种数据库可实施为容错、关系、可延长、安全数据库,例如
Figure BDA0002815559690000241
Figure BDA0002815559690000242
操作系统707可促进计算机系统700的资源管理和操作。操作系统的实例包括但不限于,APPLE
Figure BDA0002815559690000243
OS X、
Figure BDA0002815559690000244
类UNIX系统分布(例如,BERKELEY SOFTWAREDISTRIBUTIONTM(BSD)、FREEBSDTM、NETBSDTM、OPENBSDTM等)、LINUX DISTRIBUTIONSTM(例如,RED HATTM、UBUNTUTM、KUBUNTUTM等)、IBMTM OS/2、MICROSOFTTM WINDOWSTM(XPTM、VISTATM/7/8、10等)、
Figure BDA0002815559690000245
IOSTM
Figure BDA0002815559690000246
ANDROIDTM
Figure BDA0002815559690000247
OS,等。
在一些实施方式中,计算机系统700可实施web浏览器708存储的程序组件。web浏览器708可为超文本查看应用程序,诸如Microsoft Internet Explorer、Google Chrome、Mozilla Firefox、Apple Safari等。安全web浏览可使用安全超文本传输协议(HTTPS)、安全链路层(SSL)、传输层安全(TLS)等来提供。Web浏览器508可利用诸如AJAX、DHTML、AdobeFlash、JavaScript、Java、应用编程接口(API)等的工具。在一些实施方式中,计算机系统700可实施邮件服务器存储的程序组件。邮件服务器可为诸如Microsoft Exchange等的因特网邮件服务器。邮件服务器可利用诸如ASP、ActiveX、ANSI C++/C#、Microsoft.NET、CGIscripts、Java、JavaScrip、PERL、PHP、Python、WebObjects等的工具。邮件服务器可利用诸如因特网消息访问协议(IMAP)、消息传送应用编程接口(MAPI)、Microsoft Exchange、邮局协议(POP)、简单邮件传输协议(SMTP)等的通信协议。在一些实施方式中,计算机系统700可实施邮件客户端存储的程序组件。邮件客户端可为诸如Apple Mail、MicrosoftEntourage、Microsoft Outlook、Mozilla Thunderbird等的邮件查看应用程序。
此外,一个或多个计算机可读存储介质可用于实现符合本公开的实施方式。计算机可读存储介质指其上可存储处理器可读的信息或数据的任何类型的物理存储器。因此,计算机可读存储介质可存储由一个或多个处理器执行的指令,包括用于使处理器执行符合本文所描述的实施方式的步骤或阶段的指令。术语“计算机可读介质”应被理解为包括有形项目,且排除载波和瞬态信号,即非瞬态的。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、磁盘和任何其它已知的物理存储介质。
所描述的操作可实施为使用标准编程和/或工程技术来生产软件、固件、硬件或其任何组合的方法、系统或产品。所描述的操作可实施为保持在“非暂时性计算机可读介质”中的代码,其中处理器可从计算机可读介质中读取和执行该代码。处理器为能够处理和执行查询的微处理器和处理器中的至少一个。非暂时性计算机可读介质可包括诸如磁存储介质(例如,硬盘驱动器、软盘、磁带等)、光存储器(CD-ROM、DVD、光盘等)、易失性存储设备和非易失性存储设备(例如,EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、固件、可编程逻辑等)等的介质。此外,非暂时性计算机可读介质可包括除了暂时性之外的所有计算机可读介质。实施所述操作的代码还可在硬件逻辑(例如,集成电路芯片、可编程门阵列(PGA)、应用专用集成电路(ASIC)等)中实施。
“工业产品”包括其中可实施代码的非暂时性计算机可读介质和/或硬件逻辑。在其中对实施所述操作的实施方式的代码进行编码的设备可包括计算机可读介质或硬件逻辑。当然,本领域的技术人员将认识到,在不背离本发明的范围的情况下,可对这种配置进行许多修改,并且工业产品可包括本领域已知的合适的信息承载介质。
术语“实施方式(an embodiment)”、“实施方式(embodiment)”、“实施方式(embodiments)”、“实施方式(the embodiment)”、“实施方式(the embodiments)”、“一个或多个实施方式”、“一些实施方式”和“一个实施方式”意指“本发明的一个或多个(但不是全部)实施方式”,除非另有明确说明。
术语“包括”、“包含”、“具有”及其变体意指“包括但不限于”,除非另有明确说明。
除非另有明确说明,否则所列举的项目的列表并不意味任何项目或项目种的全部是相互排斥的。
术语“一”、“一个”和“该”意指“一个或多个”,除非另有明确说明。
对具有彼此通信的多个组件的实施方式的描述并不意味需要所有这样的组件。相反,描述各种可选的组件是为了示出本发明的多种可能的实施方式。
当在本文中描述单个设备或产品时,显然可使用多于一个装置/产品(无论它们是否协作)来代替单个装置/产品。类似地,在本文中描述多于一个设备或产品(无论它们是否协作)的情况下,显然可使用单个设备/产品来代替多于一个设备或产品,或者可使用不同数量的设备/产品来代替所示数量的设备或程序。设备的功能和/或特征可由一个或多个未明确描述为具有这种功能/特征的其它设备可选地实施。因此,本发明的其它实施方式不需要包括设备本身。
图6a和图6b的所示操作示出以特定顺序发生的特定事件。在可选的实施方式中,某些操作可以不同的顺序执行、修改或去除。此外,可将步骤添加至上述逻辑且仍符合所述实施方式。此外,本文中描述的操作可顺序地发生,或者可并行地处理某些操作。此外,操作可由单个处理单元或由分布式处理单元执行。
最后,本说明书中使用的语言主要是为了可读性和指导目的而选择的,并且可不选择来划定或限制本发明主题内容。因此,旨在不通过本具体实施方式限制本发明的范围,而是由基于此的申请发布的任何权利要求来限定。因此,本发明的实施方式的公开内容旨在说明而不是限制本发明的范围,本发明的范围在所附权利要求中阐述。
尽管本文中已公开各种方面和实施方式,但对于本领域技术人员,其它方面和实施方式将是显而易见的。在本文中公开的各个方面和实施方式是出于说明的目的,而不是出于限制的目的,真正的范围和精神由所附权利要求指示。

Claims (15)

1.语音辅助设备的方法,所述方法包括:
在所述语音辅助设备的唤醒模式期间通过语音辅助设备接收来自至少一个用户的至少一个语音输入;
通过所述语音辅助设备识别与来自所述至少一个用户的所述至少一个语音输入相关联的意图;
通过所述语音辅助设备基于所述意图、历史数据与一个或多个上下文因素中的至少一个确定来自所述至少一个用户的后续语音输入的发出的概率;
当所述概率大于预定阈值时通过所述语音辅助设备确定所述语音辅助设备的延长唤醒持续时间;以及
通过所述语音辅助设备将所述语音辅助设备的所述唤醒模式的持续时间延长所述延长唤醒持续时间以接收来自所述至少一个用户的所述后续语音输入。
2.根据权利要求1所述的方法,其中,经由连接至所述语音辅助设备的设备通过分析所述历史数据来确定所述预定阈值。
3.根据权利要求1所述的方法,还包括:
通过控制装置确定所述概率小于预定阈值;以及
通过所述控制装置将所述语音辅助设备配置为以休眠模式操作,直至检测到以所述唤醒模式操作的触发。
4.根据权利要求1所述的方法,还包括:
如果在所述延长唤醒持续时间期间没有检测到所述后续语音输入,通过控制装置将所述语音辅助设备配置为以休眠模式操作。
5.根据权利要求1所述的方法,其中,通过对所述至少一个语音输入执行自然语言理解来识别与所述至少一个语音输入相关联的所述意图。
6.根据权利要求1所述的方法,其中,确定所述后续语音输入的发出的所述概率包括:
从所述至少一个语音输入中的多个字中提取一个或多个关键字;
基于所述一个或多个关键字来识别与所述至少一个语音输入相关联的域;
利用与所述用户相关联的多个预存的域为所识别的域计算域匹配分数;以及
基于所述域匹配分数,确定向所述语音辅助设备的所述后续语音输入的发出的概率。
7.根据权利要求6所述的方法,其中,提取所述一个或多个关键字包括:
为所述至少一个语音输入的所述多个字中的每个分派权重;以及
将所述多个字中权重大于预定权重值的一个或多个关键字识别为所述一个或多个关键字。
8.语音辅助设备,包括:
接收器,配置成当以唤醒模式操作时接收来自至少一个用户的至少一个语音输入;
处理器;以及
存储器,通信地联接至所述处理器,
其中,所述存储器存储能够由处理器执行的指令,当由所述处理器执行时,所述指令使所述处理器:
识别与来自所述用户的所述至少一个语音输入相关联的意图;
基于所述意图、历史数据和一个或多个上下文因素中的至少一个来确定来自所述至少一个用户的后续语音输入的发出的概率;
当所述概率大于预定阈值时,确定所述语音辅助设备的延长唤醒持续时间;以及
将所述唤醒模式的持续时间延长所述延长唤醒持续时间以接收来自所述至少一个用户的所述后续语音输入。
9.根据权利要求8所述的语音辅助设备,其中,所述预定阈值经由连接至所述语音辅助设备的设备通过分析所述历史数据来确定。
10.根据权利要求8所述的语音辅助设备,还包括所述处理器,所述处理器配置成:
确定所述概率小于预定阈值;以及
配置成以休眠模式操作,直至检测到以所述唤醒模式操作的触发。
11.根据权利要求8所述的语音辅助设备,其中,通过对所述至少一个语音输入执行自然语言理解(NLU)来确定与所述至少一个语音输入相关联的所述意图。
12.根据权利要求8所述的语音辅助设备,其中,所述处理器配置成通过执行以下步骤来确定所述后续语音输入的发出的所述概率:
从所述至少一个语音输入中的多个字中提取一个或多个关键字;
基于所述一个或多个关键字来识别与所述至少一个语音输入相关联的域;
利用与所述用户相关联的多个预存的域为所识别的域计算域匹配分数;以及
基于所述域匹配分数,确定向所述语音辅助设备的所述后续语音输入的发出的概率。
13.根据权利要求12所述的语音辅助设备,其中,所述一个或多个关键字的提取通过以下步骤执行:
为所述至少一个语音输入的所述多个字中的每个分派权重;以及
将所述多个字中权重大于预定权重值的一个或多个关键字识别为所述一个或多个关键字。
14.根据权利要求8所述的语音辅助设备,还包括所述处理器,所述处理器配置成:
基于提取的一个或多个关键字为所述至少一个语音输入建立对话知识,其中,所述对话知识用于识别所述语音辅助装置的所述后续语音输入的所述意图。
15.根据权利要求8所述的语音辅助设备,还包括所述处理器,所述处理器配置成:
在所述延长唤醒持续时间期间,如果没有检测到所述后续语音输入,则将所述语音辅助设备配置成在休眠模式中。
CN201980037283.8A 2018-06-05 2019-06-05 语音辅助设备及其方法 Pending CN112243526A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
IN201841021011 2018-06-05
IN201841021011 2018-06-05
IN201842022136 2019-06-04
IN201942022136 2019-06-04
PCT/KR2019/006823 WO2019235858A1 (en) 2018-06-05 2019-06-05 A voice assistant device and method thereof

Publications (1)

Publication Number Publication Date
CN112243526A true CN112243526A (zh) 2021-01-19

Family

ID=68695473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980037283.8A Pending CN112243526A (zh) 2018-06-05 2019-06-05 语音辅助设备及其方法

Country Status (3)

Country Link
US (1) US11100935B2 (zh)
CN (1) CN112243526A (zh)
WO (1) WO2019235858A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111096680B (zh) * 2019-12-31 2022-02-01 广东美的厨房电器制造有限公司 烹饪设备、电子设备、语音服务器、语音控制方法和装置
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
CN112133296B (zh) * 2020-08-27 2024-05-21 北京小米移动软件有限公司 全双工语音控制方法、装置、存储介质及语音设备
CN111968644B (zh) * 2020-08-31 2022-12-27 深圳市欧瑞博科技股份有限公司 智能设备唤醒方法、装置及电子设备
CN112700775A (zh) * 2020-12-29 2021-04-23 维沃移动通信有限公司 语音接收周期的更新方法、装置和电子设备
US11898291B2 (en) 2021-10-07 2024-02-13 Haier Us Appliance Solutions, Inc. Appliance having a user interface with programmable light emitting diodes
US20230113883A1 (en) * 2021-10-13 2023-04-13 Google Llc Digital Signal Processor-Based Continued Conversation
CN118038860A (zh) * 2022-11-11 2024-05-14 蔚来移动科技有限公司 语音助手唤醒方法、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042866A (zh) * 2006-03-22 2007-09-26 富士通株式会社 语音识别设备及方法,以及记录有计算机程序的记录介质
KR20150015703A (ko) * 2013-08-01 2015-02-11 엘지전자 주식회사 음성 인식 장치 및 그 방법
CN104603716A (zh) * 2012-08-27 2015-05-06 三星电子株式会社 用于唤醒处理器的装置和方法
CN107004411A (zh) * 2014-08-11 2017-08-01 亚马逊技术股份有限公司 话音应用架构
CN107004410A (zh) * 2014-10-01 2017-08-01 西布雷恩公司 语音和连接平台
CN107025906A (zh) * 2015-12-09 2017-08-08 联想(新加坡)私人有限公司 扩展语音识别的周期的方法和产品以及信息处理设备
CN107483749A (zh) * 2017-09-28 2017-12-15 上海传英信息技术有限公司 闹钟唤醒方法和终端
KR101851787B1 (ko) * 2017-05-11 2018-04-24 주식회사 마인드셋 멀티 도메인 자연어 처리를 위한 도메인 매칭 장치 및 방법
CN108073275A (zh) * 2016-11-18 2018-05-25 联想(新加坡)私人有限公司 信息处理方法、信息处理设备及程序产品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
JP2006071794A (ja) 2004-08-31 2006-03-16 Fuji Heavy Ind Ltd 車両の音声認識装置
JP4667085B2 (ja) 2005-03-11 2011-04-06 富士通株式会社 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
DE112006002989T5 (de) * 2005-12-14 2009-02-19 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
US8380499B2 (en) * 2008-03-31 2013-02-19 General Motors Llc Speech recognition adjustment based on manual interaction
US8359020B2 (en) 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US20160232897A1 (en) * 2015-02-06 2016-08-11 Microsoft Technology Licensing, Llc Adapting timeout values based on input scopes
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US20180293974A1 (en) * 2017-04-10 2018-10-11 Intel IP Corporation Spoken language understanding based on buffered keyword spotting and speech recognition
US10490207B1 (en) * 2018-05-11 2019-11-26 GM Global Technology Operations LLC Automated speech recognition using a dynamically adjustable listening timeout

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042866A (zh) * 2006-03-22 2007-09-26 富士通株式会社 语音识别设备及方法,以及记录有计算机程序的记录介质
CN104603716A (zh) * 2012-08-27 2015-05-06 三星电子株式会社 用于唤醒处理器的装置和方法
KR20150015703A (ko) * 2013-08-01 2015-02-11 엘지전자 주식회사 음성 인식 장치 및 그 방법
CN107004411A (zh) * 2014-08-11 2017-08-01 亚马逊技术股份有限公司 话音应用架构
CN107004410A (zh) * 2014-10-01 2017-08-01 西布雷恩公司 语音和连接平台
CN107025906A (zh) * 2015-12-09 2017-08-08 联想(新加坡)私人有限公司 扩展语音识别的周期的方法和产品以及信息处理设备
CN108073275A (zh) * 2016-11-18 2018-05-25 联想(新加坡)私人有限公司 信息处理方法、信息处理设备及程序产品
KR101851787B1 (ko) * 2017-05-11 2018-04-24 주식회사 마인드셋 멀티 도메인 자연어 처리를 위한 도메인 매칭 장치 및 방법
CN107483749A (zh) * 2017-09-28 2017-12-15 上海传英信息技术有限公司 闹钟唤醒方法和终端

Also Published As

Publication number Publication date
US11100935B2 (en) 2021-08-24
WO2019235858A1 (en) 2019-12-12
US20190371343A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
EP3753017B1 (en) A voice assistant device and method thereof
CN112243526A (zh) 语音辅助设备及其方法
US11810554B2 (en) Audio message extraction
US10817578B2 (en) Method and system for providing context based adaptive response to user interactions
CN110770772B (zh) 被配置为自动定制动作组的虚拟助手
US11211048B2 (en) Method for sensing end of speech, and electronic apparatus implementing same
US11563739B2 (en) Authenticating a user device via a monitoring device
US10459687B2 (en) Method and system for controlling an internet of things device using multi-modal gesture commands
EP3090495B1 (en) Device pairing via a cloud server
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US9915936B2 (en) Transition to accessibility mode
CN113190695B (zh) 多媒体数据搜索方法及装置、计算机设备和介质
US11909698B2 (en) Method and system for identifying ideal virtual assistant bots for providing response to user queries
EP3908934A1 (en) Systems and methods for contactless authentication using voice recognition
US9787832B2 (en) System and method for managing an unsuccessful communication session between a source user and a target user
CN114219046A (zh) 模型训练方法、匹配方法、装置、系统、电子设备和介质
CN114564581A (zh) 基于深度学习的文本分类展示方法、装置、设备和介质
CN112114886B (zh) 误唤醒音频的获取方法和装置
US20210287681A1 (en) Systems and methods for contactless authentication using voice recognition
US20230386463A1 (en) Method and voice assistance apparatus for providing an intelligence response
CN116489274A (zh) 骚扰电话识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination