CN113470656A

CN113470656A - 智能语音交互设备及目标场景下的语音留言方法

Info

Publication number: CN113470656A
Application number: CN202010658671.2A
Authority: CN
Inventors: 陈维强; 刘帅帅; 孙锦; 高雪松; 王彦芳; 刘波; 王月岭
Original assignee: Qingdao Hisense Electronic Industry Holdings Co Ltd
Current assignee: Qingdao Hisense Electronic Industry Holdings Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-10-01

Abstract

本申请实施例提供了一种智能语音交互设备及目标场景下的语音留言方法。本申请中，智能语音交互设备响应于留言者用于语音留言的唤醒指令，解析接收到的所述留言者与所述智能语音交互设备之间用于语音留言的交互信息；确定解析结果中所述交互信息与预设留言条件中多个关键信息的匹配情况；若根据所述匹配情况确定所述交互信息未包含所述预设留言条件中的全部关键信息，则根据未包含的关键信息向所述留言者发出语音引导指令，用以获取到包含所述全部关键信息的交互信息；获取到包含所述全部关键信息的交互信息后，根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件。通过该智能语音交互设备实现了操作简便的语音留言。

Description

智能语音交互设备及目标场景下的语音留言方法

技术领域

本申请实施例涉及智能家居领域，尤其涉及一种智能语音交互设备及目标场景下的语音留言方法。

背景技术

由于人们工作的繁忙，和家人、朋友在一起的时间越来越少，因此很多事请或需要叮嘱的话很少有时间去单独交谈，故考虑可以通过语音留言的方式及时表达自己的想法。并且，随着智能家居设备的普及，通过智能家居设备实现语音留言是当下的一个研究方向。

相关技术中，智能家居行业语音留言方案，存在通过在智能家居设备的控制APP上录制一段语音实现语音留言的技术方案。相关技术中的语音留言方式存在单一的缺点。

发明内容

本申请实施例提供了一种智能语音交互设备及目标场景下的语音留言方法，用以解决相关技术中的语音留言的添加方式存在单一的缺点，提供一种通过智能语音交互设备与用户的多轮交互实现进行语音留言的操作简便且方式多样的技术方案，从而提升了用户体验和对于智能语音交互设备的使用度。

第一方面，本申请实施例提供了一种智能语音交互设备，包括：

拾音模块，用于接收留言者用于语音留言的唤醒指令；

处理器，被配置为执行：

响应于留言者用于语音留言的唤醒指令，解析接收到的所述留言者与所述智能语音交互设备之间用于语音留言的交互信息；

基于对所述交互信息的解析结果，确定所述交互信息与预设留言条件中多个关键信息的匹配情况；

若根据所述匹配情况确定所述交互信息未包含所述预设留言条件中的全部关键信息，则根据未包含的关键信息向所述留言者发出语音引导指令，用以获取到包含所述全部关键信息的交互信息；

获取到包含所述全部关键信息的交互信息后，根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件。

在一种可能的实施方式中，所述处理器，被配置为执行根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件时，具体执行：

若根据所述关键信息确定存在至少一个指定接收者，则将所述关键信息中的语音留言内容存储为各所述指定接收者的未读状态的语音留言事件；或，

若根据所述关键信息确定不存在指定接收者，则确定预先配置的接收者列表，并将所述语音留言内容存储为所述接收者列表中各接收者的未读状态的语音留言事件。

本实施方式的有益效果：本申请的智能语音交互设备在根据各关键信息对于留言者的语音事件进行存储时，基于关键信息的不同内容，完成对于语音事件的存储，从而保障了对于语音留言事件存储的准确性，并为接收者收听该语音留言事件的语音留言内容提供了准确的基础；并且避免了现有技术中留言单一的缺点。

第二方面，本申请实施例还提供了一种智能语音交互设备，包括：

播音模块，用于进行对语音留言事件中的语音留言内容的播放；

处理器，被配置为执行：

识别触发语音留言查询事件的用户的身份信息，并确定是否存在所述用户作为接收者的未读状态的语音留言事件；其中，所述语音留言事件是基于对留言者与所述智能语音交互设备之间用于语音留言的交互信息的解析结果，并在获取到包含预设留言条件中的全部关键信息之后，根据所述交互信息中各所述关键信息存储的；

若存在，则生成提示信息；其中，所述提示信息用于确认所述用户是否播放所述未读状态的语音留言事件中的语音留言内容；以及，

在接收到所述用户触发的确认播放的指令后，播放所述语音留言内容，并将所述语音留言事件设置为所述用户的已读状态的语音留言事件。

本实施方式的有益效果：智能语音交互设备除了接收留言者对于语音留言事件的存储，还可实现对于用户未读状态的语音留言事件的播放，从而实现用户之间通过该智能语音交互设备进行方便准确的语音留言事件的整个过程。并且，本申请提供的智能语音交互设备，还可基于对于处罚语音留言查询事件的用户身份信息的自动确定，从而在用户无感知的场景下，完成对于该用户的语音留言时间的查询。

在一种可能的实施方式中，所述处理器，还被配置为所述确定是否存在所述用户作为接收者的未读状态的语音留言事件之后，执行：

若存在所述用户作为接收者的未读状态的语音留言事件，则确定所述用户作为接收者的未读状态的语音留言事件的数量；

若所述未读状态的语音留言事件的数量大于或等于预设数量时，则将所述语音留言事件发送到所述用户对应的智能终端上。

本实施方式的有益效果：为了便于接收者对于未读状态的语音留言事件的查看，本申请提供的智能语音交互设备在识别到接收者的未读状态的语音留言事件数量存在多个时，除了向用户发出提示信息，还可将结果推送到该用户的智能终端上，从而使得用户选择更合适的时间或方式进行语音留言事件的播放。

在一种可能的实施方式中，通过下列方式确定触发语音留言查询事件：

接收到所述用户对于语音留言事件的查询指令；或，

检测到所述用户与所述智能语音交互设备的交互事件；或，

识别到所述用户进入到目标场景；其中，所述目标场景为所述智能语音交互设备所处的预设场景范围。

本实施方式的有益效果：本申请智能语音交互设备不仅可以实现用户对于语音留言事件的主动查询，还可在一些可能的场景下进行主动提供，以便于用户可以及时接收到未读状态的语音留言事件的，从而解决相关技术中存在的语音留言接收不到或不及时的问题。其中，一些可能的场景，例如是智能语音交互设备检测到用户与智能语音交互设备进行交互时(其主要目的不是为了查询语音留言)，主动识别该用户的身份信息并进行语音留言事件的查询，并在该用户交互结束后主动提醒用户存在未读状态的语音留言事件；另一种可能的场景是，当识别到用户从外面进入到该目标场景后，也可实现对于未读状态的语音留言事件的主动提醒。通过多种可能的语音留言事件的获取方式，极大地避免了用户对于语音留言事件的收听不到或不及时的问题的产生。

在一种可能的实施方式中，所述处理器，被配置为执行识别到所述用户进入到目标场景时，具体执行：

检测到所述用户的至少一个智能设备的定位进入到所述目标场景的预设定位范围；或，

检测到所述用户的至少一个智能设备与所述智能语音交互设备连接到相同的局域网下；或，

通过智能门禁系统检测到所述用户的开门事件。

本实施方式的有益效果：限定了识别到用户进入目标场景的可能的实施例，包括通过结合用户智能终端的定位信息或连接的网络信息等，判断该用户是否进入到该目标场景；或者，通过与智能门禁系统进行结合，通过门禁识别系统中获取的用户的身份信息，从而识别用户是否进入到该目标场景。通过该实施例，提高了智能语音交互设备对于用户进行主动提醒的及时性，用于保障用户对于语音留言事件的及时收听。

第三方面，本申请实施例还提供了一种目标场景下的语音留言方法，包括：

在一种可能的实施方式中，所述根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件，包括：

第四方面，本申请实施例还提供了一种目标场景下的语音留言方法，包括：

识别触发语音留言查询事件的用户的身份信息，并确定是否存在所述用户作为接收者的未读状态的语音留言事件；其中，所述语音留言事件是基于对留言者与智能语音交互设备之间用于语音留言的交互信息的解析结果，并在获取到包含预设留言条件中的全部关键信息之后，根据所述交互信息中各所述关键信息存储的；

在一种可能的实施方式中，所述确定是否存在所述用户作为接收者的未读状态的语音留言事件之后，所述方法还包括：

若所述未读状态的语音留言事件的数量大于或等于预设数量，则将所述语音留言事件发送到所述用户对应的智能终端上。

接收到所述用户对于语音留言事件的查询指令；或，

检测到所述用户与所述智能语音交互设备的交互事件；或，

在一种可能的实施方式中，所述识别到所述用户进入到目标场景；包括：

通过智能门禁系统检测到所述用户的开门事件。

第五方面，提供一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任一目标场景下的语音留言方法。

第六方面，提供一种计算机存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请实施例中的任一目标场景下的语音留言方法。

通过本申请提供的智能语音交互设备和目标场景下的语音交互方法，通过智能语音交互设备与留言者之间的交互，智能语音交互设备可自动根据交互信息进行解析，分析留言者的意图；并且，本申请提供的智能语音交互设备在根据与留言者之间当前的交互信息中未解析到完成语音留言事件的全部关键信息时，还会基于未解析到的关键信息，向留言者发出语音引导指令，从而引导用户说出本身语音留言事件的全部关键信息；最后，智能语音交互设备根据获取到的各关键信息存储为该留言者的语音留言事件。因此，本申请中进行语音留言可通过用户与智能语音交互设备之间的交互可完成，并且智能语音交互设备还可发出对于用户的语音引导指令，从而使得用户简便且无需手动操作的完成语音事件的存储，从而提升了用户的体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请实施例提供的一种终端的结构示意图；

图1B示例性示出了本申请实施例提供的一种终端的软件架构示意图；

图2为本申请实施例提供的一种目标场景下的语音留言方法的流程示意图之一；

图3为本申请实施提供的一种目标场景下的语音留言方法的场景图之一；

图4为本申请实施例提供的一种目标场景下的语音留言方法的流程示意图之二；

图5为本申请实施例提供的一种目标场景下的语音留言的场景图之二；

图6为本申请实施例提供的一种目标场景下的语音留言的场景图之三；

图7为本申请实施例提供的一种目标场景下的语音留言装置的结构示意图之一；

图8为本申请实施例提供的一种目标场景下的语音留言装置的结构示意图之二。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

由于人们工作的繁忙，和家人、朋友在一起的时间越来越少，因此很多事请或需要叮嘱的话很少有时间去单独交谈，故考虑可以通过语音留言的方式及时表达自己的想法。并且，随着智能家居设备的普及，通过智能家居设备实现语音留言是当下的一个研究方向。相关技术中，智能家居行业语音留言方案，包括通过为用户提供APP的方式，让用户在APP上手动选择留言者、接收者，录制语音留言；或者，通过用户输入接收者及留言文本，由智能设备通过文本转语音的方式实现语音播放等。但发明人发现，相关技术中的语音留言的添加方式存在操作复杂的问题。

有鉴于此，本申请提供了一种智能语音交互设备，图1A示出了智能语音交互设备100的硬件配置框图。

下面以智能语音交互设备100为例对实施例进行具体说明。应该理解的是，图1A所示智能语音交互设备100仅是一个范例，并且智能语音交互设备100可以具有比图1A中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

如图1A所示，智能语音交互设备100包括：射频(radio frequency，RF)电路110、存储器120、显示单元130、摄像头140、传感器150、音频电路160(包括本申请的拾音模块和播音模块)、无线保真(Wireless Fidelity，Wi-Fi)模块170、处理器180、蓝牙模块181、以及电源190等部件。

RF电路110可用于在收发信息或通话过程中信号的接收和发送，可以接收基站的下行数据后交给处理器180处理；可以将上行数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。

存储器120可用于存储软件程序及数据以及本申请实施例中生成的语音留言事件。处理器180通过运行存储在存储器120的软件程序或数据，从而执行智能语音交互设备100的各种功能以及数据处理。存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得智能语音交互设备100能运行的操作系统。本申请中存储器120可以存储操作系统及各种应用程序，还可以存储执行本申请实施例所述方法的代码。

显示单元130可用于接收输入的数字或字符信息，产生与智能语音交互设备100的用户设置以及功能控制有关的信号输入，具体地，显示单元130可以包括设置在智能语音交互设备100正面的触摸屏131，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框、指纹信息获取等。

显示单元130还可用于显示由用户输入的信息或提供给用户的信息以及智能语音交互设备100的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元130可以包括设置在智能语音交互设备100正面的显示屏132。其中，显示屏132可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本申请中所述的各用户的语音留言事件的相关信息。

其中，触摸屏131可以覆盖在显示屏132之上，也可以将触摸屏131与显示屏132集成而实现智能语音交互设备100的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元130可以显示应用程序以及对应的操作步骤。

摄像头140可用于捕获静态图像或视频，例如捕捉用户脸部信息，从而实现身份识别。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(chargecoupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器180转换成身份信息识别所需的数据信号。

智能语音交互设备100还可以包括至少一种传感器150，比如指纹传感器151等。

音频电路160、播音模块，如图1A中的扬声器161、拾音模块，如图1A中的麦克风162可提供用户与智能语音交互设备100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出。智能语音交互设备100还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出至RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。本申请中麦克风162可以获取用户的语音，例如包括留言者用于语音的唤醒指令等用于语音留言的交互信息。

Wi-Fi属于短距离无线传输技术，智能语音交互设备100可以通过Wi-Fi模块170帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。还可以通过Wi-Fi模块来与其他具有Wi-Fi模块的设备进行信息交互。

处理器180是智能语音交互设备100的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序，以及调用存储在存储器120内的数据，执行智能语音交互设备100的各种功能和处理数据。在一些实施例中，处理器180可包括一个或多个处理单元；处理器180还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器180中。本申请中处理器180可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例所述的处理方法。另外，处理器180与显示单元130可以是耦接。

蓝牙模块181，用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。

智能语音交互设备100还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。智能语音交互设备100还可配置有电源按钮，用于终端的开机和关机，以及锁屏等功能。

图1B是本申请实施例的智能语音交互设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图1B所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图1B所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供智能语音交互设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合语音留言事件查询场景，示例性说明智能语音交互设备100软件以及硬件的工作流程。

当触摸屏131接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为智能语音交互设备应用的控件为例，智能语音交互设备应用框架层的接口，启动智能语音交互设备应用，进而通过调用内核层启动对于该用户账户的语音留言事件的信息的查询。

本申请实施例中的智能语音交互设备100可以为手机、平板电脑、可穿戴设备、笔记本电脑以及电视等。

需要说明的是，本申请的智能语音交互设备为智能家居中任一可实现本申请记载的智能语音交互设备实现的功能的任一智能设备，本申请对于其具体的结构形式或样式不做限定，并且其可以实现其他的功能，即可以用户实现本申请的目标场景下的语音留言的智能语音交互设备均属于本申请。

在介绍了一种智能语音交互设备的可能结构之后，以下通过应用于前述智能语音交互设备的一种目标场景下的语音留言方法来对智能语音交互设备实现的功能进行说明。智能语音交互设备通过该方法首先可实现接收以及引导留言者完成语音留言，并生成该留言者的语音留言事件；其次，还可以对与留言者之间的交互信息进行解析，根据解析结果完成语音留言事件的存储，例如可根据从交互内容中解析的接收者，在存储所述语音留言事件时存储为该接收者收听该语音留言。

此外，由于根据解析的各关键信息可能存在不同的内容，因此存储的语音留言事件是根据个各关键信息的不同内容进行存储的，因此完成整个语音事件的存储和播放可能存在多种可能的场景。为了更清楚的理解本申请方法的实施流程，以下将从语音留言事件的生成和语音留言事件的播放两个主要方面对多种可能的场景进行说明。

一、语音留言事件的生成

相关技术中，存在通过智能语音交互设备匹配的智能终端上的控制APP，实现留言者对于语音留言的录制以及对于该语音留言的接收者的手动操作选择；或者，存在通过在智能终端上输入留言的文字，由智能终端通过文字转语音技术实现语音留言的技术方案。但相关技术中均存在操作具有限制(如只能通过APP进行语音留言)，因需手动操作导致的操作复杂，并且对于需要通过智能终端完成语音留言的场景下，用户还需在智能终端上进行语音智能交互设备的控制APP的下载及学习，从而导致影响了用户体验，降低了用户使用度。

参阅图2，为本申请实施例提供的一种目标场景下的语音留言方法的流程示意图，该方法应用于智能语音交互设备；其中目标场景例如包括家庭场景、工作场景等。该方法用于实现为他人进行语音留言，从而实现提醒或交流的目的，该方法的步骤包括：

步骤201：响应于留言者用于语音留言的唤醒指令，解析接收到的所述留言者与所述智能语音交互设备之间用于语音留言的交互信息。

为了使得留言者无需通过固定句式对智能设备进行唤醒，可通过任意可能的表示留言的唤醒指令实现对于智能语音交互设备的唤醒，实施时，为智能语音交互设备预先配置多种可能的用于表示留言者的唤醒指令的句式，例如，“我要留言”、“留言给*”、“给*留言”等可能表明语音留言的唤醒指令的句式。需要说明的是，“*”表示任一可能的接收者的名称，当智能语音交互设备接收到留言者说出的该句式时，例如“给小明留言”，即“*”表示接收者是小明，则表明智能语音交互设备接收到留言者的唤醒指令。

步骤202：基于对所述交互信息的解析结果，确定所述交互信息与预设留言条件中多个关键信息的匹配情况。

在一种可能的实施方式中，预设的留言条件包括的关键信息有：是否存在接收者、语音留言内容，则确定所述语音留言信息与预设的留言条件中的多个关键信息的匹配情况实施为，根据留言者当前与智能语音交互设备的用于语音留言的交互信息，确定是否解析到对于必须包含的关键信息“是否存在接收者”、“语音留言内容”的内容。

需要说明的是，预设的留言条件中包括的关键信息的设置可根据不同目标场景中需求进行设定，例如还可包括其他用于实现本申请对此不进行限定。

步骤203：若根据所述匹配情况确定所述交互信息未包含所述预设留言条件中的全部关键信息，则根据未包含的关键信息向所述留言者发出语音引导指令，用以获取到包含所述全部关键信息的交互信息。

实施时，若存储语音留言事件的留言条件中的全部关键信息存在缺失，则智能语音交互设备可通过多轮对话的形式向留言者发出语音引导指令，从而完成语音留言事件的添加。通过留言者仅需与之智能语音交互设备进行交互，并且智能语音交互设备可实现对于留言者完成语音留言的引导的语音留言事件的存储的实施方式，简化了用户的操作，从而增强了用户体验，并且提高用户对于智能语音交互设备的语音留言功能的使用度。

在一种可能的场景中，参阅图3，为本申请实施提供的一种目标场景下的语音留言方法的场景图之一，智能语音交互设备根据留言者发出的“留言给小明”的唤醒指令，解析到该交互信息中仅包含留言条件中的对于关键信息“是否存在接收者”的内容，但未解析到该留言者对于留言条件中的关键信息“语音留言内容”的结果，因此智能语音交互设备为了存储该留言者的本次语音留言事件，则发出“请说出您的留言内容”的语音引导指令，用以获取到关键信息“语音留言内容”。

此外，另一种可能的场景为，在当前的交互信息中可能已经包含留言者进行语音留言事件存储的留言条件中的全部关键信息，但智能语音交互设备未能成功解析，则智能语音交互设备也可通过语音引导指令再次向留言者进行确定，用于保障语音留言事件存储的准确性。

步骤204：获取到包含所述全部关键信息的交互信息后，根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件。

一种可能的实施方式中，智能语音交互设备可根据解析的关键信息可确定不同的留言模式，例如，可选的有单人留言模式、多人留言模式、私密留言模式或普通留言模式等，本申请对此不限定。实施时，根据解析的各关键信息的内容存储该语音留言事件，例如，若解析结果中确定存在一个指定接收者，则将解析的交互信息中的语音留言内容的关键信息存储为该指定接收者的未读状态的语音留言事件，并且仅该指定接收者可接收，而其他用户无法查询，从而有效的保障了语音留言事件的隐私性。并且，为了增强语音留言事件的私密性，可以将该语音留言事件的存储类型设置为私密留言，则在播放时只有满足一定的播放条件才能进行播放，具体的可能的场景在后文语音留言的播放的场景下进行介绍，在此暂不说明。

若解析结果中确定存在多个指定接收者，则将解析的交互信息中的语音留言内容的关键信息分别存储为各所述指定接收者的未读状态的语音留言事件，如用户的唤醒指令为“留言给小明和小红”，则将该语音留言内容分别存储为小明和小红的未读状态的语音留言事件。

此外，若解析结果中确定不存在指定接收者，则可选的默认为该留言者为该目标场景下的全部用户进行留言，例如在家庭场景下，家庭成员A为了增进感情，为全部家庭成员存储了一句语音留言内容为“***”的语音留言。实施时，智能语音交互设备将根据该语音留言内容，获取该家庭场景下的预先配置的家庭成员列表，并将该语音留言内容存储为除所述留言者外的每个家庭成员的未读的语音留言事件。通过实现对于单人留言、多人留言、存在指定接收者或不存在指定接收者的多种语音留言模式的设定，提高了通过本申请方法实现语音留言的多样性。

二、语音留言事件的播放

相关技术中，存在对于存储的原音语音留言进行播放，并且支持指定播放时间或播放次数的技术方案，但该技术方案主要是实现了一种通过定时多次提醒的方式，用于解决对于语音留言的查收效率低下的问题。但发明人发现，该技术方案中仍然存在接收者对于语音留言收听不到或收听不及时的问题。

因此，本申请的智能语音交互设备在基于前述介绍的完成语音留言事件的存储的基础上，还可以接收用户对于是否存在自己为接收者的语音留言的主动查询或进行主动提醒，并且发出该用户作为接收者的未读语音留言事件的结果的提示，从而实现对于存储的语音留言事件的消费。

参阅图4，为本申请实施例提供的一种目标场景下的语音留言方法的流程示意图，用于进行语音留言事件中的语言留言内容的播放，包括以下步骤：

步骤401：识别触发语音留言查询事件的用户的身份信息，并确定是否存在所述用户作为接收者的未读状态的语音留言事件。

其中，所述语音留言事件是基于对留言者与智能语音交互设备之间用于语音留言的交互信息的解析结果，并在获取到包含预设留言条件中的全部关键信息之后，根据所述交互信息中各所述关键信息存储的；具体实施方式参阅前述记载的语音留言事件的生成的实施例，在此不再赘述。

步骤402：若存在，则生成提示信息；其中，所述提示信息用于确认所述用户是否播放所述未读状态的语音留言事件中的语音留言内容。

实施时，检测到满足语音留言事件查询事件时，存在几种可能的场景，如下：

场景1：若接收到所述用户对于语音留言事件的查询指令，则确定触发语音留言查询事件。

实施时，用户可通过对于智能语音交互设备的唤醒，主动询问是否存在该用户未读的语音留言。一种可能的实施方式中，与留言者进行语音留言事件的存储的唤醒指令相同的原理，智能语音交互设备中还预先配置有多种可能表示用户进行语音留言查询的句式，例如，用户查留言的可能句式为“查留言”、“查语音留言”、“查我的语音留言”等可能的用于表明语音留言查询的触发句式。

此外，为了实现多种可能的查询形式，本申请的智能语音交互设备还可实现对于用户指明的筛选条件的语音留言的查询。一种可能的实施方式中，用户的触发句式为“查4月4号的留言”，则智能语音交互设备在对于该用户的语音留言的查询时，对于语音留言的查询添加一定的筛选条件，仅返回给用户满足该查询条件的语音留言。

参阅图5，为本申请实施例提供的一种目标场景下的语音留言的场景图之二，用户通过唤醒指令“查我的未读留言”实现对于智能语音交互设备的语音留言查询事件的触发，因此智能语音交互设备对该用户的身份信息进行识别，并返回基于该用户的身份信息查询到的未读状态的语音留言的结果生成的提示信息，如图5中的“您有*条留言未读，其中爸爸给您的单人留言*条，您要全部收听吗？”。然后智能语音交互设备接收到用户发出的“播爸爸给我的单人留言”的筛选条件，则在查询到的未读状态的语音留言中筛选出留言者为爸爸且接收者仅存在一个的语音留言事件进行播放。

需要说明的是，对于语音留言的查询存在多种可能的查询形式，本申请不再一一列出，但任一基于本申请提供的一种目标场景下的语音留言方法进行的语音留言事件的查询均属于本申请限定的内容。

场景2：若检测到所述用户与所述智能语音交互设备的交互事件，则确定触发语音留言查询事件。

实施时，为了保障用户对于语音留言事件的接收的及时性，本申请提供的智能语音交互设备还可进行主动提醒。例如，当该智能语音交互设备接收到用户不是用于查询语音留言时间的唤醒后，基于该用户的身份信息可主动进行该用户的未读状态的语音留言时间的查询，并在该用户此次与智能语音交互设备的交互结束后，主动向该用户发出提醒，用以及时提醒用户收听未读状态的语音留言。

参阅图6，为本申请实施例提供的一种目标场景下的语音留言事件的场景图之三，可确定本次用户与智能语音交互设备的交互目的是为了询问今天的日期，并未进行语音留言事件的查询，但智能语音交互设备根据该用户的身份信息主动进行查询，得到了该用户存在的未读状态的语音留言事件，则发出提示信息，用于确定用户是否对该未读状态的语音留言事件进行播放。若接收到用户“播放”指令后，则进行播放；若接收到“下次提醒我”或“退出”的指令后，则等待触发语音留言查询事件后再次提醒。

场景3：若识别到所述用户进入到目标场景，则确定触发语音留言查询事件。其中，所述目标场景为所述智能语音交互设备所处的预设场景范围。

实施时，一种可能的实施方式中，当检测到所述用户的至少一个智能设备的定位进入到所述目标场景的预设定位范围，即表明该用户从其他地方进入到该目标场景；另一种可能的实施方式中，检测到所述用户的至少一个智能设备与所述智能语音交互设备连接到相同的局域网下；再一种可能的实施方式中，通过智能门禁系统检测到所述用户的开门事件，例如通过人脸识别模块获取到该用户的人脸识别结果并发送给智能语音交互设备。

在确定触发语音留言查询事件后，实施时，智能语音交互设备识别发生该查询事件的身份信息，可选的，通过该用户的语音查询指令识别该用户的声纹信息，从而确定该用户的身份信息；或者，若所述智能语音交互设备还存在摄像头或指纹识别模块等，则还可通过获取的该用户的脸部信息、指纹信息、虹膜信息等来确定该用户的身份信息；或者，该智能语音交互设备与智能家居中其他可用于获取用户信息的采集设备进行交互，从而获取该用户的身份信息。通过智能采集设备对于用户的身份信息的主动获取，从而使得智能语音交互设备及时的识别该用户的身份信息，以便于及时进行语音留言事件的查询或提醒。

此外，在确定存在所述用户作为接收者的未读状态的语音留言事件时，获知所述用户作为接收者的未读状态的语音留言事件的数量大于或等于预设数量，则为了便于用户选择合适的方式进行收听，智能语音交互设备还将多个所述语音留言事件发送到所述用户对应的智能终端上，用以实现用户也可通过智能终端对于未读状态的语音留言事件的收听。

例如，假设预设数量为1个，则表明在获知到该用户存在未读状态的语音留言事件时，则可将查询结果发送到用户的智能终端上，以便于用户通过多种可能的实施方式进行语音留言事件的收听；此外，为了避免用户的智能终端接收的语音留言事件的查询结果过于频繁，从而导致用户体验差，还可根据用户习惯确定预设数量，例如假设预设数量为3个，则当查询到该用户未读的语音留言事件的数量大于等于3个时，才发送到用户的智能终端上，而在未读的语音留言事件的数量较少时，可在接收到用户确定播放指令后，直接进行播放。

步骤403：在接收到所述用户触发的确认播放的指令后，播放所述语音留言内容，并将所述语音留言事件设置为所述用户的已读状态的语音留言事件。

为了避免对于用户已读的语音留言状态的重复提醒，当对语音留言事件的语音留言内容进行播放后，将该语音留言事件设置为已读。需要说明的是，实施时，已读状态的语音留言事件还可在满足查询条件时再次进行播放，例如，用户想要重复播放该语音留言事件时，在可再次对语音留言内容进行播放。

此外，为了保障语音留言的私密性，留言者在进行语音留言事件的存储时，可能会设置该语音留言事件为私密留言。在进行语音留言事件的播放时，若确定所述语音留言事件为有播放条件的语音留言事件，则确定所述智能语音交互设备是否具有播放条件；其中，所述播放条件为通过指定的智能语音交互设备对所述语音留言事件进行播放；若确定所述智能语音交互设备具有播放条件，则生成所述提示信息；否则不生成所述提示信息。例如，针对私密留言，仅在用户主动查询时，为用户生成提示信息；而在智能语音交互设备主动提醒时，仅在该智能语音交互设备属于该用户的私人设备(例如该用户卧室的智能语音交互设备)时，才生成提示信息。

基于相同的技术构思，图7示例性的示出了本申请实施例提供的一种目标场景下的语音留言装置，该装置可以执行目标场景下的语音留言方法的流程。

包括：

语义解析模块701，用于响应于留言者用于语音留言的唤醒指令，解析接收到的所述留言者与所述智能语音交互设备之间用于语音留言的交互信息；

逻辑处理模块702，用于基于对所述交互信息的解析结果，确定所述交互信息与预设留言条件中多个关键信息的匹配情况；

所述逻辑处理模块702，用于若根据所述匹配情况确定所述交互信息未包含所述预设留言条件中的全部关键信息，则根据未包含的关键信息向所述留言者发出语音引导指令，用以获取到包含所述全部关键信息的交互信息；

数据存储模块703，用于获取到包含所述全部关键信息的交互信息后，根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件。

在一种可能的实施方式中，所述数据存储模块703，用于根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件，具体用于：

基于相同的技术构思，图8示例性的示出了本申请实施例还提供的一种目标场景下的语音留言装置，该装置可以执行目标场景下的语音留言方法的流程。

包括：

识别模块801，用于识别触发语音留言查询事件的用户的身份信息，并确定是否存在所述用户作为接收者的未读状态的语音留言事件；其中，所述语音留言事件是基于对留言者与所述智能语音交互设备之间用于语音留言的交互信息的解析结果，并在获取到包含预设留言条件中的全部关键信息之后，根据所述交互信息中各所述关键信息存储的；

提示模块802，用于若存在，则生成提示信息；其中，所述提示信息用于确认所述用户是否播放所述未读状态的语音留言事件中的语音留言内容；以及，

播放模块803，用于在接收到所述用户触发的确认播放的指令后，播放所述语音留言内容，并将所述语音留言事件设置为所述用户的已读状态的语音留言事件。

在一种可能的实施方式中，所述识别模块801，用于确定是否存在所述用户作为接收者的未读状态的语音留言事件之后，还用于：

接收到所述用户对于语音留言事件的查询指令；或，

检测到所述用户与所述智能语音交互设备的交互事件；或，

在一种可能的实施方式中，所述识别模块801，用于识别到所述用户进入到目标场景时，具体用于：

通过智能门禁系统检测到所述用户的开门事件。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的目标场景下的语音留言方法中的步骤。例如，处理器可以执行如图2中所示的步骤201-204或者如图4所示的步骤401-403。

在一些可能的实施方式中，本申请提供的一种目标场景下的语音留言方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种目标场景下的语音留言方法的步骤，例如，计算机设备可以执行如图2中所示的步骤201-204或者如图4所示的步骤401-403。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、终端设备或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于数据处理程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、终端设备或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、终端设备或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了终端设备的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的终端设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令终端设备的制造品，该指令终端设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种智能语音交互设备，其特征在于，包括：

拾音模块，用于接收留言者用于语音留言的唤醒指令；

处理器，被配置为执行：

2.根据权利要求1所述的智能语音交互设备，其特征在于，所述处理器，被配置为执行根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件时，具体执行：

3.一种智能语音交互设备，其特征在于，包括：

处理器，被配置为执行：

4.根据权利要求3所述的智能语音交互设备，其特征在于，所述处理器，还被配置为所述确定是否存在所述用户作为接收者的未读状态的语音留言事件之后，执行：

5.根据权利要求3所述的智能语音交互设备，其特征在于，通过下列方式确定触发语音留言查询事件：

接收到所述用户对于语音留言事件的查询指令；或，

检测到所述用户与所述智能语音交互设备的交互事件；或，

6.根据权利要求5所述的智能语音交互设备，其特征在于，所述处理器，被配置为执行识别到所述用户进入到目标场景时，具体执行：

通过智能门禁系统检测到所述用户的开门事件。

7.一种目标场景下的语音留言方法，其特征在于，包括：

响应于留言者用于语音留言的唤醒指令，解析接收到的所述留言者与智能语音交互设备之间用于语音留言的交互信息；

8.根据权利要求7所述的方法，其特征在于，所述根据所述交互信息中各所述关键信息存储所述留言者的语音留言事件，包括：

9.一种目标场景下的语音留言方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述确定是否存在所述用户作为接收者的未读状态的语音留言事件之后，所述方法还包括：