CN109360567A

CN109360567A - 可定制唤醒的方法和装置

Info

Publication number: CN109360567A
Application number: CN201811518676.4A
Authority: CN
Inventors: 杨新伟; 张顺
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2019-02-19
Anticipated expiration: 2038-12-12
Also published as: CN109360567B

Abstract

本发明公开可定制唤醒的方法和装置，其中，一种可定制唤醒的方法，包括：当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与所述快捷唤醒词对应的指令，其中，所述快捷唤醒词用于唤醒的同时附带一条指令；当设备处于交互状态时，判断所述交互状态是否为播放场景；当判断为播放场景时，响应于用户的打断唤醒词，执行与所述打断唤醒词对应的指令，其中，所述打断唤醒词用于控制播放。本申请提供的方案通过对唤醒词进行分类，根据交互状态和场景响应唤醒，而不会出现凡是唤醒都会响应的影响交互体验的情况。

Description

可定制唤醒的方法和装置

技术领域

本发明属于语音数据技术领域，尤其涉及可定制唤醒的方法和装置。

背景技术

相关技术中，某些方案提供的语音唤醒定制为：唤醒词支持4-6个汉字，或不超过2个单词的英文词组，支持3个唤醒词自定义。另一些方案提供的语音唤醒定制为：支持设置10个唤醒词，包含预定义唤醒词和自定义唤醒词，预定义唤醒词不支持自定义；10个唤醒词中，最多可以设置3个自定义唤醒词，最多可以包含3个两字预定义唤醒词(如播放、暂停、拍照等)。

发明人在实现本申请的过程中发现，上述方案至少存在以下缺陷：

1、可定制数量少：上面的技术虽然也可以做到唤醒定制，但是所提供的数量却无法满足日常使用中丰富的唤醒场景；

2、唤醒词限制多：大部分需要定制唤醒的场景唤醒词都是比较常见的词，对唤醒词做限制也就是对使用场景做限制，而这样也就无法更灵活的定制唤醒了；

3、不支持场景化定制：不能定制多个场景下唤醒词，也就是唤醒词只是非交互状态下用来唤起交互的一种指令，无法区分多场景下的唤醒类型。

上面的技术有的对唤醒词长度做限制，有的对唤醒词数量做限制，有的两方面都做限制，有的没有定制各场景下的唤醒，也就导致定制唤醒不能达到定制的目的。

并且发明人还发现以上技术都依赖其语音唤醒技术，在定制唤醒模型下进行唤醒定制，而且没有将唤醒融入整个交互流程中。

发明内容

本发明实施例提供一种可定制唤醒的方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种可定制唤醒的方法，包括：当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与所述快捷唤醒词对应的指令，其中，所述快捷唤醒词用于唤醒的同时附带一条指令；当设备处于交互状态时，判断所述交互状态是否为播放场景；当判断为播放场景时，响应于用户的打断唤醒词，执行与所述打断唤醒词对应的指令，其中，所述打断唤醒词用于控制播放。

第二方面，本发明实施例提供一种可定制唤醒的装置，包括：快捷唤醒模块，配置为当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与所述快捷唤醒词对应的指令，其中，所述快捷唤醒词用于唤醒的同时附带一条指令；判断模块，配置为当设备处于交互状态时，判断所述交互状态是否为播放场景；以及打断模块，配置为当判断为播放场景时，响应于用户的打断唤醒词，执行与所述打断唤醒词对应的指令，其中，所述打断唤醒词用于控制播放。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的可定制唤醒的方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的可定制唤醒的方法的步骤。

本申请的方法和装置提供的方案通过对唤醒词进行分类，之后不同的唤醒词在不同的状态或者场景下会被优先识别为该场景下的相应的类型的唤醒词，执行相应的唤醒操作，根据交互状态和场景响应唤醒，而不会出现凡是唤醒都会响应的影响交互体验的情况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种可定制唤醒的方法的流程图；

图2为本发明一实施例提供的另一种可定制唤醒的方法的流程图；

图3为本发明一实施例提供的另一种可定制唤醒的装置的框图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的可定制唤醒的方法一实施例的流程图，本实施例的可定制唤醒的方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具等。

如图1所示，在步骤101中，当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与快捷唤醒词对应的指令，其中，快捷唤醒词用于唤醒的同时附带一条指令；

在步骤102中，当设备处于交互状态时，判断交互状态是否为播放场景；

在步骤103中，当判断为播放场景时，响应于用户的打断唤醒词，执行与打断唤醒词对应的指令，其中，打断唤醒词用于控制播放。

在本实施例中，对于步骤101，当可定制唤醒的装置检测到设备处于等待唤醒状态时，接收到用户的快捷唤醒词，会执行与该快捷唤醒词对应的指令，快捷唤醒词用于在唤醒的同时附带一条指令，例如“打开蓝牙”、“降低音量”等对硬件的控制指令，也可以是“听儿歌”、“讲故事”、“学国学”等直接跳转至相应的技能模块的指令，本申请在此没有限制。另一方面，对于步骤102，当设备被唤醒之后，处于交互状态时，判断该交互状态是否为播放场景，例如播放故事、播放儿歌等能够控制“播放”、“暂停”、“上一首”、“下一首”的场景。之后，对于步骤103，当判断设备处于播放场景后，响应于用户的打断唤醒词，执行与该打断唤醒词对应的指令，其中，打断唤醒词用于对播放进行控制。

在本实施例中，每一种状态或者场景下各唤醒词的优先级顺序不一致，例如在等待唤醒的状态下，主唤醒词的优先级最高，其次是快捷唤醒词和用户自定义的唤醒词。而在播放场景中，打断唤醒词的优先级最高，其次才是快捷唤醒词和主唤醒词。例如，在播放场景中，用户的“上一首”会被优先识别为是不是打断唤醒词，之后才会判断是不是其他类型的唤醒词。在等待唤醒场景中，“上一首”会先被判断是不是快捷唤醒词或者用户定制的一个唤醒词，例如，用户也可以说：你好，小驰(主唤醒词)，给你改个名字叫上一首吧，之后就可以用“你好，上一首”作为唤醒词唤醒设备。

本实施例的方法，通过对唤醒词进行分类，之后不同的唤醒词在不同的状态或者场景下会被优先识别为该场景下的相应的类型的唤醒词，执行相应的唤醒操作，根据交互状态和场景响应唤醒，而不会出现凡是唤醒都会响应的影响交互体验的情况。

在一些可选的实施例中，上述方法还包括：当设备处于等待唤醒的状态时，响应于用户的主唤醒词，播放欢迎语。针对主唤醒词，在等待唤醒的状态下进行响应，其他状态或者场景下如果没有定制相同的唤醒词，则不响应。

在一些可选的实施例中，打断唤醒词包括上一首、下一首、暂停和停止播放。其中，上一首、下一首、暂停和停止播放是在播放场景中默认的打断唤醒词，用户也可以根据自己的需求对打断唤醒词进行定制。例如用户可以将“上一首”定制为“前一首”，将“下一首”定制为“后一首”，或者将“上一首”定制为“上一个”，将“下一首”定制为“下一个”，本申请在此没有限制。进一步地，对于用户定制的打断唤醒词或者在其他状态或者场景下定制的其他唤醒词，可以先保存一段时间，记录定制的唤醒词的使用频次，如果在一个记录周期内使用频次高于预设频次阈值，则可以继续保存，在下一个记录周期内继续使用和记录使用频次，对于在多个记录周期内使用频次始终保持比较高频次的可以永久保存，反之，对于使用频次低的可以删除。

在一些可选的实施例中，上述方法还包括：响应于停止播放指令，退出播放场景并开始新一轮交互。在播放场景中，当用户发出停止播放指令，则应该退出该播放场景，并开始新一轮的交互。

在一些可选的实施例中，设备唤醒词包括主唤醒词、快捷唤醒词和打断唤醒词，上述方法还包括：响应于用户在某一状态或某一场景下对设备唤醒词的更新，对更新后的设备唤醒词进行某一状态或某一场景下的训练以使得更新后的设备唤醒词能够在某一状态或场景下使用。

在该实施例中，用户可能会对设备唤醒词进行更新，例如将“您好，小驰(主唤醒词)”改成“您好，小思”，或者删除“您好，小思”等，此时，若用户的更新是针对系统原有的唤醒词，则保留原有唤醒词，增加对更新的唤醒词的训练，若是删除，也可以不用训练，直接删除即可；若用户针对的是后续用户自己定制的唤醒词，则可以对用户自己定制的唤醒词进行各种修改，本申请在此没有限制。

其中，主唤醒词为系统默认的唤醒词，可以定制新的唤醒词，但是主唤醒词始终保存，主唤醒词可以例如只在等待唤醒的状态下使用，其他状态下除非用户有特殊的定制，例如将主唤醒词定制为一个其他类型的唤醒词，否则在其他状态或场景下均不响应，从而可以减少设备在任何状态或场景下都对主唤醒词进行响应，影响用户体验。快捷唤醒词可以包括系统默认的和用户之后定制的，例如用户可以说“我想增加一个降低音量的唤醒词”，则设备可以询问“确定将“降低音量”作为一个快捷唤醒词吗”，之后在用户确认之后，可以对该新增的快捷唤醒词进行训练并关联相应的控制指令。对于打断唤醒词，用户也可以进行更新，具体不再赘述。

在进一步可选的实施例中，对设备唤醒词的更新包括增加新的设备唤醒词、删除和/或修改已有设备唤醒词。

在一些可选的实施例中，某一状态包括等待唤醒状态和/或交互状态；某一场景包括播放场景和/或对话场景。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人发现，为了解决现有技术中存在的上述缺陷，现有技术的部分产品可能通过下面的方法来解决:

通常会在定制唤醒模型的基础下，提供提前定制好的唤醒词给用户，以扩大可定制唤醒词的数量。

本方案结合整个对话流程，不单单依赖于语音唤醒技术，需要唤醒技术与整个DM(Dialog Manager)流程进行融合交互，唤醒能够了解当前的DM状态，DM也能根据需要选择当前场景最合适的唤醒方案。

本申请的方案的一个具体实施例如下，需要说明的是以下实施例中虽然提到了一些具体的例子，但并不用于限制本申请的方案。

将唤醒分为：主唤醒、快捷唤醒、打断唤醒三类。

主唤醒：一般为设备产品的“大名”，如：你好小驰。此类唤醒词用于启动新一轮交互时使用，优先级最高。

快捷唤醒：一般用于唤醒的同时附带一条执行指令，指令由客户端接收，编码实现，如：打开蓝牙。在唤醒的同时执行打开蓝牙的操作。

打断唤醒：一般用于播放场景，并且将打断唤醒词内容送入对话流程，如：

在播放新闻的时候，说“下一条新闻”，暂停当前新闻播放的同时开始播放下一条新闻。

所有的唤醒词都可动态增加删除，在需要的场景使用需要的唤醒词，使用频率较高的唤醒词可一直存在，频率较低的唤醒词在退出使用场景之后就删除，保证后续使用依旧有自定义唤醒的能力。

步骤一：未唤醒状态下，支持两种类型的唤醒词唤醒。主唤醒词，唤醒之后播报欢迎语，进入交互状态，不需要执行客户端指令；快捷唤醒词，唤醒之后不播报欢迎语，执行一条指令，由开发者确定执行之后是否结束对话。

步骤二：这里暂时将交互过程可以分为播放场景和对话场景(实际过程中可能会有其他更多场景)，对话场景下一般不需要用到唤醒。

步骤三：播放场景下用户唤醒一般都是对播放的内容进行操作，所以这时需要打断唤醒词，“下一首”的打断唤醒词也就完美的实现了从唤醒到执行下达的过程，避免出现“你好小驰，下一首”的情况。也可选择“停止播放”，直接退出对话。

步骤四：打断唤醒后可选择重新进入交互流程或者结束对话。

步骤五：结束对话。

发明人在实现本申请的过程中，还采用过如下备选方案，并总结了该备选方案的优点和缺点。

备选方案1：通用唤醒模型下，所有唤醒词都为主唤醒词，无其他唤醒词的概念。

优点：不用区分各类唤醒词，易于代码操作。

缺点：无法动态进行各个场景的唤醒词配置，不能按需添加。

备选方案2：没有打断唤醒词的版本，只有主唤醒词与快捷唤醒词，在最开始一定程度上解决了定制唤醒的问题。

优点：拆分唤醒类型，动态增加删除唤醒词。

缺点：无法感知交互状态，凡是唤醒都会反馈，会影响交互体验。

本方案可实现随时随地更改唤醒词，高度可定制唤醒，包括动态添加，动态删除，根据场景判断是否响应唤醒。和对话结合起来的效果是这样的：“你好小驰，给你起个名字叫小思。”，之后便可以通过“小思”来唤醒。

在另一个具体实现中，例如“小驰”改名为“下一首”之后，在等待唤醒状态时，“下一首”作为唤醒词的优先级最高，因此会被理解为唤醒设备的唤醒词；在播放场景下，“下一首”作为控制指令的优先级最高,因此会被优先理解为跳转到下一首播放。

请参考图3，其示出了本发明一实施例提供的可定制唤醒的装置的框图。

如图3所示，可定制唤醒的装置300，包括快捷唤醒模块310、判断模块320和打断模块330。

其中，快捷唤醒模块310，配置为当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与快捷唤醒词对应的指令，其中，快捷唤醒词用于唤醒的同时附带一条指令；判断模块320，配置为当设备处于交互状态时，判断交互状态是否为播放场景；以及打断模块330，配置为当判断为播放场景时，响应于用户的打断唤醒词，执行与打断唤醒词对应的指令，其中，打断唤醒词用于控制播放。

应当理解，图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如判断模块可以描述为当设备处于交互状态时，判断交互状态是否为播放场景的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如判断模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的可定制唤醒的方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与所述快捷唤醒词对应的指令，其中，所述快捷唤醒词用于唤醒的同时附带一条指令；

当设备处于交互状态时，判断所述交互状态是否为播放场景；

当判断为播放场景时，响应于用户的打断唤醒词，执行与所述打断唤醒词对应的指令，其中，所述打断唤醒词用于控制播放。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据可定制唤醒的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至可定制唤醒的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项可定制唤醒的方法。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器410以及存储器420，图4中以一个处理器410为例。可定制唤醒的方法的设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例可定制唤醒的方法。输入装置430可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于可定制唤醒的装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种可定制唤醒的方法，包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

当设备处于等待唤醒的状态时，响应于用户的主唤醒词，播放欢迎语。

3.根据权利要求1所述的方法，其中，所述打断唤醒词包括上一首、下一首、暂停和停止播放。

4.根据权利要求3所述的方法，其中，所述方法还包括：

响应于停止播放指令，退出所述播放场景并开始新一轮交互。

5.根据权利要求2所述的方法，其中，设备唤醒词包括主唤醒词、快捷唤醒词和打断唤醒词，所述方法还包括：

响应于用户在某一状态或某一场景下对设备唤醒词的更新，对更新后的设备唤醒词进行所述某一状态或某一场景下的训练以使得所述更新后的设备唤醒词能够在所述某一状态或场景下使用。

6.根据权利要求5所述的方法，其中，所述对设备唤醒词的更新包括增加新的设备唤醒词、删除和/或修改已有设备唤醒词。

7.根据权利要求5所述的方法，其中，所述某一状态包括等待唤醒状态和/或交互状态；

所述某一场景包括播放场景和/或对话场景。

8.一种可定制唤醒的装置，包括：

快捷唤醒模块，配置为当设备处于等待唤醒状态时，响应于用户的快捷唤醒词，执行与所述快捷唤醒词对应的指令，其中，所述快捷唤醒词用于唤醒的同时附带一条指令；

判断模块，配置为当设备处于交互状态时，判断所述交互状态是否为播放场景；

打断模块，配置为当判断为播放场景时，响应于用户的打断唤醒词，执行与所述打断唤醒词对应的指令，其中，所述打断唤醒词用于控制播放。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。