CN110958348B

CN110958348B - 语音处理方法、装置、用户设备及智能音箱

Info

Publication number: CN110958348B
Application number: CN201811117228.3A
Authority: CN
Inventors: 李超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2022-07-01
Anticipated expiration: 2038-09-25
Also published as: CN110958348A

Abstract

本发明实施例提供一种语音处理方法、装置、用户设备及智能音箱，该方法包括：用户设备获取用户输入的语音信息；根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。本发明实施例提供的语音处理方法、装置、用户设备及智能音箱，可以由用户设备获取用户输入的语音信息，并根据所述语音信息，向具有配对关系的智能音箱发送对应的控制信息，使得所述智能音箱可以根据所述控制信息输出对应的应答信息，在智能音箱无法采集到清晰的语音信息时，用户设备可以作为中继，根据获取到的语音信息对智能音箱进行控制，提高了智能音箱的唤醒率和语音交互性能，为用户提供了便利。

Description

语音处理方法、装置、用户设备及智能音箱

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、用户设备及智能音箱。

背景技术

智能音箱是一种能够与用户进行语音交互的工具，用户可以利用智能音箱实现各种常见的功能，比如点播歌曲、了解天气预报、设置闹钟、查阅资料等，它也可以对智能家居设备进行控制，比如打开窗帘、设置热水器温度等。

现有技术中，智能音箱主要通过麦克风等采集用户输入的语音信息，根据语音信息分析用户的需求，并输出相应的应答信息。当用户距离智能音箱较远时，或者智能音箱正在播放音乐时，智能音箱很难被唤醒并去分析用户需求，导致智能音箱的唤醒率较低，语音交互性能较差，难以满足用户需求。

发明内容

有鉴于此，本发明实施例提供一种语音处理方法、装置、用户设备及智能音箱，以提高智能音箱的语音交互性能。

第一方面，本发明实施例提供一种语音处理方法，包括：

用户设备获取用户输入的语音信息；

根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

第二方面，本发明实施例提供一种语音处理方法，包括：

智能音箱获取具有配对关系的用户设备响应于用户输入的语音信息发送的控制信息；

根据所述控制信息输出对应的应答信息。

第三方面，本发明实施例提供一种语音处理装置，包括：

第一获取模块，用于获取用户输入的语音信息；

发送模块，用于根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

第四方面，本发明实施例提供一种语音处理装置，包括：

第二获取模块，用于获取具有配对关系的用户设备响应于用户输入的语音信息发送的控制信息；

输出模块，用于根据所述控制信息输出对应的应答信息。

第五方面，本发明实施例提供一种用户设备，包括第一处理器和第一存储器，所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现上述第一方面中的语音处理方法。该用户设备还可以包括第一通信接口，用于与其他设备或通信网络通信。

第六方面，本发明实施例提供一种智能音箱，包括第二处理器和第二存储器，所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现上述第二方面中的语音处理方法。该智能音箱还可以包括第二通信接口，用于与其他设备或通信网络通信。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面或第二方面中的语音处理方法。

本发明实施例提供的语音处理方法、装置、用户设备及智能音箱，可以由用户设备获取用户输入的语音信息，并根据所述语音信息，向具有配对关系的智能音箱发送对应的控制信息，使得所述智能音箱可以根据所述控制信息输出对应的应答信息，在智能音箱无法采集到清晰的语音信息时，用户设备可以作为中继，根据获取到的语音信息对智能音箱进行控制，提高了智能音箱的唤醒率和语音交互性能，为用户提供了便利。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音处理方法的一种应用场景示意图；

图2为本发明实施例提供的语音处理方法实施例一的流程示意图；

图3为本发明实施例提供的语音处理方法实施例二的流程示意图；

图4为本发明实施例提供的语音处理方法的另一种应用场景示意图；

图5为本发明实施例提供的语音处理方法实施例三的流程示意图；

图6为本发明实施例提供的语音处理方法实施例四的流程示意图；

图7为本发明实施例提供的一种语音处理装置的结构示意图；

图8为本发明实施例提供的另一种语音处理装置的结构示意图；

图9为本发明实施例提供的一种用户设备的结构示意图；

图10为本发明实施例提供的一种智能音箱的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在......时”或“当......时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

图1为本发明实施例提供的语音处理方法的一种应用场景示意图。如图1所示，用户设备如智能手机等可以获取用户输入的语音信息，并根据所述语音信息向具有配对关系的智能音箱发送控制信息，从而控制智能音箱输出对应的应答信息。

其中，所述控制信息可以为能够反映出语音信息内容的任意信息，例如，所述控制信息可以包括下述至少一项：所述语音信息、所述语音信息对应的文本信息、所述语音信息对应的控制指令等。智能音箱能够对控制信息进行分析处理，并输出对应的应答信息。

例如，用户说出语音信息“请告诉我明天的天气”，用户设备可以采集该语音信息并转发给智能音箱，智能音箱对用户输入的语音信息进行分析处理，并执行相应的操作，即查询明天的天气并播放给用户，从而实现用户通过用户设备与智能音箱进行语音交互。

下面结合如下的方法实施例以及附图对本发明实施例提供的语音处理方法的实现过程进行介绍。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图2为本发明实施例提供的语音处理方法实施例一的流程示意图。本实施例中方法的执行主体可以为用户设备，例如智能手机、智能手表、计算机、可穿戴设备等，具体可以为与待控制的智能音箱不同的设备。如图2所示，本实施例中的语音处理方法，可以包括：

步骤201、获取用户输入的语音信息。

步骤202、根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

其中，所述用户设备可以设置有语音采集装置如麦克风等，能够采集用户输入的语音信息，在采集到用户输入的语音信息之后，可以根据语音信息来控制具有配对关系的智能音箱。

具体地，可以向具有配对关系的智能音箱发送控制信息，控制智能音箱输出对应的应答信息。如前所述，该控制信息可以为能够反映出语音信息内容的任意信息。

在一种可选的实施方式中，所述控制信息可以为所述语音信息。这种情况下，用户设备相当于中继的作用。

具体地，中继是指在两个节点之间增加一个或多个中继节点，负责对信号进行一次或者多次的转发。这样有机会将一个质量较差的链路替换为两个质量较好的链路，以获得更高的链路质量及更好的覆盖。

在这种情况下，用户设备不对用户输入的语音信息进行其它处理，直接将语音信息转发给智能音箱即可。智能音箱在接收到用户设备发送的语音信息后，可以将所述语音信息转换为文本信息，并对文本信息进行语义分析，确定用户需求，然后输出对应的应答信息。或者，智能音箱也可以将语音信息与预设的语音模板进行匹配，并根据匹配结果确定对应的应答信息。

可选的，用户输入的语音信息可以包括唤醒关键词和用户需求信息。

智能音箱在实际使用中，一般不会一直监听用户说话内容，因此，可以为智能音箱设置一个触发机制，一旦满足触发机制，智能音箱就开始分析用户需求，否则智能音箱一直处于休眠状态，唤醒就充当这个触发机制。当用户企图开启智能音箱时，无需动手，直接说出唤醒关键词，处于休眠状态下的智能音箱检测到用户的语音后，会从休眠状态快速进入工作状态。

所述唤醒关键词可以根据实际需要设置，也可以由用户自主设置，例如，所述唤醒关键词可以为“小音”。

所述用户需求信息可以是任意表示用户需求的信息，例如，“我想知道明天的天气”，或者“请帮我设置明天早上7点的闹钟”，等等。

在用户需要向智能音箱提出需求时，可以一次性地说出唤醒关键词加用户需求信息，例如，用户可以说出“小音，我想知道明天的天气”，用户设备采集到用户输入的语音信息后，可以转发给智能音箱，智能音箱分析其中包含唤醒关键词，则可以根据语音信息进一步分析用户需求，并输出对应的应答信息，例如输出“明天温度15摄氏度到25摄氏度，多云转小雨”。

或者，用户也可以将唤醒关键词和用户需求信息分开来说，例如，用户可以首先说出“小音”，由用户设备将该语音信息转发给智能音箱，智能音箱被唤醒，反馈应答信息“我在”，然后，用户继续说出自己的需求“请帮我设置明天早上7点的闹钟”，由用户设备转发给智能音箱，智能音箱进行语义分析后，为用户设置好相应的闹钟，并反馈应答信息“好的，已为你设置明天早上7点的闹钟”。

当然，用户与智能音箱进行交互时也可以采用其他的规则，例如语音信息中也可以不包含唤醒关键词，本实施例对此不作限制。

在另一种可选的实施方式中，所述控制信息可以为所述语音信息对应的文本信息。

具体地，根据所述语音信息，向具有配对关系的智能音箱发送控制信息，可以包括：将所述语音信息转换为文本信息；向具有配对关系的智能音箱发送控制信息，其中，所述控制信息包含所述文本信息。

智能音箱在接收到语音信息对应的文本信息后，可以直接根据文本信息进行语义分析，确定对应的应答信息，省去了将语音信息转换为文本信息的步骤。

可选的，用户设备还可以在将所述语音信息转换为文本信息之后，判断所述文本信息中是否包含预设关键词，如果包含预设关键词，可以将文本信息发送给智能音箱。

所述预设关键词可以为唤醒关键词或其它可以预先设置或者由用户设置的关键词。用户设备可以根据文本信息中是否包含预设关键词来确定用户输入的语音信息是不是用于控制智能音箱的。

例如，所述预设关键词可以为智能音箱的唤醒关键词“小音”，如果用户语音输入“让小音为我设置明天早上7点的闹钟”，则用户设备获取到该语音信息后可以将对应的文本信息发送给智能音箱，由智能音箱进行闹钟设置。如果用户语音输入“该吃饭了”，则该语音信息和智能音箱没有关系，用户设备获取到该语音信息后可以直接舍弃，不进行转发。

在又一种可选的实施方式中，所述控制信息可以为所述语音信息对应的控制指令。

具体地，根据所述语音信息，向具有配对关系的智能音箱发送控制信息，可以包括：将所述语音信息转换为文本信息；根据所述文本信息，确定对应的控制指令；向具有配对关系的智能音箱发送控制信息，所述控制信息包含所述控制指令。

现有技术中，智能音箱可以对用户输入的语音信息进行分析处理，确定需要执行哪些操作，在本发明实施例中，进行分析处理并确定智能音箱需要执行哪些操作可以放到用户设备来执行。用户设备在根据语音信息确定用户需求后，可以向智能音箱发送对应的控制指令。

例如，用户说出唤醒关键词“小音”，则所述控制指令可以为唤醒智能音箱的指令，智能音箱在接收到所述控制指令后被唤醒，进入工作状态，等待接收用户的下一条指令。又例如，用户说出“请播放歌曲”，则所述控制指令为用于控制智能音箱播放歌曲的指令。

在其它可选的实施方式中，所述控制信息除了包括语音信息、语音信息对应的文本信息、语音信息对应的控制指令中的一项或多项以外，还可以包括其它信息，例如，获取到用户的语音信息的时间等，方便智能音箱记录日志。

本发明实施例中，用户设备与智能音箱之间的配对关系可以有多种实现方式。

在一种可选的方式中，用户设备一定范围内的智能音箱可以作为与该用户设备具有配对关系的智能音箱。

可选的，处于同一无线网络中的用户设备和智能音箱可以为具有配对关系的用户设备和智能音箱。

具体地，当智能音箱采集到用户的语音信息后，可以向处于同一WIFI网络中的智能音箱发送对应的控制信息。例如，用户设备和智能音箱都连接到用户的家庭WIFI，用户输出语音时，用户设备可以转发给处于同一WIFI网络中的智能音箱，实现声音的中继功能。

或者，也可以通过其它方式来保证一定范围内的用户设备和智能音箱具有配对关系。例如，智能音箱可以设置有RFID(Radio Frequency Identification，射频识别)标签，用户设备可以设置有RFID读写器，当用户设备和智能音箱在一定的距离内时，用户设备和智能音箱可以实现RFID连接，从而建立配对关系。又例如，用户设备与智能音箱都可以设置有蓝牙模块，通过蓝牙可以实现配对，配对完成后用户设备可以向智能音箱发送相应的控制信息。

在另一种可选的方式中，登录了同一账号的用户设备和智能音箱可以作为具有配对关系的用户设备和智能音箱。

在又一种可选的方式中，可以由用户手动为智能音箱和用户设备建立配对关系，在建立配对关系后，用户设备可以根据用户输入的语音信息向具有配对关系的智能音箱发送控制信息。

相应的，本实施例中的方法还可以包括：响应于用户的操作事件，与智能音箱建立配对关系。其中，所述用户的操作事件可以是指任意能够建立用户设备和智能音箱的配对关系的操作，例如，用户可以通过点击用户设备的触摸屏上显示的选项等方式来实现用户设备和智能音箱的配对，用户设备和智能音箱配对的具体实现方法属于现有技术，此处不再赘述。

进一步地，当用户设备或智能音箱之间不满足具有配对关系的条件时，两者自动解除配对关系，例如，用户设备和智能音箱在同一无线网络中时，具有配对关系，当用户设备或智能音箱离开所述无线网络时，所述用户设备和所述智能音箱解除配对关系；又例如，用户设备和智能音箱登录同一账号时，具有配对关系，当用户设备或智能音箱切换其它账号时，解除配对关系。

或者，可以由用户来解除用户设备和智能音箱的配对关系。可选的，用户可以通过点击触摸屏上的相应选项等方式来解除配对关系。

当然，也可以根据实际需要，选择其它方式实现用户设备与智能音箱之间的建立配对关系和解除配对关系，本实施例对此不作限制。

可选的，还可以由用户开启或关闭用户设备的发送功能。当用户开启发送功能时，用户设备可以根据用户输入的语音信息向具有配对关系的智能音箱发送对应的控制信息，当用户关闭发送功能时，用户设备获取到语音信息后不进行发送操作，减少用户设备的信令消耗，提高用户设备的续航能力。

所述用户设备与智能音箱之间可以通过任意方式来实现信息的传输。可选的，用户设备可以通过WIFI无线网络将控制信息发送给同一个网络下的智能音箱，或者，可以通过蓝牙将控制信息发送给智能音箱，或者，用户设备可以将控制信息发送到云端，由云端发送给智能音箱。

在实际应用中，用户设备可以设置一个预装的特定服务进程，如Android的service组件等，该服务进程可以一直在后台运行，采集用户输入的语音信息，然后将对应的控制信息传输给智能音箱。

下面通过两个具体的场景来说明本发明实施例的有益效果。为了便于描述，本发明各实施例中，以控制信息为用户输入的语音信息为例来进行说明。

智能音箱识别困难一般有两种可能性：1、干扰太大；2、用户的声音太小，对应实际生活中智能音箱应用的两种常见场景：1、智能音箱在播放音乐时，很难被再唤醒，这个时候需要关掉音乐播放功能，或者提高人声来覆盖音乐，智能音箱才能接受新的指令；2、用户距离智能音箱较远时，声音有较大的衰减，这时候也很难被唤醒。

现有技术中，为了提高唤醒率，往往通过降噪技术、或者更换更好的声音采集器件来提高唤醒率，需要增加硬件成本。而本发明实施例提供的方案不用增加硬件成本，通过现有的智能手机、智能手表等用户设备就可以提高智能音箱的唤醒率。

针对场景1，通过智能手机或智能手表等随身设备来进行声音中继，提高了用户与智能音箱之间的链路质量，并且，由于用户设备往往是随身的，距离用户很近，因此没有远距离带来的大量衰减。针对场景2，用户设备直接将语音信息转发给智能音箱，在播放音乐的时候智能音箱可以不需要采集用户的声音，直接根据从用户设备获取到的语音信息进行语音识别就可以，有效提高了唤醒率。

综上，本发明实施例提供的语音处理方法，可以由用户设备获取用户输入的语音信息，并根据所述语音信息，向智能音箱发送对应的控制信息，使得所述智能音箱可以根据所述控制信息输出对应的应答信息，在智能音箱无法采集到清晰的语音信息时，用户设备可以作为中继，根据获取到的语音信息对智能音箱进行控制，提高了智能音箱的唤醒率和语音交互性能，为用户提供了便利。

图3为本发明实施例提供的语音处理方法实施例二的流程示意图。本实施例是在上述实施例提供的技术方案的基础上，由用户设备根据当前状态确定是否向具有配对关系的智能音箱发送控制信息。如图3所示，本实施例中的语音处理方法，可以包括：

步骤301、获取用户输入的语音信息。

步骤302、判断与具有配对关系的智能音箱之间的距离是否大于预设距离。

步骤303、若大于，则根据所述语音信息，向所述具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

如果与智能音箱之间的距离不大于预设阈值，则舍弃所述用户输入的语音信息，不向智能音箱发送对应的控制信息。

具体地，可以通过多种方式来确定用户设备与智能音箱之间的距离。

一种可选的距离计算方式是，用户设备和智能音箱中都设置有定位模块如GPS(Global Positioning System，全球定位系统)模块等，定位模块能够确定自身所在的地理位置信息。

智能音箱在获取到自身的地理位置信息之后，可以将地理位置信息发送给所述用户设备，所述用户设备根据自己的地理位置信息和所述智能音箱的地理位置信息来计算与所述智能音箱之间的距离，并判断所述距离是否大于预设距离。

另一种可选的距离计算方式是，用户设备与智能音箱无线连接，可以通过用户设备与智能音箱之间传输的无线信号的强弱来确定两者的距离，例如，用户设备与智能音箱之间通过蓝牙连接，距离越近，蓝牙信号越强，距离越远，蓝牙信号越弱。

如果用户设备与智能音箱的距离比较小，例如小于预设距离，那么说明用户设备与智能音箱离得比较近，用户设备采集到的用户输入的语音信息与智能音箱采集到的用户输入的语音信息的强度和清晰度差不多，此时，用户设备可以不用向智能音箱转发用户输入的语音信息，直接舍弃所述语音信息即可。

所述预设距离可以根据实际需要来设置，例如，可以为1米。或者，所述预设距离也可以由用户手动输入，用户可以直接手动输入，也可以在用户设备的提示下输入。可选的，本实施例中的方法还可以包括：展示不同的距离对应的声音衰减程度，供用户参考；获取用户输入的所述预设距离。

以用户设备为手机为例，智能音箱一般固定放置在房间的一角，当手机和智能音箱距离很近时，两者获取到的语音信息相差不多，如果手机还继续将语音信息转发给智能音箱的话，一是没有必要，二是智能音箱除了要处理自身采集到的语音信息以外，还要处理从用户设备获取到的信息，为智能音箱带来负担，因此，在距离较近时手机可以不用转发语音信息给智能音箱。

当用户拿着手机去房间的另一角，或者去另一个房间时，手机和智能音箱的距离很远，因此可能存在智能音箱无法正确识别到用户输入的语音信息的情况，但是手机可以获取到更加清晰的语音信息，此时手机可以将语音信息转发给智能音箱，提高智能音箱的唤醒率。

综上，本发明实施例提供的语音处理方法，可以在获取用户输入的语音信息之后，判断与具有配对关系的智能音箱之间的距离是否大于预设距离，并根据判断结果决定是否向智能音箱发送对应的控制信息，只有在距离大于预设距离时才根据所述语音信息向具有配对关系的智能音箱发送控制信息，能够在与智能音箱距离较近时停止转发的功能，节省了用户设备和智能音箱的信令开销，提高了智能音箱的处理效率。

除了根据距离确定是否向具有配对关系的智能音箱发送控制信息以外，还可以由其它方式来确定是否发送控制信息。

在实际应用中，智能音箱对用户输入的语音信息进行处理后，会输出应答信息，这个应答信息一般的以语音的形式输出的，如果用户设备和智能音箱的距离比较近时，有可能会出现用户设备接收到智能音箱输出的应答信息、并将应答信息误认为是用户输入的语音信息的情况，这个时候，智能音箱可能会将所述应答信息转发给智能音箱，导致智能音箱无法实现正常的语音交互。

通过实施例二给出的在距离较远时用户设备才转发语音信息的方案，可以在一定程度上缓解这一问题。除此之外，用户设备还可以对采集到的语音信息进行识别，如果是机器发出的语音信息则直接舍弃。

可选的，获取用户输入的语音信息，可以包括：采集语音信息；判断所述语音信息是否为自然人发出的语音信息或智能音箱发出的语音信息；若为自然人发出的语音信息，则确定所述语音信息为用户输入的语音信息；若为智能音箱发出的语音信息，则舍弃所述语音信息。

具体地，自然人发出的语音信息和机器发出的语音信息是不同的，具体地，可以通过声纹识别等方式来判断语音信息的类型，如果是自然人发出的语音信息，那么就认为是用户输入的语音信息，可以将该语音信息转发给智能音箱；如果不是自然人发出的语音信息，那么就可以认为是智能音箱发出的语音信息，一般是智能音箱反馈的应答信息，此时可以直接舍弃所述语音信息，不进行转发处理。

通过对语音信息进行声纹识别，判断其是否为用户输入的语音信息，可以有效区别用户输入的语音信息和智能音箱发出的应答信息，避免将智能音箱的应答信息发送给智能音箱，提高了智能音箱的语音交互性能。

可选的，由于不同的用户对应的声纹会有一定差别，因此，还可以对所述语音信息进行声纹识别，判断是否为智能音箱或用户设备的机主输入的语音信息，若是机主输入的语音信息，则用户设备可以将该语音信息转发给智能音箱，若不是机主输入的语音信息，则可以舍弃该语音信息，保证智能音箱只受机主的控制，提高智能音箱的安全性。

另外，在智能音箱侧，还可以对从用户设备获取到的控制信息进行判断，并根据判断结果决定是否输出对应的应答信息。

可选的，所述智能音箱可以判断所述控制信息是否与自己输出的最后一条应答信息一致。若一致，则说明用户设备将智能音箱输出的应答信息当成了用户输入的语音信息，此时，智能音箱可以舍弃该语音信息。若不一致，则智能音箱可以根据所述控制信息输出对应的应答信息。

其中，所述控制信息与最后一条应答信息一致，可以是指所述控制信息为所述最后一条应答信息，或者，所述控制信息为所述最后一条应答信息对应的文本信息，或者，所述控制信息为所述最后一条应答信息对应的控制指令。

例如，用户说出“请告诉我明天的天气”，用户设备采集到该语音信息后转发给智能音箱，智能音箱输出对应的应答信息“明天温度15摄氏度到25摄氏度，多云转小雨”，这一应答信息被用户设备获取到并被转发给智能音箱，智能音箱经过比较，和自己输出的最后一条应答信息是相同的，因此可以不对其进行处理，直接删除即可，避免自身输出对语音交互产生干扰。

图4为本发明实施例提供的语音处理方法的另一种应用场景示意图。如图4所示，用户设备可以从智能音箱获取状态指示信息，该状态指示信息用于表示智能音箱当前是否处于需要从用户设备接收控制信息的状态，用户设备在采集到用户输入的语音信息时，可以根据所述状态指示信息来决定是否向智能音箱发送对应的控制信息。下面通过实施例三来进行说明。

图5为本发明实施例提供的语音处理方法实施例三的流程示意图。本实施例是在上述实施例提供的技术方案的基础上，由用户设备根据智能音箱发送的状态指示信息来确定在获取到语音信息后是否向智能音箱发送对应的控制信息。如图5所示，本实施例中的语音处理方法，可以包括：

步骤501、接收具有配对关系的智能音箱发送的状态指示信息。

其中，所述状态指示信息用于表示所述智能音箱是否处于需要接收控制信息的状态。

步骤502、获取用户输入的语音信息。

步骤503、若具有配对关系智能音箱处于需要接收控制信息的状态，则根据所述语音信息，向所述智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

具体地，智能音箱可以根据自身实际状态，来向用户设备发送状态指示信息，使得所述用户设备可以根据所述状态指示信息辅助实现智能音箱与用户之间的语音交互功能。

在一种可选的实施方式中，智能音箱可以采集用户输入的语音信息，并根据采集到的用户输入的语音信息的强度，确定所述状态指示信息。

如图4所示，用户设备和智能音箱都可以从用户处采集语音信息。为了便于区分，本发明各实施例中，智能音箱采集到的语音信息，是指智能音箱通过自身的语音采集装置如麦克风等采集到的语音信息，区别于智能音箱从用户设备获取到的语音信息。

可选的，根据采集到的用户输入的语音信息的强度，确定所述状态指示信息，可以包括：若采集到的用户输入的语音信息的强度小于预设阈值，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

具体地，如果智能音箱采集到的语音信息的强度比较大，说明智能音箱完全可以自己采集用户输入的语音信息进行处理，此时可以通知用户设备目前不处于需要接收控制信息的状态。如果智能音箱采集到的语音信息的强度比较小，小到快要无法正确识别出用户输入的语音信息，例如强度小于预设阈值，则说明智能音箱需要用户设备来转发用户输入的语音信息，此时可以通知用户设备目前处于需要接收控制信息的状态。

其中，用户输入的语音信息可能包含多个词或字，所述语音信息的强度可以为语音信息的平均强度或者最大强度。

智能音箱的两种状态：处于需要接收控制信息的状态、不处于不接收控制信息的状态，可以分别用不同的编码来表示，例如，指示状态信息为0，表示不处于需要接收控制信息的状态，指示状态信息为1，表示处于需要接收控制信息的状态。

智能音箱可以每隔一段时间，向用户设备发送一次状态指示信息，汇报自身的状态，也可以每当状态发生改变的时候，向用户设备发送一次状态指示信息，通知用户设备自身状态发生了变化。

可以理解的是，智能音箱与用户的语音交互可能会持续多个回合，例如，在智能音箱被唤醒后，进入工作状态，根据用户输入的语音信息，输出对应的应答信息，然后用户继续输入语音信息，智能音箱再输出对应的应答信息，直至用户的需求被完全满足之后，或者，直到满足某些触发条件后，智能音箱才结束工作状态，重新进入休眠状态。

因此，智能音箱也可以采用如下方式来通知用户设备：每当智能音箱被唤醒后，可以检测采集到的语音信息的强度，如果强度比较大，则在当前的工作状态中，不需要用户设备转发用户输入的语音信息，因此可以通知用户设备当前不处于需要接收控制信息的状态，在结束当前的工作状态后，可以重新恢复到处于需要接收控制信息的状态，保证下一次能够被正常唤醒。

在另一种可选的实施方式中，可以在智能音箱处于播放状态时，确定所述状态指示信息用于表示处于需要接收控制信息的状态。处于播放状态可以是指所述智能音箱正在播放任意信息，例如播放音乐、播放广播、播放闹钟铃音等等。

当智能音箱处于播放状态时，很难被唤醒或者正确识别用户的需求，此时，可以由用户设备采集用户输入的语音信息，并转发给智能音箱，智能音箱无需自己采集语音信息，提高了处于播放状态时的唤醒率。

在其它可选的实施方式中，智能音箱也可以通过一些辅助设备确定用户是否在在附近，例如，智能音箱可以设置有红外感应装置，通过红外感应装置可以确定周围是否有人，从而确定当前是否需要从用户设备接收控制信息。

无论用哪种方式判断智能音箱当前是否需要接收控制信息，在确定智能音箱处于需要接收控制信息的状态时，用户设备可以根据获取到的语音信息向智能音箱发送对应的控制信息。如果所述智能音箱不处于需要接收控制信息的状态，那么可以直接舍弃所述语音信息，也可以进一步进行其他判断，并根据判断结果确定是否发送控制信息。

可以理解的是，所述智能音箱处于需要接收控制信息的状态，表示智能音箱自身无法正常采集或处理语音信息，因此需要从用户设备获取控制信息；所述智能音箱不处于需要接收控制信息的状态，可能只是表示智能音箱目前没有检测到自身处于无法正常与用户进行语音交互的状态，例如当前并不处于播放状态，但是不处于播放状态不一定就能说明能够与用户正常交互，因为还有可能存在与用户距离过远等问题，用户设备此时依然可以根据自身的判断来决定是否要发送控制信息。

综上，实施例提供的语音处理方法，可以接收具有配对关系的智能音箱发送的状态指示信息，其中，所述状态指示信息用于表示所述智能音箱是否处于需要接收控制信息的状态，在获取用户输入的语音信息时，若所述智能音箱处于需要接收控制信息的状态，则根据所述语音信息向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息，能够根据智能音箱的实际反馈状态来决定是否向具有配对关系的智能音箱发送控制信息，更加符合智能音箱的实际需求，进一步提高了智能音箱的语音交互性能。

在实际应用中，用户设备可以通过多种策略来决定是否发送控制信息，可选的，可以将本发明各实施例中提供的各种判断策略结合起来决定是否发送控制信息。

例如，在采集到语音信息后，可以首先判断采集到的语音信息是机器发出的语音信息还是自然人发出的语音信息，如果是自然人发出的语音信息，则进一步根据智能音箱的状态指示信息，判断其是否处于需要接收控制信息的状态，如果是，则根据语音信息发送对应的控制信息，若否，则进一步判断与智能音箱的距离，如果距离比较远，则发送对应的控制信息，如果距离比较近，则不发送，直接舍弃所述语音信息。

由于智能音箱自身也具有采集语音信息的功能，因此，可能会出现智能音箱既采集到用户输入的语音信息、又从用户设备获取到同一条语音信息的情况，在这种情况下，智能音箱可以仅处理一次语音信息。

具体地，智能音箱可以获取采集到的用户输入的最后一条语音信息，若所述控制信息与所述最后一条语音信息一致，则可以舍弃所述控制信息，不对控制信息进行处理，若所述控制信息与所述最后一条语音信息不一致，则可以根据所述控制信息输出对应的应答信息。

所述控制信息与所述最后一条语音信息一致，指的是所述控制信息为所述最后一条语音信息，或者，为最后一条语音信息对应的文本信息，或者，为最后一条语音信息对应的控制指令。

例如，用户说出“请帮我设置明天7点的闹钟”，由于智能音箱和用户设备距离用户都比较近，所以智能音箱和用户设备都可以正常采集到用户发出的语音信息，智能音箱会对该语音信息进行处理，设置好闹钟并输出应答信息“已设置好明天7点的闹钟”，用户设备会将该语音信息转发给智能音箱，智能音箱发现该语音信息与采集到的用户输入的最后一条语音信息一致，都是指示设置明天7点的闹钟，此时可以忽略从用户设备接收到的这一语音信息，避免重复执行同一条语音信息，提高了智能音箱的语音交互性能。

图6为本发明实施例提供的语音处理方法实施例四的流程示意图。本实施例中方法的执行主体可以为智能音箱。如图6所示，本实施例中的语音处理方法，可以包括：

步骤601、获取具有配对关系的用户设备响应于用户输入的语音信息发送的控制信息。

步骤602、根据所述控制信息输出对应的应答信息。

可选的，所述控制信息包含所述用户输入的语音信息；相应的，根据所述控制信息输出对应的应答信息，包括：将所述语音信息转换为文本信息；根据所述文本信息，输出对应的应答信息。

可选的，所述控制信息包含所述语音信息对应的文本信息，或者，所述控制信息包含所述语音信息对应的控制指令。

可选的，所述方法还可以包括：将地理位置信息发送给具有配对关系的用户设备，以使所述用户设备根据所述地理位置信息判断是否在获取到用户输入的语音信息时发送对应的控制信息。

可选的，所述方法还可以包括：向具有配对关系的用户设备发送状态指示信息，以供所述用户设备根据所述状态指示信息确定是否在获取到用户输入的语音信息时发送控制信息；其中，所述状态指示信息用于表示所述智能音箱是否处于需要接收控制信息的状态。

可选的，所述方法还可以包括：采集用户输入的语音信息；若采集到的用户输入的语音信息的强度小于预设阈值，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

可选的，所述方法还可以包括：若处于播放状态，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

可选的，根据所述控制信息输出对应的应答信息，可以包括：判断所述控制信息与采集到的用户输入的最后一条语音信息是否一致；若不一致，则根据所述控制信息输出对应的应答信息。

可选的，根据所述控制信息输出对应的应答信息，可以包括：判断所述控制信息与输出的最后一条应答信息是否一致；若不一致，则根据所述控制信息输出对应的应答信息。

本实施例中方法的实现原理、过程和效果均可以参照前述各实施例，此处不再赘述。

以下将详细描述本发明的一个或多个实施例的语音处理装置。本领域技术人员可以理解，这些语音处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图7为本发明实施例提供的一种语音处理装置的结构示意图。如图7所示，该装置可以包括：

第一获取模块11，用于获取用户输入的语音信息；

发送模块12，用于根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

可选的，所述控制信息包含所述用户输入的语音信息。

可选的，所述发送模块12具体可以用于：将所述语音信息转换为文本信息；若所述文本信息包含预设关键词，则向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息，其中，所述控制信息包含所述文本信息。

可选的，所述发送模块12具体可以用于：将所述语音信息转换为文本信息；根据所述文本信息，确定对应的控制指令；向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息，所述控制信息包含所述控制指令。

可选的，所述第一获取模块11还可以用于：响应于用户的操作事件，与智能音箱建立配对关系。

可选的，所述发送模块12具体可以用于：判断与具有配对关系的智能音箱之间的距离是否大于预设距离；若大于，则根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

可选的，所述第一获取模块11具体可以用于：采集语音信息；判断所述语音信息是否为自然人发出的语音信息或智能音箱发出的语音信息；若为自然人发出的语音信息，则确定所述语音信息为用户输入的语音信息；若为智能音箱发出的语音信息，则舍弃所述语音信息。

可选的，所述发送模块12还可以用于：接收具有配对关系的智能音箱发送的状态指示信息；其中，所述状态指示信息用于表示所述智能音箱是否处于需要接收控制信息的状态。

可选的，所述发送模块12具体可以用于：若所述智能音箱处于需要接收控制信息的状态，则根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息。

可选的，所述发送模块12还可以用于：若所述智能音箱不处于需要接收控制信息的状态，则舍弃所述语音信息。

图7所示装置可以执行前述实施例一至三提供的语音处理方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图8为本发明实施例提供的另一种语音处理装置的结构示意图。如图8所示，该装置可以包括：

第二获取模块13，用于获取具有配对关系的用户设备响应于用户输入的语音信息发送的控制信息；

输出模块14，用于根据所述控制信息输出对应的应答信息。

可选的，所述控制信息包含所述用户输入的语音信息。

相应的，所述输出模块14具体可以用于：将所述语音信息转换为文本信息；根据所述文本信息，输出对应的应答信息。

相应的，所述输出模块14还可以用于：将地理位置信息发送给具有配对关系的用户设备，以使所述用户设备根据所述地理位置信息判断是否在获取到用户输入的语音信息时发送对应的控制信息。

相应的，所述输出模块14还可以用于：向具有配对关系的用户设备发送状态指示信息，以供所述用户设备根据所述状态指示信息确定是否在获取到用户输入的语音信息时发送控制信息；其中，所述状态指示信息用于表示所述智能音箱是否处于需要接收控制信息的状态。

相应的，所述输出模块14还可以用于：采集用户输入的语音信息；若采集到的用户输入的语音信息的强度小于预设阈值，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

相应的，所述输出模块14还可以用于：若处于播放状态，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

相应的，所述输出模块14具体可以用于：判断所述控制信息与采集到的用户输入的最后一条语音信息是否一致；若不一致，则根据所述控制信息输出对应的应答信息。

相应的，所述输出模块14具体可以用于：判断所述控制信息与输出的最后一条应答信息是否一致；若不一致，则根据所述控制信息输出对应的应答信息。

图8所示装置可以执行前述实施例四提供的语音处理方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图9为本发明实施例提供的一种用户设备的结构示意图。该用户设备可以为智能手机、平板设备、计算机、智能手表、可穿戴设备等。如图9所示，该用户设备可以包括：第一处理器21和第一存储器22。其中，所述第一存储器22用于存储支持用户设备执行前述任一实施例提供的语音处理方法的程序，所述第一处理器21被配置为用于执行所述第一存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器21执行时能够实现如下步骤：

获取用户输入的语音信息；

可选地，所述第一处理器21还用于执行前述图1-图5所示实施例中的全部或部分步骤。

其中，所述用户设备的结构中还可以包括第一通信接口23，用于用户设备与其他设备或通信网络通信。

图10为本发明实施例提供的一种智能音箱的结构示意图。如图10所示，该智能音箱可以包括：第二处理器24和第二存储器25。其中，所述第二存储器25用于存储支持智能音箱执行前述任一实施例提供的语音处理方法的程序，所述第二处理器24被配置为用于执行所述第二存储器25中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器24执行时能够实现如下步骤：

获取具有配对关系的用户设备响应于用户输入的语音信息发送的控制信息；

根据所述控制信息输出对应的应答信息。

可选地，所述第二处理器24还用于执行前述图6所示实施例中的全部或部分步骤。

其中，所述智能音箱的结构中还可以包括第二通信接口26，用于智能音箱与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

获取用户输入的语音信息；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行实施例一至三中的语音处理方法所涉及的全部或部分步骤。

另外，本发明实施例提供了另一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

根据所述控制信息输出对应的应答信息。

当所述计算机指令被处理器执行时，还可以致使所述处理器执行实施例四中的语音处理方法所涉及的全部或部分步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程语音处理设备的处理器以产生一个机器，使得通过计算机或其他可编程语音处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程语音处理设备以特定方式楼层的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程语音处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音处理方法，其特征在于，包括：

用户设备获取用户输入的语音信息；

根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息；

根据所述语音信息，向具有配对关系的智能音箱发送控制信息，包括：

判断与具有配对关系的智能音箱之间的距离是否大于预设距离；

若大于，则根据所述语音信息，向所述智能音箱发送控制信息；

获取用户输入的语音信息，包括：

采集语音信息；

判断所述语音信息是否为自然人发出的语音信息或智能音箱发出的语音信息；

若为自然人发出的语音信息，则确定所述语音信息为用户输入的语音信息；

若为智能音箱发出的语音信息，则舍弃所述语音信息。

2.根据权利要求1所述的方法，其特征在于，所述控制信息包含所述用户输入的语音信息。

3.根据权利要求1所述的方法，其特征在于，根据所述语音信息，向具有配对关系的智能音箱发送控制信息，包括：

将所述语音信息转换为文本信息；

若所述文本信息包含预设关键词，则向具有配对关系的智能音箱发送控制信息，其中，所述控制信息包含所述文本信息。

4.根据权利要求1所述的方法，其特征在于，根据所述语音信息，向具有配对关系的智能音箱发送控制信息，包括：

将所述语音信息转换为文本信息；

根据所述文本信息，确定对应的控制指令；

向具有配对关系的智能音箱发送控制信息，其中，所述控制信息包含所述控制指令。

5.根据权利要求1所述的方法，其特征在于，还包括：

响应于用户的操作事件，与智能音箱建立配对关系。

6.根据权利要求1所述的方法，其特征在于，还包括：

接收具有配对关系的智能音箱发送的状态指示信息；

7.根据权利要求6所述的方法，其特征在于，根据所述语音信息，向具有配对关系的智能音箱发送控制信息，包括：

若具有配对关系的智能音箱处于需要接收控制信息的状态，则根据所述语音信息，向所述具有配对关系的智能音箱发送控制信息。

8.根据权利要求7所述的方法，其特征在于，还包括：

若所述智能音箱不处于需要接收控制信息的状态，则舍弃所述语音信息。

9.一种语音处理方法，其特征在于，包括：

根据所述控制信息输出对应的应答信息；

还包括：

向具有配对关系的用户设备发送状态指示信息，以供所述用户设备根据所述状态指示信息确定是否在获取到用户输入的语音信息时发送控制信息；

其中，所述状态指示信息用于表示所述智能音箱是否处于需要接收控制信息的状态；

还包括：

采集用户输入的语音信息；

若采集到的用户输入的语音信息的强度小于预设阈值，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

10.根据权利要求9所述的方法，其特征在于，所述控制信息包含所述用户输入的语音信息；

相应的，根据所述控制信息输出对应的应答信息，包括：

将所述语音信息转换为文本信息；

根据所述文本信息，输出对应的应答信息。

11.根据权利要求9所述的方法，其特征在于，所述控制信息包含所述语音信息对应的文本信息，或者，所述控制信息包含所述语音信息对应的控制指令。

12.根据权利要求9至11中任一项所述的方法，其特征在于，还包括：

将地理位置信息发送给具有配对关系的用户设备，以使所述用户设备根据所述地理位置信息判断是否在获取到用户输入的语音信息时发送对应的控制信息。

13.根据权利要求9所述的方法，其特征在于，还包括：

若处于播放状态，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

14.根据权利要求9所述的方法，其特征在于，根据所述控制信息输出对应的应答信息，包括：

判断所述控制信息与采集到的用户输入的最后一条语音信息是否一致；

若不一致，则根据所述控制信息输出对应的应答信息。

15.根据权利要求9所述的方法，其特征在于，根据所述控制信息输出对应的应答信息，包括：

判断所述控制信息与输出的最后一条应答信息是否一致；

若不一致，则根据所述控制信息输出对应的应答信息。

16.一种语音处理装置，其特征在于，包括：

第一获取模块，用于获取用户输入的语音信息；

发送模块，用于根据所述语音信息，向具有配对关系的智能音箱发送控制信息，以使所述智能音箱根据所述控制信息输出对应的应答信息；

所述发送模块，用于判断与具有配对关系的智能音箱之间的距离是否大于预设距离；若大于，则根据所述语音信息，向所述智能音箱发送控制信息；

所述第一获取模块，用于采集语音信息；判断所述语音信息是否为自然人发出的语音信息或智能音箱发出的语音信息；若为自然人发出的语音信息，则确定所述语音信息为用户输入的语音信息；若为智能音箱发出的语音信息，则舍弃所述语音信息。

17.一种语音处理装置，其特征在于，包括：

输出模块，用于根据所述控制信息输出对应的应答信息；

所述输出模块，还用于向具有配对关系的用户设备发送状态指示信息，以供所述用户设备根据所述状态指示信息确定是否在获取到用户输入的语音信息时发送控制信息；其中，所述状态指示信息用于表示智能音箱是否处于需要接收控制信息的状态；

所述输出模块，用于采集用户输入的语音信息；若采集到的用户输入的语音信息的强度小于预设阈值，则确定所述状态指示信息用于表示处于需要接收控制信息的状态。

18.一种用户设备，其特征在于，包括：第一存储器和第一处理器；其中，

所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现如权利要求1至8中任一项所述的语音处理方法。

19.一种智能音箱，其特征在于，包括：第二存储器和第二处理器；其中，

所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现如权利要求9至15中任一项所述的语音处理方法。