CN107146613A

CN107146613A - 一种语音交互方法及装置

Info

Publication number: CN107146613A
Application number: CN201710230319.7A
Authority: CN
Inventors: 李福祥; 李峥; 徐杨飞
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Easy Star Technology Wuxi Co., Ltd.
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2017-09-08

Abstract

本申请实施例提供了一种语音交互方法及装置。所述方法包括：接收语音信号，作为目标语音信号；检测所述目标语音信号中是否包含用户语音；如果是，则确定环境中的噪声音量；根据所述噪声音量，响应目标用户语音对应的交互指令，所述目标用户语音为所述目标语音信号中包含的用户语音。应用本申请实施例提供的方案，能够提高语音交互过程的流畅性，提高用户体验。

Description

一种语音交互方法及装置

技术领域

本申请涉及智能信息交互技术领域，特别是涉及一种语音交互方法及装置。

背景技术

目前，随着智能技术的不断发展，出现了很多智能设备，常见的有智能手机、机器人、智能音箱、智能电视等设备。

为了方便用户使用，很多智能设备设置了语音输入和语音应答的功能。智能设备可以通过语音与用户进行交互。具体的，智能设备可以从接收的语音信号中检测出用户语音，根据检测出的用户语音确定对应的交互指令，并响应该交互指令，以实现与用户的语音交互。例如，当用户语音为“给我放一首《漂洋过海来看你》吧”时，智能设备确定的交互指令可以为“向用户播放歌曲《漂洋过海来看你》”，响应该交互指令的过程包括：获得上述歌曲的音频资源，播放该音频资源。又如，当用户语音为“你今天吃饭了吗”时，智能设备确定的交互指令可以为“对用户的问题做出回答”，响应该交互指令的过程包括：获得针对上述问题的应答内容，播放该应答内容。

但是，当智能设备所应用的环境中噪声比较大时，智能设备与用户的语音交互过程可能受影响，导致语音交互过程流畅性差，用户体验不好。

发明内容

本申请实施例的目的在于提供了一种语音交互方法及装置，以提高语音交互过程的流畅性，提高用户体验。具体的技术方案如下。

为了达到上述目的，本申请公开了一种语音交互方法，所述方法包括：

接收语音信号，作为目标语音信号；

检测所述目标语音信号中是否包含用户语音；

如果是，则确定环境中的噪声音量；

根据所述噪声音量，响应目标用户语音对应的交互指令，所述目标用户语音为所述目标语音信号中包含的用户语音。

可选的，所述根据所述噪声音量，响应目标用户语音对应的交互指令的步骤，包括：

判断所述噪声音量是否满足基于噪声的交互控制条件；

如果满足，则根据预设的噪声提示信息，确定针对所述交互指令的响应内容，并以所述响应内容响应所述交互指令。

可选的，所述判断所述噪声音量是否满足基于噪声的交互控制条件的步骤，包括：

判断所述噪声音量是否大于预设音量阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件；或者，

判断所述噪声音量与所述目标用户语音音量的差值否大于预设差值阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件。

判断所述噪声音量是否满足基于噪声的交互控制条件；

如果满足，则调大播放音量，响应目标用户语音对应的交互指令。

可选的，所述调大播放音量的步骤，包括：

将播放音量调整为：所述噪声音量与预设第一音量的和值；或者，

将播放音量调整为：所述噪声音量与预设第一系数之积；所述预设第一系数大于1。

可选的，在调大播放音量之后，所述方法还包括：

判断所述噪声音量是否满足基于噪声的交互控制条件；

如果不满足，则调小播放音量，响应目标用户语音对应的交互指令。

可选的，所述调小播放音量的步骤，包括：

将播放音量调整为：上一次音量调整前的播放音量；或者，

将播放音量调整为：当前播放音量与预设第二音量的差值；或者，

将播放音量调整为：当前播放音量与预设第二系数之积，所述预设第二系数大于0且小于1。

可选的，所述确定环境中的噪声音量的步骤，包括：

将目标噪声信号的音量确定为环境中的噪声音量，其中，所述目标噪声信号为：所述目标语音信号中除所述目标用户语音以外的信号；或者，

根据目标时间段内接收的语音信号中噪声信号的音量，确定环境中的噪声音量，其中，所述目标时间段为：[t-x，t]；所述x为预设时长，所述t为接收到所述目标语音信号的时刻。

可选的，所述检测所述目标语音信号中是否包含用户语音的步骤，包括：

检测所述目标语音信号中是否包含来自目标方位的语音信号，如果是，则确定所述目标语音信号中包含用户语音；其中，所述目标方位为接收到唤醒指令的方位。

为了达到上述目的，本申请公开了一种语音交互装置，所述装置包括：

接收模块，用于接收语音信号，作为目标语音信号；

检测模块，用于检测所述目标语音信号中是否包含用户语音；

确定模块，用于当检测到所述目标语音信号中包含用户语音时，确定环境中的噪声音量；

响应模块，用于根据所述噪声音量，响应目标用户语音对应的交互指令，所述目标用户语音为所述目标语音信号中包含的用户语音。

可选的，所述响应模块，包括：

第一判断子模块，用于判断所述噪声音量是否满足基于噪声的交互控制条件；

第一响应子模块，用于当所述噪声音量满足基于噪声的交互控制条件时，根据预设的噪声提示信息，确定针对所述交互指令的响应内容，并以所述响应内容响应所述交互指令。

可选的，所述第一判断子模块，具体用于：判断所述噪声音量是否大于预设音量阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件；或者，

所述第一判断子模块，具体用于：判断所述噪声音量与所述目标用户语音音量的差值否大于预设差值阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件。

可选的，所述响应模块，包括：

第二判断子模块，用于判断所述噪声音量是否满足基于噪声的交互控制条件；

第二响应子模块，用于当所述噪声音量满足基于噪声的交互控制条件时，调大播放音量，响应目标用户语音对应的交互指令。

可选的，所述第二响应子模块，包括：

调大单元，用于当所述噪声音量满足基于噪声的交互控制条件时，调大播放音量；

第一响应单元，用于在调大播放音量之后，响应目标用户语音对应的交互指令；

其中，所述调大单元，具体用于：

所述调大单元，具体用于：

可选的，所述响应模块还包括：

第三判断子模块，用于在调大播放音量之后，判断所述噪声音量是否满足基于噪声的交互控制条件；

第三响应子模块，用于当所述噪声音量不满足基于噪声的交互控制条件时，调小播放音量，响应目标用户语音对应的交互指令。

可选的，所述第三响应子模块，具体包括：

调小单元，用于当所述噪声音量不满足基于噪声的交互控制条件时，调小播放音量；

第二响应单元，用于在调小播放音量之后，响应目标用户语音对应的交互指令；

其中，所述调小单元，具体用于：将播放音量调整为：上一次音量调整前的播放音量；或者，

所述调小单元，具体用于：将播放音量调整为：当前播放音量与预设第二音量的差值；或者，

所述调小单元，具体用于：将播放音量调整为：当前播放音量与预设第二系数之积，所述预设第二系数大于0且小于1。

可选的，所述确定模块，具体用于：

所述确定模块，具体用于：

可选的，所述检测模块，具体用于：

本申请实施例提供的语音交互方法及装置，可以将接收的语音信号作为目标语音信号，检测目标语音信号中是否包含用户语音，如果是，则确定环境中的噪声音量，根据所确定的噪声音量，响应目标用户语音对应的交互指令，其中，目标用户语音为目标语音信号中包含的用户语音。也就是说，本实施例可以在检测到用户语音时，确定噪声音量，根据噪声音量对语音交互过程进行相应的调整。因此，应用本申请实施例提供的方案，能够提高语音交互过程的流畅性，提高用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音交互方法的一种流程示意图；

图2为用户、智能设备、云端服务器之间交互的示意图；

图3为图1中步骤S104的一种流程示意图；

图4为图1中步骤S104的另一种流程示意图；

图5为本申请实施例提供的语音交互装置的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种语音交互方法及装置，应用于智能设备，该智能设备可以包括智能手机、机器人、智能音箱、智能电视等设备。本申请实施例的方案能够提高语音交互过程的流畅性，提高用户体验。下面通过具体实施例，对本申请进行详细说明。

图1为本申请实施例提供的语音交互方法的一种流程示意图，应用于智能设备。该方法包括如下步骤S101～步骤S104：

步骤S101：接收语音信号，作为目标语音信号。

具体的，智能设备可以通过自身设置的收音器件接收语音信号，其中，为了提高收音的准确性，该收音器件可以是麦克风阵列。麦克风阵列是将多个麦克风以预设的空间分布特征设置在设备上的一种收音器件。

在接收语音信号时，可以实时地接收语音信号。其中，该语音信号可以包含多种声源发出的信号，这些声源可能只是噪声声源，也可能包含噪声声源和用户声源。

可以理解的是，所接收的语音信号可以是一段时间内的语音信号，这段时间的时长可以是预先设定的，例如，该时长可以是5秒或10秒等。

步骤S102：检测上述目标语音信号中是否包含用户语音，如果是，则执行步骤S103。如果否，则可以不做处理，也可以记录目标语音信号的语音参数，该语音参数可以包括音量、时间等。

可以理解的是，智能设备在与用户进行语音交互时，首先需要判断是否接收到唤醒指令，如果接收到，则智能设备可以与用户进行其他的语音交互；如果没有接收到，则智能设备无法与用户进行其他的语音交互。其中，唤醒指令可以与预先设定的唤醒词对应，例如，当用户输入预设的唤醒词后，智能设备即接收到唤醒指令。其他的语音交互是指除唤醒时交互之外的语音交互。

具体的，在对目标语音信号进行检测时，如果检测出该目标语音信号中包含唤醒指令，则将唤醒指令对应的语音信号确定为用户语音，并可以将唤醒指令对应的方位确定为用户当前的方位。

在唤醒智能设备之后，智能设备可以继续接收该方位上用户输入的其他语音；因此，在另一种实施方式中，检测目标语音信号中是否包含用户语音时，可以包括：

检测目标语音信号中是否包含来自目标方位的语音信号，如果是，则确定目标语音信号中包含用户语音，并将目标语音信号中包含的来自目标方位的语音信号确定为目标用户语音。其中，目标方位为接收到唤醒指令的方位。

另外，由于噪声是声源做无规则振动时发出的声音，其音频和音强等特征变化混乱，没有规律；而相对于噪声，用户发出的声音的音频和音强等特征变化不大，比较有规律性。

因此，可以根据用户的声音特征，检测目标语音信号中是否包含用户语音。

步骤S103：确定环境中的噪声音量。其中，音量也可以称为声压，单位为分贝(dB)。

具体的，确定环境中的噪声音量时，具体可以包括以下几种实施方式：

方式一，将目标噪声信号的音量确定为环境中的噪声音量。其中，目标噪声信号为：目标语音信号中除目标用户语音以外的信号。

可以理解的是，环境中的噪声是时刻存在的，只是有时噪声音量较大，有时噪声音量较小。因此，智能设备接收到的目标语音信号中包含噪声信号。当目标语音信号中既包含噪声信号，又包含用户语音时，可以将除用户语音之外的语音信号的音量作为噪声音量。

方式二，根据目标时间段内接收的语音信号中噪声信号的音量，确定环境中的噪声音量。其中，目标时间段为：[t-x，t]；x为预设时长，t为接收到目标语音信号的时刻。

需要说明的是，接收到目标语音信号的时刻为接收完目标语音信号的时刻，而非开始接收目标语音信号的时刻。

例如，目标语音信号持续时长为5s，接收到目标语音信号的时刻为第50s时，预设时长为20s，那么目标时间段可以为第30秒～第50s。也就是说，目标时间段内接收的语音信号中包含目标语音信号。

可以理解的是，噪声信号的音量可能是不断变化的，根据目标时间段内接收的语音信号中噪声信号的音量确定环境噪声音量，能够使确定的噪声音量更准确。

步骤S104：根据上述噪声音量，响应目标用户语音对应的交互指令，目标用户语音为目标语音信号中包含的用户语音。

具体的，在确定目标用户语音对应的交互指令时，可以包括：在获得目标用户语音之后，智能设备可以对该目标用户语音进行语音识别，获得语音识别结果，确定与该语音识别结果对应的交互指令，该交互指令即为与目标用户语音对应的交互指令。

上述交互指令可以为多种类型的指令，例如唤醒后的回应指令、点播指令、聊天指令、信息查询指令等。举例来说，当目标用户语音为“小雅小雅”时(小雅小雅为唤醒词)，对应的交互指令为唤醒后的回应指令；当目标用户语音为“请为我播放一首《忘情水》”时，对应的交互指令为点播指令；当目标用户语音为“你今天吃饭了吗”时，对应的交互指令为聊天指令；当目标用户语音为“今天天气怎么样”或者“明天下午有会议吗”时，对应的交互指令为信息查询指令。需要说明的是，上述举例只是部分交互指令，并不是全部，本领域技术人员还可以据此获得更多类型的交互指令。本申请对交互指令的具体内容不做限定。

具体的，根据上述噪声音量，响应目标用户语音对应的交互指令，可以包括多种实施方式，例如，当噪声音量比较大时，可以将智能设备的播放音量调大，或向用户播放一些提示信息，这些都是可行的。

可以理解的是，在根据上述噪声音量响应目标用户语音对应的交互指令之后，能够使智能设备调整本身输出的音量，或者根据智能设备的提示，可以使用户向智能设备输入的语音发生相应的变化。这些调整或变化都能使智能设备与用户后续的语音交互过程更加流畅，准确性更高。

由上述内容可知，本实施例提供的语音交互方法及装置，可以将接收的语音信号作为目标语音信号，检测目标语音信号中是否包含用户语音，如果是，则确定环境中的噪声音量，根据所确定的噪声音量，响应目标用户语音对应的交互指令，其中，目标用户语音为目标语音信号中包含的用户语音。也就是说，本实施例可以在检测到用户语音时，确定噪声音量，根据噪声音量对语音交互过程进行相应的调整。因此，应用本实施例提供的方案，能够提高语音交互过程的流畅性，提高用户体验。

另外，由于智能设备的性能限制，上述步骤S102～步骤S103具体可以是在与智能设备通信相连的云端服务器上执行的。也就是说，在这种实施方式中，智能设备在接收到语音信号并作为目标语音信号之后，将目标语音信号发送至云端服务器，云端服务器检测目标语音信号中是否包含用户语音，如果是，则确定环境中的噪声音量，将确定的噪声音量发送至智能设备。由于云端服务器可以具有更强的处理能力，因此本实施例的方案可以在智能设备性能受限时提高语音交互过程的效率，同时无需提高智能设备的性能。

作为一个例子，图2为用户、智能设备和云端服务器之间交互的流程示意图。其中，智能设备接收周围的语音信号，并发送至云端服务器，云端服务器将噪声音量发送至智能设备。

在图1所示实施例的一种实施方式中，步骤S104，即根据所述噪声音量，响应目标用户语音对应的交互指令的步骤，可以按照图3所示流程示意图进行，具体包括以下步骤S104a和步骤S104b：

步骤S104a：判断上述噪声音量是否满足基于噪声的交互控制条件，如果满足，则执行步骤S104b。

需要说明的是，当噪声音量满足基于噪声的交互控制条件时，说明当前的噪声音量已经比较大了，即当前的环境为较差的交互环境，这种环境会影响智能设备与用户之间正常的语音交互过程。

具体的，在判断噪声音量是否满足基于噪声的交互控制条件时，可以包括以下几种实施方式：

方式一，判断该噪声音量是否大于预设音量阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件。

其中，预设音量阈值可以取得较大一些，例如75dB、80dB、85dB等音量。当该预设音量阈值的取值较大一些时，确定当前环境为较差的交互环境的准确性会更高。

方式二，判断该噪声音量与目标用户语音音量的差值否大于预设差值阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件。

其中，预设差值阈值可以根据经验获得，即当噪声音量与目标用户语音音量的差值不大于预设差值阈值时，智能设备与用户之间的交互过程受环境噪声的影响较小，不认为当前环境为较差的交互环境。

预设差值阈值可以取得较大一些，例如20dB、25dB等音量。当该预设差值阈值的取值较大一些时，确定当前环境为较差的交互环境的准确性会更高。

步骤S104b：根据预设的噪声提示信息，确定针对所述交互指令的响应内容，并以该响应内容响应上述交互指令。

其中，预设的噪声提示信息可以为音量调整提示信息、设备与用户之间距离的调整提示信息、降低噪声提示信息或调整交互环境提示信息等类型。

例如，音量调整提示信息可以包括：请调大音量、请大点声、请大点声再说一次等；

设备与用户之间距离的调整提示信息可以包括：请离我近一些说、请靠近一点说、请再过来一些说等；

降低噪声提示信息可以包括：请把周围的声音关小一点、请关闭周围的发声设备等

调整交互环境提示信息可以包括：请换一个安静点的环境、请换个环境、请把我移到另一个环境、请把我移到安静点的环境等。

具体的，步骤S104b可以包括：将预设的噪声提示信息直接确定为针对上述交互指令的响应内容。

需要说明的是，当噪声音量很大，周围环境很嘈杂时，智能设备可能无法对目标用户语音进行准确识别。这时，可以直接将预设的噪声提示信息直接确定为针对上述交互指令的响应内容。

具体的，步骤S104b可以包括：对目标用户语音进行语音识别，获得语音识别结果，根据预设的噪声提示信息和该语音识别结果，确定针对上述交互指令的响应内容。

需要说明的是，当周围环境存在较大噪声时，但是还可以从目标用户语音中识别出较准确的结果时，可以将预设的噪声提示信息和该语音识别结果结合起来，确定针对上述交互指令的响应内容。

例如，语音识别结果为“今天天气怎么样”，确定的响应内容可以是“您说的是今天天气怎么样吗？对不起，周围环境太吵，请把我移到安静点的环境”，或者也可以是“您说的是今天天气怎么样吗？对不起，周围环境太吵，请把周围的声音关小一点”。

具体的，以该响应内容响应上述交互指令，具体可以包括：播放该响应内容。另外，在播放该响应内容之前，还可以调大播放音量。

在调大播放音量时，可以包括以下多种方式：

方式一，将播放音量调整为：该噪声音量与预设第一音量的和值。其中，预设第一音量可以为5dB、10dB或15dB等。

方式二，将播放音量调整为：该噪声音量与预设第一系数之积；该预设第一系数大于1。其中，预设第一系数可以为1.1、1.2、1.3等。

这样，在嘈杂环境下，由于调大了播放音量，播放出的响应内容可以让用户听得更清楚，语音交互过程也会更流程，能够提高用户体验。

在图1所示实施例的一种实施方式中，步骤S104，即根据所述噪声音量，响应目标用户语音对应的交互指令的步骤，可以按照图4所示流程示意图进行，具体包括步骤S104A和步骤S104B：

步骤S104A：判断所述噪声音量是否满足基于噪声的交互控制条件，如果满足，则执行步骤S104B。

本步骤与步骤S104a相同，具体内容可以参考步骤S104a的相关描述。

步骤S104B：调大播放音量，响应目标用户语音对应的交互指令。

需要说明的是，调大播放音量的过程已经在步骤S104b的对应描述中说明，详细内容可以参见步骤S104b的相关描述。

在调大播放音量之后，响应目标用户语音对应的交互指令时，可以包括：确定针对该交互指令的响应内容，播放该响应内容。

由于上述交互指令可以为多种类型的指令，例如唤醒后的回应指令、点播指令、聊天指令、信息查询指令等。对应的，针对该交互指令的响应内容也可以包括多种类型，例如唤醒后的回应类、点播回复类、聊天应答类、信息反馈类等。

举例来说，当目标用户语音为“小雅小雅”时(小雅小雅为唤醒词)，对应的交互指令为唤醒后的回应指令，这时响应内容可以为“哎”或“我在”“here(这儿)”等；当目标用户语音为“请为我播放一首《忘情水》”时，对应的交互指令为点播指令，这时响应内容可以为“为您播放《忘情水》”语音提示以及歌曲资源；当目标用户语音为“你今天吃饭了吗”时，对应的交互指令为聊天指令，这时响应内容可以为“没有呢，你想请我吃饭吗”；当目标用户语音为“今天天气怎么样”或者“明天下午有会议吗”时，对应的交互指令为信息查询指令，这时响应内容可以分别为“今天天气晴朗，微风”和“明天下午没有会议”。需要说明的是，上述举例只是部分交互指令，并不是全部，本领域技术人员还可以据此获得更多类型的交互指令。本申请对交互指令的具体内容不做限定。

可以理解的是，当周围环境噪声较大时，智能设备相应地提高播放音量，这样可以让用户更清楚地听到智能设备的响应内容。

需要说明的是，本实施方式中，虽然周围存在较大的噪声，但是智能设备还是能够比较准确地对目标用户语音进行识别，进而比较准确地确定对应的交互指令，因此可以直接在调大播放音量的情况下响应交互指令，这样能使语音交互过程在嘈杂的环境下流程地进行。

在图1所示实施例的一种实施方式中，在调大播放音量之后，该方法还可以包括以下步骤1～步骤2：

步骤1：判断该噪声音量是否满足基于噪声的交互控制条件，如果不满足，则执行步骤2；如果满足，则不予处理。

步骤2：调小播放音量，响应目标用户语音对应的交互指令。

可以理解的是，当噪声音量不满足基于噪声的交互控制条件时，说明当前的噪声音量比较小了，即当前的环境为较好的交互环境。在这种环境下，如果还是保持较大的播放音量，则用户体验不好。这时，调小播放音量，能够提高用户体验。

具体的，调小播放音量时，具体可以包括以下几种实施方式：

方式一，将播放音量调整为：上一次音量调整前的播放音量。其中，上一次音量调整，为将音量调大的那次音量调整。

方式二，将播放音量调整为：当前播放音量与预设第二音量的差值。其中，预设第二音量可以与预设第一音量相同，也可以不相同。

方式三，将播放音量调整为：当前播放音量与预设第二系数之积，所述预设第二系数大于0且小于1。其中，预设第二系数可以与预设第一系数相同，也可以不相同。

作为一种应用场景的例子，当用户与智能设备的交互环境中存在较大的噪声时，智能设备播放的语音可能淹没在噪声中，无法使用户听到，这时智能设备可以调大播放音量，使用户能够听得更清楚。当周围的噪声又变小时，智能设备可以调小播放音量，这样用户不会因为周围噪声变小而感觉智能设备播放的声音过大。也就是说，智能设备可以根据环境噪声音量，智慧地调节播放音量，使用户体验更高。

图5为本申请实施例提供的一种语音交互装置的一种流程示意图，应用于智能设备，该实施例与图1所示方法实施例相对应，该装置包括：

接收模块501，用于接收语音信号，作为目标语音信号；

检测模块502，用于检测所述目标语音信号中是否包含用户语音；

确定模块503，用于当检测到所述目标语音信号中包含用户语音时，确定环境中的噪声音量；

响应模块504，用于根据所述噪声音量，响应目标用户语音对应的交互指令，所述目标用户语音为所述目标语音信号中包含的用户语音。

在图5所示实施例的一种实施方式中，响应模块504具体可以包括：

第一判断子模块(图中未示出)，用于判断所述噪声音量是否满足基于噪声的交互控制条件；

第一响应子模块(图中未示出)，用于当所述噪声音量满足基于噪声的交互控制条件时，根据预设的噪声提示信息，确定针对所述交互指令的响应内容，并以所述响应内容响应所述交互指令。

在图5所示实施例的一种实施方式中，第一判断子模块具体可以用于：判断所述噪声音量是否大于预设音量阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件；或者，

第一判断子模块具体可以用于：判断所述噪声音量与所述目标用户语音音量的差值否大于预设差值阈值，若为是，则确定所述噪声音量满足基于噪声的交互控制条件。

第二判断子模块(图中未示出)，用于判断所述噪声音量是否满足基于噪声的交互控制条件；

第二响应子模块(图中未示出)，用于当所述噪声音量满足基于噪声的交互控制条件时，调大播放音量，响应目标用户语音对应的交互指令。

在图5所示实施例的一种实施方式中，第二响应子模块可以包括：

调整单元(图中未示出)，用于当所述噪声音量满足基于噪声的交互控制条件时，调大播放音量；

响应单元(图中未示出)，用于在调大播放音量之后，响应目标用户语音对应的交互指令；

其中，调整单元具体可以用于：

调整单元具体可以用于：

在图5所示实施例的一种实施方式中，响应模块504还可以包括：

第三判断子模块(图中未示出)，用于在调大播放音量之后，判断所述噪声音量是否满足基于噪声的交互控制条件；

第三响应子模块(图中未示出)，用于当所述噪声音量不满足基于噪声的交互控制条件时，调小播放音量，响应目标用户语音对应的交互指令。

在图5所示实施例的一种实施方式中，第三响应子模块具体可以包括：

调小单元(图中未示出)，用于当所述噪声音量不满足基于噪声的交互控制条件时，调小播放音量；

第二响应单元(图中未示出)，用于在调小播放音量之后，响应目标用户语音对应的交互指令；

其中，调小单元，具体用于：将播放音量调整为：上一次音量调整前的播放音量；或者，

调小单元，具体用于：将播放音量调整为：当前播放音量与预设第二音量的差值；或者，

调小单元，具体用于：将播放音量调整为：当前播放音量与预设第二系数之积，所述预设第二系数大于0且小于1。

在图5所示实施例的一种实施方式中，确定模块503具体可以用于：

所述确定模块503具体可以用于：

在图5所示实施例的一种实施方式中，检测模块102具体可以用于：

由于上述装置实施例是基于方法实施例得到的，与该方法具有相同的技术效果，因此装置实施例的技术效果在此不再赘述。对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

接收语音信号，作为目标语音信号；

检测所述目标语音信号中是否包含用户语音；

如果是，则确定环境中的噪声音量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述噪声音量，响应目标用户语音对应的交互指令的步骤，包括：

判断所述噪声音量是否满足基于噪声的交互控制条件；

3.根据权利要求2所述的方法，其特征在于，所述判断所述噪声音量是否满足基于噪声的交互控制条件的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述噪声音量，响应目标用户语音对应的交互指令的步骤，包括：

判断所述噪声音量是否满足基于噪声的交互控制条件；

5.根据权利要求4所述的方法，其特征在于，所述调大播放音量的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，在调大播放音量之后，所述方法还包括：

判断所述噪声音量是否满足基于噪声的交互控制条件；

7.根据权利要求6所述的方法，其特征在于，所述调小播放音量的步骤，包括：

将播放音量调整为：上一次音量调整前的播放音量；或者，

8.根据权利要求1～7任一项所述的方法，其特征在于，所述确定环境中的噪声音量的步骤，包括：

9.根据权利要求1～7任一项所述的方法，其特征在于，所述检测所述目标语音信号中是否包含用户语音的步骤，包括：

10.一种语音交互装置，其特征在于，所述装置包括：

接收模块，用于接收语音信号，作为目标语音信号；