CN112365899A

CN112365899A - 语音处理方法、装置、存储介质及终端设备

Info

Publication number: CN112365899A
Application number: CN202011197587.1A
Authority: CN
Inventors: 姬光飞
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-12

Abstract

本公开涉及一种语音处理方法、装置、存储介质及终端设备，所述方法包括：实时采集音频数据，并存储预设时间段内采集的目标音频数据；对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在所述目标时段所处的第一环境状态，其中，所述目标时段为所述预设时间段内的时段，所述环境状态包括安静状态和非安静状态；在确定所述第一环境状态为所述非安静状态的情况下，对实时采集的所述音频数据进行声学处理。也就是说，本公开仅在确定终端设备在目标时段处于非安静状态的情况下，才会对实时采集的音频数据进行声学处理，这样，可以降低该终端设备的声学处理模块在安静状态下的处理负担，减少CPU占用，从而可以降低该终端设备的功耗。

Description

语音处理方法、装置、存储介质及终端设备

技术领域

本公开涉及终端技术领域，尤其涉及一种语音处理方法、装置、存储介质及终端设备。

背景技术

随着科技的发展，语音识别技术广泛应用于家电、消费电子产品等智能设备中。为了能够及时响应用户的唤醒指令，智能设备中的声学处理模块会一直处于唤醒状态，对该智能设备的麦克风采集到的音频数据进行降噪、回声消除等预处理，之后唤醒模块再根据预处理后的音频数据确定是否唤醒该智能设备。

但是，由于声学处理模块中使用的算法比较复杂，因此，在语音处理过程中会占用较多的内存资源，导致智能设备的功耗较大。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音处理方法、装置、存储介质及终端设备。

根据本公开实施例的第一方面，提供一种语音处理方法，所述方法包括：实时采集音频数据，并存储预设时间段内采集的目标音频数据；对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在所述目标时段所处的第一环境状态，其中，所述目标时段为所述预设时间段内的时段，所述环境状态包括安静状态和非安静状态；在确定所述第一环境状态为所述非安静状态的情况下，对实时采集的所述音频数据进行声学处理。

可选地，所述确定终端设备在所述目标时段所处的第一环境状态包括：提取每一帧的所述第一音频数据的特征参数，所述特征参数用于表征所述第一音频数据的能量数值；在连续N帧所述特征参数均大于或等于预设阈值的情况下，确定所述第一环境状态为所述非安静状态；否则，确定所述第一环境状态为所述安静状态；其中，N为大于0的正整数。

可选地，所述特征参数包括短时能量和/或过零率。

可选地，所述确定终端设备在所述目标时段所处的第一环境状态包括：确定所述第一音频数据是否为话音数据；在确定所述第一音频数据为话音数据的情况下，确定所述终端设备在所述目标时段所处的第一环境状态为所述非安静状态。

可选地，在所述对实时采集的所述音频数据进行声学处理前，所述方法还包括：在确定所述第一环境状态为所述非安静状态的情况下，获取所述终端设备在所述目标时段的前一时段所处的第二环境状态；所述对实时采集的所述音频数据进行声学处理包括：在所述第二环境状态为所述安静状态的情况下，先后将存储的所述目标音频数据和实时采集的第二音频数据发送至声学处理模块；由所述声学处理模块根据所述目标音频数据和所述第二音频数据进行声学处理。

可选地，所述方法还包括：在所述第二环境状态为所述非安静状态的情况下，将实时采集的所述第二音频数据发送至所述声学处理模块；由所述声学处理模块根据所述第二音频数据进行声学处理。

可选地，在所述先后将存储的所述目标音频数据和实时采集的第二音频数据发送至声学处理模块之前，所述方法还包括：在确定所述第一环境状态为所述非安静状态的情况下，获取所述第一环境状态为所述非安静状态的持续时间；当所述第一环境状态为所述非安静状态的持续时间超过预设时间阈值时，确定将环境状态由所述安静状态切换为所述非安静状态；在确定所述环境状态由所述安静状态切换为所述非安静状态的情况下，先后将存储的所述目标音频数据和实时采集的所述第二音频数据发送至所述声学处理模块；由所述声学处理模块根据所述目标音频数据和所述第二音频数据进行声学处理。

根据本公开实施例的第二方面，提供一种语音处理装置，所述装置包括：音频数据获取模块，被配置为实时采集音频数据，并存储预设时间段内采集的目标音频数据；第一环境确定模块，被配置为对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在所述目标时段所处的第一环境状态，其中，所述目标时段为所述预设时间段内的时段，所述环境状态包括安静状态和非安静状态；声学处理模块，被配置为在确定所述第一环境状态为所述非安静状态的情况下，对实时采集的所述音频数据进行声学处理。

可选地，所述第一环境确定模块被配置为：提取每一帧的所述音频数据的所述特征参数，所述特征参数用于表征所述第一音频数据的能量数值；在连续N帧所述特征参数均大于或等于预设阈值的情况下，确定所述第一环境状态为所述非安静状态；否则，确定所述第一环境状态为所述安静状态；其中，N为大于0的正整数。

可选地，所述特征参数包括短时能量和/或过零率。

可选地，所述第一环境确定模块包括：话音确定子模块，被配置为确定所述第一音频数据是否为话音数据；环境确定子模块，被配置为在确定所述第一音频数据为话音数据的情况下，确定所述终端设备在所述目标时段所处的第一环境状态为所述非安静状态。

可选地，所述装置还包括：第二环境确定模块，被配置为在确定所述第一环境状态为所述非安静状态的情况下，获取所述终端设备在所述目标时段的前一时段所处的第二环境状态；所述声学处理模块包括：数据发送子模块，被配置为在所述第二环境状态为所述安静状态的情况下，先后将存储的所述目标音频数据和实时采集的第二音频数据发送至声学处理模块；声学处理子模块，被配置为由所述声学处理模块根据所述目标音频数据和所述第二音频数据进行声学处理。

可选地，所述装置还包括：数据发送模块，被配置为在所述第二环境状态为所述非安静状态的情况下，将实时采集的所述第二音频数据发送至所述声学处理模块；所述声学处理模块，被配置为：由所述声学处理模块根据所述第二音频数据进行声学处理。

可选地，所述装置还包括：持续时间获取模块，被配置为在确定所述第一环境状态为所述非安静状态的情况下，获取所述第一环境状态为所述非安静状态的持续时间；状态切换模块，被配置为当所述第一环境状态为所述非安静状态的持续时间超过预设时间阈值时，确定将环境状态由所述安静状态切换为所述非安静状态；所述数据发送模块，被配置为：在确定所述环境状态由所述安静状态切换为所述非安静状态的情况下，先后将存储的所述目标音频数据和实时采集的所述第二音频数据发送至所述声学处理模块；所述声学处理模块，被配置为：由所述声学处理模块根据所述目标音频数据和所述第二音频数据进行声学处理。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的语音处理方法的步骤。

根据本公开实施例的第四方面，提供一种终端设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以本公开第一方面所提供的语音处理方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：通过实时采集音频数据，并存储预设时间段内采集的目标音频数据；对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在所述目标时段所处的第一环境状态，其中，所述目标时段为所述预设时间段内的时段，所述环境状态包括安静状态和非安静状态；在确定所述第一环境状态为所述非安静状态的情况下，对实时采集的所述音频数据进行声学处理。也就是说，本公开仅在确定终端设备在目标时段处于非安静状态的情况下，才会对实时采集的音频数据进行声学处理，这样，可以降低该终端设备的声学处理模块在安静状态下的处理负担，减少CPU占用，从而可以降低该终端设备的功耗。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音处理方法的流程图；

图2是根据一示例性实施例示出的一种终端设备的结构示意图；

图3是根据一示例性实施例示出的第二种语音处理方法的流程图；

图4是根据一示例性实施例示出的一种语音处理装置的结构示意图；

图5是根据一示例性实施例示出的第二种语音处理装置的结构示意图；

图6是根据一示例性实施例示出的第三种语音处理装置的结构示意图；

图7是根据一示例性实施例示出的第四种语音处理装置的结构示意图；

图8是根据一示例性实施例示出的一种终端设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，对本公开的应用场景进行说明。本公开可以应用于具有语音识别功能的终端设备，为了能够及时响应用户的唤醒指令，终端设备需要通过麦克风实时采集音频数据，通过该智能设备中的声学处理模块对该音频数据进行声学处理，之后，该终端设备的唤醒模块可以根据声学处理后的音频数据确定是否唤醒该终端设备。这种情况下，该终端设备的声学处理模块需要对每一次采集的音频数据进行声学处理，并将声学处理后的音频数据发送至唤醒模块，通过该唤醒模块确定是否唤醒该终端设备。但是，由于该声学处理模块中包括多个算法，且算法的复杂度较高，在处理过程中会占用较多的内存空间，因此，若该声学处理模块实时地对每一次采集的音频数据进行声学处理，则会消耗较多的CPU资源，导致该终端设备的功耗较高。

图1是根据一示例性实施例示出的一种语音处理方法的流程图。如图1所示，该方法包括：

S101、实时采集音频数据，并存储预设时间段内采集的目标音频数据。

需要说明的是，本公开的语音处理方法可以应用于终端设备，图2是根据一示例性实施例示出的一种终端设备的结构示意图，如图2所示，该终端设备可以包括采集模块、VAD(Voice Activity Detection，语音活动检测)模块、声学处理模块以及唤醒模块，该采集模块通过该VAD模块和该声学处理模块与该唤醒模块连接。该采集模块在实时采集到音频数据后，将该音频数据发送至该VAD模块，并在该VAD模块确定该终端设备处于非安静状态时，将实时采集的音频数据发送至该声学处理模块，由该声学处理模块对该实时采集的音频数据进行声学处理后，将该声学处理后的音频数据发送至该唤醒模块，该唤醒模块根据该声学处理后的音频数据确定是否唤醒该终端设备。

其中，该预设时间段可以根据需要进行设定，例如，该预设时间段可以是该VAD模块根据音频数据确定该终端设备所处的环境状态所花费的时间，该预设时间段设置的目的也可以是为了不影响由安静转态到非安静状态带来的突变，防止唤醒词开始部分的丢失造成的唤醒率下降问题，在该VAD模块中缓存最近采集的一定时间的音频数据，例如，该预设时间段可以设置为20ms，32ms，64ms。

在一些实施例中，该终端设备可以周期性的对实时音频数据进行采集，并存储最近采集到的预设时间段内的音频数据。

在本步骤中，在该终端设备开机启动后，该终端设备的采集模块可以实时采集音频数据，并在采集该音频数据过程中存储该预设时间段内的目标音频数据，每次采集到新的音频数据后，可以将该目标音频数据中最早存储的音频数据删除，并存储该新的音频数据。示例地，本公开可以采用队列的方式存储该目标音频数据，该队列中队头的音频数据为该目标音频数据中最早获取的音频数据，队尾的音频数据为该目标音频数据中最晚获取的音频数据，例如，若该预设时间段为64ms，每次采集一帧音频数据，采集一帧音频数据的时间为8ms，则第1ms至第8ms采集的音频数据可以存储在队列的队头，之后依次存储每次采集的音频数据，第57ms至第64ms采集的音频数据存储在该队列的队尾。之后，在该采集模块采集到第65ms至第72ms的音频数据后，可以将第1ms至第8ms采集的音频数据删除，将该第65ms至第72ms采集的音频数据存储在该队列的队尾，得到新的目标音频数据。

S102、对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在该目标时段所处的第一环境状态。

其中，该目标时段为该预设时间段内的时段，该环境状态包括安静状态和非安静状态，该非安静状态可以是该终端设备的声学处理模块可以接收采集的音频数据，并对该音频数据进行声学处理的状态。

在一些实施例中，VAD模块可以周期性的实时采集的音频数据，对目标时段采集的进行语音活性检测，以确定终端设备所处的第一环境状态。例如，VAD模块可以根据当前的语音输入，确定每20ms语音帧中是否包括语音。

在本步骤中，该终端设备的采集模块在目标时段采集到第一音频数据并存储该第一音频数据后，可以将该第一音频数据发送至该VAD模块，通过该VAD模块对该第一音频数据进行语音活性检测，确定该终端设备在该目标时段所处的第一环境状态。在一种可能的实现方式中，可以确定该第一音频数据是否为话音数据，在确定该第一音频数据为话音数据的情况下，确定该终端设备在该目标时段所处的第一环境状态为非安静状态。这里，该VAD模块可以通过相关技术的方式检测该第一音频数据是否包括话音数据。

S103、在确定该第一环境状态为非安静状态的情况下，对实时采集的音频数据进行声学处理。

在本步骤中，在确定该终端设备处于非安静状态的情况下，可以将该采集模块实时采集的音频数据发送至该终端设备的声学处理模块，通过该声学处理模块对该实时采集的音频数据进行声学处理；在确定该终端设备处于安静状态的情况下，不会将实时采集的音频数据发送至该终端设备的声学处理模块，这样，在该终端设备处于安静状态时，可以使得该终端设备的声学处理模块和该唤醒模块处于休眠状态，从而可以降低该终端设备的功耗。

采用上述方法，在确定终端设备处于非安静状态的情况下，才会对实时采集的音频数据进行声学处理，也就是说，在该终端设备处于安静状态时，该终端设备的声学处理模块无需对音频数据进行声学处理，这样，可以降低该声学处理模块在安静状态下的处理负担，减少CPU占用，从而可以降低该终端设备的功耗。

图3是根据一示例性实施例示出的第二种语音处理方法的流程图。如图3所示，该方法包括：

S301、实时采集音频数据，并存储预设时间段内采集的目标音频数据。

其中，该预设时间段可以是VAD模块根据音频数据确定终端设备所处的环境状态所花费的时间，该预设时间段设置的目的也可以是为了不影响由安静状态到非安静状态带来的突变，防止唤醒词开始部分的丢失造成的唤醒率下降问题，在VAD模块中缓存最近采集的一定时间的音频数据，例如，该预设时间段可以设置为20ms，32ms，64ms。

在本步骤中，在该终端设备开机启动后，该终端设备的采集模块可以实时采集音频数据，并在采集该音频数据过程中存储该预设时间段内的目标音频数据，每次采集到新的音频数据后，可以将该目标音频数据中最早存储的音频数据删除，并存储该新的音频数据。示例地，本公开可以采用队列的方式存储该目标音频数据，该队列中队头的音频数据为该目标音频数据中最早获取的音频数据，队尾的音频数据为该目标音频数据中最晚获取的音频数据，例如，若该预设时间段为64ms，每次采集一帧音频数据，采集一帧音频数据的时间为8ms，则第1ms至第8ms采集的音频数据可以存储在队列的队头，之后依次存储每次采集的音频数据，第57ms至第64ms采集的音频数据存储在该队列的队尾，之后，在该采集模块采集到第65ms至第72ms的音频数据后，可以将第1ms至第8ms采集的音频数据删除，将该第65ms至第72ms采集的音频数据存储在该队列的队尾，得到新的目标音频数据。

S302、提取每一帧的目标时段采集的第一音频数据的特征参数。

其中，该目标时段为该预设时间段内的时段，示例地，该目标时段可以是采集一帧音频数据的时长，也可以是采集多帧音频数据的时长，例如，若采集一帧音频数据的时长为8ms，则该目标时段可以是上述步骤301中56ms至64ms的时间段，也可以是上述步骤S301中25ms至64ms的时间段，本公开对此不作限定；该环境状态包括安静状态和非安静状态，该非安静状态可以是该终端设备的声学处理模块可以接收采集的音频数据，并对该音频数据进行声学处理的状态；该特征参数用于表征该第一音频数据的能量数值，该特征参数可以包括短时能量和/或过零率。

在本步骤中，在该终端设备的采集模块可以将目标时段采集的该第一音频数据发送至该VAD模块，该VAD模块可以提取每一帧第一音频数据的特征参数，示例地，若该第一音频数据包括一帧数据，例如目标时段为8ms，则只需获取该第一音频数据的一个特征参数，若该第一音频数据包括多帧数据，例如目标时段为32ms，则需要获取该第一音频数据的多个特征参数。

S303、在连续N帧特征参数均大于或等于预设阈值的情况下，确定该第一环境状态为非安静状态。

其中，N为大于0的正整数；该预设阈值可以包括预设能量阈值和/预设次数阈值，在该特征参数为短时能量的情况下，该预设阈值可以是该预设能量阈值，在该特征参数为过零率的情况下，该预设阈值可以是该预设次数阈值，该特征参数为短时能量和过零率的情况下，该预设阈值可以是该预设能量阈值和该预设次数阈值。

需要说明的是，在N为1的情况下，可以根据1帧音频数据的1个特征参数确定该第一环境状态，在N大于1的情况下，可以根据多帧音频数据的多个特征参数确定该第一环境状态，本公开对N的数量不作限定。根据1个特征参数确定该第一环境状态时，由于判断时间短，终端设备的响应速度比较快，但是可能会存在误差导致该第一环境状态判断错误；根据多个特征参数确定该第一环境状态时，判断时间会比较长，影响终端设备的响应速度，并且N越大终端设备的响应速度越慢，但是，由于所使用的特征参数更多，使得确定的第一环境状态的准确率更高。

基于上述原因，本公开可以根据终端设备的类型，确定N的数量，示例地，针对功耗要求较高实但时性要求较低的终端设备，N可以设置较大的数值，例如8，针对功耗要求较低但实时性要求较高的终端设备，N可以设置较小的数值，例如3。

在本步骤中，在获取每一帧的第一音频数据的特征参数后，可以根据该特征参数确定该终端设备所处的第一环境状态。在该第一音频数据中连续N个特征参数均大于或等于该预设阈值的情况下，可以确定该第一环境状态为非安静状态，否则，可以确定该第一环境状态为安静状态。示例地，若该第一音频数据包括5帧音频数据，在N为3的情况下，可以获取该第一音频数据中连续3帧的音频数据的特征参数，在该连续3帧的音频数据的特征参数均大于或等于该预设阈值的情况下，确定该第一环境状态为非安静状态；若该连续3帧的音频数据的特征参数中其中一个特征参数小于该预设阈值，则确定该第一环境状态为安静状态。

下面以特征参数为短时能量和/或过零率对该步骤303进行说明。

示例一，在该特征参数包括短时能量的情况下，若该第一音频数据包括3帧音频数据，且N为3，则在获取该第一帧音频数据的第一短时能量、该第二帧音频数据的第二短时能量以及该第三帧音频数据的第三短时能量后，可以获取该预设能量阈值，在该第一短时能量、该第二短时能量以及该第三短时能量均大于或等于该预设能量阈值的情况下，可以确定该第一环境状态为非安静状态，在该第一短时能量、该第二短时能量以及该第三短时能量中的任何一个短时能量小于该预设能量阈值的情况下，可以确定该第一环境状态为安静状态。

示例二，在该特征参数包括过零率的情况下，若该第一音频数据包括4帧音频数据，且N为4，则在获取该第一帧音频数据的第一过零率、该第二帧音频数据的第二过零率、该第三帧音频数据的第三过零率以及该第四帧音频数据的第四过零率后，可以获取该预设次数阈值，在该第一过零率、该第二过零率、该第三短过零率以及该第四过零率均大于或等于该预设次数阈值的情况下，可以确定该第一环境状态为非安静状态，在该第一过零率、该第二过零率、该第三过零率以及该第四过零率中的任何一个过零率小于该预设次数阈值的情况下，可以确定该第一环境状态为安静状态。

示例三，在该特征参数包括短时能量和过零率时，需要通过短时能量和过零率两种特征参数结合确定该第一环境状态，也就是说，通过示例一和示例二均确定该第一环境状态为非安静状态时，才可以确定该第一环境状态为非安静状态，这样，可以进一步提高该第一环境状态的准确率。

为了避免该第一环境状态只是该终端设备的瞬间状态，导致该声学处理模块被误唤醒而影响该终端设备的功耗。在一种可能的实现方式中，在确定该终端设备的第一环境状态为非安静状态的情况下，可以获取该第一环境状态为非安静状态的持续时间，当该第一环境状态为非安静状态的持续时间超过预设时间阈值时，确定将环境状态由安静状态切换为非安静状态，在确定该环境状态由安静状态切换为非安静状态的情况下，先后将存储的该目标音频数据和实时采集的第二音频数据发送至该声学处理模块，并由该声学处理模块根据该目标音频数据和该第二音频数据进行声学处理。也就是说，可以根据该第一环境状态为非安静状态的持续时间，确定是否将环境状态切换为非安静状态，并在该环境状态切换为非安静状态后，再先后将该目标音频数据和该第二音频数据发送至该声学处理模块。该预设时间阈值可以根据需要进行设定，例如，预设时间阈值可以设置为5s，10s，20s等。这样，当VAD模块频繁的对音频数据进行语音活性检测以判断终端设备所处的环境状态时，可以避免安静场景和非安静场景之间频繁的场景切换，当由安静场景切换为非安静场景时，只有至少维持超过预设时间阈值时才会接收场景切换，如此，可以进一步降低该声学处理模块被误唤醒的概率，并降低该终端设备的功耗。

S304、在确定该第一环境状态为非安静状态的情况下，获取该终端设备在该目标时段的前一时段所处的第二环境状态。

其中，该目标时段的前一时段可以是在该预设时间段内在该目标时段之前的历史时段，该历史时段对应的时长可以与该目标时段的时长相同，也可以与该目标时段的时长不同，本公开对此不作限定。示例地，以步骤S301中的预设时间段为例，若该目标时段为57ms至64ms，则该目标时段的前一时段可以是49ms至56ms，也可以是41ms至56ms。

需要说明的是，由于该终端设备的采集模块在实时采集音频数据过程中，每采集目标时段的第一音频数据，可以将该第一音频数据发送至该VAD模块，通过该VAD模块根据该第一音频数据确定该终端设备所处的第一环境状态，之后，在该VAD模块确定该第一环境状态为非安静状态的情况下，该采集模块可以将实时采集的音频数据发送至声学处理模块。但是，由于该VAD模块根据该第一音频数据确定该第一环境状态需要花费一定的时间，而在确定该第一环境状态的这段时间内，该终端设备的采集模块一直在实时采集音频数据，在该VAD模块确定该第一环境状态为非安静状态后，才会将实时采集的音频数据发送至该声学处理模块，这样，在该VAD模块确定该第一环境状态的过程中，该采集模块采集的音频数据可能会丢失，导致用户输入的唤醒指令缺失，从而无法正常唤醒该终端设备。

示例地，若用户输入的唤醒指令为“小爱同学”，在该采集模块采集到目标时段的第一音频数据“小”后，将该第一音频数据发送至该VAD模块进行语音活性检测，在该VAD模块根据该第一音频数据确定该第一环境状态为非安静状态后，该采集模块可以将实时采集到的音频数据发送至该声学处理模块，此时，该采集模块实时采集到的音频数据可能是“同”，这样，该声学处理模块最终接收到的音频数据可能是“同学”，这样，可能会由于接收到的该唤醒指令不完整，导致无法正常唤醒该终端设备。

为了解决上述问题，在该VAD模块确定该第一环境状态为非安静状态的情况下，可以先将存储的该目标音频数据发送至该声学处理模块，之后再将实时采集的第二音频数据发送至该声学处理模块，这样，该声学处理模块就可以接收到用户输入的完整的音频数据。但是，在这种情况下，若该VAD模块在该目标时段确定该终端设备所处的环境状态为非安静状态，则会先将该目标音频数据发送至该声学处理模块，再将实时采集的第二音频数据发送至该声学处理模块，之后，若该VAD模块在该目标时段的下一时段确定该终端设备所处的第一环境状态也是非安静状态，则还会先后将该目标音频数据和该第二音频数据发送至该声学处理模块，这样，由于该VAD模块在确定该目标时段的下一时段的第一环境状态的过程中，该声学处理模块一直在接收实时采集的音频数据，如果再将存储的该目标音频数据发送至该声学处理模块，则可能会导致该声学处理模块接收到部分重复的音频数据。

在本步骤中，为了避免该声学处理模块接收到部分重复的音频数据，在该VAD模块确定该第一环境状态为非安静状态的情况下，可以进一步获取该终端设备在该目标时段的前一时段所处的第二环境状态。该第二环境状态可以存储在该终端设备中，并在获取该目标时段的下一时段的第一环境状态后，将该第二环境状态更新为该目标时段的第一环境状态。在确定该第一环境状态为非安静状态的情况下，可以获取存储的该第二环境状态。

S305、确定该第二环境状态是否为安静状态，并在该第二环境状态为安静状态的情况下，执行步骤S306～步骤S307，在该第二环境状态为非安静状态的情况下，执行步骤S308～步骤S309。

S306、先后将存储的该目标音频数据和实时采集的第二音频数据发送至声学处理模块。

其中，该第二音频数据可以是在采集该目标音频数据之后实时采集的音频数据。

在本步骤中，在该第二环境状态为安静状态的情况下，可以先后将存储的该目标音频数据和实时采集的第二音频数据发送至该声学处理模块。这样，该声学处理模块可以接收到用户输入的完整的音频数据，并且不会接收到重复的音频数据。

S307、由该声学处理模块根据该目标音频数据和该第二音频数据进行声学处理。

S308、将实时采集的第二音频数据发送至该声学处理模块。

在本步骤中，在确定该第二环境状态为非安静状态的情况下，在该目标时段的上一时段已将存储的目标音频数据发送至该声学处理模块，并且该采集模块一直在将实时采集的第二音频数据发送至该声学处理模块，因此，无需再将该目标音频数据发送至该声学处理模块，仅将实时采集的第二音频数据发送至该声学处理模块即可。

S309、由该声学处理模块根据该第二音频数据进行声学处理。

需要说明的是，在该VAD模块确定该终端设备从安静状态转换至非安静状态后，不会再将该实时采集的第二音频数据发送至该声学处理模块。而该唤醒模块在确定是否唤醒该终端设备时，需要根据目标时长的音频数据进行判断，若该音频数据的时长小于该目标时长时，可能会无法识别该音频数据。因此，在该终端设备从非安静状态转换至安静状态后，若该VAD模块不再向该声学处理模块发送该第二音频数据，可能会导致该唤醒模块未获取到目标时长的音频数据而无法确定是否唤醒该终端设备，或者是根据该不完整的音频数据做出错误判断的问题。

基于上述原因，在该终端设备由安静状态切换至非安静状态后，可以持续获取该第二音频数据。在一种可能的实现方式中，在该第一环境状态为非安静状态，且该第二环境状态为安静状态的情况下，获取在该目标时段之后的目标时间段内采集的该第二音频数据。其中，该目标时段可以是一次语音识别所需要的时间，例如，在一次语音识别所需要的时间为6s的情况下，该目标时段可以是7s。这样，可以避免由于环境频繁切换导致音频数据丢失引起的识别率较低的问题。

下面以终端设备为智能音箱为例，对上述步骤S301～步骤S309进行说明。该智能音箱的采集模块可以实时获取预设时间段内的目标音频数据，例如，在该预设时间段为60ms的情况下，该智能音箱可以在启动后，每5ms采集一次音频数据，并以队列的形式存储该音频数据，这样，在该智能音箱采集12次音频数据后，队列中会存储60ms的音频数据，之后，在该智能音频第13次采集音频数据后，可以将队列中第一次采集的5ms的音频数据删除，在该队列中存储该采集模块第2次至第13次采集的音频数据，以此类推，在每次采集5ms的音频数据后，都将队列中排列在队头的5ms的音频数据删除，以确保该队列中存储的是最近60ms采集的音频数据。

进一步地，该智能音箱的采集模块在将目标时段采集的第一音频数据存储在队列后，可以将该第一音频数据发送至VAD模块，该VAD模块可以根据接收到的目标时长的第一音频数据周期性确定该第一环境状态，示例地，若该目标时长为20ms，目标时段为5ms，则在该VAD模块接收到连续四个时段的音频数据后，该VAD模块可以获取该四个时段的音频数据对应的第一短时能量、第二短时能量、第三短时能量以及第四短时能量，在确定该第一短时能量、该第二短时能量、该第三短时能量以及该第四短时能量均大于预设能量阈值的情况下，确定该智能音箱所处的第一环境状态是否为非安静状态。示例地，该VAD模块在接收到该采集模块发送的第1次至第4次采集的20ms的音频数据后，可以分别获取该20ms中每个时段的音频数据的短时能量，根据该每个时段的音频数据的短时能量确定该20ms的音频数据中是否包括语音数据，在确定该20ms的音频数据中包括语音数据的情况下，确定该第一环境状态为非安静状态。在该VAD模块确定该该第一环境状态为非安静状态的情况下，可以获取该智能设备在该目标时段的上一时段所处的第二环境状态。

在该第二环境状态为安静状态的情况下，可以先后将存储的目标音频数据和实时采集的第二音频数据发送至该声学处理模块，该声学处理模块可以对该目标音频数据和该第二音频数据进行声学处理，并将声学处理后的该目标音频数据和该第二音频数据发送至该智能音箱的唤醒模块，该唤醒模块可以确定该声学处理处理后的目标音频数据和第二音频数据组成的唤醒指令是否与预设环境指令匹配，在确定该唤醒指令与该预设唤醒指令匹配的情况下，可以确定唤醒该智能音箱。示例地，若该预设唤醒指令为“小爱同学”，该目标音频数据和该第二音频数据组成的唤醒指令也是“小爱同学”，则可以确定该唤醒指令与该预设唤醒指令匹配，可以唤醒该智能音箱。

在该第二环境状态为非安静状态的情况下，只需将该采集模块实时采集的第二音频数据发送至该声学处理模块，该声学处理模块可以对该第二音频数据进行声学处理，并将声学处理后的该第二音频数据发送至该智能音箱的唤醒模块，该唤醒模块可以确定该目标时段的上一时段接收到的音频数据和该第二音频数据组成的唤醒指令是否与预设环境指令匹配，在确定该唤醒指令与该预设唤醒指令匹配的情况下，可以确定唤醒该智能音箱。

采用上述方法，根据目标时段采集的第一音频数据确定该终端设备在目标时段所处的第一环境状态，在该第一环境状态为非安静状态的情况下，进一步获取该终端设备在该目标时段的上一时段所处的第二环境状态，并在该第二环境状态为安静状态的情况下，可以先后将存储的目标音频数据和实时采集的第二音频数据发送至声学处理模块，由该声学处理模块对该目标音频数据和该第二音频数据进行声学处理，这样，可以确保声学处理模块在进行声学处理时所使用的音频数据是完整的，可以避免由于音频数据不完整导致后续终端设备唤醒失败的问题，从而可以在保证该终端设备的唤醒率的同时，降低该终端设备的功耗。

图4是根据一示例性实施例示出的一种语音处理装置的结构示意图。如图4所示，该装置包括：

音频数据获取模块401，被配置为实时采集音频数据，并存储预设时间段内采集的目标音频数据；

第一环境确定模块402，被配置为对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在该目标时段所处的第一环境状态，其中，该目标时段为该预设时间段内的时段，该环境状态包括安静状态和非安静状态；

声学处理模块403，被配置为在确定该第一环境状态为该非安静状态的情况下，对实时采集的该音频数据进行声学处理。

可选地，该第一环境确定模块402被配置为：

提取每一帧的音频数据的特征参数，该特征参数用于表征该第一音频数据的能量数值；

在连续N帧特征参数均大于或等于预设阈值的情况下，确定该第一环境状态为非安静状态；

否则，确定该第一环境状态为安静状态；

其中，N为大于0的正整数。

可选地，该特征参数包括短时能量和/或过零率。

可选地，该第一环境确定模块402包括：

话音确定子模块，被配置为确定该第一音频数据是否为话音数据；

环境确定子模块，被配置为在确定该第一音频数据为话音数据的情况下，确定该终端设备在该目标时段所处的第一环境状态为该非安静状态。

可选地，图5是根据一示例性实施例示出的第二种语音处理装置的结构示意图，如图5所示，该装置还包括：

第二环境确定模块404，被配置为在确定该第一环境状态为该非安静状态的情况下，获取该终端设备在该目标时段的前一时段所处的第二环境状态；

该声学处理模块403包括：

数据发送子模块，被配置为在该第二环境状态为该安静状态的情况下，先后将存储的该目标音频数据和实时采集的第二音频数据发送至声学处理模块；

声学处理子模块，被配置为由该声学处理模块根据该目标音频数据和该第二音频数据进行声学处理。

可选地，图6是根据一示例性实施例示出的第三种语音处理装置的结构示意图，如图6所示，该装置还包括：

数据发送模块405，被配置为在该第二环境状态为该非安静状态的情况下，将实时采集的该第二音频数据发送至该声学处理模块；

该声学处理模块403，被配置为：

由该声学处理模块根据该第二音频数据进行声学处理。

可选地，图7是根据一示例性实施例示出的第四种语音处理装置的结构示意图，如图7所示，该装置还包括：

持续时间获取模块406，被配置为在确定该第一环境状态为该非安静状态的情况下，获取该第一环境状态为该非安静状态的持续时间；

状态切换模块407，被配置为当该第一环境状态为该非安静状态的持续时间超过预设时间阈值时，确定将环境状态由该安静状态切换为该非安静状态；

该数据发送模块405，被配置为：

在确定该环境状态由该安静状态切换为该非安静状态的情况下，先后将存储的该目标音频数据和实时采集的该第二音频数据发送至该声学处理模块；

该声学处理模块403，被配置为：

由该声学处理模块根据该目标音频数据和该第二音频数据进行声学处理。

通过上述装置，在确定终端设备处于非安静状态的情况下，才会对实时采集的音频数据进行声学处理，也就是说，在该终端设备处于安静状态时，该终端设备的声学处理模块无需对音频数据进行预处理，这样，可以降低该声学处理模块在安静状态下的处理负担，减少CPU占用，从而可以降低该终端设备的功耗。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种终端设备800的框图。例如，终端设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，终端设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制终端设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的语音处理方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在终端设备800的操作。这些数据的示例包括用于在终端设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为终端设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为终端设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述终端设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当终端设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当终端设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为终端设备800提供各个方面的状态评估。例如，传感器组件814可以检测到终端设备800的打开/关闭状态，组件的相对定位，例如所述组件为终端设备800的显示器和小键盘，传感器组件814还可以检测终端设备800或终端设备800一个组件的位置改变，用户与终端设备800接触的存在或不存在，终端设备800方位或加速/减速和终端设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于终端设备800和其他设备之间有线或无线方式的通信。终端设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由终端设备800的处理器820执行以完成上述语音处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音处理方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

实时采集音频数据，并存储预设时间段内采集的目标音频数据；

对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在所述目标时段所处的第一环境状态，其中，所述目标时段为所述预设时间段内的时段，所述环境状态包括安静状态和非安静状态；

在确定所述第一环境状态为所述非安静状态的情况下，对实时采集的所述音频数据进行声学处理。

2.根据权利要求1所述的方法，其特征在于，所述确定终端设备在所述目标时段所处的第一环境状态包括：

提取每一帧的所述第一音频数据的特征参数，所述特征参数用于表征所述第一音频数据的能量数值；

在连续N帧所述特征参数均大于或等于预设阈值的情况下，确定所述第一环境状态为所述非安静状态；

否则，确定所述第一环境状态为所述安静状态；

其中，N为大于0的正整数。

3.根据权利要求2所述的方法，其特征在于，所述特征参数包括短时能量和/或过零率。

4.根据权利要求1所述的方法，其特征在于，所述确定终端设备在所述目标时段所处的第一环境状态包括：

确定所述第一音频数据是否为话音数据；

在确定所述第一音频数据为话音数据的情况下，确定所述终端设备在所述目标时段所处的第一环境状态为所述非安静状态。

5.根据权利要求1或4所述的方法，其特征在于，在所述对实时采集的所述音频数据进行声学处理前，所述方法还包括：

在确定所述第一环境状态为所述非安静状态的情况下，获取所述终端设备在所述目标时段的前一时段所处的第二环境状态；

所述对实时采集的所述音频数据进行声学处理包括：

在所述第二环境状态为所述安静状态的情况下，先后将存储的所述目标音频数据和实时采集的第二音频数据发送至声学处理模块；

由所述声学处理模块根据所述目标音频数据和所述第二音频数据进行声学处理。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述第二环境状态为所述非安静状态的情况下，将实时采集的所述第二音频数据发送至所述声学处理模块；

由所述声学处理模块根据所述第二音频数据进行声学处理。

7.根据权利要求5所述的方法，其特征在于，在所述先后将存储的所述目标音频数据和实时采集的第二音频数据发送至声学处理模块之前，所述方法还包括：

在确定所述第一环境状态为所述非安静状态的情况下，获取所述第一环境状态为所述非安静状态的持续时间；

当所述第一环境状态为所述非安静状态的持续时间超过预设时间阈值时，确定将环境状态由所述安静状态切换为所述非安静状态；

在确定所述环境状态由所述安静状态切换为所述非安静状态的情况下，先后将存储的所述目标音频数据和实时采集的所述第二音频数据发送至所述声学处理模块；

8.一种语音处理装置，其特征在于，所述装置包括：

音频数据获取模块，被配置为实时采集音频数据，并存储预设时间段内采集的目标音频数据；

第一环境确定模块，被配置为对目标时段采集的第一音频数据进行语音活性检测，确定终端设备在所述目标时段所处的第一环境状态，其中，所述目标时段为所述预设时间段内的时段，所述环境状态包括安静状态和非安静状态；

声学处理模块，被配置为在确定所述第一环境状态为所述非安静状态的情况下，对实时采集的所述音频数据进行声学处理。

9.根据权利要求8所述的装置，其特征在于，所述第一环境确定模块被配置为：

提取每一帧的所述音频数据的所述特征参数，所述特征参数用于表征所述第一音频数据的能量数值；

否则，确定所述第一环境状态为所述安静状态；

其中，N为大于0的正整数。

10.根据权利要求9所述的装置，其特征在于，所述特征参数包括短时能量和/或过零率。

11.根据权利要求8所述的装置，其特征在于，所述第一环境确定模块包括：

话音确定子模块，被配置为确定所述第一音频数据是否为话音数据；

环境确定子模块，被配置为在确定所述第一音频数据为话音数据的情况下，确定所述终端设备在所述目标时段所处的第一环境状态为所述非安静状态。

12.根据权利要求8或11所述的装置，其特征在于，所述装置还包括：

第二环境确定模块，被配置为在确定所述第一环境状态为所述非安静状态的情况下，获取所述终端设备在所述目标时段的前一时段所处的第二环境状态；

所述声学处理模块包括：

数据发送子模块，被配置为在所述第二环境状态为所述安静状态的情况下，先后将存储的所述目标音频数据和实时采集的第二音频数据发送至声学处理模块；

声学处理子模块，被配置为由所述声学处理模块根据所述目标音频数据和所述第二音频数据进行声学处理。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

数据发送模块，被配置为在所述第二环境状态为所述非安静状态的情况下，将实时采集的所述第二音频数据发送至所述声学处理模块；

所述声学处理模块，被配置为：

由所述声学处理模块根据所述第二音频数据进行声学处理。

14.根据权利要求12所述的装置，其特征在于，所述装置还包括：

持续时间获取模块，被配置为在确定所述第一环境状态为所述非安静状态的情况下，获取所述第一环境状态为所述非安静状态的持续时间；

状态切换模块，被配置为当所述第一环境状态为所述非安静状态的持续时间超过预设时间阈值时，确定将环境状态由所述安静状态切换为所述非安静状态；

所述数据发送模块，被配置为：

所述声学处理模块，被配置为：

15.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

16.一种终端设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。