CN111128174A

CN111128174A - 一种语音信息的处理方法、装置、设备及介质

Info

Publication number: CN111128174A
Application number: CN201911419785.5A
Authority: CN
Inventors: 陈都; 吴本谷
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-08

Abstract

本发明公开了一种语音信息的处理方法、装置、设备及介质，用以解决由于离线语音交互的操作过程繁琐导致的响应效率低的问题。由于本发明实施例通过将待处理的语音信息划分为多个第一语音帧，并提取每个第一语音帧对应的第一语音特征，只需要对待处理语音信息进行一次分帧及语音特征提取的步骤，即可通过预先训练完成的声学模型以及有限状态转换机，确定待处理的语音信息中的有效语音段对应的目标语音元素序列，既完成了语音信号的端点检测，又完成了离线语音识别，从而大大简化了智能设备在离线语音交互的操作步骤，节省了大量的时间，提高了智能设备的响应效率。

Description

一种语音信息的处理方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音信息的处理方法、装置、设备及介质。

背景技术

随着智能交互技术的迅猛发展，在物联网和智能家居领域中，可以通过离线语音交互实现多个指令词来控制智能交互设备完成多种任务，例如，控制智能空调的多种模式间的切换、温度调节、扫风控制等。其中，智能交互设备在进行离线语音交互的过程中，往往需要语音唤醒、语音活动检测(Voice Activity Detection，VAD)和离线语音识别共同协作，才能完成上述相应的功能。

现有技术中，智能设备采集到语音信息后，将该语音信息划分为多个语音帧，并通过梅尔倒谱系数(Mel-frequency cepstral coefficients，MFCC)、滤波器组(FilterBank，FBank)等方法提取每个语音帧对应的语音特征。然后通过语音唤醒声学模型以及对应的有限状态转换机(Finite State Transducer，FST)，确定该语音信息为唤醒语音信息后，才将在该语音信息之后采集到的语音信息作为待处理的语音信息进行后续的处理。

具体的，将待处理的语音信息划分为多个语音帧，并通过MFCC、FBank等方法提取每个语音帧对应的语音特征。通过VAD声学模型，依次获取每个语音帧对应的概率，该概率为该语音帧为静音帧的概率，智能设备根据每个概率和VAD对应的FST确定出该待处理语音信息的每个语音帧是否为非静音帧，从而确定待处理的语音信息中有效语音段的起始端点和结束端点，提取出该待处理的语音信息中的有效语音段。

提取出待处理的语音信息中的有效语音段后，智能设备再将该有效语音段划分为多个语音帧，并通过MFCC、FBank等方法提取每个语音帧对应的语音特征。通过离线语音识别模型以及离线语音识别对应的FST，确定出该有效语音段的语音元素序列。基于确定的语音元素序列，若智能设备确定待处理的语音信息中包含预设的指令词，则执行该指令词对应的操作。

从上述的离线语音交互的过程上来看，智能设备需要针对每个模型，将每个模型输入的语音信息划分为多个语音帧，并提取每个语音帧对应的语音特征，然后通过不同的声学模型以及该声学模型对应的FST，确定对应的输出结果，语音信息的处理过程非常繁琐，浪费了大量的时间，极大地降低了智能设备的响应效率。

发明内容

本发明实施例提供了一种语音信息的处理方法、装置、设备及介质，用以解决由于离线语音交互的操作过程繁琐导致智能设备的响应效率低的问题。

本发明实施例提供了一种语音信息的处理方法，所述方法包括：

将待处理的语音信息划分为多个第一语音帧，并提取每个所述第一语音帧对应的第一语音特征；

通过预先训练完成的声学模型，依次根据每个所述第一语音帧对应的第一语音特征，确定每个所述第一语音帧对应的第一输出向量，所述第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率；

通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列，所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。

在一种可能的实施方式中，任意相邻的两个第一语音帧之间存在设定时长的重叠。

在一种可能的实施方式中，所述声学模型通过如下方式训练：

获取样本集中的任一语音信息样本，将所述语音信息样本划分为多个第二语音帧，并提取每个所述第二语音帧对应的第二语音特征，其中，每个所述第二语音帧的标签用于标识对应的第二语音帧为静音帧的第一标识值，或该第二语音帧包含的语音元素的第二标识值；

通过神经网络模型，依次根据每个所述第二语音帧对应的第二语音特征，获得每个所述第二语音特征对应的第二输出向量，所述第二输出向量中包含对应的第二语音帧为静音帧的概率，以及该第二语音帧包含的内容信息为每种语音元素的概率；

根据每个所述第二语音帧对应的第二输出向量以及所述第二语音帧对应的标签，对所述神经网络模型进行训练，得到所述声学模型。

在一种可能的实施方式中，所述通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列，包括：

通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定每个所述第一语音帧为静音帧，或为非静音帧对应的目标语音元素；

根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段；以及

根据所述有效语音段包含的第一语音帧对应的目标语音元素，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。

在一种可能的实施方式中，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段，以及所述有效语音段中包含的第一语音帧包括：

根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点；

将所述待处理的语音信息中的所述起始端点和结束端点之间包含的第一语音帧，确定为有效语音段。

在一种可能的实施方式中，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点，包括：

依次检测所述待处理的语音信息中的每个所述第一语音帧是否为静音帧，若检测到任一为静音帧的第一语音帧之后连续第一数量的第一语音帧均为非静音帧，则将该静音帧的终止点确定为所述待处理的语音信息中的起始端点；

针对在所述起始端点之后每个所述第一语音帧，若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧，则将该非静音帧的终止点确定为所述待处理的语音信息中的结束端点。

在一种可能的实施方式中，所述确定所述待处理的语音信息中有效语音段对应的目标语音元素序列之后，所述方法还包括：

将所述目标语音元素序列分别与预先保存的每个指令语音元素序列进行匹配；

若所述目标语音元素序列与任一指令语音元素序列匹配，则确定所述待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词；以及

确定所述指令词对应的操作，并执行所述操作。

本发明实施例还提供了一种语音信息的处理装置，所述装置包括：

预处理单元，用于将待处理的语音信息划分为多个第一语音帧，并提取每个所述第一语音帧对应的第一语音特征；

第一确定单元，用于通过预先训练完成的声学模型，依次根据每个所述第一语音帧对应的第一语音特征，确定每个所述第一语音帧对应的第一输出向量，所述第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率；

第二确定单元，用于通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列，所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。

在一种可能的实施方式中，所述第二确定单元，具体用于：通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定每个所述第一语音帧为静音帧，或为非静音帧对应的目标语音元素；根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段；以及，根据所述有效语音段包含的第一语音帧对应的目标语音元素，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。

在一种可能的实施方式中，所述第二确定单元，具体用于：根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点；将所述待处理的语音信息中的所述起始端点和结束端点之间包含的第一语音帧，确定为有效语音段。

在一种可能的实施方式中，所述第二确定单元，具体用于：依次检测所述待处理的语音信息中的每个所述第一语音帧是否为静音帧，若检测到任一为静音帧的第一语音帧之后连续第一数量的第一语音帧均为非静音帧，则将该静音帧的终止点确定为所述待处理的语音信息中的起始端点；针对在所述起始端点之后每个所述第一语音帧，若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧，则将该非静音帧的终止点确定为所述待处理的语音信息中的结束端点。

在一种可能的实施方式中，所述装置还包括：

匹配单元，用于将所述目标语音元素序列分别与预先保存的每个指令语音元素序列进行匹配；若所述目标语音元素序列与任一指令语音元素序列匹配，则确定所述待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词；以及，确定所述指令词对应的操作，并执行所述操作。

本发明实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音信息的处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音信息的处理方法的步骤。

由于本发明实施例通过将待处理的语音信息划分为多个第一语音帧，并提取每个第一语音帧对应的第一语音特征，只需要对待处理语音信息进行一次分帧及语音特征提取的步骤，即可通过预先训练完成的声学模型以及有限状态转换机，确定待处理的语音信息中的有效语音段对应的目标语音元素序列，既完成了语音信号的端点检测，又完成了离线语音识别，从而大大简化了智能设备在离线语音交互的操作步骤，节省了大量的时间，提高了智能设备的响应效率。

附图说明

图1为本发明实施例提供的一种语音信息的处理过程示意图；

图2为本发明实施例提供的具体的语音信息的处理方法实施流程示意图；

图3为本发明实施例提供的一种语音信息的处理装置的结构示意图；

图4为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了离线语音交互的操作过程，提高智能设备响应效率，本发明实施例提供了一种语音信息的处理方法、装置、设备及介质。

实施例1：

图1为本发明实施例提供的一种语音信息的处理过程示意图，该过程包括以下步骤：

S101：将待处理的语音信息划分为多个语音帧(记为第一语音帧)，并提取每个所述第一语音帧对应的第一语音特征。

本发明实施例提供的语音信息的处理方法应用于智能设备，例如智能机器人、智能家居设备(如智能音箱、智能电视、智能空调等)、智能手机、平板电脑等。

智能设备可以持续不断的采集语音信息，将采集到的语音信息作为待处理语音信息，基于本发明实施例提供的语音信息的处理方法，智能设备可以对待处理的语音信息进行离线识别，从而根据识别结果进行相应的处理。

为了方便对待处理的语音信息进行识别，需要按照预设的分帧规则，将待处理的语音信息进行分帧处理，从而将待处理的语音信息划分为多个第一语音帧。其中，预设的分帧规则为将待处理的语音信息按照多长时间划分语音帧。例如，按照每25ms或每20ms为一个语音帧，将待处理的语音信息划分为多个语音帧。

其中，该第一语音帧的时长，与进行声学模型训练的语音信息样本被划分的语音帧的时长相同。

如果希望更精准的识别到待处理的语音信息的每一帧的特征参数，则可以将每一语音帧的时长设置的短一些；如果为了减少后续识别的次数，则可以将每一语音帧的时长设置的长一些。但由于语音信息是一般是非稳态的，为了使后续识别的特征参数更可靠，语音帧划分的长度不宜过长。可选的，每个语音帧的长度约20ms-30ms。

为了方便后续通过声学模型对每个语音帧进行识别，在本发明实施例中将待处理的语音信息划分为多个第一语音帧之后，提取每个第一语音帧对应的第一语音特征。具体的，可以采用MFCC、FBank、LPC等特征提取算法提取每个第一语音帧对应的第一语音特征。

S102：通过预先训练完成的声学模型，依次根据每个所述第一语音帧对应的第一语音特征，确定每个所述第一语音帧对应的第一输出向量，所述第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率。

基于上述实施例中获取的每个第一语音帧对应的第一语音特征，通过预先训练完成的声学模型，依次根据每个第一语音帧对应的第一语音特征，确定每个第一语音特征对应的第一输出向量，第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率。

其中，语音元素可以为状态、或音素(单音素或三音素)、或音节、或声韵母等最小建模单元中的任意一种，而第一输出向量中包含的语音元素的类型，以及第一输出向量的长度是声学模型训练时确定的。例如，若声学模型的最小建模单元为HMM状态，该语音元素为HMM状态。又如，若声学模型的最小建模单元为音素，该语音元素为音素。

例如，确定的第一输出向量中包含的语音元素的类型为HMM状态，以及第一输出向量的长度为1629维，其中的三个元素用于标识该第一语音帧为静音帧的概率，剩下的1626个元素用于标识该第一语音帧包含的内容信息为每种HMM状态的概率。

在本发明实施例中的声学模型是预先训练获得的，具体的是根据大量的语音信息样本进行训练获得的。

S103：通过有限状态转换机(FST)，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列，所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧形成的语音段。

为了准确的确定待处理的语音信息中有效语音段对应的目标语音元素序列，在本发明实施例中，基于上述获取的每个第一输出向量，将每个第一输出向量依次输入到有限状态转换机中。智能设备对有限状态转换机输出的结果进行后续的处理，确定待处理的语音信息中有效语音段对应的目标语音元素序列。

其中，有限状态转换机是将现有技术中的离线语音识别对应的有限状态转换机的路径以及VAD对应的有限状态转换机的路径进行合并后得到一个有限状态转换机。

实施例2：

为了能够准确的识别出待处理的语音信息中有效语音段的目标语音元素序列，在上述实施例的基础上，在本发明实施例中，任意相邻的两个第一语音帧之间存在设定时长的重叠。

由于智能设备采集的语音信息一般为连续的语音信息，语音信息划分得到的任意相邻两个语音帧之间都是相关的。如果在相邻两个语音帧之间基音发生了变化，如正好是两个字节之间，或正好是声母向韵母过渡等，这时，该相邻两个语音帧的语音特征有可能变化较大，不容易识别到相邻的两个语音帧之间的语音特征。因此，为了使任意相邻的两个第一语音帧的语音特征平滑的变化，且学习到任意相邻的两个语音帧之间的语音特征，将待处理的语音信息划分的多个第一语音帧中，任意相邻的两个第一语音帧之间存在设定时长的重叠。

示例性的，每25ms为一个第一语音帧，任意相邻的第一语音帧之间均有10ms的重叠。假设待处理的语音信息为1min，则划分后0到25ms为第一个第一语音帧，15到40ms为第二个第一语音帧，30到55ms为第三个第一语音帧，以此类推的对待处理语音信息进行分帧处理。

重叠部分的时长可以根据需要进行灵活配置，如果希望更精准的识别每相邻语音帧之间变化的特征参数，则可以将重叠部分的时长设置的长一些，但不宜过长，一般是小于每一语音帧的时长的一半；如果为了减少划分的语音帧的数量，则可以将重叠部分的时长设置的短一些。

实施例3：

为了保证对语音信息处理的准确性，在上述各实施例的基础上，在本发明实施例中，所述声学模型通过如下方式训练：

为了方便对语音信息进行处理，在本发明实施例中可以根据预先获取的样本集中的语音信息样本，对神经网络模型进行训练，以得到声学模型。

其中，如果样本集中包含数量充足的语音信息样本，即包含了大量不同环境下的语音信息样本，则可以根据样本集中的语音信息样本对神经网络模型进行训练。而由于在实际应用中，智能设备在采集待处理的语音信息的时候，往往会采集到噪声、回声以及混响等，从而影响后续对待处理的语音信息的识别。因此，为了保证语音信息样本的多样性，可以通过将每个语音信息样本进行增强处理，以得到更多的语音信息样本，使基于样本集中的语音信息样本训练得到的声学模型更具鲁棒性。其中，增强处理是指在语音信息中添加入噪声、回声、混响等杂音中的一种或者多种。

为了进一步保证语音信息处理的准确性，可以预先针对智能设备的每种工作场景，采集待处理的语音信息中可能会出现的噪声、回声、混响等杂音，根据这些杂音的种类，对样本集中任一语音信息样本进行增强处理。据统计，在智能设备的工作场景中，比较常见的杂音种类包括：白噪声、高斯噪声、椒盐噪声、自回声、卷积混响等。在增强处理过程中所使用的杂音种类还应尽可能的多，以使样本集中的语音信息样本更加多样化，从而提高声学模型的准确性以及鲁棒性。

其中，为了使声学模型更好的可以识别包含指令词的语音信息，在本发明实施例中，可以基于包含唤醒指令词的语音信息样本、包含控制指令词的语音信息样本以及不包含指令词的语音信息样本共同训练神经网络模型。

在具体实施中，当采集到语音信息后，将其作为样本集中的语音信息样本，对样本集中的每个语音信息样本分别进行增强处理，将增强处理后的语音信息样本，也保存在样本集中，根据样本集中的语音信息样本以及增强处理后的语音信息样本一并训练上述的神经网络模型。

在本发明实施例中，针对任一语音信息样本中的每个语音帧(为了区别于待处理的语音信息的语音帧，语音信息样本对应的语音帧记为第二语音帧)，都存在该第二语音帧对应的标签，该标签信息用于标识对应的第二语音帧为静音帧的第一标识值，或该第二语音帧包含的语音元素的第二标识值。例如，若第二语音帧为静音帧，则该第二语音帧的标签为静音帧的第一标识值，若第二语音帧包含的语音音素为/i/，则该第二语音帧的标签为包含的语音元素/i/的第二标识值。

其中，具体确定第二语音帧对应的标签可以通过人工标注的方式获得。

此外，对语音信息样本进行分帧处理的方法，与上述将待处理的语音信息进行分帧处理的方法相同，获取第二语音特征的方法，也与上述获取第一语音特征的方法相同，在此不再赘述。

通过神经网络模型，依次根据每个第二语音帧对应的第二语音特征，可以分别获得每个第二语音特征对应的第二输出向量，第二输出向量为该神经网络模型确定的该第二语音帧为静音帧的概率，以及该第二语音帧包含的内容信息为每种语音元素的概率。

针对每个第二语音帧，将该第二语音帧对应的第二输出向量中概率最大的语音元素的标识值，与该第二语音帧对应的标签进行匹配，根据匹配结果对神经网络模型中的参数进行调整。

对神经网络模型训练的样本集中包含大量的语音信息样本，对每个语音信息样本都进行上述操作，当满足预设的收敛条件时，得到声学模型。

其中，满足预设的收敛条件可以为样本集中的语音信息样本通过该神经网络模型训练后得到的第一输出向量与标签匹配的样本个数大于设定数量，或对声学模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

作为一种可能的实施方式，在进行神经网络模型训练时，可以把样本集中的语音信息样本分成训练语音信息样本和测试语音信息样本，先基于训练语音信息样本对神经网络模型进行训练，以得到声学模型，再基于测试语音信息样本对上述声学模型的可靠程度进行验证。

实施例3：

为了准确确定待处理的语音信息中的有效语音段对应的目标语音元素序列，在上述各实施例的基础上，在本发明实施例中，所述通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列，包括：

通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定每个所述第一语音帧中的静音帧，以及每个所述第一语音帧中的非静音帧对应的目标语音元素；

为了进一步准确识别待处理的语音信息中有效语音段对应的目标语音元素序列，通过有限状态转换机，根据每个第一语音帧对应的第一输出向量，确定每个第一语音帧为静音帧，或为非静音帧对应的目标语音元素，根据每第一语音帧是否为静音帧，确定待处理的语音信息的有效语音段，并根据有效语音段包含的第一语音帧对应的目标语音元素，确定待处理的语音信息中有效语音段对应的目标语音元素序列。

为了准确确定待处理的语音信息中有效语音段对应的目标语音元素序列，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段，以及所述有效语音段中包含的第一语音帧包括：

由于待处理的语音信息中包含有静音帧和非静音帧，而一般只有非静音帧才有利于后续确定有效语音段。而待处理的语音信息中的非静音帧，一般集中在待处理的语音信息中的中间部分，从而构成该待处理的语音信息的有效语音段，此时也可以认为待处理的语音信息中的开始和结尾都未包含在有效语音段中。因此，为了防止静音帧对后续的语音信息的处理步骤的影响，在本发明实施例中，在识别待处理的语音信息中有效语音段对应的目标语音元素序列之前，确定该待处理的语音信息中有效语音段的起始端点和结束端点，根据确定的起始端点和结束端点，确定待处理的语音信息中该有效语音段的位置，帮助后续根据该有效语音段的目标语音元素序列确定是否响应该待处理的语音信息。

为了进一步准确的确定待处理的语音信息的有效语音段，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点，包括：

以及针对在所述起始端点之后每个所述第一语音帧，若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧，则将该非静音帧的终止点确定为所述待处理的语音信息中的结束端点。

由于语音信息中的有效语音段的起始端点之后的语音信息一般是由连续的多个非静音帧组成的，而该有效语音段结束端点之后的语音信息则一般为连续的多个静音帧组成的。因此，为了进一步准确的确定待处理的语音信息的有效语音段，在本发明实施例中，依次检测待处理的语音信息的每个第一语音帧是否为静音帧，若检测到任一静音帧之后连续第一数量的第一语音帧为非静音帧，说明该静音帧之后的非静音帧，很可能是待处理的语音信息中有效语音段，将该静音帧的终止点确定为有效语音段的起始端点。由于结束端点一定在起始端点之后，因此，针对在起始端点之后每个第一语音帧，若检测到任一非静音帧之后连续第二数量的第一语音帧为静音帧，说明该非静音帧之后的静音帧，很可能为该有效语音段的结束端点，则将该非静音帧的终止点确定为有效语音段的结束端点。

其中，在设置第一数量和第二数量时，第一数量和第二数量可以相同也可以不同，并且根据使用场景的不同，可以设置为不同值，如果为了有效地排除杂音对有效语音段的起始端点和结束端点的干扰，则可以将第一数量和第二数量设置的大一些，如果为了进一步提高检测有效语音段的起始端点和结束端点的效率，则可以将第一数量和第二数量设置的小一些。

由于本发明实施例可以根据有限状态转换机，可以确定出待处理的语音信息中有效语音段的位置，并根据有效语音段包含的第一语音帧对应的目标语音元素，确定有效语音段对应的目标语音元素序列，简化了现有离线语音交互的过程，准确地确定待处理的语音信息中有效语音段对应的目标语音元素序列，帮助后续智能设备根据有效语音段对应的目标语音元素序列，执行相应的操作。

实施例4：

为了准确实现对语音信息的处理，在上述各实施例的基础上，在本发明实施例中，所述确定所述待处理的语音信息中有效语音段对应的目标语音元素序列之后，所述方法还包括：

确定所述指令词对应的操作，并执行所述操作。

智能设备采集的待处理的语音信息可能包含指令词，也可能不包含指令词。智能设备需要判断该待处理的语音信息是否包含指令词，从而对该待处理的语音信息进行相应的处理。因此，在本发明实施例中预先保存有多个指令语音元素序列，并且每个指令语音元素序列都对应有指令词。当确定有效语音段的目标语音元素序列后，智能设备可以根据该目标语音元素序列，确定该待处理的语音信息是否为指令语音信息，并根据该待处理的语音信息包含的指令词执行相应的操作。

因此，为了提高智能设备的响应效率，在本发明实施例中，确定了有效语音段的目标语音元素序列，可以将目标语音元素序列与每个预先保存的指令语音元素序列进行匹配，若该目标语音元素序列与任一指令语音元素序列匹配，确定待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词，即采集的待处理的语音信息为指令语音信息，需要智能设备执行该指令词对应的操作。因此，在本发明实施例中，每个指令词均对应有一个操作，确定该待处理的语音信息中包含某一指令词后，获取该指令词对应的操作，并执行该指令词对应的操作。

若该目标语音元素序列与任一指令语音元素序列不匹配，说明该待处理的语音信息可能为非指令语音信息，则智能设备对该目标语音元素序列进行后续的处理。比如，智能设备通过解码网络，获取该目标语音元素序列对应的文本信息，对该文本信息进行语义解析，从而确定是否响应该待处理的语音信息。

由于预先保存的每个指令语音元素序列的长度可能并不相等，因此在进行目标语音元素序列与指令语音元素序列进行匹配之前，可以根据指令语音元素序列的长度设置匹配窗口的长度，例如，将最长的指令语音元素序列的长度作为匹配窗口的长度，以保证后续每个指令语音元素序列在进行匹配时，均可以被包含在该匹配窗口中。针对预先保存的每个指令语音元素，智能设备将该指令语音元素序列以一定的滑动步长从目标语音元素序列的第一个目标语音元素开始滑动，每滑动到一个位置，判断该位置对应的目标语音元素子序列是否与该指令语音元素序列一致，若一致，则确定该目标语音元素序列中与该指令语音元素序列匹配；若任何位置对应的目标语音元素子序列与该指令语音元素序列都不一致，则确定该目标语音元素序列与该指令语音元素序列不匹配。

其中，指令词包括唤醒指令词和控制指令词，如果匹配的指令语音元素序列对应唤醒指令词，则唤醒该智能设备，比如，以智能设备为机器人为例，配置的唤醒指令词为“小豹，小豹”，若接收到的语音信息中包含该唤醒指令词，则唤醒机器人；如果匹配的指令语音元素序列对应控制指令词，若智能设备当前处于未唤醒状态，则唤醒该智能设备，然后执行该控制指令词对应的操作，若智能设备当前处于唤醒状态，则智能设备直接执行该控制指令词对应的操作，比如，仍以智能设备为机器人为例，若接收到控制指令词“前进”，机器人判断当前是否处于未唤醒状态，若是，则唤醒机器人，并执行前进的操作；若否，则机器人直接执行前进的操作。

通过上述实施方式中可以直接判断有效语音段的目标语音元素序列中是否包含预设的指令语音元素序列，使智能设备可以及时确定匹配成功的指令语音元素对应的指令词，并执行该指令词对应的操作，简化了离线语音交互过程中识别指令词的过程，并且指令语音元素序列对应的指令词可以是唤醒词，也可以为控制词，智能设备根据一条待处理的语音信息即可确定是否唤醒智能设备以及控制智能设备执行相应的操作，节省了大量的时间，提高了智能设备的响应效率。

实施例5：

图2为本发明实施例提供的具体的语音信息的处理方法实施流程示意图，该方法实施流程包括声学模型的训练、待处理的语音信息预处理、声学模型输出第一输出向量确定、有效语音段对应的目标语音元素序列的确定、指令词识别这5个部分，下面针对上述5个部分进行说明：

第一部分声学模型训练包括如下步骤：

S201：服务器获取样本集中的任一语音信息样本，将语音信息样本划分为多个第二语音帧，并提取每个第二语音帧对应的第二语音特征，其中，每个第二语音帧的标签用于标识对应的第二语音帧为静音帧的第一标识值，或该第二语音帧包含的语音元素的第二标识值。

S202：服务器通过神经网络模型，依次根据每个第二语音帧对应的第二语音特征，获得每个第二语音特征对应的第二输出向量，第二输出向量中包含对应的第二语音帧为静音帧的概率，以及该第二语音帧包含的内容信息为每种语音元素的概率。

S203：服务器根据每个第二语音帧对应的第二输出向量以及第二语音帧对应的标签，对神经网络模型进行训练，得到声学模型，并将该声学模型下发至智能设备中，以使智能设备能够基于该声学模型进行语音识别处理。

在进行声学模型训练的过程中，一般采用离线的方式，预先根据服务器保存的样本集中的语音信息样本对神经网络模型进行训练，以获得声学模型。

第二部分是待处理的语音信息预处理，该部分是在智能设备执行。

S204：智能设备获取智能设备发送的待处理的语音信息。

S205：智能设备将待处理的语音信息划分为多个第一语音帧，并提取每个第一语音帧对应的第一语音特征。

第三部分声学模型输出第一输出向量，具体实现包括如下步骤：

S206：智能设备通过预先训练完成的声学模型，依次根据每个第一语音帧对应的第一语音特征，确定每个第一语音帧对应的第一输出向量，第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率。

第四部分有效语音段对应的目标语音元素序列确定：

S207：智能设备通过有限状态转换机，根据每个第一语音帧对应的第一输出向量，确定每个第一语音帧为静音帧，或为非静音帧对应的目标语音元素。

S208：智能设备根据每个第一语音帧是否为静音帧，确定待处理的语音信息中的起始端点和结束端点。

其中，具体的确定待处理的语音信息中的起始端点和结束端点的方法包括：依次检测待处理的语音信息中的每个第一语音帧是否为静音帧，若检测到任一为静音帧的第一语音帧之后连续第一数量的第一语音帧均为非静音帧，则将该静音帧的终止点确定为待处理的语音信息中的起始端点；

针对在起始端点之后每个第一语音帧，若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧，则将该非静音帧的终止点确定为待处理的语音信息中的结束端点。

S209：智能设备将待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧，确定为有效语音段。

S210：智能设备根据有效语音段包含的第一语音帧对应的目标语音元素，确定待处理的语音信息中有效语音段对应的目标语音元素序列。

第五部分指令词识别，智能设备根据确定的待处理的语音信息中的有效语音段对应的目标语音元素序列进行指令词识别，具体步骤如下：

S211：智能设备将目标语音元素序列分别与预先保存的每个指令语音元素序列进行匹配，判断目标语音元素序列是否与任一指令语音元素序列匹配，若匹配，则执行S212，否则，执行S214。

S212：智能设备确定待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词，然后执行S213。

S213：确定该指令词对应的操作，并执行该操作。

S214：智能设备确定待处理的语音信息中不包含任一指令词，对该目标语音元素序列进后续的处理。

实施例6：

图3为本发明实施例提供的一种语音信息的处理装置的结构示意图，本发明实施例提供了一种语音信息的处理装置，所述装置包括：

预处理单元31，用于将待处理的语音信息划分为多个第一语音帧，并提取每个所述第一语音帧对应的第一语音特征；

第一确定单元32，用于通过预先训练完成的声学模型，依次根据每个所述第一语音帧对应的第一语音特征，确定每个所述第一语音帧对应的第一输出向量，所述第一输出向量中包含对应的第一语音帧为静音帧的概率，以及该第一语音帧包含的内容信息为每种语音元素的概率；

第二单元33，用于通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列，所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。

获取样本集中的任一语音信息样本，将所述语音信息样本划分为多个第二语音帧，并提取所述每个第二语音帧对应的第二语音特征，其中，所述每个第二语音帧均对应有第一标签，所述第一标签用于标识所述第二语音帧是否为静音帧以及所述第二语音帧为非静音帧时的语义；

通过所述声学模型，依次获得每个所述第二语音特征对应的第一输出向量，所述第一输出向量中包含所述第二语音特征为非静音帧的概率，以及对应的每种语义及其概率；

根据每个所述第一输出向量以及对应每个所述第一标签，对所述声学模型进行训练。

在一种可能的实施方式中，所述第二确定单元33，具体用于：通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定每个所述第一语音帧为静音帧，或为非静音帧对应的目标语音元素；根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段；以及，根据所述有效语音段包含的第一语音帧对应的目标语音元素，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。

在一种可能的实施方式中，所述第二确定单元33，具体用于：根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点；将所述待处理的语音信息中的所述起始端点和结束端点之间包含的第一语音帧，确定为有效语音段。

在一种可能的实施方式中，所述第二确定单元33，具体用于：依次检测所述待处理的语音信息中的每个所述第一语音帧是否为静音帧，若检测到任一为静音帧的第一语音帧之后连续第一数量的第一语音帧均为非静音帧，则将该静音帧的终止点确定为所述待处理的语音信息中的起始端点；针对在所述起始端点之后每个所述第一语音帧，若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧，则将该非静音帧的终止点确定为所述待处理的语音信息中的结束端点。

在一种可能的实施方式中，所述装置还包括：

匹配单元34，用于将所述目标语音元素序列分别与预先保存的每个指令语音元素序列进行匹配；若所述目标语音元素序列与任一指令语音元素序列匹配，则确定所述待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词；以及，确定所述指令词对应的操作，并执行所述操作。

实施例7：

如图4为本发明实施例提供的一种电子设备结构示意图，在上述各实施例的基础上，本发明实施例还提供了一种电子设备，如图4所示，包括：处理器41、通信接口42、存储器43和通信总线44，其中，处理器41，通信接口42，存储器43通过通信总线44完成相互间的通信；

所述存储器43中存储有计算机程序，当所述程序被所述处理器41执行时，使得所述处理器41执行如下步骤：

在一种可能的实施方式中，处理器41，具体用于：通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定每个所述第一语音帧为静音帧，或为非静音帧对应的目标语音元素；根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段；以及，根据所述有效语音段包含的第一语音帧对应的目标语音元素，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。

在一种可能的实施方式中，处理器41，具体用于：根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点；将所述待处理的语音信息中的所述起始端点和结束端点之间包含的第一语音帧，确定为有效语音段。

在一种可能的实施方式中，处理器41，具体用于：依次检测所述待处理的语音信息中的每个所述第一语音帧是否为静音帧，若检测到任一为静音帧的第一语音帧之后连续第一数量的第一语音帧均为非静音帧，则将该静音帧的终止点确定为所述待处理的语音信息中的起始端点；针对在所述起始端点之后每个所述第一语音帧，若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧，则将该非静音帧的终止点确定为所述待处理的语音信息中的结束端点。

在一种可能的实施方式中，处理器41，还用于：将所述目标语音元素序列分别与预先保存的每个指令语音元素序列进行匹配；若所述目标语音元素序列与任一指令语音元素序列匹配，则确定所述待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词；以及，确定所述指令词对应的操作，并执行所述操作。

由于上述电子设备解决问题的原理与语音信息的处理方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口42用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例8：

在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

确定所述指令词对应的操作，并执行所述操作。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音信息的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，任意相邻的两个第一语音帧之间存在设定时长的重叠。

3.根据权利要求1所述的方法，其特征在于，所述声学模型通过如下方式训练：

4.根据权利要求1所述的方法，其特征在于，所述通过有限状态转换机，根据每个所述第一语音帧对应的第一输出向量，确定所述待处理的语音信息中有效语音段对应的目标语音元素序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的有效语音段，以及所述有效语音段中包含的第一语音帧包括：

6.根据权利要求5所述的方法，其特征在于，所述根据每个所述第一语音帧是否为静音帧，确定所述待处理的语音信息中的起始端点和结束端点，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述待处理的语音信息中有效语音段对应的目标语音元素序列之后，所述方法还包括：

确定所述指令词对应的操作，并执行所述操作。

8.一种语音信息的处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述语音信息的处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述语音信息的处理方法的步骤。