CN111883109B

CN111883109B - 语音信息处理及验证模型训练方法、装置、设备及介质

Info

Publication number: CN111883109B
Application number: CN202010632753.XA
Authority: CN
Inventors: 陈都; 李家魁; 吕安超; 李宝祥
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2023-09-26
Anticipated expiration: 2040-07-01
Also published as: CN111883109A

Abstract

本发明提供了一种语音信息的处理及验证模型的训练方法、装置、设备及介质。基于解码网络获取智能设备采集的语音信息对应的第一语音元素序列，若该第一语音元素序列与预先配置的任一指令语音元素序列匹配，则基于第一语音元素序列，确定第一组合向量，若通过预先训练完成的验证模型，根据第一组合向量，确定该语音信息被正确识别，控制智能设备执行匹配的指令语音元素序列对应的指令词对应的操作。由于在基于解码网络对语音信息进行了识别之后，又通过预先训练完成的验证模型对该语音信息进一步识别，以判断解码是否正确，避免了由于词间干扰、误识别导致的智能设备执行错误的指令词对应的操作，提高对智能设备控制的准确性，也提高了用户体验。

Description

语音信息处理及验证模型训练方法、装置、设备及介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音信息的处理及验证模型的训练方法、装置、设备及介质。

背景技术

随着智能交互技术的迅猛发展，在智能车载和智能家居领域中，可以通过识别采集的包含指令词的语音信息，实现控制智能设备完成该指令词对应的任务，例如，识别采集的包含调整温度的语音信息，控制智能空调进行温度调节，或，识别采集的包含调整风向的语音信息，控制智能空调进行风向调整等。

现有技术中，智能设备采集到语音信息后，将该语音信息划分为多个语音帧，并通过梅尔倒谱系数(Mel-frequency cepstral coefficients，MFCC)、滤波器组(FilterBank，FBank)等方法提取每个语音帧对应的语音特征。然后基于语音信息的处理的声学模型以及解码网络，获取智能设备采集的语音信息对应的语音元素序列。将该语音元素序列与预先配置的任一指令语音元素序列进行匹配，确定该语音信息中包含该匹配的指令语音元素序列对应的指令词，获取该指令词对应的操作并执行，即可实现对智能设备的语音控制。

对于该语音信息的处理方法，由于采集到的语音信息中的内容是不可预知的，不同的用户的语调、音色以及个人发音习惯也各有不同，使得无法采集到所有的语音信息，从而根据所有的语音信息，预先对语音信息的处理的声学模型以及解码网络进行训练。并且，即使基于所有的语音信息，预先对语音信息的处理的声学模型以及解码网络进行训练，也无法保证训练得到的声学模型以及解码网络对语音信息进行语音识别时一定准确。因此，在语音信息的处理的过程中，仍可能出现词间干扰或误识别的情况，比如，采集到的语音信息为“调整空调温度到24摄氏度”，却被误识别为“调整空调温度到21摄氏度”，即出现“词间干扰”的情况，或者，采集的语音信息中实际没有包含任一指令词，但识别该语音信息中包含了某一个指令词，即“误识别”的情况，从而无法实现准确地控制智能设备，降低了用户体验。

发明内容

本发明提供了一种语音信息的处理及验证模型的训练方法、装置、设备及介质，用以解决现有语音信息的处理的过程中存在词间干扰以及误识别的问题。

本发明实施例提供了一种语音信息的处理方法，所述方法包括：

基于解码网络，获取智能设备采集的语音信息对应的第一语音元素序列；

若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列，确定第一组合向量；

若通过预先训练的验证模型，根据所述第一组合向量，确定所述语音信息被正确识别，控制所述智能设备执行所述匹配的指令语音元素序列对应的指令词的操作。

本发明实施例还提供了一种验证模型的训练方法，所述方法包括：

获取样本集中的任一语音元素序列样本，以及对应的第一标签，所述第一标签标识与所述语音元素序列样本匹配的指令语音元素序列对应的指令词，是否与所述语音元素序列样本对应的语音样本实际包含的指令词一致；

基于所述语音元素序列样本，确定第二组合向量；

根据所述第二组合向量以及所述第一标签，对原始验证模型进行训练。

本发明实施例还提供了一种语音信息的处理装置，所述装置包括：

解码单元，用于基于解码网络，获取智能设备采集的语音信息对应的第一语音元素序列；

第一处理单元，用于若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列，确定第一组合向量；

第二处理单元，用于若通过预先训练的验证模型，根据所述第一组合向量，确定所述语音信息被正确识别，控制所述智能设备执行所述匹配的指令语音元素序列对应的指令词的操作。

本发明实施例还提供了一种验证模型的训练装置，所述装置包括：

获取模块，用于获取样本集中的任一语音元素序列样本，以及对应的第一标签，所述第一标签标识与所述语音元素序列样本匹配的指令语音元素序列对应的指令词，是否与所述语音元素序列样本对应的语音样本实际包含的指令词一致；

确定模块，用于基于所述语音元素序列样本，确定第二组合向量；

训练模块，用于根据所述第二组合向量以及所述第一标签，对原始验证模型进行训练。

本发明实施例还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述所述语音信息的处理方法的步骤，或者实现如上述所述验证模型的训练方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述语音信息的处理方法的步骤，或者实现如上述所述验证模型的训练方法的步骤。

在语音信息的处理过程中，由于在基于解码网络对语音信息进行了识别之后，又通过预先训练完成的验证模型，对该语音信息进行进一步地识别，以判断解码是否正确，从而避免了由于词间干扰以及误识别而导致的智能设备执行错误的指令词对应的操作，提高了对智能设备控制的准确性，也提高了用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音信息的处理过程示意图；

图2为本发明实施例提供的具体的语音信息的处理流程示意图；

图3为本发明实施例提供的一种语音信息的处理装置的结构示意图；

图4为本发明实施例提供的一种验证模型的训练装置的结构示意图；

图5为本发明实施例提供的一种电子设备结构示意图；

图6为本发明实施例提供的另一种电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：图1为本发明实施例提供的一种语音信息的处理过程示意图，该过程包括：

S101：基于解码网络，获取智能设备采集的语音信息对应的第一语音元素序列。

本发明实施例提供的语音信息的处理方法应用于电子设备，该电子设备可以是智能设备，也可以是服务器。智能设备例如可以是智能机器人、智能手机、平板电脑、智能家居设备等设备。

当进行语音信息处理的电子设备为智能设备时，若智能设备采集到语音信息后，可以直接基于本发明实施例提供的语音信息处理方法，先对采集的语音信息进行语音识别，根据语音识别结果进行后续的处理。当进行语音信息处理的电子设备为服务器时，当智能设备采集到语音信息后，将该语音信息发送给服务器，服务器基于本发明实施例提供的语音信息处理方法，先对采集的语音信息进行语音识别，根据语音识别结果进行后续的处理。

具体的，当获取到智能设备采集的语音信息后，通过声学模型，对语音信息中包含的每个语音帧进行识别，然后将每个语音帧对应的识别结果输入到解码网络，获取解码网络输出的结果，对解码网络输出的结果进行后续的处理，确定该语音信息的语音元素序列(为了方便描述，记为第一语音元素序列)。

其中，语音元素可以为状态、或音素(单音素或三音素)、或音节、或声韵母等最小建模单元中的任意一种。而第一语音元素序列则是基于解码网络所确定的语音信息包含的每个语音帧对应的内容确定的。具体的，若语音帧为静音帧，该第一语音元素序列中与该语音帧对应的位置的元素是静音帧标识；若语音帧为非静音帧，该第一语音元素序列中与该语音帧对应位置的元素是该语音帧对应的语音元素(记为目标语音元素)。比如，若当前的第一语音元素序列中包含了100个元素，该第一语音元素序列中与某一语音帧对应的位置的元素为第19个元素，该第19个元素的元素值为语音元素“p”，则确定该语音帧对应的目标语音元素为“p”。

需要说明的是，静音帧标识可以为字符串，比如“null”等，也可以表示为数字，比如“00”、“0”等，具体的，可以根据实际需求进行灵活设置，在此不做具体限定。

当获取到智能设备采集的语音信息对应的第一语音元素序列之后，对该第一语音元素序列进行后续的处理，从而确定是否响应该语音信息。

S102：若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列，确定第一组合向量。

由于采集的语音信息可能是包含指令词的语音信息，也可能是不包含指令词的语音信息，而在识别该语音信息中是否包含指令词时，可能会受词间干扰的影响或者出现误识别的问题，从而错误识别该语音信息包含的指令词，导致控制智能设备执行错误指令词所对应的操作。因此，为了准确地控制智能设备，提高用户体验，在本发明实施例中，当基于上述实施例获取到智能设备采集的语音信息对应的第一语音元素序列后，将该第一语音元素序列与预先配置的任一指令语音元素序列进行匹配，若确定该第一语音元素序列与预先配置的任一指令语音元素序列匹配，说明该语音信息中可能包含有指令词，但不确定是否会受词间干扰的影响或者出现误识别的问题，进一步的，基于第一语音元素序列，确定组合向量(为了方便描述，记为第一组合向量)，基于该第一组合向量，进行后续的处理，从而确定该匹配的指令语音元素序列对应的指令词，是否为该语音样本实际包含的指令词。

S103：若通过预先训练的验证模型，根据所述第一组合向量，确定所述语音信息被正确识别，控制所述智能设备执行所述匹配的指令语音元素序列对应的指令词的操作。

为了准确地控制智能设备，在本发明实施例中，预先训练有验证模型。通过预先训练完成的验证模型，基于该第一组合向量，确定语音信息是否被正确识别。

其中，该验证模型的输出结果可以是语音信息是否被正确识别的标识值，比如，被正确识别的标识值为“1”，未被正确识别的标识值为“0”，也可以是语音信息是否被正确识别的概率。

需要说明的是，若验证模型输出结果为语音信息是否被正确识别的概率，则为了确定语音信息是否被正确识别，预先设置有决策阈值。当基于上述实施例获取到验证模型输出的概率之后，将该概率与决策阈值进行比较，从而确定语音信息是否被正确识别。具体的，若该概率大于决策阈值，则确定该语音信息被正确识别，否则，确定该语音信息未被正确识别。比如，决策阈值为0.8，验证模型输出的概率为0.9，确定该概率0.9大于该决策阈值0.8，确定该语音信息被正确识别。

其中，该决策阈值可以是根据经验进行设置，也可以不同的场景，设置的不同的值。比如，如果对语音信息的识别的准确度要求较高，则可以将该决策阈值设置的大一些；如果希望可以控制智能设备尽可能的响应语音信息，则可以将该决策阈值设置的小一些。具体的，可以根据实际的需求，进行灵活的设置，在此不做具体限定。

进一步的，当根据验证模型的输出结果，确定语音信息被正确识别时，则控制智能设备执行匹配的指令语音元素序列对应的指令词的操作。

作为一种可能的实施方式，若通过所述验证模型，根据所述第一组合向量，确定所述语音信息未被正确识别，则拒绝响应所述语音信息。

当根据验证模型的输出结果，确定语音信息未被正确识别时，说明很可能存在词间干扰或误识别的问题，则为了保证控制智能设备的准确性，拒绝响应该语音信息。比如，若验证模型输出的概率不大于决策阈值，或，若验证模型输出的是语音信息未被正确识别的标识值，说明很可能存在词间干扰或误识别的问题，则拒绝响应该语音信息。

此外，基于解码网络，对智能设备采集的语音信息进行识别时，语音信息可以采用语音数据流的形式进行语音识别，从而减少用于等待智能设备采集到完整的语音信息所耗费的时间。

具体的，每获取到连续预设数量的语音帧后，对该连续预设第一数量的语音帧，基于声学模型和解码网络，对该连续预设第一数量的语音帧与已缓存的语音帧形成的临时语音段进行处理，得到该临时语音段对应的第一语音元素序列，然后将该第一语音元素序列与预先配置的指令语音元素序列进行匹配；若该第一语音元素序列与预先配置的任一指令语音元素序列匹配，且通过预先训练完成的验证模型，确定该临时语音段被正确识别，并清空缓存的语音帧，进一步控制智能设备执行相应的操作，并返回获取连续预设数量的语音帧的步骤；若该第一语音元素序列与预先配置的任一指令语音元素序列匹配，且通过预先训练完成的验证模型，确定临时语音段未被正确识别，则拒绝响应该临时语音段，并缓存当前获取的连续预设第一数量的语音帧，并返回获取连续预设数量的语音帧的步骤；若该第一语音元素序列与预先配置的任一指令语音元素序列均不匹配，则缓存当前获取的连续预设第一数量的语音帧缓存，并返回获取连续预设数量的语音帧的步骤。

需要说明的是，当确定采集到连续设定时长或连续设定数量的静音帧，则确定采集到了完整的语音信息，为了不影响对采集到的下一语音信息的语音数据流的识别，清空当前缓存的每个语音帧。

其中，在设置预设第一数量时，可以根据场景的不同，设置不同的值，如果希望减少用于等待获取智能设备采集语音信息的时间，则可以将该预设第一数量设置的小一些，比如，该预设第一数量可以为1；如果希望减少由于过于频繁基于解码网络获取第一语音元素序列所耗费的资源，则可以将该预设第一数量设置的大一些，比如，该预设第一数量可以为30等。具体的，可以根据实际需求进行设置，在此不做具体限定。

在一种可能的实施方式中，预先设置了可以缓存的语音帧的数量上限值，当确定缓存的语音帧达到该数量上限值时，获取缓存的每个语音帧形成的临时语音段对应的第一语音元素序列。针对预先配置的每个指令语音元素序列，将该指令语音元素序列以一定的滑动步长从第一语音元素序列中的最后一个语音元素开始滑动，若确定该第一语音元素序列中存在与该指令语音元素序列的前缀部分匹配的每个元素，确定匹配的每个元素对应的语音帧，将该匹配的每个元素对应的语音帧保存，删除缓存的其他语音帧；若确定该第一语音元素序列中不存在与该指令语音元素序列的前缀部分匹配的每个元素，则删除缓存的每个语音帧。

需要说明的是，该指令语音元素序列的前缀部分包含该指令语音元素序列中前N个元素，N为正整数。在实施中，可以根据该指令语音元素序列对应的指令配置N，也可以根据经验值配置N等等，本发明实施例中不做限定。

其中，在设置数量上限值时，可以根据场景的不同，设置不同的值，如果希望减少缓存语音帧的存储空间，则可以将该数量上限值设置的小一些；如果希望减少由于过于频繁的确定要删除的缓存的语音帧所耗费的资源，则可以将该数量上限值设置的大一些。可以根据实际需求进行设置，在此不做具体限定。

实施例2：为了能够有效地避免词间干扰或误识别的问题的发生，在上述实施例的基础上，在本发明实施例中，基于所述第一语音元素序列，确定第一组合向量，包括：

根据所述第一语音元素序列、以及所述语音信息的特征信息，确定第一组合向量；其中，所述语音信息的特征信息包括以下至少一种：每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，每个语音帧对应的特征向量，所述语音信息包含的语音帧的数量，以及所述语音信息的语音帧中包含的静音帧的信息。

在实际应用过程中，存在词间干扰或误识别的问题时，识别的语音信息的某些特征，比如，语音信息对应的第一语音元素序列、语音信息包含的每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，每个语音帧对应的特征向量等，相对于不存在词间干扰或误识别的问题时，识别的语音信息的这些特征会有差异。因此，在本发明实施例中，可以根据语音信息对应的第一语音元素序列、以及语音信息的特征信息，确定第一组合向量。

在本发明实施例中，语音信息的特征信息包括以下至少一种：每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，每个语音帧对应的特征向量，语音信息包含的语音帧的数量，以及语音信息的语音帧中包含的静音帧的信息。其中，语音信息的语音帧中包含的静音帧的信息可以指的是语音信息包含的静音帧的数量，和/或，语音信息中包含的静音帧所占的比例。

比如，将第一语音元素序列以及语音信息包含的语音帧的数量按照顺序进行拼接，确定第一组合向量；或，将第一语音元素序列，语音信息包含的语音帧的数量，以及语音信息的语音帧中包含的静音帧的数量按照顺序进行拼接，确定第一组合向量；或，将第一语音元素序列，每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率按照顺序进行拼接，确定第一组合向量等。

其中，每个语音帧为静音帧的概率可以是通过如语音检测VAD模型、预先训练的可以识别静音帧的声学模型等模型获取的，也可以是通过如能量检测等算法获取的，在此不做具体限定。当获取到每个语音帧为静音帧的概率之后，根据预设的概率阈值，可以确定语音信息中包含的每个静音帧，从而获取每个静音帧的数量。基于上述的方法，获取到静音帧的数量之后，根据该静音帧的数量以及语音信息中包含的语音帧的数量，可以确定该语音信息中包含的静音帧所占的比例。

此外，每个语音帧包含的内容信息为每种语音元素的概率则可以是通过现有的声学模型获取的，也可以是通过其他算法获取的，在此也不做具体限定。

其中，任一语音帧对应的特征向量可以为所述语音帧对应的梅尔倒谱系数MFCC特征、所述语音帧对应的滤波器组FBank特征、所述语音帧对应的幅度AM特征中的至少一种。比如，任一语音帧对应的特征向量可以为该语音帧对应的梅尔倒谱系数MFCC特征、该语音帧对应的幅度AM特征和该语音帧对应的滤波器组FBank特征中的至少两种，也可以只是该语音帧对应的幅度AM特征、该语音帧对应的梅尔倒谱系数MFCC特征、该语音帧对应的滤波器组FBank特征中的一种。具体可以根据实际需求进行灵活设置，在此不再赘述。

需要说明的是，在选择语音信息的特征信息时，语音信息的特征信息包含的种类越多，后续通过验证模型，基于第一组合向量，确定语音信息是否被正确识别的结果越准确，但相对的，后续通过验证模型，基于第一组合向量，确定语音信息是否被正确识别时，所需的计算量越大。因此，在选择语音信息的特征信息时，可以根据实际需求进行灵活设置，在此不做具体限定。

在一种可能的实施方式中，若所述语音信息的特征信息中包括每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，以及每个语音帧对应的特征向量，所述根据所述第一语音元素序列、以及所述语音信息的特征信息，确定第一组合向量，包括：

根据每个语音帧对应的特征向量，确定平均特征向量；

针对每个语音帧，根据该语音帧为静音帧的概率、该语音帧包含的内容信息为每种语音元素的概率，确定该语音帧对应的概率差值；

根据所述第一语音元素序列、所述平均特征向量、以及所述每个语音帧对应的概率差值，确定所述第一组合向量。

在一般情况下，被正确识别的语音信息包含的每个语音帧对应的特征向量，与存在词间干扰或误识别的问题的语音信息中的每个语音帧对应的特征向量会有一定的区别。因此，若语音信息的特征信息中包括每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，以及每个语音帧对应的特征向量，则根据第一语音元素序列以及语音信息的特征信息，确定第一组合向量时，根据每个语音帧对应的特征向量，确定平均特征向量。

比如，任一语音帧对应的特征向量包括该语音帧对应的幅度AM特征、该语音帧对应的梅尔倒谱系数MFCC特征以及该语音帧对应的滤波器组FBank特征，则将每个语音帧对应的幅度AM特征的向量和求平均，获取第一平均向量，将每个语音帧对应的梅尔倒谱系数MFCC特征的向量和求平均，获取第二平均向量，并将每个语音帧对应的滤波器组FBank特征的向量和求平均，获取第三平均向量，将第一平均向量、第二平均向量、第三平均向量进行拼接，获取平均特征向量。

此外，被正确识别的语音信息包含的每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，与存在词间干扰或误识别的问题的语音信息中的每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率也会有所不同。因此，为了有效避免存在词间干扰或误识别的问题，在本发明实施例中，针对每个语音帧，可以对该语音帧为静音帧的概率、以及该语音帧包含的内容信息为每种语音元素的概率进行相应的处理，从而确定该语音帧对应的概率差值。比如，针对每个语音帧，可以从该语音帧为静音帧的概率、以及该语音帧包含的内容信息为每种语音元素的概率中选择任意两个概率，确定该语音帧对应的概率差值。

在一种可能的实施方式中，所述根据该语音帧为静音帧的概率、该语音帧包含的内容信息为每种语音元素的概率，确定该语音帧对应的概率差值，包括：

若根据所述第一语音元素序列确定该语音帧为静音帧，则确定该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的第一极值，根据所述第一极值、该语音帧为静音帧的概率中的任意两者之间差值，确定该语音帧对应的概率差值；或者

若根据所述第一语音元素序列确定该语音帧对应目标语音元素，确定该语音帧为静音帧的概率、以及该语音帧包含的内容信息为每种语音元素的概率中的第二极值，根据所述第二极值、该语音帧包含的内容信息为所述目标语音元素的概率中的任意两者之间的差值，确定该语音帧对应的概率差值。

在实施中，虽然根据语音样本对应的第一语音元素序列，确定某一语音帧为静音帧或对应的目标语音元素，但该语音帧为静音帧的概率，或该语音帧对应目标语音元素的概率，可能不为声学模型输出的该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极大值，但该语音帧为静音帧的概率或该语音帧对应目标语音元素的概率、与上述极大值的差值会小于第一概率阈值，和/或该语音帧为静音帧的概率或该语音帧对应目标语音元素的概率、与极小值的差值大于第二概率阈值，上述极小值是指该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极小值。

若确定该语音帧为静音帧的概率或该语音帧对应目标语音元素的概率，与该语音帧对应的极大值的差值不小于第一概率阈值，或者与该语音帧对应的极小值的差值不大于第二概率阈值，则很可能存在受词间干扰或误识别的问题。因此，在本发明实施例中，可以根据该语音帧为静音帧的概率，或对应的目标语音元素的概率，以及该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极值，确定该语音帧对应的概率差值。

具体的，若根据第一语音元素序列确定该语音帧为静音帧，则确定该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极值(为了方便描述，记为第一极值)。其中，第一极值为极大值或极小值。根据该第一极值与该语音帧为静音帧的概率的差值，确定该语音帧对应的概率差值。

若根据第一语音元素序列，确定该语音帧对应目标语音元素，则确定该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极值(为了方便描述，记为第二极值)。其中，第二极值为极大值或极小值。根据该第二极值与该语音帧包含的内容信息为目标语音元素的概率的差值，确定该语音帧对应的概率差值。

此外，每个语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极值也一般对第一语音元素序列有一定的影响。一般某一语音帧对应的极大值与极小值的差值越大，则该语音帧的特征越明确，根据语音样本对应的第一语音元素序列，确定某一语音帧为静音帧或对应的目标语音元素也会越准确；如果某一语音帧对应的极大值与极小值的差值越小，则该语音帧的特征越不明确，说明可能存在词间干扰或误识别的问题，根据语音样本对应的第一语音元素序列，确定某一语音帧为静音帧或对应的目标语音元素也会越不准确。因此，在本发明实施例中，还可以根据该语音帧为静音帧的概率、及该语音帧包含的内容信息为每种语音元素的概率中的极值，确定该语音帧对应的概率差值，即在获取第一极值或第二极值时，第一极值为极大值和极小值，第二极值也为极大值和极小值，根据极大值和极小值的差值，确定该语音帧对应的概率差值。

在另一种可能的实施方式中，确定每个语音帧对应的概率差值以后，为了减少后续验证模型进行识别所耗费的计算量，可以将连续的对应同一目标语音元素，或连续的为静音帧的每个语音帧作为一组，针对每组，根据该组中每个语音帧对应的概率差值，确定概率差值的和，并进行求平均处理，确定该组对应的平均概率值。将获取的每组对应的平均概率值确定为每个语音帧对应的概率差值。

比如，第一语音元素序列为[a a a o o p p p]，对于第1到3帧的语音帧均对应目标语音元素“a”，则获取第1-3帧的语音帧分别对应的概率差值的和(记为X)，并进行求平均处理，确定该第1-3帧的语音帧这一组对应的平均概率值X/3，对于第4-5帧的语音帧均对应目标语音元素“o”，则获取第4-5帧的语音帧分别对应的概率差值的和(记为Y)，并进行求平均处理，确定该第4-5帧的语音帧这一组对应的平均概率值Y/2，对于第6-8帧的语音帧均对应目标语音元素“p”，则获取第6-8帧的语音帧分别对应的概率差值的和(记为Z)，并进行求平均处理，确定该第6-8帧的语音帧这一组对应的平均概率值Z/3，根据上述获取的X/3、Y/2、Z/3确定为该第1-8帧的语音帧对应的概率差值。

当基于上述实施例获取到平均特征向量以及每个语音帧对应的概率差值之后，根据第一语音元素序列、平均特征向量以及每个语音帧对应的概率差值按照预设的顺序进行拼接，将拼接后的向量确定为第一组合向量。

实施例3：为了保证对语音信息处理的准确性，在上述各实施例的基础上，在本发明实施例中，验证模型通过如下方式进行训练：

基于所述语音元素序列样本，确定第二组合向量；

为了准确地确定是否存在词间干扰或误识别的问题，可以根据预先收集的样本集中的每个语音元素序列样本及其对应的第一标签，对验证模型进行训练。该样本集中的语音元素序列样本包括可以被正确识别的正语音元素序列样本，以及，存在词间干扰或误识别的问题的负语音元素序列样本，为了描述方便后续分别称为正样本及负样本。

具体的，正样本对应的第一标签标识与该正样本匹配的指令语音元素序列对应的指令词，与该正样本对应的语音样本实际包含的指令词一致，该第一标签可以表示为“1”。负样本对应的第一标签标识与该负样本匹配的指令语音元素序列对应的指令词，与该负样本对应的语音样本实际包含的指令词不一致，该第一标签可以表示为比如“0”。需要说明的是，对于误识别的负样本来说，其实际包含的指令词为空。

基于样本集中的语音元素序列样本，可以确定组合向量(为了方便描述，并与上述第一组合向量进行区分，记为第二组合向量)。具体的确定第二组合向量的方法，与上述确定第一组合向量的方法一致，在此不再赘述。

通过原始验证模型，基于第二组合向量，可以获取语音元素序列样本对应的语音样本是否被正确识别的识别结果，根据该识别结果对应的识别标签以及语音元素序列样本对应的第一标签，对原始验证模型进行训练，以调整原始验证模型中各参数的参数值。

比如，第一标签为“1”，决策阈值为0.6，通过原始验证模型，基于第二组合向量，获取语音元素序列样本对应的语音样本被正确识别的概率为0.5，确定该概率0.5不大于决策阈值0.6，说明该语音元素序列样本对应的语音样本未被正确识别，则该识别结果对应的识别标签为“0”，确定该识别标签“0”与第一标签“1”不一致。

在另一种可能的实施方式中，在设置决策阈值时，除了基于上述实施例的方法确定决策阈值，还可以先通过原始验证模型，分别确定每个语音元素序列样本对应的是否被正确识别的概率，根据所确定的每个概率，确定一个决策阈值，比如，根据每个概率，确定平均概率值，将该平均概率值确定为决策阈值，当然，在设置该决策阈值的初始值时，可以将该决策阈值设置为0。

对原始验证模型训练的样本集中包含大量的语音元素序列样本，对每个语音元素序列样本都进行上述操作，当满足预设的收敛条件时，该验证模型训练完成。其中，满足预设的收敛条件可以为样本集中的语音元素序列样本通过该原始验证模型，确定的识别标签与第一标签一致的语音元素序列样本个数大于设定数量，或对原始验证模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置，在此不做具体限定。

需要说明的是，在本发明实施例中的验证模型可以是二分类器，比如逻辑回归(Logistic Regression)、神经网络(Neural Networks)等。

在一种可能的实施方式中，在进行原始验证模型训练时，可以把样本集中的语音元素序列样本分为训练语音元素序列样本和测试语音元素序列样本，先基于训练语音元素序列样本对原始验证模型进行训练，再基于测试语音元素序列样本对上述已训练的验证模型的可靠程度进行验证。

由于本发明实施例通过样本集中的每个语音元素序列样本的第二组合向量，以及对应的第一标签，训练的验证模型，可以有效避免由于词间干扰以及误识别的问题的发生，提高了对智能设备的控制的准确性。

实施例4：本实施例提供了一种获取样本集中的语音元素序列样本及其对应的第一标签的方式，具体如下：

获取候选样本集中的任一语音样本，所述语音样本对应有第二标签，所述第二标签标识所述语音样本不包含指令词，或为所述语音样本包含的指令词；

基于解码网络，获取所述语音样本对应的第二语音元素序列；

若所述第二语音元素序列与预先配置的任一指令语音元素序列匹配，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签一致，则确定所述语音样本对应的第二语音元素序列为所述样本集中的正样本，所述正样本对应的第一标签标识与所述正样本匹配的指令语音元素序列对应的指令词与所述正样本对应的语音样本实际包含的指令词一致。

在具体实施中，若后续是在获取到智能设备采集到完整的语音信息之后，才基于解码网络，获取该语音信息对应的第一语音元素序列，则用于训练原始验证模型的语音元素序列样本，也是基于候选样本集中的任一语音样本确定的。其中，确定智能设备采集的语音信息是否完整，可以是基于VAD模型确定是否获取到语音信息的连续设定时长或连续设定数量的静音帧，也可以通过其他算法确定是否获取到语音信息的连续设定时长或连续设定数量的静音帧。具体的确定智能设备采集的语音信息是否完整属于现有技术，在此不做赘述。

在本发明实施例中，为了方便确定样本集中的每个语音元素序列样本，可以是基于预先获取的候选样本集中的语音样本，进行相应的处理，从而确定样本集中的每个语音元素序列样本。其中，该候选样本集中的语音样本包括包含有预设指令词的语音样本(即正语音样本)，以及不包含有指令词的语音样本(即负语音样本)。

如果候选样本集中包含充足数量的语音样本，即包含了大量不同环境下采集的语音样本，则可以直接对候选样本集中的语音样本进行相应的处理，从而确定样本集中的每个语音元素序列样本。而如果为了保证语音元素序列样本的多样性，以提高验证模型的鲁棒性，可以通过加噪处理的方式，得到大量的语音样本，具体的：当采集到任一语音样本后，将其作为原始语音样本，并对该原始语音样本进行加噪处理，将加噪处理后的语音样本作为加噪语音样本，将该原始语音样本以及每个加噪语音样本均作为语音样本，保存在候选样本集中，对候选样本集中的每个语音样本进行处理，从而确定样本集中的每个语音元素序列样本。

在具体实施中，为了保证语音元素序列样本的多样性，可以预先针对智能设备的每种工作场景，采集语音信息中可能会出现的噪声，根据这些噪声的种类，对候选样本集中任一原始语音样本进行加噪处理。据统计，在智能设备的工作场景中，比较常见的噪声种类包括：白噪声、高斯噪声、椒盐噪声等。在加噪处理过程中所使用的噪声种类还应尽可能的多，以使候选样本集中的语音样本更加多样化，从而保证语音元素序列样本也更加多样化。

在本发明实施例中，每个语音样本均对应有标签(为了方便描述，并与上述的第一标签进行区分，记为第二标签)，该第二标签标识对应的语音样本不包含指令词，或为语音样本包含的指令词。比如，某一语音样本A包含有预设指令词“调整空调温度”，则第二标签可以为该指令词对应的文本内容“调整空调温度”，某一语音样本B不包含任一预设指令词，则第二标签可以表示为不包含指令词时对应的标识值，比如“00”，“空”等。

具体的，在确定样本集中的语音元素序列样本及其对应的第一标签，可以通过如下方式确定：

方式一：由于候选样本集中有正语音样本，也有负语音样本，在确定样本集中的语音元素序列样本时，可以直接将基于解码网络，获取的正语音样本对应的语音元素序列作为样本集中的正样本，该正样本对应的第一标签标识该正样本匹配的指令语音元素序列对应的指令词与该正样本对应的语音样本实际包含的指令词一致，例如，该正样本对应的第一标签可以表示为“1”。

在另一种可能的实施方式中，将基于解码网络，获取的负语音样本对应的语音元素序列作为样本集中的负样本，确定该负样本对应的第一标签标识该负样本匹配的指令语音元素序列对应的指令词与该负样本对应的语音样本实际包含的指令词不一致，例如，该负样本对应的第一标签可以表示为“0”。

方式二：由于在后续实际使用过程中，验证模型是要与解码网络配套使用的，因此，在确定样本集中的语音元素序列样本时，可以通过解码网络进行相应的处理后确定。具体的，获取候选样本集中任一语音样本，基于解码网络，获取该语音样本的语音元素序列(为了方便描述，并与上述实施例中的语音元素序列进行区分，即为第二语音元素序列)。然后将该第二语音元素序列与预先配置的任一指令语音元素序列进行匹配，当确定该第二语音元素序列与任一指令语音元素序列匹配，且匹配的指令语音元素序列对应的指令词与该语音样本对应的第二标签一致时，说明该语音样本是被正确识别的，则确定该语音样本对应的第二语音元素序列为样本集中的正样本，而正样本对应的第一标签标识与正样本匹配的指令语音元素序列对应的指令词与正样本对应的语音样本实际包含的指令词一致，例如，该正样本对应的第一标签可以表示为“1”。

在另一种可能的实施方式中，所述方法还包括：

若所述第二语音元素序列与预先配置的任一指令语音元素序列匹配，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签不一致，则确定所述语音样本对应的第二语音元素序列为所述样本集中的负样本，所述负样本对应的第一标签标识与所述负样本匹配的指令语音元素序列对应的指令词与所述负样本对应的语音样本实际包含的指令词不一致。

具体的，当确定该第二语音元素序列与任一指令语音元素序列不匹配，且匹配的指令语音元素序列对应的指令词与该语音样本对应的第二标签不一致时，说明存在词间干扰或误识别的问题，则该语音样本对应的第二语音元素序列为样本集中的负样本，确定该负样本对应的第一标签标识与该负样本匹配的指令语音元素序列对应的指令词与该负样本对应的语音样本实际包含的指令词不一致，例如，该负样本对应的第一标签可以表示为“0”。

需要说明的是，在本发明实施例中，可以只基于方式一确定的正样本、负样本及其对应的第一标签，对原始验证模型进行训练，也可以只基于方式二确定的正样本、负样本及其对应的第一标签，对原始验证模型进行训练。当然，两种方式确定的正样本、负样本也可以随意组合，比如，将方式一确定的全部正样本、方式二确定的全部负样本进行组合；又如，将方式一确定的部分正样本、方式二确定的部分负样本进行组合；再如，将方式一、方式二分别确定的部分正样本、方式一、方式二分别确定的部分负样本进行组合等组合方式，通过组合后的正样本、负样本及其对应的第一标签，对原始验证模型进行训练。

实施例5：本实施例提供了另一种获取样本集中的语音元素序列样本及其对应的第一标签的方式，具体如下：

针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列，所述临时语音段由该预设第一数量的语音帧及该预设第一数量的语音帧之前的每个语音帧确定；若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与所述语音样本对应的第二标签一致，则确定所述连续设定第二数量的第三语音元素序列均为所述样本集中的正样本，所述正样本对应的第一标签标识与所述正样本匹配的指令语音元素序列对应的指令词与所述正样本对应的语音样本实际包含的指令词一致。

在实际应用场景中，如果基于解码网络，对智能设备采集的语音信息采用语音数据流的形式进行语音识别，即每获取到语音信息的连续预设第一数量的语音帧后，便基于解码网络，获取该连续预设第一数量语音帧及该连续预设第一数量语音帧之前的每个语音帧对应的第一语音元素序列，则对于采集的一条语音信息可能获取到多个第一语音元素序列。而由于每相邻的语音帧之间是具有相关性的，如果基于解码网络，确定连续多个第一语音元素序列均匹配了错误的指令语音元素序列，则很可能存在词间干扰或误识别的问题，而如果连续多个第一语音元素序列均匹配了正确的指令语音元素序列，则一般不存在词间干扰或误识别的问题。

因此，在本发明实施例中，获取了候选样本集中的任一语音样本后，针对语音样本中每连续预设第一数量的语音帧，通过解码网络，确定临时语音段的语音元素序列(为了方便描述，记为第三语音元素序列)。其中，该临时语音段由该连续预设第一数量的语音帧以及该连续预设第一数量的语音帧之前的每个语音帧确定。当获取到第三语音元素序列之后，判断当前获取的连续设定第二数量的第三语音元素序列是否均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词是否均与该语音样本对应的第二标签一致。

若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与该语音样本对应的第二标签一致，说明不存在词间干扰或误识别的问题，则将该连续设定第二数量的第三语音元素序列均确定为样本集中的正样本，并确定正样本对应的第一标签标识与该正样本匹配的指令语音元素序列对应的指令词与正样本对应的语音样本实际包含的指令词一致，例如，该正样本对应的第一标签可以表示为“1”。

基于上述的方式，通过该语音样本可以得到设定第二数量的正样本。

例如，设定第二数量为3，某一语音样本A对应的第二标签为“z”，当确定连续的3个第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均为“z”，均与第二标签“z”一致，则确定该连续的3个第三语音元素序列均为样本集中的正样本，每个正样本对应的第一标签均标识与该正样本匹配的指令语音元素序列对应的指令词与正样本对应的语音样本实际包含的指令词一致，该正样本对应的第一标签可以表示为“1”。

其中，由于样本集中的正样本对应的语音样本一定是包含有指令词的语音样本，则为了减少确定正样本时所耗费的资源，可以从候选样本集中包含有指令词的语音样本中，确定样本集中的正样本，具体的，获取候选样本集中包含有指令词的任一语音样本，针对该语音样本中每连续预设第一数量的语音帧，通过解码网络，确定临时语音段的第三语音元素序列。当获取到第三语音元素序列之后，若当前获取的连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与该语音样本对应的第二标签一致，则确定该连续设定第二数量的第三语音元素序列均为样本集中的正样本，第一标签表示为“1”，根据该语音样本可以得到设定第二数量的正样本。

在另一种可能的实施方式中，所述方法还包括：若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与所述语音样本对应的第二标签不一致，则确定所述连续设定第二数量的第三语音元素序列均为所述样本集中的第一负样本，所述第一负样本对应的第一标签标识与所述第一负样本匹配的指令语音元素序列对应的指令词与所述第一负样本对应的语音样本实际包含的指令词不一致。

在具体实施中，若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与该语音样本对应的第二标签不一致，说明极有可能存在词间干扰或误识别的问题，则将该连续设定第二数量的第三语音元素序列均确定为样本集中的负样本(为了方便描述，记为第一负样本)，并确定第一负样本对应的第一标签标识与该第一负样本匹配的指令语音元素序列对应的指令词与第一负样本对应的语音样本实际包含的指令词不一致，例如，该第一负样本对应的第一标签可以表示为“0”。

基于上述的方式，通过该语音样本可以得到设定第二数量的第一负样本。

例如，设定第二数量为3，某一语音样本A对应的第二标签为“z”，当确定连续的3个第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词分别为“x”、“o”、“l”，均与第二标签“z”不一致，则将该连续的3个第三语音元素序列均确定为样本集中的第一负样本，并确定第一负样本对应的第一标签标识与该第一负样本匹配的指令语音元素序列对应的指令词与第一负样本对应的语音样本实际包含的指令词不一致，该第一负样本对应的第一标签可以表示为“0”。

其中，由于样本集中的存在将实际包含的指令词误识别为其他指令词的问题的第一负样本对应的语音样本一定是包含有指令词的语音样本，则为了减少确定存在将实际包含的指令词误识别为其他指令词的问题的第一负样本时所耗费的资源，可以从候选样本集中包含有指令词的语音样本中，确定样本集中存在将实际包含的指令词误识别为其他指令词的问题的第一负样本。

在另一种可能的实施方式中，由于样本集中的存在将实际不包含的指令词误识别为包含指令词的问题的第一负样本对应的语音样本一定是不包含有指令词的语音样本，则为了减少确定存在将实际不包含的指令词误识别为包含指令词的第一负样本时所耗费的资源，可以从候选样本集中包含有指令词的语音样本中，确定样本集中存在将实际不包含的指令词误识别为包含指令词的第一负样本。

实施例6：为了可以让验证模型学习到负样本中更多的特征，以使后续通过预先训练完成的验证模型，尽可能识别出未被正确识别的语音信息，从而进一步提高控制智能设备的准确性，在上述实施例的基础上，在本发明实施例中，所述针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列之后，所述方法还包括：

若确定所述第三语音元素序列存在匹配的指令语音元素序列，则基于所述第三语音元素序列，确定第三组合向量；若通过当前的验证模型，根据所述第三组合向量，确定所述语音样本被正确识别，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签不一致，则确定所述语音样本的第三语音元素序列为所述样本集中的第二负样本，并确定所述第二负样本对应的第一标签；

基于所述样本集中的第二负样本及其对应的第一标签，对所述当前的验证模型进行训练。

在实际应用场景中，基于解码网络，对智能设备采集的语音信息是进行流式识别的，通过上述实施例收集的第一负样本可能只包含了该负样本对应的语音样本中的部分特征，即只学习到了第一负样本对应的语音样本的前缀部分的特征，导致基于该第一负样本及其对应的第一标签，训练出的验证模型的精确度并不是很高，无法更好的根除误识别或词间干扰的问题。因此，为了使训练的验证模型更精确，在本发明实施例中，样本集中的负样本要收集两遍。具体的，可以在基于样本集中部分或全部语音元素序列样本训练了验证模型之后，基于解码网络以及当前的验证模型，再从候选样本集中第二遍收集负样本(记为第二负样本)。基于第二负样本，对当前的验证模型进行训练。

其中，当前的验证模型表征的是验证模型在训练过程中的状态，其可以是对原始验证模型训练过程中，获取到的某一中间态的验证模型，也可以是基于样本集中的正样本以及第一负样本，训练完成的验证模型。

具体的，基于上述实施例的方法，获取到临时语音段的第三语音元素序列之后，将该第三语音元素序列与预先配置的任一指令语音元素序列进行匹配。若确定该第三语音元素序列不存在匹配的指令语音元素序列，则获取候选样本集中的下一语音样本。若确定该第三语音元素序列存在匹配的指令语音元素序列，则基于该第三语音元素序列，确定第三组合向量。通过当前的验证模型，根据该第三组合向量，确定该语音样本是否被正确识别。若通过当前的验证模型，根据该第三组合向量，确定该语音样本被正确识别，且匹配的指令语音元素序列对应的指令词与该语音样本对应的第二标签不一致，说明可能存在词间干扰或误识别的问题，则确定该语音样本对应的第三语音元素序列为样本集中的第二负样本，并确定该第二负样本对应的第一标签标识与该第二负样本匹配的指令语音元素序列对应的指令词与该第二负样本对应的语音样本实际包含的指令词不一致，例如，该第二负样本对应的第二标签也可以表示为“0”。

由于候选样本集中包含有大量的语音样本，针对每个语音样本，执行上述的操作，从而确定样本集中的每个第二负样本及其分别对应的第一标签。

其中，由于样本集中的存在将实际包含的指令词误识别为其他指令词的问题的第二负样本对应的语音样本一定是包含有指令词的语音样本，则为了减少确定存在将实际包含的指令词误识别为其他指令词的问题的第二负样本时所耗费的资源，可以从候选样本集中包含有指令词的语音样本中，确定样本集中存在将实际包含的指令词误识别为其他指令词的问题的第二负样本。

在另一种可能的实施方式中，由于样本集中的存在将实际不包含的指令词误识别为包含指令词的问题的第二负样本对应的语音样本一定是不包含有指令词的语音样本，为了减少确定存在将实际不包含的指令词误识别为包含指令词的第二负样本所耗费的资源，可从候选样本集中包含有指令词的语音样本中，确定样本集中存在将实际不包含的指令词误识别为包含指令词的第二负样本。

当确定每个第二负样本及其分别对应的第一标签后，可以基于第二负样本及其对应的第一标签，对当前的验证模型再次进行训练。

在一种可能的实施方式中，为了减少用于对当前的验证模型进行训练所耗费的时间，可以只根据获取的第二负样本及其对应的第一标签，对当前的验证模型进行训练。但为了进一步提高训练的验证模型的精度，在本发明实施例中，可以根据样本集中的正样本、第二负样本及其分别对应的第一标签，一起对当前的验证模型进行训练。当然，也可以根据样本集中的正样本、第一负样本、第二负样本及其分别对应的第一标签，共同对当前的验证模型进行训练。具体的，所述基于所述样本集中的第二负样本及其对应的第一标签，对所述当前的验证模型进行训练，包括：

基于所述样本集中的第二负样本、正样本及其分别对应的第一标签，对所述当前的验证模型进行训练；或

基于所述样本集中的第一负样本、第二负样本、正样本及其分别对应的第一标签，对所述当前的验证模型进行训练。

在本发明实施例中，可以基于样本集中部分或全部的正样本、部分或全部的第二负样本及其对应的第一标签，对当前的验证模型进行训练，也可以基于样本集中部分或全部的正样本、部分或全部的第一负样本、部分或全部的第二负样本及其对应的第一标签，对当前的验证模型进行训练。

需要说明的是，对当前的验证模型进行训练的过程与上述实施例中对原始验证模型训练的方法相同，在此不再赘述。

实施例7：图2为本发明实施例提供的具体的语音信息的处理流程示意图，该方法实施流程包括验证模型的训练，语音信息处理两个部分，下面以进行语音信息处理的电子设备为服务器进行说明：

第一部分声验证模型训练包括如下步骤：

S201：服务器确定样本集中的语音元素序列样本及对应的第一标签。

S202：服务器获取样本集中的任一语音元素序列样本，以及对应的第一标签，基于语音元素序列样本，确定第二组合向量；根据所述第二组合向量以及所述第一标签，对原始验证模型进行训练。

S203：服务器确定样本集中的第二负样本以及对应的第一标签。

S204：服务器基于样本集中第一负样本、第二负样本、正样本及其分别对应的第一标签，对上述S202中获取的当前的验证模型进行训练。

在进行验证模型训练的过程中，一般采用离线的方式，服务器预先通过样本集中的语音元素序列样本对原始验证模型进行训练，以获得训练完成的验证模型。

第二部分是语音信息处理，基于上述服务器预先训练完成的验证模型，将上述预先训练完成的验证模型保存到后续进行语音信息处理的电子设备中，进行语音信息处理的电子设备可以是服务器，也可以是智能设备，无论哪种执行主体，进行语音信息处理，具体实现包括如下步骤：

S205：获取智能设备采集的语音信息的连续预设第一数量的语音帧。

S206：通过幅度AM特征提取算法，进行特征提取，获得该连续预设第一数量的语音帧分别对应的特征向量。

S207：通过声学模型，根据该连续预设第一数量的语音帧分别对应的特征向量，获取该连续预设第一数量的语音帧分别对应的输出向量，其中，任一语音帧的输出向量中包括该语音帧为静音帧的概率，以及该语音帧包含的内容信息为每种语音元素的概率。

S208：通过解码网络，获取临时语音段对应的第一语音元素序列，其中，该临时语音段由该连续预设第一数量的语音帧以及该连续预设第一数量的语音帧之前的每个语音帧确定。

S209：当判断该第一语音元素序列，是否与预先配置的任一指令语音元素序列匹配，若是，执行S210，否则，执行S205。

S210：基于该第一语音元素序列，确定第一组合向量。

S211：通过预先训练完成的验证模型，根据第一组合向量，获取语音信息被正确识别的概率。

S212：判断概率是否大于决策阈值，若是，则执行S213，否则，执行S214。

S213：响应该语音信息。

若电子设备为服务器，则向智能设备发送控制指令，该控制指令以控制智能设备执行匹配的指令语音元素序列对应的指令词对应的操作。若电子设备为智能设备，则直接执行匹配的指令语音元素序列对应的指令词对应的操作。

S214：拒绝响应该语音信息，并获取该语音信息的下一连续预设第一数量的语音帧，然后执行S206。

其中，若电子设备为服务器，则确定拒绝响应语音信息时，可以向智能设备发送控制指令，该控制指令以告知智能设备不需要响应该语音信息，也可以不向智能设备发送任何控制指令。若电子设备为智能设备，则直接拒绝响应该语音信息。

需要说明的是，后续进行语音信息处理的服务器与进行验证模型训练的服务器可以相同，也可以不同，在此不做具体限定。

实施例8：图3为本发明实施例提供的一种语音信息的处理装置的结构示意图，该装置包括：

解码单元31，用于基于解码网络，获取智能设备采集的语音信息对应的第一语音元素序列；

第一处理单元32，用于若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列，确定第一组合向量；

第二处理单元33，用于若通过预先训练的验证模型，根据所述第一组合向量，确定所述语音信息被正确识别，控制所述智能设备执行所述匹配的指令语音元素序列对应的指令词的操作。

在一种可能的实施方式中，所述处理单元33，还用于若通过所述验证模型，根据所述第一组合向量，确定所述语音信息未被正确识别，则拒绝响应所述语音信息。

在一种可能的实施方式中，所述第一处理单元32，具体用于：

若所述语音信息的特征信息中包括每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，以及每个语音帧对应的特征向量，根据每个语音帧对应的特征向量，确定平均特征向量；根据该语音帧为静音帧的概率、该语音帧包含的内容信息为每种语音元素的概率，确定该语音帧对应的概率差值；根据所述第一语音元素序列、所述平均特征向量、以及所述每个语音帧对应的概率差值，确定所述第一组合向量。

在一种可能的实施方式中，所述第一处理单元32，具体用于：若根据所述第一语音元素序列确定该语音帧为静音帧，则确定该语音帧为静音帧的概率、及包含的内容信息为每种语音元素的概率中的第一极值，根据所述第一极值、该语音帧为静音帧的概率中的任意两者之间差值，确定该语音帧对应的概率差值；或者，若根据所述第一语音元素序列确定该语音帧对应目标语音元素，确定该语音帧为静音帧的概率、以及该语音帧包含的内容信息为每种语音元素的概率中的第二极值，根据所述第二极值、该语音帧包含的内容信息为所述目标语音元素的概率中的任意两者之间的差值，确定该语音帧对应的概率差值。

实施例9：图4为本发明实施例提供的一种验证模型的训练装置的结构示意图，该装置包括：

获取模块41，用于获取样本集中的任一语音元素序列样本，以及对应的第一标签，该第一标签标识与该语音元素序列样本匹配的指令语音元素序列对应的指令词，是否与该语音元素序列样本对应的语音样本实际包含的指令词一致；

确定模块42，用于基于所述语音元素序列样本，确定第二组合向量；

训练模块43，用于根据所述第二组合向量以及所述第一标签，对原始验证模型进行训练。

在一种可能的实施方式中，装置还包括：

第一样本收集模块，用于获取候选样本集中的任一语音样本，所述语音样本对应有第二标签，所述第二标签标识所述语音样本不包含指令词，或为所述语音样本包含的指令词；基于解码网络，获取所述语音样本对应的第二语音元素序列；若所述第二语音元素序列与预先配置的任一指令语音元素序列匹配，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签一致，则确定所述语音样本对应的第二语音元素序列为所述样本集中的正样本，所述正样本对应的第一标签标识与所述正样本匹配的指令语音元素序列对应的指令词与所述正样本对应的语音样本实际包含的指令词一致。

在一种可能的实施方式中，第一样本收集模块，还用于若所述第二语音元素序列与预先配置的任一指令语音元素序列匹配，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签不一致，则确定所述语音样本对应的第二语音元素序列为所述样本集中的负样本，所述负样本对应的第一标签标识与所述负样本匹配的指令语音元素序列对应的指令词与所述负样本对应的语音样本实际包含的指令词不一致。

在一种可能的实施方式中，装置还包括：

第二样本收集模块，用于获取候选样本集中的任一语音样本，所述语音样本对应有第二标签，所述第二标签标识所述语音样本不包含指令词，或为所述语音样本包含的指令词；针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列，所述临时语音段由该预设第一数量的语音帧及该预设第一数量的语音帧之前的每个语音帧确定；若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与所述语音样本对应的第二标签一致，则确定所述连续设定第二数量的第三语音元素序列均为所述样本集中的正样本，所述正样本对应的第一标签标识与所述正样本匹配的指令语音元素序列对应的指令词与所述正样本对应的语音样本实际包含的指令词一致。

在一种可能的实施方式中，第二样本收集模块，还用于若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与所述语音样本对应的第二标签不一致，则确定所述连续设定第二数量的第三语音元素序列均为所述样本集中的第一负样本，所述第一负样本对应的第一标签标识与所述第一负样本匹配的指令语音元素序列对应的指令词与所述第一负样本对应的语音样本实际包含的指令词不一致。

在一种可能的实施方式中，第二样本收集模块，还用于针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列之后，若确定所述第三语音元素序列存在匹配的指令语音元素序列，则基于所述第三语音元素序列，确定第三组合向量；若通过当前的验证模型，根据所述第三组合向量，确定所述语音样本被正确识别，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签不一致，则确定所述语音样本的第三语音元素序列为所述样本集中的第二负样本，并确定所述第二负样本对应的第一标签；

训练模块43，还用于基于所述样本集中的第二负样本及其对应的第一标签，对所述当前的验证模型进行训练。

在一种可能的实施方式中，训练模块43，具体用于基于所述样本集中的第二负样本、正样本及其分别对应的第一标签，对所述当前的验证模型进行训练；或，基于所述样本集中的第一负样本、第二负样本、正样本及其分别对应的第一标签，对所述当前的验证模型进行训练。

实施例10：图5为本发明实施例提供的一种电子设备结构示意图，该电子设备，包括：处理器51、通信接口52、存储器53和通信总线54，其中，处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信；

所述存储器53中存储有计算机程序，当所述程序被所述处理器51执行时，使得所述处理器51执行如下步骤：

基于解码网络，获取智能设备采集的语音信息对应的第一语音元素序列；若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列，确定第一组合向量；若通过预先训练的验证模型，根据所述第一组合向量，确定所述语音信息被正确识别，控制所述智能设备执行所述匹配的指令语音元素序列对应的指令词的操作。

由于上述电子设备解决问题的原理与语音信息的处理方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口52用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例11：图6为本发明实施例提供的另一种电子设备结构示意图，该电子设备，包括：处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信；

所述存储器63中存储有计算机程序，当所述程序被所述处理器61执行时，使得所述处理器61执行如下步骤：

获取样本集中的任一语音元素序列样本，以及对应的第一标签，所述第一标签标识与所述语音元素序列样本匹配的指令语音元素序列对应的指令词，是否与所述语音元素序列样本对应的语音样本实际包含的指令词一致；基于所述语音元素序列样本，确定第二组合向量；根据所述第二组合向量以及所述第一标签，对原始验证模型进行训练。

由于上述电子设备解决问题的原理与验证模型的训练方法相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

上述电子设备提到的通信总线可以是PCI总线或EISA总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口62用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括NVM，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、NP等；还可以是DSP、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例12：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

由于计算机可读存储介质解决问题的原理与上述语音信息的处理方法相似，因此具体实施可以参见语音信息的处理方法的实施，重复之处不再赘述。

实施例13：在上述各实施例的基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

由于计算机可读存储介质解决问题的原理与上述验证模型的训练方法相似，因此具体实施可以参见语音信息的处理方法的实施，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音信息的处理方法，其特征在于，所述方法包括：

若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列、以及所述语音信息的特征信息，确定第一组合向量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若通过所述验证模型，根据所述第一组合向量，确定所述语音信息未被正确识别，则拒绝响应所述语音信息。

3.根据权利要求1所述的方法，其特征在于，所述语音信息的特征信息包括以下至少一种：每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，每个语音帧对应的特征向量，所述语音信息包含的语音帧的数量，以及所述语音信息的语音帧中包含的静音帧的信息。

4.根据权利要求3所述的方法，其特征在于，若所述语音信息的特征信息中包括每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，以及每个语音帧对应的特征向量，所述根据所述第一语音元素序列、以及所述语音信息的特征信息，确定第一组合向量，包括：

根据每个语音帧对应的特征向量，确定平均特征向量；

5.根据权利要求4所述的方法，其特征在于，所述根据该语音帧为静音帧的概率、该语音帧包含的内容信息为每种语音元素的概率，确定该语音帧对应的概率差值，包括：

若根据所述第一语音元素序列确定该语音帧为静音帧，则确定该语音帧为静音帧的概率、及包含的内容信息为每种语音元素的概率中的第一极值，根据所述第一极值、该语音帧为静音帧的概率中的任意两者之间差值，确定该语音帧对应的概率差值；或者

6.根据权利要求3-5任一项所述的方法，其特征在于，任一语音帧对应的特征向量为所述语音帧对应的梅尔倒谱系数MFCC特征、所述语音帧对应的滤波器组FBank特征、所述语音帧对应的幅度AM特征中的至少一种。

7.一种验证模型的训练方法，其特征在于，所述方法包括：

基于所述语音元素序列样本、以及所述语音信息的特征信息，确定第二组合向量；

8.根据权利要求7所述的方法，其特征在于，所述样本集中的语音元素序列样本以及对应的第一标签通过如下方式确定：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求7所述的方法，其特征在于，所述样本集中的语音元素序列样本以及对应的第一标签通过如下方式确定：

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与所述语音样本对应的第二标签不一致，则确定所述连续设定第二数量的第三语音元素序列均为所述样本集中的第一负样本，所述第一负样本对应的第一标签标识与所述第一负样本匹配的指令语音元素序列对应的指令词与所述第一负样本对应的语音样本实际包含的指令词不一致。

12.根据权利要求11所述的方法，其特征在于，所述针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列之后，所述方法还包括：

若确定所述第三语音元素序列存在匹配的指令语音元素序列，则基于所述第三语音元素序列，确定第三组合向量；

若通过当前的验证模型，根据所述第三组合向量，确定所述语音样本被正确识别，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签不一致，则确定所述语音样本的第三语音元素序列为所述样本集中的第二负样本，并确定所述第二负样本对应的第一标签；

13.根据权利要求12所述的方法，其特征在于，所述基于所述样本集中的第二负样本及其对应的第一标签，对所述当前的验证模型进行训练，包括：

14.一种语音信息的处理装置，其特征在于，所述装置包括：

第一处理单元，用于若所述第一语音元素序列与预先配置的任一指令语音元素序列匹配，基于所述第一语音元素序列、以及所述语音信息的特征信息，确定第一组合向量；

15.根据权利要求14所述的装置，其特征在于，所述处理单元，还用于若通过所述验证模型，根据所述第一组合向量，确定所述语音信息未被正确识别，则拒绝响应所述语音信息。

16.根据权利要求15所述的装置，其特征在于，所述语音信息的特征信息包括以下至少一种：每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，每个语音帧对应的特征向量，所述语音信息包含的语音帧的数量，以及所述语音信息的语音帧中包含的静音帧的信息。

17.根据权利要求16所述的装置，其特征在于，所述第一处理单元，具体用于：

若所述语音信息的特征信息中包括每个语音帧为静音帧的概率、每个语音帧包含的内容信息为每种语音元素的概率，以及每个语音帧对应的特征向量，根据每个语音帧对应的特征向量，确定平均特征向量；针对每个语音帧，根据该语音帧为静音帧的概率、该语音帧包含的内容信息为每种语音元素的概率，确定该语音帧对应的概率差值；根据所述第一语音元素序列、所述平均特征向量、以及所述每个语音帧对应的概率差值，确定所述第一组合向量。

18.根据权利要求17所述的装置，其特征在于，所述第一处理单元，具体用于：

若根据所述第一语音元素序列确定该语音帧为静音帧，则确定该语音帧为静音帧的概率、及包含的内容信息为每种语音元素的概率中的第一极值，根据所述第一极值、该语音帧为静音帧的概率中的任意两者之间差值，确定该语音帧对应的概率差值；或者，若根据所述第一语音元素序列确定该语音帧对应目标语音元素，确定该语音帧为静音帧的概率、以及该语音帧包含的内容信息为每种语音元素的概率中的第二极值，根据所述第二极值、该语音帧包含的内容信息为所述目标语音元素对应的概率中的任意两者之间的差值，确定该语音帧对应的概率差值。

19.一种验证模型的训练装置，其特征在于，所述装置包括：

确定模块，用于基于所述语音元素序列样本、以及所述语音信息的特征信息，确定第二组合向量；

20.根据权利要求19所述的装置，其特征在于，所述装置还包括第一样本收集模块，用于：

获取候选样本集中的任一语音样本，所述语音样本对应有第二标签，所述第二标签标识所述语音样本不包含指令词，或为所述语音样本包含的指令词；基于解码网络，获取所述语音样本对应的第二语音元素序列；若所述第二语音元素序列与预先配置的任一指令语音元素序列匹配，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签一致，则确定所述语音样本对应的第二语音元素序列为所述样本集中的正样本，所述正样本对应的第一标签标识与所述正样本匹配的指令语音元素序列对应的指令词与所述正样本对应的语音样本实际包含的指令词一致。

21.根据权利要求20所述的装置，其特征在于，所述第一样本收集模块，还用于：

22.根据权利要求19所述的装置，其特征在于，所述装置还包括第二样本收集模块，用于：

获取候选样本集中的任一语音样本，所述语音样本对应有第二标签，所述第二标签标识所述语音样本不包含指令词，或为所述语音样本包含的指令词；针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列，所述临时语音段由该预设第一数量的语音帧及该预设第一数量的语音帧之前的每个语音帧确定；若连续设定第二数量的第三语音元素序列均存在匹配的指令语音元素序列，且每个匹配的指令语音元素序列对应的指令词均与所述语音样本对应的第二标签一致，则确定所述连续设定第二数量的第三语音元素序列均为所述样本集中的正样本，所述正样本对应的第一标签标识与所述正样本匹配的指令语音元素序列对应的指令词与所述正样本对应的语音样本实际包含的指令词一致。

23.根据权利要求22所述的装置，其特征在于，所述第二样本收集模块，还用于：

24.根据权利要求23所述的装置，其特征在于，

所述第二样本收集模块，还用于针对所述语音样本中每连续预设第一数量的语音帧，基于解码网络，确定临时语音段的第三语音元素序列之后，若确定所述第三语音元素序列存在匹配的指令语音元素序列，则基于所述第三语音元素序列，确定第三组合向量；若通过当前的验证模型，根据所述第三组合向量，确定所述语音样本被正确识别，且匹配的指令语音元素序列对应的指令词与所述语音样本对应的第二标签不一致，则确定所述语音样本的第三语音元素序列为所述样本集中的第二负样本，并确定所述第二负样本对应的第一标签；

所述训练模块，还用于基于所述样本集中的第二负样本及其对应的第一标签，对所述当前的验证模型进行训练。

25.根据权利要求24所述的装置，其特征在于，所述训练模块具体用于：

26.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一所述语音信息的处理方法的步骤，或者实现如权利要求7-13中任一所述验证模型的训练方法的步骤。

27.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述语音信息的处理方法的步骤，或者实现如权利要求7-13中任一所述验证模型的训练方法的步骤。