CN108932944B

CN108932944B - 解码方法及装置

Info

Publication number: CN108932944B
Application number: CN201710993273.4A
Authority: CN
Inventors: 杨鹏
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-07-30
Anticipated expiration: 2037-10-23
Also published as: CN108932944A

Abstract

本发明提出一种解码方法及装置，其中方法包括：通过基于声学模型，确定待识别语音信号对应的建模单元序列；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；从而能够根据当前语音环境，获取与当前语音环境匹配的解码网络，对待识别语音信号对应的建模单元序列进行解码，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

Description

解码方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种解码方法及装置。

背景技术

目前，智能设备例如智能音箱与用户进行交互的方式为，在智能设备处于待机状态时，智能设备中的语音唤醒系统始终处于运行状态，不停地监听周围的语音信号并进行识别，在识别到唤醒指令时，智能设备转换到唤醒状态，与用户进行交互，根据用户的指令进行相应操作。

然而，现有技术中，当智能设备处于大音量工作状态时，由于智能设备自身声音存在的回声噪音等，导致智能设备难以识别到用户的唤醒指令，或者将智能设备发出的声音等误识别为用户的唤醒指令，降低了智能设备识别唤醒指令的准确度，降低了用户使用智能设备的体验。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种解码方法，用于解决现有技术中智能设备识别唤醒指令的准确度低，影响用户使用智能设备体验的问题。

本发明的第二个目的在于提出一种解码装置。

本发明的第三个目的在于提出一种电子设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种解码方法，包括：

基于声学模型，确定待识别语音信号对应的建模单元序列；

基于当前解码网络，对所述建模单元序列进行解码；其中，所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。

进一步的，所述多个解码网络的垃圾词路径数量不同。

进一步的，所述当前语音环境包括：智能设备的播放音量、环境噪音中的至少一种。

进一步的，所述环境噪音采用如下方式确定：

对所述待识别语音信号进行识别，确定环境噪音；或者，

根据待识别语音信号发出前的声音信号，确定环境噪音。

进一步的，在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个解码网络中选取与所述当前语音环境匹配的解码网络作为当前解码网络：

若所述播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准，则从多个解码网络中选取第一解码网络作为当前解码网络；

若所述播放音量小于预设值，且环境噪音符合预设的静音标准，则从多个解码网络中选取第二解码网络作为当前解码网络；

所述第一解码网络中垃圾词路径数量小于所述第二解码网络中垃圾词路径数量。

进一步的，基于声学模型，确定待识别语音信号对应的建模单元序列，包括：

基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。

进一步的，所述多个声学模型根据不同语音环境下的训练数据生成。

进一步的，在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个声学模型中选取与所述当前语音环境匹配的声学模型作为当前声学模型：

若所述播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准，则从多个声学模型中选取第一声学模型作为当前声学模型；

若所述播放音量小于预设值，且环境噪音符合预设的静音标准，则从多个声学模型中选取第二声学模型作为当前声学模型；

所述第一声学模型根据播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成；

所述第二声学模型根据播放音量小于预设值，且环境噪音符合预设的静音标准的语音环境下的训练数据生成。

进一步的，所述的方法还包括：

若根据解码结果确定所述待识别语音信号中存在关键词，则将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型，得到所述待识别语音信号对应的置信度；

在所述待识别语音信号对应的置信度大于置信度阈值时，唤醒智能设备。

本实施例提供的解码方法，通过基于声学模型，确定待识别语音信号对应的建模单元序列；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；从而能够根据当前语音环境，获取与当前语音环境匹配的解码网络，对待识别语音信号对应的建模单元序列进行解码，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

为达上述目的，本发明第二方面实施例提出了一种解码装置，包括：

确定模块，用于基于声学模型，确定待识别语音信号对应的建模单元序列；

解码模块，用于基于当前解码网络，对所述建模单元序列进行解码；其中，所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。

进一步的，所述多个解码网络的垃圾词路径数量不同。

进一步的，所述环境噪音采用如下方式确定：

对所述待识别语音信号进行识别，确定环境噪音；或者，

根据待识别语音信号发出前的声音信号，确定环境噪音。

进一步的，所述确定模块，具体用于基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。

进一步的，所述的装置还包括：

唤醒模块，用于在根据解码结果确定所述待识别语音信号中存在关键词时，将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型，得到所述待识别语音信号对应的置信度；

本实施例提供的解码装置，通过基于声学模型，确定待识别语音信号对应的建模单元序列；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；从而能够根据当前语音环境，获取与当前语音环境匹配的解码网络，对待识别语音信号对应的建模单元序列进行解码，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

为达上述目的，本发明第三方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的解码方法。

为了实现上述目的，本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的解码方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种解码方法，所述方法包括：

基于声学模型，确定待识别语音信号对应的建模单元序列；

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种解码方法的流程示意图；

图2为解码网络的示意图；

图3为第二解码网络的示意图；

图4为第一解码网络的示意图；

图5为本发明实施例提供的另一种解码方法的流程示意图；

图6为本发明实施例提供的另一种解码方法的流程示意图；

图7为本发明实施例提供的一种解码装置的结构示意图；

图8为本发明实施例提供的另一种解码装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的解码方法及装置。

图1为本发明实施例提供的一种解码方法的流程示意图。如图1所示，该解码方法包括以下步骤：

S101、基于声学模型，确定待识别语音信号对应的建模单元序列。

本发明提供的解码方法的执行主体为解码装置，解码装置可以为安装在智能设备上的硬件或者软件，例如语音唤醒系统。智能设备例如可以为，智能音箱、智能空调、智能洗衣机、智能电视等可以与用户进行交互，根据用户的指令进行相应操作的设备。

本实施例中，解码装置执行步骤101的过程具体可以为，获取待识别语音信号；对待识别语音信号进行特征提取，获取待识别语音信号中的特征向量序列；将特征向量序列输入声学模型，得到待识别语音信号对应的建模单元序列。其中，解码装置可以先对待识别语音信号进行分帧处理得到帧序列，进而对帧序列中的各帧进行特征提取，得到特征向量序列。

本实施例中，声学模型可以为基于建模单元构建的神经网络模型。神经网络模型的构建可以基于深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Networks，RNN)等，此处不做具体限定。建模单元的语音元素可以为：音素、声韵母、音节、词等等。本实施例中，可以通过获取智能设备的唤醒词语料和非唤醒词语料；对唤醒词语料和非唤醒词语料进行拆分，获取语音元素，根据语音元素构建关键词建模单元和垃圾词建模单元，进而生成初始声学模型，根据训练数据对初始声学模型进行训练，得到声学模型。例如，本实施例中的声学模型可以包括：N1数量的关键词建模单元和N2数量的垃圾词建模单元。

S102、基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。

本实施例中，解码网络包括：关键词路径、伪关键词路径、垃圾词路径和空路径；上述各种路径为根据各种建模单元构建的路径。例如，关键词路径为根据关键词建模单元构建的路径；伪关键词路径为根据部分关键词建模单元以及部分垃圾词建模单元构建的路径；垃圾词路径为根据垃圾词建模单元构建的路径。其中，伪关键词路径、垃圾词路径和空路径均属于没识别到关键词的路径。如图2所示，为解码网络的示意图，在图2中，“xiao-bao-xiao-bao”为关键词路径，“xiao-bao-others”和“xiao-others”为伪关键词路径，其他路径为垃圾词路径。

本实施例中，当前语音环境可以包括：智能设备的播放音量、环境噪音中的至少一种。智能设备的播放音量和环境噪音为影响解码效果的主要因素。其中，智能设备的播放音量可以从智能设备的播放器中采集，或者从智能设备的控制器中获取，或者对待识别语音信号进行识别获取，或者根据待识别语音信号发出前采集的智能设备的声音信号进行识别获取，可以根据需要进行设置，此处不做具体限定。而环境噪音采用如下方式确定：对待识别语音信号进行识别，确定环境噪音；或者，根据待识别语音信号发出前的声音信号，确定环境噪音。

本实施例中，由于在智能设备大音量和/或环境噪音较大的情况下，待识别语音信号中掺杂了大量噪音，即使待识别语音信号中包含关键词，由于声学模型是使用关键词语料以及非关键词语料的混合语料进行训练得到的，对于包含了大量噪音的待识别语音信号，难以提取到有效的建模单元序列，导致解码网络输出的解码结果中关键词路径的得分概率会变低很多，而伪关键词路径和垃圾词路径的得分概率降低有限，此时如果非关键词路径的得分高于关键词路径的得分，则将包含关键词的待识别语音信号，识别为未包含关键词，唤醒失败，降低了智能设备识别唤醒指令的准确度，影响用户使用智能设备的体验，因此，需要构建具备不同垃圾词路径数量的多个解码网络，分别用于不同的语音环境。

针对播放音量小于预设值，且环境噪音符合预设的静音标准的语音环境，可以采用垃圾词路径数量未经调整的第二解码网络，在第二解码网络中，关键词路径可以和垃圾词路径进行公平竞争，充分发挥声学模型的作用，对关键词进行精准检测。如图3所示，为第二解码网络的示意图。其中，静音标准可以为环境噪音分贝值小于预设分贝值等。

针对播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准的语音环境，可以剔除第二解码网络中的一定数量的垃圾词路径数量，得到第一解码网络，使得垃圾词路径不能和关键词路径公平竞争，以保证在噪声干扰下关键词也可以正常被检出。一定数量的垃圾词路径的剔除，相当于对垃圾词解码得分进行惩罚，具体删除的垃圾词路径的数量可以根据实际情况进行调整。如图4所示，为第一解码网络的示意图。图4中第一解码网络的垃圾词路径数量小于图3中第二解码网络的垃圾词路径数量。

进而，本实施例中，在当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个解码网络中选取与当前语音环境匹配的解码网络作为当前解码网络：若播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准，则从多个解码网络中选取第一解码网络作为当前解码网络；若播放音量小于预设值，且环境噪音符合预设的静音标准，则从多个解码网络中选取第二解码网络作为当前解码网络；其中，第一解码网络中垃圾词路径数量小于第二解码网络中垃圾词路径数量。

图5为本发明实施例提供的另一种解码方法的流程示意图，如图5所示，该解码方法包括以下步骤：

S501、基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。

本实施例中，为了使得声学模型能够在智能设备大音量和/或环境噪音较大的情况下，提取到有效的建模单元序列，进一步提高智能设备识别唤醒指令的准确度，在对初始声学模型进行训练的过程中，可以采用不同语音环境下的训练数据对初始声学模型进行训练，得到不同语音环境下的声学模型。

在当前语音环境包括智能设备的播放音量和环境噪音的情况下，针对播放音量小于预设值，且环境噪音符合预设的静音标准的语音环境，可以获取该语音环境下的训练数据，对初始声学模型进行训练，得到第二声学模型。针对播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准的语音环境，可以获取该语音环境下的训练数据，对初始声学模型进行训练，得到第一声学模型。进而，在当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个声学模型中选取与当前语音环境匹配的声学模型作为当前声学模型：若播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准，则从多个声学模型中选取第一声学模型作为当前声学模型；若播放音量小于预设值，且环境噪音符合预设的静音标准，则从多个声学模型中选取第二声学模型作为当前声学模型。

其中，第一声学模型根据播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准的语音环境下的训练数据生成；第二声学模型根据播放音量小于预设值，且环境噪音符合预设的静音标准的语音环境下的训练数据生成。

S502、基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。

对于步骤502的详细说明，可以参考图1所示实施例中步骤102的详细说明，此处不再进行重复描述。

本实施例提供的解码方法，通过基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，当前声学模型为多个声学模型中与当前语音环境匹配的声学模型；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；从而能够根据当前语音环境，获取与当前语音环境匹配的声学模型和解码网络，结合与当前语音环境匹配的声学模型和解码网络，获取待识别语音信号的解码结果，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

图6为本发明实施例提供的另一种解码方法的流程示意图，如图6所示，在图1或图5所示实施例的基础上，由于声学模型是一个概率模型，存在不确定性，也就是说，根据解码结果确定待识别语音信号中存在关键词时，待识别语音信号中不一定真的存在关键词，因此，为了进一步提高智能设备识别唤醒指令的准确度，所述的解码方法还可以包括以下步骤：

S103、若根据解码结果确定待识别语音信号中存在关键词，则将待识别语音信号中包含的关键词对应的语音信号输入预设的置信度模型，得到待识别语音信号对应的置信度。

本实施例中，当前解码网络输出的解码结果具体可以为，当前解码网络中评分最高的路径，解码装置可以通过判断所述评分最高的路径是否为关键词路径，来确定待识别语音信号中是否存在关键词。若评分最高的路径为关键词路径，则确定待识别语音信号中存在关键词；若评分最高的路径为伪关键词路径或者垃圾词路径等，则确定待识别语音信号中不存在关键词。

本实施例中，置信度模型可以为神经网络模型，神经网络模型具体可以为深度神经网络模型、卷积神经网络模型、循环神经网络模型等，此处不做具体限定。对置信度模型进行训练时，可以采用正样本和负样本作为训练数据，训练正样本、负样本和置信度阈值之间的对应关系，通过调整模型参数，使正样本、负样本的置信度值尽量分布于置信度阈值的两端，且对识别结果的接受度尽量高；其中，所述正样本中包括：包括关键词的语音信号；所述负样本中包括：不包括关键词的语音信号。

S104、在待识别语音信号对应的置信度大于置信度阈值时，唤醒智能设备。

本实施例提供的解码方法，通过基于声学模型，确定待识别语音信号对应的建模单元序列；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；若根据解码结果确定待识别语音信号中存在关键词，则将待识别语音信号中包含的关键词对应的语音信号输入预设的置信度模型，得到待识别语音信号对应的置信度；在待识别语音信号对应的置信度大于置信度阈值时，唤醒智能设备，从而能够根据当前语音环境，获取与当前语音环境匹配的解码网络，对待识别语音信号对应的建模单元序列进行解码，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

图7为本发明实施例提供的一种解码装置的结构示意图。如图7所示，包括：确定模块71和解码模块72。

其中，确定模块71，用于基于声学模型，确定待识别语音信号对应的建模单元序列；

解码模块72，用于基于当前解码网络，对所述建模单元序列进行解码；其中，所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络。

本发明提供的解码装置可以为安装在智能设备上的硬件或者软件，例如语音唤醒系统。智能设备例如可以为，智能音箱、智能空调、智能洗衣机、智能电视等可以与用户进行交互，根据用户的指令进行相应操作的设备。

其中，确定模块71具体可以用于，获取待识别语音信号；对待识别语音信号进行特征提取，获取待识别语音信号中的特征向量序列；将特征向量序列输入声学模型，得到待识别语音信号对应的建模单元序列。其中，解码装置可以先对待识别语音信号进行分帧处理得到帧序列，进而对帧序列中的各帧进行特征提取，得到特征向量序列。

本实施例中，在当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个解码网络中选取与当前语音环境匹配的解码网络作为当前解码网络：若播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准，则从多个解码网络中选取第一解码网络作为当前解码网络；若播放音量小于预设值，且环境噪音符合预设的静音标准，则从多个解码网络中选取第二解码网络作为当前解码网络；其中，第一解码网络中垃圾词路径数量小于第二解码网络中垃圾词路径数量。

其中，针对播放音量小于预设值，且环境噪音符合预设的静音标准的语音环境，采用垃圾词路径数量未经调整的第二解码网络，可以使得关键词路径可以和垃圾词路径进行公平竞争，充分发挥声学模型的作用，对关键词进行精准检测。针对播放音量大于等于预设值，和/或环境噪音不符合预设的静音标准的语音环境，剔除第二解码网络中的一定数量的垃圾词路径数量，得到第一解码网络，使得垃圾词路径不能和关键词路径公平竞争，以保证在噪声干扰下关键词也可以正常被检出。

进一步的，在图7所示实施例的基础上，所述确定模块，具体用于基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。

本实施例提供的解码装置，通过基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，当前声学模型为多个声学模型中与当前语音环境匹配的声学模型；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；从而能够根据当前语音环境，获取与当前语音环境匹配的声学模型和解码网络，结合与当前语音环境匹配的声学模型和解码网络，获取待识别语音信号的解码结果，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

进一步的，结合参考图8，在图7所示实施例的基础上，由于声学模型是一个概率模型，存在不确定性，也就是说，根据解码结果确定待识别语音信号中存在关键词时，待识别语音信号中不一定真的存在关键词，因此，为了进一步提高智能设备识别唤醒指令的准确度，所述的装置还可以包括：唤醒模块73，用于在根据解码结果确定所述待识别语音信号中存在关键词时，将所述待识别语音信号中包含的所述关键词对应的语音信号输入预设的置信度模型，得到所述待识别语音信号对应的置信度；

本实施例提供的解码装置，通过基于声学模型，确定待识别语音信号对应的建模单元序列；基于当前解码网络，对建模单元序列进行解码；其中，当前解码网络为多个解码网络中与当前语音环境匹配的解码网络；若根据解码结果确定待识别语音信号中存在关键词，则将待识别语音信号中包含的关键词对应的语音信号输入预设的置信度模型，得到待识别语音信号对应的置信度；在待识别语音信号对应的置信度大于置信度阈值时，唤醒智能设备，从而能够根据当前语音环境，获取与当前语音环境匹配的解码网络，对待识别语音信号对应的建模单元序列进行解码，从而提高了当前语音环境下智能设备识别唤醒指令的准确度，提高了用户使用智能设备的体验。

图9为本发明实施例提供的一种电子设备的结构示意图。该电子设备包括：

存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。

处理器1002执行所述程序时实现上述实施例中提供的解码方法。

进一步地，电子设备还包括：

通信接口1003，用于存储器1001和处理器1002之间的通信。

存储器1001，用于存放可在处理器1002上运行的计算机程序。

存储器1001可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器1002，用于执行所述程序时实现上述实施例所述的解码方法。

如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。

处理器1002可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的解码方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种解码方法，其特征在于，包括：

基于声学模型，确定待识别语音信号对应的建模单元序列；

基于当前解码网络，对所述建模单元序列进行解码；其中，所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络，解码结果用于确定所述待识别语音信号中是否存在关键词；所述当前语音环境包括：智能设备的播放音量、环境噪音中的至少一种。

2.根据权利要求1所述的方法，其特征在于，所述多个解码网络的垃圾词路径数量不同。

3.根据权利要求1所述的方法，其特征在于，所述环境噪音采用如下方式确定：

对所述待识别语音信号进行识别，确定环境噪音；或者，

根据待识别语音信号发出前的声音信号，确定环境噪音。

4.根据权利要求1所述的方法，其特征在于，在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个解码网络中选取与所述当前语音环境匹配的解码网络作为当前解码网络：

5.根据权利要求1所述的方法，其特征在于，基于声学模型，确定待识别语音信号对应的建模单元序列，包括：

6.根据权利要求5所述的方法，其特征在于，所述多个声学模型根据不同语音环境下的训练数据生成。

7.根据权利要求5所述的方法，其特征在于，在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个声学模型中选取与所述当前语音环境匹配的声学模型作为当前声学模型：

8.根据权利要求1-7任一所述的方法，其特征在于，还包括：

9.一种解码装置，其特征在于，包括：

解码模块，用于基于当前解码网络，对所述建模单元序列进行解码；其中，所述当前解码网络为多个解码网络中与当前语音环境匹配的解码网络，解码结果用于确定所述待识别语音信号中是否存在关键词；所述当前语音环境包括：智能设备的播放音量、环境噪音中的至少一种。

10.根据权利要求9所述的装置，其特征在于，所述多个解码网络的垃圾词路径数量不同。

11.根据权利要求9所述的装置，其特征在于，所述环境噪音采用如下方式确定：

对所述待识别语音信号进行识别，确定环境噪音；或者，

根据待识别语音信号发出前的声音信号，确定环境噪音。

12.根据权利要求9所述的装置，其特征在于，在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个解码网络中选取与所述当前语音环境匹配的解码网络作为当前解码网络：

13.根据权利要求9所述的装置，其特征在于，所述确定模块，具体用于基于当前声学模型，确定待识别语音信号对应的建模单元序列；其中，所述当前声学模型为多个声学模型中与当前语音环境匹配的声学模型。

14.根据权利要求13所述的装置，其特征在于，所述多个声学模型根据不同语音环境下的训练数据生成。

15.根据权利要求13所述的装置，其特征在于，在所述当前语音环境包括智能设备的播放音量和环境噪音的情况下，具体采用如下方式从多个声学模型中选取与所述当前语音环境匹配的声学模型作为当前声学模型：

16.根据权利要求9-15任一所述的装置，其特征在于，还包括：

17.一种电子设备，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的解码方法。

18.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的解码方法。

19.一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种解码方法，所述方法包括：

基于声学模型，确定待识别语音信号对应的建模单元序列；