CN108694940A

CN108694940A - 一种语音识别方法、装置及电子设备

Info

Publication number: CN108694940A
Application number: CN201710229912.XA
Authority: CN
Inventors: 邹赛赛; 杨鹏; 贾磊
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2018-10-23
Anticipated expiration: 2037-04-10
Also published as: CN108694940B

Abstract

本申请实施例公开了一种语音识别方法、装置及电子设备，涉及计算机技术领域，上述方法包括：将获得的待识别音频输入至预设的语音识别模型，进行语音识别，获得第一识别结果，语音识别模型，用于识别音频中是否存在关键音频段的模型，关键音频段为：语音识别结果包含预设关键词的音频段；在第一识别结果显示待识别音频包含关键音频段的情况下，将目标关键音频段输入至置信度模型，获得第二识别结果，置信度模型，用于获得关键音频段的置信度，目标关键音频段为：待识别音频中包含的关键音频段；根据第二识别结果，判断待识别音频是否为用于唤醒电子设备的音频。应用本申请实施例提供的方案进行语音识别，提高了语音识别结果的准确度。

Description

一种语音识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，特别涉及一种语音识别方法、装置及电子设备。

背景技术

随着技术的发展，语音已经成为用户和智能设备(如：智能音箱等)进行交互的首选方式。在用户通过语音与智能设备进行交互时，智能设备首先要对用户的语音进行语音识别，然后根据识别结果进行设备控制，实现与用户的交互。

现有技术中，考虑到硬件性能、响应速度等因素，智能设备进行语音识别时，一般通过预先训练的、基于HMM(Hidden Markov Model，隐马尔科夫模型)的混合模型进行语音识别。在对上述混合模型进行训练时，需要收集大量针对关键词的音频样本和针对垃圾词的音频样本，在具体应用场景确定的情况下，比较容易确定关键词，然而确难以确定垃圾词，因而更加难以收集针对垃圾词的音频样本，又由于所确定的垃圾词较少、针对垃圾词的音频样本较少的情况下，训练得到的混合模型鲁棒性较差，进而应用上述训练得到的混合模型进行语音识别时，识别结果的准确度低。

其中，上述关键词，可以理解为：与设备能够响应的设备控制指令具有正向关联关系的词；相应的，关键词以外的词均可以称之为垃圾词。

发明内容

本申请实施例公开了一种语音识别方法、装置及电子设备，以提高语音识别结果的准确度。

为达到上述目的，本申请实施例公开了一种语音识别方法，应用于电子设备，所述方法包括：

获得待识别音频；

将所述待识别音频输入至预设的语音识别模型，对所述待识别音频进行语音识别，获得第一识别结果，其中，所述语音识别模型为：基于深度神经网络训练得到的模型，用于识别音频中是否存在关键音频段的模型，所述关键音频段为：语音识别结果包含预设关键词的音频段；

在所述第一识别结果显示所述待识别音频包含关键音频段的情况下，将目标关键音频段作为输入参数输入至置信度模型，对所述目标关键音频段进行语音识别，获得第二识别结果，其中，所述置信度模型为：基于深度神经网络训练得到的模型，用于获得关键音频段的置信度，所述目标关键音频段为：所述待识别音频中包含的关键音频段；

根据所述第二识别结果，获得针对所述待识别音频的最终语音识别结果。

在本申请的一种实现方式中，所述将所述待识别音频输入至预设的语音识别模型，对所述待识别音频进行语音识别，获得针对所述待识别音频的识别结果，作为第一识别结果的步骤，包括：

将所述待识别音频输入至预设的语音识别模型；

根据所述语音识别模型输出单元的输出结果，获得语音元素序列，其中，不同输出单元映射不同的语音元素，所述输出单元包括：关键语音元素的输出单元和垃圾语音元素的输出单元，所述关键语音元素为：所述预设关键词对应的语音元素，所述垃圾语音元素为：除关键语音元素以外的语音元素，一个关键语音元素的输出单元映射一个语音元素，一个垃圾语音元素的输出单元映射多个垃圾语音元素；

根据预置词图路径对所述语音元素序列解码，获得识别结果，作为第一识别结果。

在本申请的一种实现方式中，所述置信度模型设置于所述电子设备中和/或设置于云端服务器中。

在本申请的一种实现方式中，所述置信度模型包括：第一置信度子模型和第二置信度子模型；

所述第一置信度子模型设置于所述电子设备中；

所述第二置信度子模型设置于云端服务器中。

在本申请的一种实现方式中，所述将目标关键音频段作为输入参数输入至置信度模型，对所述目标关键音频段进行语音识别，获得第二识别结果的步骤，包括：

将目标关键音频段作为输入参数输入至所述第一置信度子模型，对所述目标关键音频段进行语音识别，获得第一置信度；并将所述目标关键音频段作为输入参数输入至所述第二置信度子模型，对所述目标关键音频段进行语音识别，获得第二置信度；

根据所述第一置信度和/或第二置信度，获得针对所述目标关键音频段的识别结果，作为第二识别结果。

在本申请的一种实现方式中，所述语音识别方法还包括：

在所述最终识别结果显示所述待识别音频包含关键音频段的情况下，确定设备控制指令，并响应所述设备控制指令。

为达到上述目的，本申请实施例公开了一种语音识别装置，应用于电子设备，所述装置包括：

音频获得模块，用于获得待识别音频；

第一结果获得模块，用于将所述待识别音频输入至预设的语音识别模型，对所述待识别音频进行语音识别，获得第一识别结果，其中，所述语音识别模型为：基于深度神经网络训练得到的模型，用于识别音频中是否存在关键音频段的模型，所述关键音频段为：语音识别结果包含预设关键词的音频段；

第二结果获得模块，用于在所述第一识别结果显示所述待识别音频包含关键音频段的情况下，将目标关键音频段作为输入参数输入至置信度模型，对所述目标关键音频段进行语音识别，获得第二识别结果，其中，所述置信度模型为：基于深度神经网络训练得到的模型，用于获得关键音频段的置信度，所述目标关键音频段为：所述待识别音频中包含的关键音频段；

最终结果获得模块，用于根据所述第二识别结果，获得针对所述待识别音频的最终语音识别结果。

在本申请的一种实现方式中，所述第一结果获得模块，包括：

音频输入子模块，用于将所述待识别音频输入至预设的语音识别模型；

序列获得子模块，用于根据所述语音识别模型输出单元的输出结果，获得语音元素序列，其中，不同输出单元映射不同的语音元素，所述输出单元包括：关键语音元素的输出单元和垃圾语音元素的输出单元，所述关键语音元素为：所述预设关键词对应的语音元素，所述垃圾语音元素为：除关键语音元素以外的语音元素，一个关键语音元素的输出单元映射一个语音元素，一个垃圾语音元素的输出单元映射多个垃圾语音元素；

第一结果获得子模块，用于根据预置词图路径对所述语音元素序列解码，获得识别结果，作为第一识别结果。

所述第一置信度子模型设置于所述电子设备中；

所述第二置信度子模型设置于云端服务器中。

在本申请的一种实现方式中，所述第二结果获得模块，包括：

置信度获得模块，用于将目标关键音频段作为输入参数输入至所述第一置信度子模型，对所述目标关键音频段进行语音识别，获得第一置信度；并将所述目标关键音频段作为输入参数输入至所述第二置信度子模型，对所述目标关键音频段进行语音识别，获得第二置信度；

第二结果获得子模块，用于根据所述第一置信度和/或第二置信度，获得针对所述目标关键音频段的识别结果，作为第二识别结果。

在本申请的一种实现方式中，所述语音识别装置还包括：

设备控制模块，用于在所述最终识别结果显示所述待识别音频包含关键音频段的情况下，确定设备控制指令，并响应所述设备控制指令。

为达到上述目的，本申请实施例公开了一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行本申请实施例提供的所述语音识别方法。

由以上可见，本申请实施例提供的方案中，获得待识别音频，将待识别音频输入至预设的语音识别模型，对待识别音频进行语音识别，获得第一识别结果，并在该第一识别结果显示待识别音频包含关键音频段的情况下，将待识别音频中包含的关键音频段输入至置信度模型，获得第二识别结果，最后根据第二识别结果获得待识别音频的最终语音识别结果。由于本申请实施例提供的方案中，通过语音识别模型对待识别音频进行语音识别后，还要进一步通过基于深度神经网络训练得到的置信度模型确定目标关键音频段的置信度，另外基于深度神经网络训练的模型针对语音识别具有较强的表达能力，因此，应用本申请实施例提供的方案，能够提高语音识别结果的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别方法的流程示意图；

图2为本申请实施例提供的另一种语音识别方法的流程示意图；

图3为本申请实施例提供的一种语音识别装置的结构示意图；

图4为本申请实施例提供的另一种语音识别装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面先对本申请实施例中涉及的概念进行介绍：

1、关键词：该词属于相对概念，受电子设备能够响应的设备控制指令影响，具体的，可以理解为与电子设备能够响应的一种或者多种设备控制指令具有正向关联关系的词。

例如，电子设备为智能音箱，智能音箱能够响应的设备控制指令、与设备控制指令具有正向关联关系的关键词可以参见如下表1。

表1

设备控制指令	关键词
		开机指令	开机、open
关机指令	关机、close
		设备唤醒指令	设备的名字(如：小雅小雅)
调大声音指令	调大、变大、大
		调小声音指令	调小、变小、小

需要说明的是，本申请仅仅以此为例进行说明，并不对本申请构成限定。

2、垃圾词：该词也属于相对概念，是相对于前述关键词确定的，可以理解为：关键词以外的词，也就是非关键词。

3、音频段：可以理解为是整个音频的一部分，也可以理解为是整个音频。基于此，可以将一个音频理解为是由一个或者一个以上音频段组成的。

对音频进行识别时，从时间维度上来讲，可以认为音频中的各个部分是与语音识别结果所对应文本中的各个结果元素相对应的，例如，上述结果元素可以是一个字、一个词等等，所以从整个音频中确定一个音频段时，可以根据音频中各个部分与各个结果元素的对应关系确定音频段。

4、关键音频段：语音识别结果包含预设关键词的音频段。

对音频进行语音识别时，若发现识别出预设关键词，将识别出上述关键词的音频段确定为关键音频段。

5、垃圾音频段：语音识别结果不包含预设关键词的音频段。对音频进行语音识别时，若发现未识别出预设关键词，则将未识别出上述关键词的音频段确定为垃圾音频段。

下面通过具体实施例对本申请提供的语音识别方法、装置及电子设备进行详细说明。

图1为本申请实施例提供的一种语音识别方法的流程示意图，该方法应用于电子设备，其中，上述电子设备可以是计算机、平板电脑、手机、智能音箱、机器人等智能设备。

具体的，上述方法包括：

S101：获得待识别音频。

一种情况下，对于智能音箱、机器人等智能设备而言，为保证能够快速及时的响应用户指令，通常是一直处于收音状态，也就是，实时收集环境中的音频信息，这种情况下，上述获得待识别音频，可以是通过监听自身接收到的音频数据流获得的待识别音频。

另一种情况下，上述待识别音频可以是其他设备传输给作为执行主体的电子设备的，例如，作为执行主体的电子设备为：服务器，上述待识别音频可以是：智能音箱采集环境中音频后发送至服务器的音频。

需要说明的是，本申请仅仅以上述为例进行说明，并不对本申请构成限定。

S102：将待识别音频输入至预设的语音识别模型，对待识别音频进行语音识别，获得第一识别结果。

其中，上述语音识别模型为：基于深度神经网络训练得到的模型，用于识别音频中是否存在关键音频段的模型，关键音频段为：语音识别结果包含预设关键词的音频段。

本领域内技术人员可以理解的是，为增强语音识别模型的鲁棒性，在进行模型训练时，通常会收集大量样本音频，这些样本音频中包括：正样本音频(含有关键音频段的样本音频)以及负样本音频(含有垃圾音频段的样本音频)。

其中，正样本音频，可以理解为：能够表达关键词所代表含义的音频。可以通过人工选择的方式确定正样本音频。另外，对于一个关键词可以存在多个正样本音频。

具体的，对于关键词：开机，可以从以下角度获得正样本音频：

A：年龄角度：小孩、中年人、老年人分别说出“开机”形成的样本音频；

B：性别角度：女性、男性分别说出“开机”形成的样本音频；

C：口音角度：北京人、广州人等分别说出“开机”形成的样本音频；

D：语种角度：以汉语、英语、法语等分别说出“开机”形成的样本音频；

E：相近语义角度：“开”、“开开”、“开开机”、“开喽”、“开吧”等对应的样本音频。

需要说明的是，本申请仅仅以上述为例进行说明，具体应用中划分角度并不仅限于上述情况，另外，上述各个角度对应的具体情况还以相互交叉组合获得样本音频。

负样本音频，可以理解为：能够表达垃圾词所代表含义的音频。可以通过人工选择的方式确定负样本音频。另外，对于一个垃圾词也可以存在多个负样本音频。

上述第一识别结果中包含：通过语音识别模型从待识别音频中识别出的关键音频段，但是由于受模型识别精度等因素的影响上述识别出的关键音频段不一定是真的关键音频段。

另外，上述第一识别结果中还可以包含标识待识别音频中是否包含关键音频段的标识等等。

S103：在第一识别结果显示待识别音频包含关键音频段的情况下，将目标关键音频段作为输入参数输入至置信度模型，对目标关键音频段进行语音识别，获得第二识别结果。

上述目标关键音频段为：待识别音频中包含的关键音频段。

由于受语音识别模型识别精度等因素的影响，上述第一识别结果可能会存在一定程度的误判，为此可以在第一识别结果显示待识别音频包含关键音频段的情况下，进一步对第一识别结果进行验证，验证待识别音频中是否真的包含关键音频段，进而提高针对待识别音频的语音识别的准确度。

其中，上述置信度模型为：基于深度神经网络训练得到的模型，用于获得关键音频段的置信度，也就是获得每一作为输入参数输入至置信度模型中的关键音频段被认为是真正关键音频段的置信度。一种可选的实现方式中，上述置信度模型可以为基于DNN模型或者CNN模型训练得到的模型。

S104：根据上述第二识别结果，获得针对待识别音频的最终识别结果。

具体的，上述最终识别结果可以理解为：待识别音频中包含一关键词的关键音频段的置信度。

本申请的一种实现方式中，将待识别音频输入至预设的语音识别模型，对待识别音频进行语音识别，获得第一识别结果时，可以通过以下步骤实现：

将待识别音频输入至预设的语音识别模型；

根据语音识别模型输出单元的输出结果，获得语音元素序列，其中，不同输出单元映射不同的语音元素，上述输出单元包括：关键语音元素的输出单元和垃圾语音元素的输出单元，关键语音元素为：预设关键词对应的语音元素，垃圾语音元素为：除关键语音元素以外的语音元素，一个关键语音元素的输出单元映射一个语音元素，一个垃圾语音元素的输出单元映射多个垃圾语音元素；

根据预置词图路径对语音元素序列解码，获得第一识别结果。

其中，语音元素可以是：音素、声韵母、音节、词等等，基于不同粒度的语音单元进行建模都可以，本申请并不对此进行限定。

相应的，上述关键语音元素可以理解为：构成关键词的各个语音元素，所有的关键词中所包含的语音元素，例如，可以是构成关键词的音素、音节、声韵母、关键词本身等等。

上述非关键语音元素可以理解为：除关键语音元素以外的语音元素。

上述预置词图路径根据上述所有的语音元素确定，包括关键语音元素和非关键语音元素。根据语音识别模型输出的语音元素序列，通过上述预置词图路径进行匹配，如果成功匹配到关键词路径，表明识别到关键词；否则表明识别到垃圾词，也就是匹配到了非关键词路径。

其中，上述关键词路径可以理解为：由关键语音元素构成的路径；非关键词路径可以理解为：包含非关键语音元素的路径。

例如，语音元素为音节时，则关键词：“小雅小雅”的词图路径为：“xiao”“ya”“xiao”“ya”，本申请中非关键词语音元素都映射到同一个语音元素，比如用la表示，当语音识别模型输出单元获取到音节序列xiao ya xiao ya时表明路径匹配关键词路径成功，识别到关键词；如果获取到音节序列xiao la la la，甚至是la la la la…时，则表明关键词路径匹配不成功，识别到垃圾词。

本申请的一实施例中，语音识别模型是基于深度神经网络训练得到的，深度神经网络至少包括一个输入层，多个隐层和一个输出层，语音识别模型的建模单元为语言中的语音元素，语音识别模型的深度神经网络输出层的输出单元数量与所设定的语音元素个数相同，每个输出单元输出了所输入到语音识别模型中的语音特征向量属于所述输出单元对应的语音元素的概率。

上述所设定的语音元素包括所有的关键词中所包含的关键语音元素和除关键词以外所有的垃圾词对应的垃圾语音元素，因此语音识别模型的输出层就包括：各个关键语音元素的输出单元和垃圾语音元素的输出单元。

语音识别模型的深度神经网络基于语音元素进行建模，一个关键语音元素的输出单元映射一个关键语音元素。

上述输出层可以包含一个或者多个垃圾语音元素的输出单元，较佳的，仅仅包含一个垃圾语音元素的输出单元。也就是说，一个垃圾语音元素的输出单元可以映射一部分或者全部非关键语音元素，也就是，不对非关键语音元素进行具体的区分和识别。

具体的，上述输出层根据不同的输出单元的输出概率，判断输入的语音特征数据属于哪个语音元素，进而得到输入语音识别模型的输入层的待识别音频的语音元素序列。得到上述语音元素序列后，结合预置词图路径进行解码，能够判定上述待识别音频的语音识别结果中是否包括关键词，如果针对一个语音元素序列成功解码得到关键词，可以从上述待识别音频中截取该语音元素序列对应的语音段，进而得到对待识别音频进行语音识别的识别结果。

本领域内技术人员可以理解的是，关键词的数量通常是有限的，而非关键词的却是难以确定且数量庞大的，本申请实施例中，上述输出层仅仅包含一个或者几个垃圾语音元素的输出单元，其数量远远小于非关键词的数量，小于非关键词元素的数量，进而能够大大降低语音识别模型的复杂度，同时也降低了构建该语音识别模型时的建模代价。

另外，上述输出层仅仅包含一个或者几个垃圾语音元素的输出单元后，也简化了解码时的搜索路径，进而能够降低功耗，提升语音识别的效率。

尤其是相对于现有技术中基于LVCSR的语音识别方式，上述优势更加明显。

在本申请的另一实现方式中，基于深度神经网络构建语音识别模型时，为了更好的识别性能，不同的训练方法可以引入附加建模单元，比如静音标签，空白标签，相应的就需要在上述输出层中添加静音的输出单元和/或空白标签的输出单元。

需要说明的是，本申请一实施例中，用于训练得到置信度模型的深度神经网络，与上述用于训练得到语音识别模型的深度神经网络相似。不同在于，置信度模型的输入层输入的是：语音模型识别到的关键音频段，输出层输出的是：输入层所输入关键音频段的置信度。语音识别模型的输入层输入的是：获得的待识别音频，输出层输出的是：识别到的关键音频段，但是该识别出的关键音频段可能存在一定误差，不一定真的是关键音频段。

在本申请的可选实现方式中，前述置信度模型的设置位置可以包含以下几种情况：

第一种情况：设置于上述电子设备中；

第二种情况：设置于云端服务器中；

第三种情况：既设置于上述电子设备中，又设置于云端服务器中。

具体的，在上述第三种情况下，置信度模型可以包括：第一置信度子模型和第二置信度子模型，其中，第一置信度子模型设置于电子设备中，第二置信度子模型设置于云端服务器中。

上述第一置信度子模型与第二置信度子模型可以是相同的模型，也可以是不同的模型，本申请并不对此进行限定。例如，

这两个子模型可以对应于不同的维度，第一置信度子模型所对应的维度为：检测音频中是否包含关键音频段，第二置信度子模型对应的维度为：检测音频是否为人声音频；

这两个子模型对应不同的识别精度，由于用户所使用电子设备硬件资源的性能往往低于云端服务器硬件资源的性能，而对于置信度模型而言，识别精度越高，所需要的资源越多，所以，第一置信度子模型可以对应较低的识别精度，第二置信度子模型可以对应较高的识别精度。

需要说明的是，本申请仅仅以上述为例进行说明，具体应用中，第一置信度子模型和第二置信度子模型的区别并不仅限于上述两种情况，上述情况也不对本申请构成限定。

另外，将上述置信度模型设置于电子设备中时，可以直接在本地对音频进行语音识别，不涉及设备间的数据传输；将上述置信度模型设置于云端服务器中时，由于服务器一般具有高性能的硬件资源，因此，不易出现资源争抢、资源不足的现象；电子设备和云端服务器中均设置有置信度模型时，在两端设备中可以从不同角度进行语音识别，做到两端互补，同时不会将计算量集中在单一设备上，不易导致单一设备工作压力过大。

基于上述情况，本申请的一种实现方式中，在置信度模型包括第一置信度子模型和第二置信度子模型的情况下，将目标关键音频段作为输入参数输入至置信度模型，对目标关键音频段进行语音识别，获得第二识别结果时，可以通过以下步骤实现：

将目标关键音频段作为输入参数输入至第一置信度子模型，对目标关键音频段进行语音识别，获得第一置信度；并将目标关键音频段作为输入参数输入至第二置信度子模型，对目标关键音频段进行语音识别，获得第二置信度；

根据第一置信度和/或第二置信度，获得针对目标关键音频段的识别结果，作为第二识别结果。

具体来说，就是根据第一置信度和/或第二置信度获得最终的置信度，也就是目标关键帧识别结果的置信程度。具体的，可以直接对比第一置信度和第二置信度的值进行二选一，如果二者的置信度值域标准不同时可以先对两个置信度值进行归一化处理之后进行对比选择；可选的，还可以结合其他参数信息一起进行判定，比如时间信息、网络信息等，具体如何对两个置信度值进行比较和选择的方式很多，本申请实施例不做具体限定。

下面通过具体实施例对语音识别模型和置信度模型的训练过程进行详细介绍。

在本申请的一种实现方式中，语音识别模型是基于深度神经网络进行构建的，可以对深度神经网络进行训练得到语音识别模型，具体包括：

获得包含关键音频段的第一类样本音频和包含垃圾音频段的第二类样本音频，分别将上述第一类样本音频和第二类样本音频输入至深度神经网络，对该深度神经网络进行训练，获得语音识别模型。

对上述深度神经网络进行训练时，上述深度神经网络会对输入的样本音频信号进行逐层处理，逐渐抽象成更易于区分的特征，在深度神经网络的输出层给出建模单元的分类概率。

本申请一实施例中，通过计算输出层输出单元的输出与样本音频正确标注之间的误差值，通过误差反向传播算法，逐层获取网络模型各层的误差信号，进而对模型各层之间的权值进行调整，达到训练目标条件时停止训练，得到语音识别模型。现有技术中有很多训练方法，且针对不同的语音元素进行建模可以选择不同的训练算法，本申请实施例对此不做具体限定。

本申请一实施例中，深度神经网络采用DNN模型，发明人经过大量实验发现DNN模型对音频具有较强的表达能力，通过对DNN模型训练得到的语音识别模型进行语音识别具有较佳的语音识别效果。

本申请的其他实施例中，深度神经网络还可以是CNN模型等等，本申请并不对此进行限定。

对置信度模型进行训练，可以理解为：训练正负样本和置信度阈值之间的对应关系，将正负样本输入用于训练得到置信度模型的深度神经网络，通过调整深度神经网络的参数，使得正样本和负样本的置信度值尽量分布在置信度阈值的两端。

其中，用于训练得到置信度模型的正负样本可以是通过以下方式获得的：

对上述语音识别模型识别出的语音元素序列进行解码时，通过匹配预置词图路径，获得的音频段中，经确认真实包含关键词的音频段作为正样本，否则作为负样本；

开发人员收集的包含关键音频段的音频，可以作为正样本；开发人员收集的不包含关键音频段的音频，可以作为负样本。

可选的，可以采用边界放大法对深度神经网络进行训练，得到置信度模型。边界放大训练方式类似于放大镜原理，采用边界放大训练方式进行训练时，可以更加清楚、准确的对分类边界处进行训练，使得正负样本的置信度分布区分更为明显，进而得到更加准确的置信度模型。可选的，上述边界放大训练方式可以为：Large Margin训练方式。

具体的，可以通过设置不同的阈值调整置信度模型对语音识别结果的接受程度，采用边界扩大方法对训练样本进行训练，可以比较容易确定阈值，使得置信模型对语音识别结果的接受度提高，同时提升置信度值的准确性。

在置信度模型包括第一置信度子模型和第二置信度子模型的情况下，均可以采用上述方式进行训练得到。这两个置信度子模型的具体区别可以在于：输入参数的具体取值、输出参数的具体取值，当然这两个子模型的输入参数的具体取值、输出参数的具体取值也可以完全相同。除了上述区别外，这两个置信度子模型的规模还可以不相同，进而这两个置信度子模型的语音识别精度可以不同，例如，电子设备的硬件资源往往不如云端服务器的硬件资源丰富，所以，设置于电子设备中的第一置信度子模型的规模可以小于设置于云端服务器中的第二置信度子模型，进而第一置信度子模型的语音识别精度可能比第二置信度子模型的语音识别精度低。

由以上可见，上述各个实施例提供的方案中，获得待识别音频，将待识别音频输入至预设的语音识别模型，对待识别音频进行语音识别，获得第一识别结果，并在该第一识别结果显示待识别音频包含关键音频段的情况下，将待识别音频中包含的关键音频段输入至置信度模型，获得第二识别结果，最后根据第二识别结果获得待识别音频的最终语音识别结果。由于上述各个实施例提供的方案中，通过语音识别模型对待识别音频进行语音识别后，还要进一步通过基于深度神经网络训练得到的置信度模型确定目标关键音频段的置信度，另外基于深度神经网络训练的模型针对语音识别具有较强的表达能力，因此，应用上述各个实施例提供的方案，能够提高语音识别结果的准确度。

在本申请的一种具体实现方式中，参见图2，提供了另一种语音识别方法的流程示意图，与前述实施例相比，本实施例中，上述语音识别方法还包括：

S105：在最终识别结果显示待识别音频包含关键音频段的情况下，确定设备控制指令，并响应该设备控制指令。

具体的，上述设备控制指令是根据待识别音频包含的关键音频段的内容确定的，也就是关键音频段的语音识别结果中包含的关键词，确定设备控制指令。

上述设备控制指令可以是设备唤醒指令、设备关闭指令、音量调大指令、音量调小指令等等。

假设，预设关键词为：小雅小雅，当前电子设备处于睡眠状态，用户希望唤醒该电子设备，发出针对“小雅小雅”的语音指令，电子设备接收到上述语音指令后，对该指令中包含的音频进行语音识别，若识别出其中包含针对“开小雅小雅”的关键音频段，则生成设备唤醒指令，进而响应该设备唤醒指令，唤醒设备，进入工作状态。

由以上可见，本实施例提供的方案中，可以依据对待识别音频的语音识别结果，实现设备控制，无需用户手动操作，解放了用户的双手，为用户带来了较佳的用户体验。

与上述语音识别方法相对应，本申请实施例还提供了一种语音识别装置。

图3为本申请实施例提供的一种语音识别装置的结构示意图，该装置应用于电子设备，包括：

音频获得模块301，用于获得待识别音频；

第一结果获得模块302，用于将所述待识别音频输入至预设的语音识别模型，对所述待识别音频进行语音识别，获得第一识别结果，其中，所述语音识别模型为：基于深度神经网络训练得到的模型，用于识别音频中是否存在关键音频段的模型，所述关键音频段为：语音识别结果包含预设关键词的音频段；

第二结果获得模块303，用于在所述第一识别结果显示所述待识别音频包含关键音频段的情况下，将目标关键音频段作为输入参数输入至置信度模型，对所述目标关键音频段进行语音识别，获得第二识别结果，其中，所述置信度模型为：基于深度神经网络训练得到的模型，用于获得关键音频段的置信度，所述目标关键音频段为：所述待识别音频中包含的关键音频段；

最终结果获得模块304，用于根据所述第二识别结果，获得针对所述待识别音频的最终语音识别结果。

具体的，所述第一结果获得模块302，包括：

具体的，所述置信度模型设置于所述电子设备中和/或设置于云端服务器中。

具体的，所述置信度模型包括：第一置信度子模型和第二置信度子模型；

所述第一置信度子模型设置于所述电子设备中；

所述第二置信度子模型设置于云端服务器中。

具体的，所述第二结果获得模块303，包括：

由以上可见，上述各个实施例提供的方案中，获得待识别音频，将待识别音频输入至预设的语音识别模型，对待识别音频进行语音识别，获得第一识别结果，并在该第一识别结果显示待识别音频包含关键音频段的情况下，将待识别音频中包含的关键音频段输入至置信度模型，获得第二识别结果，最后根据第二识别结果确定待识别音频的最终语音识别结果。由于上述各个实施例提供的方案中，通过语音识别模型对待识别音频进行语音识别后，还要进一步通过基于深度神经网络训练得到的置信度模型确定目标关键音频段的置信度，另外基于深度神经网络训练的模型针对语音识别具有较强的表达能力，因此，应用上述各个实施例提供的方案，能够提高语音识别结果的准确度。

本申请的一具体实现方式中，参见图4提供了另一种语音识别装置的结构示意图，与前述各个实施例相比，本实施例中，上述语音识别装置还包括：

设备控制模块305，用于在所述最终识别结果显示所述待识别音频包含关键音频段的情况下，确定设备控制指令，并响应所述设备控制指令。

与上述语音识别方法和语音识别装置相对应，本申请实施例还提供了一种电子设备。

图5为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括：壳体501、处理器502、存储器503、电路板504和电源电路505，其中，电路板504安置在壳体501围成的空间内部，处理器502和存储器503设置在电路板504上；电源电路505，用于为电子设备的各个电路或器件供电；存储器503用于存储可执行程序代码；处理器502通过读取存储器503中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行本申请实施例提供的语音识别方法。

具体的，上述语音识别方法包括：

获得待识别音频；

上述语音识别方法对应的其他实施例可参见前述语音识别方法部分，这里不再赘述。

处理器502对上述步骤的具体执行过程以及处理器502通过运行可执行程序代码来进一步执行的步骤，可以参见本申请图1-4所示实施例的描述，在此不再赘述。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，智能家居产品(如：智能音箱)、机器人以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

由以上可见，本实施例提供的方案中，电子设备获得待识别音频，将待识别音频输入至预设的语音识别模型，对待识别音频进行语音识别，获得第一识别结果，并在该第一识别结果显示待识别音频包含关键音频段的情况下，将待识别音频中包含的关键音频段输入至置信度模型，获得第二识别结果，最后根据第二识别结果获得待识别音频的最终语音识别结果。由于本实施例提供的方案中，通过语音识别模型对待识别音频进行语音识别后，还要进一步通过基于深度神经网络训练得到的置信度模型确定目标关键音频段的置信度，另外基于深度神经网络训练的模型针对语音识别具有较强的表达能力，因此，应用本实施例提供的方案，能够提高语音识别结果的准确度。

对于装置、电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种语音识别方法，其特征在于，应用于电子设备，所述方法包括：

获得待识别音频；

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别音频输入至预设的语音识别模型，对所述待识别音频进行语音识别，获得第一识别结果的步骤，包括：

将所述待识别音频输入至预设的语音识别模型；

根据预置词图路径对所述语音元素序列解码，获得第一识别结果。

3.根据权利要求1或2所述的方法，其特征在于，

所述置信度模型设置于所述电子设备中和/或设置于云端服务器中。

4.根据权利要求3所述的方法，其特征在于，

所述置信度模型包括：第一置信度子模型和第二置信度子模型；

所述第一置信度子模型设置于所述电子设备中；

所述第二置信度子模型设置于云端服务器中。

5.根据权利要求4所述的方法，其特征在于，所述将目标关键音频段作为输入参数输入至置信度模型，对所述目标关键音频段进行语音识别，获得第二识别结果的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种语音识别装置，其特征在于，应用于电子设备，所述装置包括：

音频获得模块，用于获得待识别音频；

8.根据权利要求7所述的装置，其特征在于，所述第一结果获得模块，包括：

第一结果获得子模块，用于根据预置词图路径对所述语音元素序列解码，获得第一识别结果。

9.根据权利要求7或8所述的装置，其特征在于，

10.一种电子设备，其特征在于，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为电子设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行权利要求1-6中任一项所述的语音识别方法。