CN108510990A

CN108510990A - 语音识别方法、装置、用户设备及存储介质

Info

Publication number: CN108510990A
Application number: CN201810726566.0A
Authority: CN
Inventors: 付晓寅; 陈涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2018-09-07

Abstract

本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质，接收到用户输入的语音信号后，同时采用高频解码器和通用解码器对语音信号进行解码，解码过程中，采用高频解码器获得至少一个第一解码结果，采用通用解码器获得至少一个第二解码结果，根据至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。该过程中，高频解码器和通用解码器分别使用不同的语音模型进行解码，可以平衡高频识别的准确性和通用识别的泛化性，避免将通用语言模型和高频语言模型融合造成的准确性和泛化性无法兼顾的问题，从而提升了语音识别的准确率。

Description

语音识别方法、装置、用户设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、用户设备及存储介质。

背景技术

语音识别技术是将人类说话的声音识别并转换为文本的技术，是实现人机交互的重要途径之一。根据语音来源距离的不同，可以将语音信号分为近场语音信号和远场语音信号。

目前的语音识别系统主要针对近场语音进行识别，传统的语音识别系统包括解码器、语言模型和声学模型三部分。近场语音识别过程中，解码器接收用户输入的语音信号，在解码空间上构建多条解码路径，将语音信号遍历每一条解码路径，基于声学模型和语音模型打分，得到每一条解码路径的声学模型得分和语音模型得分，基于得分确定出最优解码路径，根据最优解码路径输出最终的识别结果。而在远场语音识别场景下，例如智能音响等设备的使用过程中，用户和设备之间的距离较远，由于语音信号强度的衰减、室内环境的混响、周围噪声的干扰等因素，继续采用适用于近场语音识别的语音识别系统会大大降低语音识别的准确率。为提升远场语音识别的准确率，针对远场语音识别场景训练语音模块，将训练处的语言模型与传统的语言模型进行融合，以提升远场识别的准确率。

上述针对远场语音识别场景训练特定的语言模型的方式，无法有效提升远场语音识别的准确率。

发明内容

本申请提供一种语音识别方法、装置、计算机设备及存储介质，以克服语音识别准确率低的问题。

第一方面，本发明实施例提供一种语音识别方法，包括：

接收用户输入的语音信号；

采用高频解码器对所述语音信号进行解码，得到至少一个第一解码结果，其中，所述高频解码器中的解码路径根据所述用户的高频语音指令确定；

采用通用解码器对所述语音信号进行解码，得到至少一个第二解码结果；

从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。

在一种可能的设计中，所述采用高频解码器对所述语音信号进行解码，得到至少一个第一解码结果，包括：

将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第一候选解码结果；

采用高频语言模型和声学模型对全部第一候选解码结果进行打分，得到与各个第一候选解码结果分别对应的得分，其中，所述高频语言模型是根据所述用户的所述高频语音指令训练得到的；

根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，其中，M为自然数。

进一步的，所述根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，包括：

将各个第一候选解码结果对应的语言层得分和声学层得分相加，得到与所述第一候选解码结果对应的总得分；

从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果，所述M个第一候选解码结果作为M个所述第一解码结果。

在一种可能的设计中，所述采用通用解码器对所述语音信号进行解码，得到至少一个第二解码结果，包括：

将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第二候选解码结果；

采用通用语言模型和声学模型对全部第二候选解码结果进行打分，得到与各个第二候选解码结果分别对应的得分；

根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个候选解码结果作为N个所述第二解码结果，其中，N为自然数。

进一步的，所述根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果，包括：

将各个第二候选解码结果对应的语言层得分和声学层得分相加，得到与所述第二候选解码结果对应的总得分；

从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果，所述N个第二候选解码结果作为N个所述第二解码结果。

在一种可能的设计中，所述从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果，包括：

通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分，得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分；其中，所述线性回归模型融合声学模型特征和语言模型特征；

从所述第一解码结果和第二解码结果中确定得分最高的解码结果作为最优解码结果。

进一步的，所述线性回归模型还融合下述特征中的一个或者多个特征：语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。

在一种可能的设计中，所述语音信号具体为远场语音信号。

第二方面，本发明实施例提供一种语音识别装置，包括：

接收模块，用于接收用户输入的语音信号；

高频解码模块，用于采用高频解码器对所述语音信号进行解码，得到至少一个第一解码结果，其中，所述高频解码器中的解码路径根据所述用户的高频语音指令确定；

通用解码模块，用于采用通用解码器对所述语音信号进行解码，得到至少一个第二解码结果；

确定模块，用于从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。

在一种可能的设计中，所述高频解码模块，具体用于将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第一候选解码结果；采用高频语言模型和声学模型对全部第一候选解码结果进行打分，得到与各个第一候选解码结果分别对应的得分，其中，所述高频语言模型是根据所述用户的所述高频语音指令训练得到的；根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，其中，M为自然数。

进一步的，所述高频解码模块，在根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果时，具体用于将各个第一候选解码结果对应的语言层得分和声学层得分相加，得到与所述第一候选解码结果对应的总得分；从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果，所述M个第一候选解码结果作为M个所述第一解码结果。

在一种可能的设计中，所述通用解码模块，具体用于将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第二候选解码结果；采用通用语言模型和声学模型对全部第二候选解码结果进行打分，得到与各个第二候选解码结果分别对应的得分；根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个候选解码结果作为N个所述第二解码结果，其中，N为自然数。

进一步的，所述通用解码模块，在根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果时，具体用于将各个第二候选解码结果对应的语言层得分和声学层得分相加，得到与所述第二候选解码结果对应的总得分；从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果，所述N个第二候选解码结果作为N个所述第二解码结果。

在一种可能的设计中，所述确定模块，具体用于通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分，得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分；其中，所述线性回归模型融合声学模型特征和语言模型特征；

在一种可能的设计中，所述语音信号具体为远场语音信号。

第三方面，本发明实施例提供一种用户设备，包括麦克风、处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述麦克风用于接收用户输入的语音信号，所述处理器执行所述程序时实现如上第一方面所述的方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上第一方面所述的方法。

本发明实施例提供的语音识别方法、装置、计算机设备及存储介质，接收到用户输入的语音信号后，同时采用高频解码器和通用解码器对语音进行解码，解码过程中，采用高频解码器获得至少一个第一解码结果，采用通用解码器获得至少一个第二解码结果，根据至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。该过程中，高频解码器和通用解码器分别使用不同的语音模型进行解码，可以平衡高频识别的准确性和通用识别的泛化性，避免将通用语言模型和高频语言模型融合造成的准确性和泛化性无法兼顾的问题，从而提升了语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音识别方法的流程图；

图2为本发明一实施例提供的语音识别系统的架构示意图；

图3为本发明一个实施例提供的语音识别装置的结构示意图；

图4为本发明一实施例提供的用户设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本发明一实施例提供的语音识别方法的流程图。本实施例的执行主体是语音识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现，该装置可以是用户设备的部分或者全部。如图1所示，本实施例包括：

101、接收用户输入的语音信号。

本发明实施例中，根据语音来源距离的不同，可以将语音信号分为近场语音信号和远场语音信号。远场语音信号是指与语音识别装置之间的距离超过预设阈值的发声源发出的声音，该阈值可以灵活设置。例如，该阈值为0.5米，语音识别装置具体为智能音箱，发声源为用户，当用户与智能音箱的距离大于0.5米时，对于智能音箱来说，用户发出的语音信号即为远场语音信号。本步骤中，通过麦克风等语音采集装置采集用户的语音信号。例如，通过麦克风采集用户输入的远场语音信号；再如，通过麦克风采集用户输入的近场语音信号；又如，同时采集远场语音信号和近场语音信号。

需要说明的是，近场语音信号和语音信号的划分不是固定的，即阈值可以灵活设置。该阈值可以与语音识别装置的麦克风阵列单元的个数、麦克风阵列单元间距、语音信号的波长等有关。例如，在声源参数固定情况下，麦克风阵列单元距离越大，阈值越大。当D＝10cm时，阈值一般为0.5米；当D＝20cm时，阈值一般为2米。

102、采用高频解码器对所述语音信号进行解码，得到至少一个第一解码结果，其中，所述高频解码器中的解码路径根据所述用户的高频语音指令确定。

本发明实施例中，预先通过用户的高频语音指令确定高频解码器解码空间中的解码路径。例如，对高频语音指令进行训练以得到高频解码空间中的解码路径。

本步骤中，通过高频解码器对采集到的语音信号进行解码，得到至少一个第一解码结果。其中第一解码结果可以为文本等。

103、采用通用解码器对所述语音信号进行解码，得到至少一个第二解码结果。

本步骤中，通过通用解码器对采集到的语音信号进行解码，得到至少一个第二解码结果。其中，每个第二解码结果可以为文本等。

104、从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。

本步骤中，对高频解码器对语音信号进行解码获得的多个第一解码结果，以及从用解码器对语音信号进行解码获得的多个第二解码结果进行打分，根据得分结果对至少一个第一解码结果和至少一个第二解码结果进行排序，将得分最高的解码结果作为最优解码结果。

本发明实施例提供的语音识别方法，接收到用户输入的语音信号后，同时采用高频解码器和通用解码器对语音进行解码，解码过程中，采用高频解码器获得至少一个第一解码结果，采用通用解码器获得至少一个第二解码结果，根据至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。该过程中，高频解码器和通用解码器分别使用不同的语音模型进行解码，可以平衡高频识别的准确性和通用识别的泛化性，避免将通用语言模型和高频语言模型融合造成的准确性和泛化性无法兼顾的问题，从而提升了语音识别的准确率。

另外，为避免解码过程中解码路径的急剧膨胀，需要根据得分对解码路径进行裁剪，从而在解码所需的机器资源和解码效率之间取得平衡。若采用适用于近场语音识别的语音识别系统对远场语音信号进行识别，则由于远场语音信号衰减和环境噪声的影响，通用解码器无法对解码路径进行判断，很容易将有效的解码路径裁剪掉，导致无法得到正确的最优解码路径。而本发明实施例中，采用高频解码器和通用解码器对语音进行解码，当语音信号具体为远场语音信号时，由于高频解码器的解码路径和通用解码器的解码路径不发生冲突，因此不会导致高频解码器的解码路径被提前裁剪的问题。也就是说，同时使用高频解码器和通用解码器对远场语音信号进行解码，解码过程中高频解码器的解码路径和通用解码器的解码路径相互不产生影响，从而有效解决了采用通用解码器对远场语音信号进行识别时，由于远场语音信号的衰减和背景环境噪声的影响，导致的将正确的识别结果提前剪裁掉的问题，实现提升远场语音信号识别的准确性的目的。

图2为本发明一实施例提供的语音识别系统的架构示意图。如图2所示，该架构包括高频解码器、高频语言模型、通用解码器、通用语音模型、声学模型以及决策模块。其中，声学模型用于描述文字到文本的似然度，而语言模型，如高频语音模型以及通用语言模型，用于描述文字本身的先验情况。当采集到语音信号时，同时使用高频解码器和通用解码器对该语音信号进行解码，在高频解码器的解码空间中，基于高频语言模型和声学模型获得至少一个第一解码结果；在通用解码器的解码空间中，基于通用语言模型和声学模型获得至少一个第二解码结果，然后将这些解码结果通过决策模块进行综合打分和排序，最终获得最优解码结果。下面，基于图2，对高频解码器对语音信号的解码过程、通用解码器对语音信号的解码过程，以及决策模块确定最优解码结果的过程进行详细说明。

首先，高频解码器对语音信号的解码过程。

请参照图2，高频解码器对语音信号进行解码，以得到至少一个第一解码结果时，具体是将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第一候选解码结果；采用高频语言模型和声学模型对全部第一候选解码结果进行打分，得到与各个第一候选解码结果分别对应的得分，其中，所述高频语言模型是根据所述用户的所述高频语音指令训练得到的；根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，其中，M为自然数。

具体的，预先对用户的高频语音指令进行训练，训练过程中对用户的常用请求进行优化，从而得到高频语言模型，该高频语言模型不与通用语音模型进行融合。另外，根据用户的使用特点，设计高频解码器解码空间中的解码路径，使得即使存在音频信号衰减和环境噪声时，用户的高频语音指令仍然能够被高频解码器正确识别。也就是说，通过设计高频解码器解码空间中的解码路径，可以有效保留高频解码器解码空间中的解码路径，在解码过程中对解码结果进行引导，避免后处理时由于识别错误造成的后续无法进行纠错的问题，其中，后处理是指确定出最优解码结果后，使用语义解析技术分析识别结果的语义特征，然后利用特定任务的资源和文本特征，判断可能出现错误的位置，对错误的最优解码结果进行纠正。

进一步的，根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果时，具体是将各个第一候选解码结果对应的语言层得分和声学层得分相加，得到与所述第一候选解码结果对应的总得分；从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果，所述M个第一候选解码结果作为M个所述第一解码结果。

具体的，对于每个第一候选解码结果，采用高频语言模型对其打分，以获取该第一候选解码结果的语言层得分，采用声学模型对其带份，以获取该第一候选解码结果的声学层得分，将语言层得分和声学层得分相加，即可得到该第一候选解码结果的总得分。然后，对所有第一候选解码结果的总得分进行排序，从而确定总得分大于预设分数阈值的M个第一候选解码结果。

需要说明的是，本发明实施例是通过将语言层得分和声学层得分相加的方式获取第一候选解码结果的总得分，然而，本发明实施例并不以此为限制，在其他可行的实现方式中，也可以通过其他方式获取第一候选解码结果的总得分，例如，对语言层得分和声学层得分进行积分处理等。

其次，通用解码器对语音信号的解码过程。

请参照图2，通用解码器对语音信号进行解码，以得到至少一个第一解码结果时，具体是将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第二候选解码结果；采用通用语言模型和声学模型对全部第二候选解码结果进行打分，得到与各个第二候选解码结果分别对应的得分；根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个候选解码结果作为N个所述第二解码结果，其中，N为自然数。

本发明实施例中，通用解码器与用于近场语音识别的传统解码器的结构完全相同。通过使用通用解码器，可以获取N个第二解码结果，确保在语音识别时的通用识别效果。但是，通过通用解码器获得的N个第二解码结果并不是最终的识别结果，需要将通用解码器获得的N个第二解码结果和高频解码器获得的M个第一解码结果进行综合排序。

进一步的，所述根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果时，具体是将各个第二候选解码结果对应的语言层得分和声学层得分相加，得到与所述第二候选解码结果对应的总得分；从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果，所述N个第二候选解码结果作为N个所述第二解码结果。

具体的，对于每个第二候选解码结果，采用通用语言模型对其打分，以获取该第二候选解码结果的语言层得分，采用声学模型对其带份，以获取该第二候选解码结果的声学层得分，将语言层得分和声学层得分相加，即可得到该第二候选解码结果的总得分。然后，对所有第二候选解码结果的总得分进行排序，从而确定总得分大于预设分数阈值的N个第二候选解码结果。

需要说明的是，本发明实施例是通过将语言层得分和声学层得分相加的方式获取第二候选解码结果的总得分，然而，本发明实施例并不以此为限制，在其他可行的实现方式中，也可以通过其他方式获取第二候选解码结果的总得分，例如，对语言层得分和声学层得分进行积分处理等。

上述高频解码器对语音信号的解码过程，可以与通用解码器对语音信号的解码过程同时或先后进行。而且，由于高频解码器的解码路径和通用解码器的解码路径不发生冲突，因此不会导致高频解码器的解码路径被提前裁剪的问题。也就是说，当语音信号具体为远场语音信号时，同时使用高频解码器和通用解码器对语音信号进行解码，由于高频解码器的解码路径和通用解码器的解码路径相互不产生影响，因此有效解决了采用通用解码器对远场语音信号进行识别时，由于远场语音信号的衰减和背景环境噪声的影响，导致的将正确的识别结果提前剪裁掉的问题，实现提升远场语音信号识别的准确性的目的。

另外，解码过程中，高频解码器和通用解码器分别使用不同的语音模型进行解码，可以平衡高频识别的准确性和通用识别的泛化性，避免将通用语言模型和高频语言模型融合，造成的准确性和泛化性无法兼顾的问题。

最后，决策模块确定最优解码结果的过程。

请参照图2，决策模块从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果时，具体是通过线性回归(Logistic Regression)模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分，得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分；从所述第一解码结果和第二解码结果中确定得分最高的解码结果作为最优解码结果。可选的，线性回归模型除了融合声学模型特征、语言模型特征外，还融合下述特征中的一个或者多个特征：声学模型特征、语言模型特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。

具体的，决策模块为多特征决策模块，使用线性回归模型对高频解码器获得的M个第一解码结果，以及通用解码器获得的N个第二解码结果进行综合排序，根据排序确定出最优解码结果。该过程中，线性回归模型可以对多种特征融合进行打分，以有效提升复杂远场环境下，语音信号识别的鲁棒性。其中，线性回归模型融合的多种特征除了包含近场语音信号识别过程中用到的声学模型特征、语言模型特征外，还包括语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征中的一个或多个。语义特征具体包含用户请求所属的领域、意图，以及请求中的关键槽位信息等。另外，采用线性回归模型进行特征融合时，还可以扩展其他新增特征，从而进一步提升复杂远场环境下，语音信号识别的鲁棒性和扩展行。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图3为本发明一个实施例提供的语音识别装置的结构示意图，该语音识别装置可以通过软件和/或硬件的方式实现。如图3所示，增语音识别10包括：接收模块11、高频解码模块12、通用解码模块13以及确定模块14，其中，

接收模块11，用于接收用户输入的语音信号；

高频解码模块12，用于采用高频解码器对所述语音信号进行解码，得到至少一个第一解码结果，其中，所述高频解码器中的解码路径根据所述用户的高频语音指令确定；

通用解码模块13，用于采用通用解码器对所述语音信号进行解码，得到至少一个第二解码结果；

确定模块14，用于从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。

本发明实施例提供的语音识别装置，接收到用户输入的语音信号后，同时采用高频解码器和通用解码器对语音进行解码，解码过程中，采用高频解码器获得至少一个第一解码结果，采用通用解码器获得至少一个第二解码结果，根据至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果。该过程中，高频解码器和通用解码器分别使用不同的语音模型进行解码，可以平衡高频识别的准确性和通用识别的泛化性，避免将通用语言模型和高频语言模型融合造成的准确性和泛化性无法兼顾的问题，从而提升了语音识别的准确率。

可选的，所述高频解码模块12，具体用于将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第一候选解码结果；采用高频语言模型和声学模型对全部第一候选解码结果进行打分，得到与各个第一候选解码结果分别对应的得分，其中，所述高频语言模型是根据所述用户的所述高频语音指令训练得到的；根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，其中，M为自然数。

进一步的，所述高频解码模块12，在根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果时，具体用于将各个第一候选解码结果对应的语言层得分和声学层得分相加，得到与所述第一候选解码结果对应的总得分；从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果，所述M个第一候选解码结果作为M个所述第一解码结果。

可选的，所述通用解码模块13，具体用于将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第二候选解码结果；采用通用语言模型和声学模型对全部第二候选解码结果进行打分，得到与各个第二候选解码结果分别对应的得分；根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个候选解码结果作为N个所述第二解码结果，其中，N为自然数。

进一步的，所述通用解码模块13，在根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果时，具体用于将各个第二候选解码结果对应的语言层得分和声学层得分相加，得到与所述第二候选解码结果对应的总得分；从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果，所述N个第二候选解码结果作为N个所述第二解码结果。

可选的，所述确定模块14，具体用于通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分，得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分；其中，所述线性回归模型融合声学模型特征和语言模型特征；

图4为本发明一实施例提供的用户设备的结构示意图。如图4所示，该用户设备20包括：

至少一个处理器21、存储器22和麦克风23；

所述麦克风23用于接收用户输入的语音信号；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的语音识别方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该用户设备20还包括通信部件24。其中，处理器21、存储器22以及通信部件24可以通过总线25连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的语音识别方法。

在上述的实施例中，应该理解到，所描述的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

接收用户输入的语音信号；

2.根据权利要求1所述的方法，其特征在于，所述采用高频解码器对所述语音信号进行解码，得到至少一个第一解码结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述采用通用解码器对所述语音信号进行解码，得到至少一个第二解码结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果，包括：

6.根据权利要求1～5任一项所述的方法，其特征在于，所述从所述至少一个第一解码结果和所述至少一个第二解码结果中，确定最优解码结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述线性回归模型还融合下述特征中的一个或者多个特征：语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。

8.根据权利要求1～5任一项所述的方法，其特征在于，所述语音信号具体为远场语音信号。

9.一种语音识别装置，其特征在于，包括：

接收模块，用于接收用户输入的语音信号；

10.根据权利要求9所述的装置，其特征在于，

所述高频解码模块，具体用于将所述语音信号遍历所述高频解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第一候选解码结果；采用高频语言模型和声学模型对全部第一候选解码结果进行打分，得到与各个第一候选解码结果分别对应的得分，其中，所述高频语言模型是根据所述用户的所述高频语音指令训练得到的；根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果，其中，M为自然数。

11.根据权利要求10所述的装置，其特征在于，

所述高频解码模块，在根据各个第一候选解码结果分别对应的得分，确定得分较高的前M个第一候选解码结果作为M个所述第一解码结果时，具体用于将各个第一候选解码结果对应的语言层得分和声学层得分相加，得到与所述第一候选解码结果对应的总得分；从所述第一候选解码结果中确定总得分大于预设分数阈值的M个第一候选解码结果，所述M个第一候选解码结果作为M个所述第一解码结果。

12.根据权利要求9所述的装置，其特征在于，

所述通用解码模块，具体用于将所述语音信号遍历所述通用解码器的解码空间的每一条解码路径，得到与各条解码路径分别对应的第二候选解码结果；采用通用语言模型和声学模型对全部第二候选解码结果进行打分，得到与各个第二候选解码结果分别对应的得分；根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个候选解码结果作为N个所述第二解码结果，其中，N为自然数。

13.根据权利要求12所述的装置，其特征在于，

所述通用解码模块，在根据各个第二候选解码结果分别对应的得分，确定得分较高的前N个第二候选解码结果作为N个所述第二解码结果时，具体用于将各个第二候选解码结果对应的语言层得分和声学层得分相加，得到与所述第二候选解码结果对应的总得分；从所述第二候选解码结果中确定总得分大于预设分数阈值的N个第二候选解码结果，所述N个第二候选解码结果作为N个所述第二解码结果。

14.根据权利要求9～13任一项所述的装置，其特征在于，

所述确定模块，具体用于通过线性回归模型对所述至少一个第一解码结果和所述至少一个第二解码结果进行打分，得到与各个第一解码结果对应的得分以及与各个第二解码结果对应的得分；其中，所述线性回归模型融合声学模型特征和语言模型特征；

15.根据权利要求14所述的装置，其特征在于，所述线性回归模型还融合下述特征中的一个或者多个特征：语义特征、解码特征、声学置信度特征、上下文特征、语义特征、用户特征。

16.根据权利要求9～13任一项所述的装置，其特征在于，所述语音信号具体为远场语音信号。

17.一种用户设备，包括麦克风、处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述麦克风用于接收用户输入的语音信号，所述处理器执行所述程序时实现如上述权利要求1-8任一项所述的方法。

18.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-8任一项所述的方法。