CN111862943B

CN111862943B - 语音识别方法和装置、电子设备和存储介质

Info

Publication number: CN111862943B
Application number: CN201910362453.1A
Authority: CN
Inventors: 黄明运; 潘复平; 刘鼎; 王振兴
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-07-25
Anticipated expiration: 2039-04-30
Also published as: CN111862943A

Abstract

本公开实施例公开了一种语音识别方法和装置、电子设备和存储介质，其中，语音识别方法包括：对待识别语音进行逐帧识别，得到多条候选路径；从所述多条候选路径中确定分值最高的候选路径；确定与所述分值最高的候选路径对应的词序列；基于所述词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，所述词序列为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N。本公开实施例可以提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

Description

语音识别方法和装置、电子设备和存储介质

技术领域

本公开涉及语音识别技术，尤其是一种语音识别方法和装置、电子设备和存储介质。

背景技术

语音识别技术在近些年取得了显著的进步，目前已进入工业、家电、智能家居等各个领域。语音唤醒即是语音识别技术的一种形式，其不直接接触硬件设备，通过关键词的语音即可将设备唤醒运行。一般情况下，大部分设备都是靠物理按键实现设备的唤醒或者运行。然而，这对于用户体验来说并不好。语音作为用户最自然的交流方式，通过语音唤醒这种非接触式的方式启动设备无疑是更友好的。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音识别方法和装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种语音识别方法，包括：

对待识别语音进行逐帧识别，得到多条候选路径；

从所述多条候选路径中确定分值最高的候选路径；

确定与所述分值最高的候选路径对应的词序列；

基于所述词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，所述词序列为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N。

根据本公开实施例的另一个方面，提供了一种语音识别装置，包括：

语音识别模块，用于对待识别语音进行逐帧识别，得到多条候选路径；以及从所述多条候选路径中确定分值最高的候选路径；确定与所述分值最高的候选路径对应的词序列；基于所述词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，所述词序列为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N；

输出模块，用于在所述语音识别模块确定输出所述词序列时，输出所述词序列。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的语音识别方法。

根据本公开实施例的再一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行本公开上述任一实施例所述的语音识别方法。

基于本公开上述实施例提供的语音识别方法和装置、电子设备和存储介质，对待识别语音进行逐帧识别，得到多条候选路径；从多条候选路径中确定分值最高的候选路径，并确定与该分值最高的候选路径对应的词序列；基于该词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列作为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N，基于本公开实施例，在分值最高的候选路径对应的词序列与预设关键词匹配、且识别到所述词序列中最后一个词的预设数量的语音帧时，即可返回语音识别结果，提前结束语音识别，而无需等到整个待识别语音解码结束，从而降低了延迟，可以提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的场景图。

图2是本公开一示例性实施例提供的语音识别方法的流程示意图。

图3是基于本公开实施例的一个应用示意图。

图4是本公开另一示例性实施例提供的语音识别方法的流程示意图。

图5是本公开又一示例性实施例提供的语音识别方法的流程示意图。

图6是本公开再一示例性实施例提供的语音识别方法的流程示意图。

图7是本公开一示例性实施例提供的语音识别装置的结构示意图。

图8是本公开另一示例性实施例提供的语音识别装置的结构示意图。

图9是本公开又一示例性实施例提供的语音识别装置的结构示意图。

图10是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，本发明人通过研究发现：在现有语音唤醒设备的过程中，需要对整段语音(包括语音段和语音段前后的静音)解码完成后，才能返回语音段的识别结果，延迟较大，导致用户体验较差。

本公开实施例通过提前返回语音段识别结果的方式，来降低延迟，以提前唤醒说话人的唤醒指令唤醒设备，从而提升用户体验。

示例性系统

图1是本公开所适用的场景图。如图1所示，由音频采集模块(例如麦克风等)采集原始音频信号，经前端信号处理模块处理后的语音，基于本公开实施例进行语音识别，得到语音识别结果。在得到的语音识别结果与预设关键词匹配时，可以对电子设备进行唤醒。例如，在语音识别结果为“您好，地平线”这一预设关键词时，电子设备执行从非工作状态切换到工作状态(也可以称为被唤醒状态)的操作，例如，电子设备显示锁屏密码输入界面或者输出“需要帮您做什么”的语音；在语音识别结果与预设关键词不匹配时，电子设备不会执行从非工作状态切换到工作状态的操作。

示例性方法

图2是本公开一示例性实施例提供的语音识别方法的流程示意图。本实施例可应用在终端设备、服务器等任意电子设备(本公开简称：设备)上，其中的终端设备例如可以包括但不限于：智能音箱、智能摄像头、智能闹钟、智能手机等任意具有语音识别功能的终端设备。如图2所示，包括如下步骤：

步骤201，对待识别语音进行逐帧识别，得到多条候选路径。

其中的待识别语音，可以是由音频采集模块(例如麦克风等)采集的原始音频信号、经前端信号处理模块处理后的语音。其中，前端信号处理模块对音频信号的处理例如可以包括但不限于：语音活动检测(Voice Activity Detection，VAD)、降噪、声学回声消除(Acoustic Echo Cancellaction，AEC)、去混响处理、声源定位、波束形成(Beam Forming，BF)等。

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测、语音边界检，是指在噪声环境中检测音频信号中语音的存在与否，准确的检测出音频信号中语音段起始位置，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。VAD的起点是从静音到语音，VAD的结束点是从语音到静音，VAD的结束点的判断需要一段静音。原始音频信号经前端信号处理得到的语音，包括从VAD的起点到结束点的语音，因此，作为本公开实施例的待识别语音，在语音段后还可能包括一段静音。

在利用关键词的语音唤醒设备的过程中，用户说完最后一个词后，待识别语音中在语音段后还包括一段静音，再加上语音段的预测和解码时间，往往会造成明显的延迟，导致用户的体验更差。

步骤202，从多条候选路径中确定分值最高的候选路径。

步骤203，确定与分值最高的候选路径对应的词序列。

步骤204，基于所述词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，所述词序列为待识别语音的语音识别结果。

其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N。其中，不同的词包括的语音帧的数量可能不同，即N的取值可能不同。M的取值可以为经验值，可以设置为小于多个词包括的语音帧的数量的平均值或者最小值、且满足可以识别出一个词的需求，或者也可以采取其他方式设置，本公开实施例对此不做限制。

例如，在实际应用中，一个词可能包括20-100个语音帧，即N的取值可以为20-100，M的取值可以为大于1且小于20的整数。

在本公开实施例中，预设关键词即为用于唤醒设备运行的唤醒词，可以为用户预先设置的特定词语，例如，可以通过应用(APP)进行预设关键词的设置定。可选地，预设关键词可以以文字的形式进行设置，例如，用户手动在APP的预定位置输入预设关键词；或者，预设关键词可以以声音的形式进行注册，例如：用户通过APP录制自己说的包含预设关键词的音频。本公开实施例对预设关键词的设置方式不作限定。

在一个可选的例子中，为了防止误唤醒设备，导致唤醒设备的效果出现误差，可以注册多个预设关键词，每个预设关键词包括的字数(词的数量)可以在3-7个左右，但本公开实施例对预设关键词的数量和每个预设关键词包括的字数不作限定。

基于本公开上述实施例提供的语音识别方法，对待识别语音进行逐帧识别，得到多条候选路径；从多条候选路径中确定分值最高的候选路径，并确定与该分值最高的候选路径对应的词序列；基于该词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列作为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N，基于本公开实施例，在分值最高的候选路径对应的词序列与预设关键词匹配、且识别到所述词序列中最后一个词的预设数量的语音帧时，即可返回语音识别结果，例如，若所述词序列中最后一个词包括60个语音帧，在识别到所述词序列中最后一个词的第10个语音帧时即可返回语音识别结果，提前结束语音识别，而无需等到整个待识别语音解码结束，从而降低了延迟，可以提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

进一步地，若待识别语音中包括语音段、以及位于该语音段之后的静音，假设该语音段中最后一个词包括60个语音帧、该语音段之后的静音包括0个语音帧，则基于现有技术，需要等待该最后一个词的60个语音帧、以及之后静音的1000个语音帧都识别完成后才返回语音识别结果，而基于本公开实施例，在识别到该最后一个词的第10个语音帧时即可返回语音识别结果，提前结束语音识别，相对于现有技术减少了对最后一个词的后面50个语音帧、以及之后静音的1000个语音帧的语音识别，从而降低了由于识别1050个语音帧导致的延迟，提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

图3是基于本公开实施例的一个应用示意图。如图3所示，假设预设关键词包括“地平线”，基于上述步骤203确定的与分值最高的候选路径对应的词序列为“地平线”，即分值最高的候选路径对应的与预设关键词“地平线”匹配，其中最后一个词“线”有7个语音帧，基于现有技术，需要对该最后一个词“线”的7个语音帧都识别完成才可返回语音识别结果，若语音段“地平线”后还包括一段静音，则需要进一步等待该静音也识别完成才可返回语音识别结果。而基于本公开实施例，在识别到该最后一个词“线”的第5个语音帧时即可返回语音识别结果、提前结束语音识别，而无需等到整个语音段“地平线”及其后的静音都解码结束，从而降低了延迟，可以提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

图4是本公开另一示例性实施例提供的语音识别方法的流程示意图。如图4所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，依次从待识别语音中读取一个语音帧作为当前帧，对当前帧进行声学特征提取，得当前帧的声学特征信息。

在其中一些实施方式中，声学特征信息例如可以包括但不限于以下任一特征信息：有线性预测编码(Linear Predictive Coding，LPC)、梅尔频率倒谱系数(Mel-frequency Cepstrum Coefficients，MFCC)、梅尔标度滤波器组(Mel-scale Filter Bank，FBank)等。

步骤2012，对当前帧的声学特征信息进行识别，得到当前帧的至少一个音素以及至少一个音素中各音素的声学得分。

在其中一些实施方式中，可以通过声学模型对当前帧的声学特征信息进行识别，其中的声学模型例如可以包括但不限于：高斯混合模型-隐马尔科夫模型(GaussianMixture-Model Hidden Markov Model，GMM-HMM)、循环神经网络(Recurrent NeuralNetworks，RNN)、前馈序列记忆神经网络(Feedforward Sequential Memory Networks，FSMN)等，本公开实施例不对此进行限制。

步骤2013，分别对上述至少一个音素中各音素进行打分，得到当前帧的至少一个词以及至少一个词中各词的语言得分。

在其中一些实施方式中，可以通过语言模型分别对上述至少一个音素中各音素进行打分，其中的语言模型例如可以包括但不限于：N元语法(N-Gram)语言模型或者神经网络语言模型(Neural Network Lauguage Model，NNLM)等，本公开实施例不对此进行限制。

步骤2014，基于至少一个音素以及至少一个音素中各音素的声学得分、至少一个词以及至少一个词中各词的语言得分确定多条候选路径，该多条候选路径构成词图(lattice)。

基于本实施例，实现了对待识别语音的解码，得到了待识别语音对应的多条候选路径，例如，我想-唱歌，我-想-吃饭，我想-飞-天-遁-地，等等。

图5是本公开又一示例性实施例提供的语音识别方法的流程示意图。如图5所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，确定所述词序列与预设关键词是否匹配。

在一些可能的实施方式中，词序列与预设关键词匹配是指，所述词序列与预设关键词完全一致，或者所述词序列为预设关键词中连续的部分词。例如，预设关键词为“您好，地平线”时，若所述词序列为“您好，地平线”、或者“地平线”时，可以认为所述词序列与预设关键词匹配。

若所述词序列与预设关键词匹配，执行步骤2042。否则，若所述词序列与预设关键词不匹配，不执行本实施例的后续步骤。

步骤2042，确定当前帧是否所述词序列中最后一个词的第M个语音帧，其中，M的取值范围为大于或等于5、且小于或等于20。

若当前帧是所述词序列中最后一个词的第M个语音帧，执行步骤2043。否则，若当前帧不是词序列中最后一个词的第M个语音帧，执行步骤2011，对待识别语音进行下一帧识别。

步骤2043，确定输出所述词序列。

基于本实施例，先确定所述词序列与预设关键词是否匹配，若所述词序列与预设关键词匹配，再确定当前帧是否所述词序列中最后一个词的第M个语音帧，若当前帧是所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，从而实现了所述词序列与预设关键词是否匹配、当前帧是否属于所述词序列中最后一个词的第M个语音帧的准确确定，以便确定是否可以提前返回语音识别结果、提前结束语音识别，且有效保证语音识别结果的准确性。

图6是本公开再一示例性实施例提供的语音识别方法的流程示意图。如图6所示，在本公开上述图2-图5所示任一实施例的基础上，在步骤204确定输出词序列作为待识别语音的语音识别结果之后，还包括：

步骤601，响应于所述词序列与预设关键词匹配，生成设备唤醒指令以对设备进行唤醒。

其中，在本公开的一些实施方式中，词序列与预先定义的至少一个关键词中的任一关键词匹配时，即可认为该词序列与预设关键词匹配。

基于上述实施例，可以对用户发送的原始音频信号进行语音识别，将用户发送的原始音频信号转换为文字，并在该文字与预设关键词匹配时，生成设备唤醒指令以对设备进行唤醒，从而实现了基于用户语音对设备的唤醒。由于可以提前结束语音识别返回语音识别结果，而无需等到整个待识别语音解码结束，可以提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

在本公开的一些实施方式中，对设备进行唤醒，可以是：根据设备唤醒指令，将设备的状态切换为工作状态。一般情况下，设备的状态通常可以包括：工作状态、休眠状态、待机状态、关机状态等等，在设备处于开机状态但未被唤醒时，可以处于休眠状态或者待机状态下，基于本实施例，根据设备唤醒指令对设备进行唤醒后，可将设备的状态切换为工作状态下，以便基于用户通过语音发送的指令进行相应的操作。

另外，在本公开再一示例性实施例提供的语音识别方法中，通过步骤601对设备进行唤醒之后，用户可以通过语音发送指令，设备基于用户通过语音发送指令进行相应的操作。再参见图6，通过步骤601对设备进行唤醒之后，还可以包括：

步骤602，采集指令音频。

其中的指令音频即用户发出的、用于指示设备执行相应操作的音频信号。

在其中一些实施方式中，可以通过音频采集模块(例如麦克风等)采集用户发出的指令音频。

步骤603，基于指令音频，确定指令语音。

在其中一些实施方式中，可以通过前端信号处理模块对指令音频进行前端信号处理，例如VAD检测、降噪、AEC等，得到指令语音。

步骤604，对指令语音进行语音识别处理，得到指令识别结果。

在其中一些实施方式中，可以将指令语音作为待识别语音，通过上述图2-图5所示任一实施例的流程对指令语音进行语音识别处理，得到的语音识别结果即指令识别结果。

或者，在另一些实施方式中，也可以通过现有的任一语音识别方法，将指令语音作为待识别语音，进行语音识别处理，得到的语音识别结果即指令识别结果。

步骤605，控制设备执行与指令识别结果相对应的操作。

基于上述实施例，可以对用户通过语音方式发送的指令进行语音识别，将用户通过语音方式发送的指令转换为文字，基于该文字的含义执行相应的操作。

在本公开的一些实施方式中，步骤605中，可以根据指令识别结果进行语义分析，从而根据语义分析的结果，控制设备执行相对应的操作。例如，若语义分析的结果为“播放周杰伦的青花瓷”，则设备可以根据该语义分析的结果，搜索周杰伦的青花瓷并播放；若语义分析的结果为“北京市明天的天气如何”，则设备可以根据该语义分析的结果，搜索北京市明天的天气并输出，具体可以通过语音或者文字输出，本公开实施例对此不进行限制。

其中，对指令识别结果进行的语义分析，例如可以为词语级语义分析、句子级语义分析或者篇章级语义分析，本公开实施例对此不作限定。在一个可选的例子中，可以对作为指令识别结果的文字信息进行语义分析，通过语义分析得到指令识别结果的语义表示，作为语义分析结果；在另一个可选的例子中，可以对作为指令识别得到的文字信息进行语义分析，通过语义分析识别指令识别结果中是否包括预设字词、短语或者句子，作为语义分析结果。本公开实施例对指令识别结果进行语义分析的实现方式不作限定。

例如，可以通过隐性语义分析(Latent semantic analysis，LSA)、概率隐性语义分析(Probabilistic latent semantic analysis，PLSA)或隐狄利克雷分配(LatentDirichlet allocation，LDA)等主题模型对指令识别结果进行语义分析，或者可以通过RNN、长短期记忆神经网络(Long Short-Term Memory，LSTM)等人工神经网络对指令识别结果进行语义分析，本公开实施例对此不作限定。

本公开实施例提供的任一种语音识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种语音识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音识别方法。下文不再赘述。

示例性装置

图7是本公开一示例性实施例提供的语音识别装置的结构示意图。该语音识别装置可以设置于终端设备、服务器等电子设备中，执行本公开上述任一实施例的语音识别方法。如图7所示，该语音识别装置包括：语音识别模块701和输出模块702。其中：

语音识别模块701，用于对待识别语音进行逐帧识别，得到多条候选路径；以及从所述多条候选路径中确定分值最高的候选路径；确定与所述分值最高的候选路径对应的词序列；基于所述词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，所述词序列为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N。

输出模块702，用于在所述语音识别模块确定输出所述词序列时，输出所述词序列。

图8是本公开另一示例性实施例提供的语音识别装置的结构示意图。如图8所示，在本公开上述图7所示实施例的基础上，语音识别模块701可以包括：识别单元801，第一确定单元802，第二确定单元803，第三确定单元804，第四确定单元805和第五确定单元806。其中：

识别单元801，用于对待识别语音进行逐帧识别，得到多条候选路径。

第一确定单元802，用于从识别单元801得到的多条候选路径中确定分值最高的候选路径。

第二确定单元803，用于确定与第一确定单元802确定的分值最高的候选路径对应的词序列。

第三确定单元804，用于确定第二确定单元803确定的词序列与预设关键词是否匹配。

第四确定单元805，用于根据第三确定单元804确定的结果，若词序列与预设关键词匹配，确定当前帧是否词序列中最后一个词的第M个语音帧，其中，M的取值范围为大于或等于5、且小于或等于20。

第五确定单元806，用于根据第四确定单元805确定的结果，若当前帧是词序列中最后一个词的第M个语音帧，确定输出词序列。若当前帧不是词序列中最后一个词的第M个语音帧，由识别单元801对待识别语音进行下一帧识别。

基于本公开上述实施例提供的语音识别装置，对待识别语音进行逐帧识别，得到多条候选路径；从多条候选路径中确定分值最高的候选路径，并确定与该分值最高的候选路径对应的词序列；基于该词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列作为所述待识别语音的语音识别结果；其中，所述词序列中最后一个词包括N个语音帧，M和N分别为大于1的整数、且M小于N，基于本公开实施例，在分值最高的候选路径对应的词序列与预设关键词匹配、且识别到所述词序列中最后一个词的预设数量的语音帧时，即可返回语音识别结果，提前结束语音识别，而无需等到整个待识别语音解码结束，从而降低了延迟，可以提前唤醒说话人的唤醒指令唤醒设备，从而提升了用户体验。

其中，在本公开的一些实施方式中，上述识别单元801可以包括(附图中未示出)：特征提取子单元，用于依次从待识别语音中读取一个语音帧作为当前帧，对当前帧进行声学特征提取，得当前帧的声学特征信息；识别子单元，用于对特征提取子单元得到的当前帧的声学特征信息进行识别，得到当前帧的至少一个音素以及至少一个音素中各音素的声学得分；打分子单元，用于分别对识别子单元得到的至少一个音素中各音素进行打分，得到当前帧的至少一个词以及至少一个词中各词的语言得分；确定子单元，用于基于对识别子单元得到的至少一个音素以及至少一个音素中各音素的声学得分、以及打分子单元得到的至少一个词以及至少一个词中各词的语言得分确定多条候选路径。

图9是本公开又一示例性实施例提供的语音识别装置的结构示意图。如图9所示，在本公开上述图7或图8所示任一实施例的基础上，该实施例的语音识别装置还可以包括：唤醒模块901，用于响应于输出模块702确定的输出词序列与预设关键词匹配，生成设备(即语音识别装置所在电子设备)唤醒指令以对设备进行唤醒。

其中，在词序列与预先定义的至少一个关键词中的任一关键词匹配时，可以认为该词序列与预设关键词匹配。

另外，再参见图9，在本公开再一示例性实施例的语音识别装置中，还可以包括：执行模块902，用于根据唤醒模块901发送的设备唤醒指令，将设备的状态切换为工作状态。

另外，再参见图9，通过执行模块902将设备唤醒之后，在本公开再一示例性实施例的语音识别装置中，还可以包括：音频采集模块903，前端信号处理904和控制模块905。其中：

音频采集模块903，用于采集指令音频。

前端信号处理模块904，用于基于音频采集模块903采集的指令音频，确定指令语音。

相应地，该实施例中，语音识别模块701，还用于对前端信号处理模块904确定的指令语音进行语音识别处理，得到指令识别结果。

控制模块905，用于控制设备执行与语音识别模块701得到的指令识别结果相对应的操作。

其中，在本公开的一些实施方式中，控制模块905可以包括(附图中未示出)：语义分析单元，用于根据指令识别结果进行语义分析；控制单元，用于根据语义分析单元语义分析的结果，控制设备执行相对应的操作。

示例性电子设备

下面，参考图10来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图10图示了根据本公开实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器101和存储器102。

处理器101可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器102可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器101可以运行所述程序指令，以实现上文所述的本公开的各个实施例的语音识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置103和输出装置104，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置103可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置103可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置104可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音识别方法，包括：

对待识别语音进行逐帧识别，得到多条候选路径；

从所述多条候选路径中确定分值最高的候选路径；

确定与所述分值最高的候选路径对应的词序列；

2.根据权利要求1所述的方法，其中，所述基于所述词序列与预设关键词匹配、且当前帧属于所述词序列中最后一个词的第M个语音帧，确定输出所述词序列，包括：

确定所述词序列与预设关键词是否匹配；

若所述词序列与预设关键词匹配，确定当前帧是否所述词序列中最后一个词的第M个语音帧，其中，M的取值范围为大于或等于5、且小于或等于20；

若当前帧是所述词序列中最后一个词的第M个语音帧，确定输出所述词序列；

若当前帧不是所述词序列中最后一个词的第M个语音帧，对待识别语音进行下一帧识别。

3.根据权利要求1所述的方法，其中，所述对待识别语音进行逐帧识别，得到多条候选路径，包括：

依次从所述待识别语音中读取一个语音帧作为当前帧，对所述当前帧进行声学特征提取，得所述当前帧的声学特征信息；

对所述当前帧的声学特征信息进行识别，得到所述当前帧的至少一个音素以及所述至少一个音素中各音素的声学得分；

分别对所述至少一个音素中各音素进行打分，得到所述当前帧的至少一个词以及所述至少一个词中各词的语言得分；

基于所述至少一个音素以及所述至少一个音素中各音素的声学得分、所述至少一个词以及所述至少一个词中各词的语言得分确定多条候选路径。

4.根据权利要求1-3任一所述的方法，其中，所述确定输出所述词序列之后，还包括：

响应于所述词序列与预设关键词匹配，生成设备唤醒指令以对设备进行唤醒。

5.根据权利要求4所述的方法，其中，所述词序列与预设关键词匹配，包括：所述词序列与预先定义的至少一个关键词中的任一关键词匹配。

6.根据权利要求4所述的方法，其中，所述对设备进行唤醒，包括：

根据所述设备唤醒指令，将所述设备的状态切换为工作状态。

7.根据权利要求4所述的方法，其中，所述对设备进行唤醒之后，还包括：

采集指令音频；

基于所述指令音频，确定指令语音；

对所述指令语音进行语音识别处理，得到指令识别结果；

控制所述设备执行与所述指令识别结果相对应的操作。

8.根据权利要求7所述的方法，其中，所述控制所述设备执行与所述指令识别结果相对应的操作，包括：

根据所述指令识别结果进行语义分析，根据所述语义分析的结果，控制所述设备执行相对应的操作。

9.一种语音识别装置，包括：

10.根据权利要求9所述的装置，其中，所述语音识别模块包括：

识别单元，用于对待识别语音进行逐帧识别，得到多条候选路径；

第一确定单元，用于从所述识别单元得到的所述多条候选路径中确定分值最高的候选路径；

第二确定单元，用于确定与所述第一确定单元确定的所述分值最高的候选路径对应的词序列；

第三确定单元，用于确定所述第二确定单元确定的所述词序列与预设关键词是否匹配；

第四确定单元，用于根据所述第三确定单元确定的结果，若所述词序列与预设关键词匹配，确定当前帧是否所述词序列中最后一个词的第M个语音帧，其中，M的取值范围为大于或等于5、且小于或等于20；

第五确定单元，用于根据所述第四确定单元确定的结果，若当前帧是所述词序列中最后一个词的第M个语音帧，确定输出所述词序列。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的语音识别方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-8任一所述的语音识别方法。