CN117524199A

CN117524199A - 语音识别方法、装置及车辆

Info

Publication number: CN117524199A
Application number: CN202410008682.4A
Authority: CN
Inventors: 张辽
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-02-06
Anticipated expiration: 2044-01-04
Also published as: CN117524199B

Abstract

本申请涉及一种语音识别方法、装置及车辆。该方法包括：接收车辆座舱内用户发出的语音请求；当检测到语音请求中静音的持续时长大于第一时长且小于第二时长时，将第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；若第一语音识别文本的语义不完整，则保留第一语音识别文本；将第二音素概率矩阵输入语音解码图中进行解码，获得对应的第二语音识别文本；将第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。本申请提供的方案，能够确保语音识别结果的准确性，以及缩短句中静音时长，提高语音识别效率，改善用户体验。

Description

语音识别方法、装置及车辆

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及车辆。

背景技术

在语音识别技术中，语音识别系统会根据用户的语音停顿来判断一句语音是否结束，继而针对一句完整的语音进行语音识别，以获得准确的语音识别文本。

在实际的语音识别场景中，可能存在用户表达不畅，导致一句完整的语音中间存在长时间停顿的情形，使得语音识别系统将一个长的整句语音截断成两段短的分句语音并分别进行识别。其中，前一段分句的语音识别文本先行正常输出显示；而后一段分句的语音识别文本会另外独立显示，甚至因缺少完整的上下文语义而输出不准确的识别结果。最终，基于前、后两段分句均为不完整的语音识别文本，会使得用户的真实语音指令无法正确响应，影响人机交互体验。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种语音识别方法、装置及车辆，能够确保语音识别结果的准确性，以及缩短句中静音时长，提高语音识别效率，改善用户体验。

本申请第一方面提供一种语音识别方法，其包括：

接收车辆座舱内用户发出的语音请求；当检测到所述语音请求中静音的持续时长大于第一时长且小于第二时长时，将所述静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；将所述静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量；依时序分别将所述第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；及将所述第二声学特征向量输入所述声学模型，获得对应的第二音素概率矩阵；将所述第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；若所述第一语音识别文本的语义不完整，则保留所述第一语音识别文本；将所述第二音素概率矩阵输入所述语音解码图中进行解码，获得对应的第二语音识别文本；将所述第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

一些实施方式中，在将所述第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵之后，还包括：跳过具有所述持续时长的静音。

一些实施方式中，在将所述第二声学特征向量输入所述声学模型之前，还包括：向所述声学模型加载具有预设时长的预设静音状态，其中，所述预设时长小于所述第一时长。

一些实施方式中，所述方法还包括：若所述第一语音识别文本的语义完整，则清空所述语音解码图中对应的解码状态，并将所述第一语音识别文本输出并在车载系统的图形用户界面显示；及另将所述第二语音识别文本单独输出并在车载系统的图形用户界面显。

一些实施方式中，所述方法还包括：当检测到所述语音请求中静音的持续时长不大于第一时长，则将所述静音之前的第一有效语音和所述静音之后的第二有效语音视为一句语音请求进行语音识别；或

当检测到所述语音请求中静音的持续时长不小于第二时长，则将所述静音之前的第一有效语音和所述静音之后的第二有效语音视为两句语音请求分别进行语音识别。

一些实施方式中，所述获得对应的第一语音识别文本之后，还包括：

获取所述第一语音识别文本的语义完整的置信度；当所述第一语音识别文本对应的置信度小于预设阈值时，则确定所述第一语音识别文本的语义不完整。

一些实施方式中，所述若所述第一语音识别文本的语义不完整，则保留所述第一语音识别文本，包括：若所述第一语音识别文本的语义不完整，则在所述语音解码图中保留状态得分最高的第一语音识别文本作为待拼接文本，并删除所述语音解码图中剩余的候选语音识别文本。

本申请第二方面提供一种语音识别装置，其包括：

语音接收模块，用于接收车辆座舱内用户发出的语音请求；

特征提取模块，用于当检测到所述语音请求中静音的持续时长大于第一时长且小于第二时长时，将所述静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；将所述静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量；

声学处理模块，用于依时序分别将所述第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；及将所述第二声学特征向量输入所述声学模型，获得对应的第二音素概率矩阵；

语音识别模块，用于将所述第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；若所述第一语音识别文本的语义不完整，则保留所述第一语音识别文本；将所述第二音素概率矩阵输入所述语音解码图中进行解码，获得对应的第二语音识别文本；将所述第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

本申请第三方面提供一种车辆，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被车辆的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请的语音识别方法，在声学模型的处理阶段，通过对静音前、后的两段语音进行截断，且跳过具有持续时长的静音，大大提高了声学模型的处理效率，缩短了整句语音请求的处理时长，使后续语音识别文本可以加速输出显示，且额外在第二有效语音的句首增加预先已经处理好的预设时长静音，确保了第二有效语音的识别准确率，且无需声学模型对加载的预设静音进行识别，确保识别效率；另外，在语音解码图中，根据第一语音识别文本的语义完整性采取不同的输出和显示方案，使得语义不完整的第一语音识别文本可以等待第二语音识别文本的拼接，而语义完整的第一语音识别文本可以与第二语音识别文本各自分开输出显示，获得准确的语音识别结果，确保人机交互的可靠性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请示出的语音识别方法的流程示意图；

图2是本申请示出的语音识别方法的另一流程示意图；

图3是本申请示出的语音识别方法的另一流程示意图；

图4是本申请示出的语音识别装置的结构示意图；

图5是本申请示出的语音识别装置的另一结构示意图；

图6是本申请示出的车辆的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，一般采用VAD（Voice Activity Detection，语音活动检测）技术对语音信号进行端点检测，以确定一句语音的起始点和终止点。一般而言，VAD技术实时对每一帧语音信号进行检测，以判断当前帧的语音信号是有效语音或者静音，并按时序将检测后的每帧语音信号流入后续步骤进行特征提取，继而输入声学模型进行处理。当一句语音结束时，语音的末端一般为静音。若VAD技术检测到一段静音持续时长达到例如0.6s时，即可判断该句语音结束，从而生成特定的结束标记，继而根据结束标记进行断句，不会继续将0.6s以后的静音信号送入后续步骤，0.6s可以视为一句语音末端预设的语音末端静音时长，0.6s的最后1帧静音信号采用特定的结束标记来表示该句语音的结束。显然如果一句完整的语音中间存在长时间停顿的情形，即因停顿产生的静音时长达到了例如0.6s，语音识别系统将这段长语音进行掐断，形成两句独立的短语音并分别进行独立识别，继而可能出现识别结果有误，影响识别准确率。

针对上述问题，本申请提供一种语音识别方法，能够确保语音识别结果的准确性，以及缩短句中静音时长，提高语音识别效率，改善用户体验。

以下结合附图详细描述本申请的技术方案。

图1是本申请示出的语音识别方法的流程示意图。

参见图1，本申请示出的一种语音识别方法，其包括：

S110，接收车辆座舱内用户发出的语音请求。

其中，本语音识别处理的执行主体可以是搭载于服务器或车辆的车载智能设备上的语音识别系统。以车辆为例，当用户在车内通过语音进行人机交互时，可以通过车辆内的麦克风实时采集座舱内用户发出的语音请求。

S120，当检测到语音请求中静音的持续时长大于第一时长且小于第二时长时，将静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；将静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量。

本步骤中，可以根据相关技术中的VAD检测模块实时检测语音请求中的每帧语音信号。可以理解，语音信号包括有效语音信号和静音信号；有效语音信号即为具有人声的语音信号，静音信号则是没有人声的音频信号或环境噪音信号。当VAD检测模块检测到静音信号时，若静音的持续时长大于第一时长且小于第二时长时，表示该段语音请求中包含依时序连续分布的第一有效语音、前述长时间停顿的静音及第二有效语音。

一些实施方式中，第一时长可以设定为小于相关技术中VAD检测时预设的语音末端静音时长例如0.6s，例如第一时长可以选自0.3s~0.55s。第二时长则可以设定为大于预设的语音末端静音时长，例如第二时长可以选自0.65s~1s。例如第一时长为0.5s，第二时长为0.8s，当检测到一段静音的持续时长达到例如0.7s时，将该段静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；以及将该段静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量。

也就是说，通过上述持续时长的静音将整段语音请求截断为前、后两段有效语音。第一有效语音实时逐帧被VAD检测并实时率先逐帧提取出第一声学特征向量，并直接输入声学模型执行后续步骤S130。而当VAD检测到上述持续时长的静音时，则跳过具有该段静音，不需要后续步骤提取静音的声学特征向量，继而不需要输入声学模型中。而静音之后的第二有效语音则依时序逐帧提取出第二声学特征向量并输入后续步骤S130。

可以理解，第一声学特征向量和第二声学特征向量是先后依时序提取获得，并依时序输入后续步骤的声学模型。本步骤中，可以根据相关技术对待识别的语音请求的语音信号进行预加重、分帧、加窗、傅里叶变换、滤波、去均值等等多重操作，分别实现对各帧语音信号进行声学特征提取，获得各帧语音信号对应的声学特征向量。例如，每10ms视为1帧语音信号，1帧语音信号具有对应的声学特征向量。

本步骤中，在静音的持续时长大于相关技术中预设的语音末端静音时长例如0.6s时，并不会将该段静音以及静音之前的第一有效语音视为一句完整的已结束语音，即并不会在该段静音的尾帧赋予特定的结束标记，而是在该段静音之后继续接收第二有效语音。

S130，依时序分别将第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；及将第二声学特征向量输入声学模型，获得对应的第二音素概率矩阵。

本步骤中，声学模型通过预先相关技术训练获得。声学模型根据时序，对输入的第一声学特征向量进行处理，获得对应的第一音素概率矩阵。当第二声学特征向量输入声学模型，继续输出对应的第二音素概率矩阵。即第一音素概率矩阵和第二音素概率矩阵依时序获得。

S140，将第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；若第一语音识别文本的语义不完整，则保留第一语音识别文本。

可以理解，将率先获得的第一音素概率矩阵直接输入语音识别系统的语音解码图中进行解码，即可获得对应的第一语音识别文本。本申请中，以车辆为例，可以预先在车载智能终端加载语音识别系统，语音识别系统包含解码器，解码器的语音解码图一般由语言模型、发音词典和上下文关系及HMM对应的各个解码图合并而成。本步骤中，可以根据相关技术，获得语音请求中的第一有效语音对应的第一语音识别文本。

在获得第一语音识别文本后，即可根据相关技术对第一语音识别文本的语义完整性进行判别，具体判别方法于此不作限制。若第一语音识别文本的语义不完整，则表示还需要结合后续的第二语音识别文本进行语义补全，继而执行后续步骤。

相关技术中，如果第一语音识别文本的语义完整，则会作为最终的识别结果以供输出和显示，语音解码图中的解码路径将被相应清空以节约系统缓存空间。因此，本申请的第一语音识别文本在语义不完整时，其解码路径则会得以保留，以便结合后续步骤的第二语音识别文本联合输出。

S150，将第二音素概率矩阵输入语音解码图中进行解码，获得对应的第二语音识别文本；将第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

在声学模型输出第二音素概率矩阵后，即可输入语音解码图中进行解码。在第一语音识别文本的解码路径保留在语音解码图中的前提下，第二语音识别文本在第一语音识别文本的解码路径之后进行拼接，以形成完整的语音识别结果，继而共同输出并在车载系统的图形用户界面显示，用户即可在显示屏中直观看到解码出的语音识别文本。

从该示例可知，通过重新定义语音请求末端的静音时长的截断标准，使得在特定时长范围内的静音时长的前、后两段有效语音在先后依序通过语音解码图进行解码时，如果静音之前的第一语音识别文本语义不完整，即可等待解码获得第二语音识别文本后进行拼接，使得句中具有长时间停顿的语音请求得以获得完整的语音识别文本，继而确保识别准确率，改善用户体验。

图2是本申请示出的语音识别方法的另一流程示意图。

参见图2，本申请示出的一种语音识别方法，其包括：

S210，接收车辆座舱内用户发出的语音请求。

本步骤与步骤S110的介绍相同，于此不再赘述。

S220，当检测到语音请求中静音的持续时长大于第一时长且小于第二时长时，将静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；跳过具有持续时长的静音；再将静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量。

本步骤中，对句中的静音进行忽略处理，跳过该段静音，不进行声学特征提取，也不输入后续声学模型，节约系统资源，提高处理效率。本步骤跳过该段静音例如0.7s，即可为后续声学模型节约0.7s的待识别语音的处理时间，继而可以提前对输入的第二有效语音进行处理，使整体的语音识别效率上升。

S230，依时序分别将第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；向声学模型加载具有预设时长的预设静音状态；及将第二声学特征向量输入声学模型，获得对应的第二音素概率矩阵；其中，预设时长小于第一时长。

本步骤与步骤S130的介绍大致相同，其中，在第一声学特征向量全部输入至声学模型后，紧接着向声学模型加载具有预设时长的预设静音状态，然后再对输入的第二声学特征向量进行处理。

可以理解，声学模型作为一种深度学习模型，其包含多层隐藏层，每层隐藏层都会根据输入的声学特征向量提取到对应的状态。基于输入声学模型的每帧声学特征向量，都需要每层隐藏层花费一定的时间进行特征提取，跳过了持续时长的静音后，即可节约相应的系统资源。但是，基于声学模型本身的特性，每句新输入的语音需要从0初始化，本步骤通过加载已经提取好预设静音状态，可避免声学模型从0初始化识别第二有效语音，通过在句首加载一定时长的静音，确保第二有效语音的识别结果的准确性。

一些实施方式中，预设静音状态的预设时长小于第一时长。例如预设时长可以选自0.1s~0.2s。通过加载简短的预设静音状态，代替具有持续时长的静音，提高整体的语音识别效率，且不影响语音识别结果的准确性。

S240，将第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；对第一语音识别文本的语义完整性进行判别，获得对应的判别结果。

为了快速判别第一语音识别文本的语义完整性，一些实施方式中，获取第一语音识别文本的语义完整的置信度；当第一语音识别文本对应的置信度小于预设阈值时，则确定第一语音识别文本的语义不完整。

若第一语音识别文本的语义不完整，在本步骤执行后，继续执行步骤S250。

若第一语音识别文本的语义完整，则执行步骤S260。

S250，若第一语音识别文本的语义不完整，则在语音解码图中保留状态得分最高的第一语音识别文本作为待拼接文本，并删除语音解码图中剩余的候选语音识别文本；将第二音素概率矩阵输入语音解码图中进行解码，获得对应的第二语音识别文本；将第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

在确定第一语音识别文本的语义不完整后，即可将第一语音识别文本作为待拼接文本，等待语音解码图解出第二语音识别文本。

相关技术中，在通过语音解码图进行解码时，一般会获得多条解码路径，每条解码路径均具有各自的状态转移路径及状态得分。本步骤中，将状态得分最高的解码路径对应的识别结果作为第一语音识别文本，其他得分的识别结果则视为候选语音识别文本。而当第一语音识别文本的语义不完整时，则在语音解码图中保留状态得分最高的第一语音识别文本的解码路径，相应地，删除剩余的解码路径，继而节约系统资源。

在解码出第一语音识别文本后，语音解码图继续根据输入的第二音素概率矩正常完成解码，第二语音识别文本作为第一语音识别文本的补充文本，与第一语音识别文本进行拼接，组成完整的一句语音识别文本输出并在车载系统的图形用户界面显示。

S260，若第一语音识别文本的语义完整，则清空语音解码图中对应的解码状态，并将第一语音识别文本输出并在车载系统的图形用户界面显示；另将第二语音识别文本单独输出并在车载系统的图形用户界面显示。

可以理解，第一语音识别文本对应的第一有效语音可能是一句完整的语音，静音之后的第二有效语音则是另一句完整的语音，即第一有效语音和第二有效语音实质为相互独立的语音。因此，若第一语音识别文本的语义完整，则将第一语音识别文本单独率先输出并在车载系统的图形用户界面显示，不需要等待第二语音识别文本；相应地，语音解码图中不需要保留历史的解码路径，可以清空历史的解码路径，为系统提供更多的缓存空间。语音解码图可以在解码获得第二语音识别文本后，第二语音识别文本作为独立的一句文本在图形用户界面单独显示。

从该示例可知，本申请的语音识别方法，在声学模型的处理阶段，通过对静音前、后的两段语音进行截断，且跳过具有持续时长的静音，大大提高了声学模型的处理效率，缩短了整句语音请求的处理时长，使后续语音识别文本可以加速输出显示，且额外在第二有效语音的句首增加预先已经处理好的预设时长静音，确保了第二有效语音的识别准确率，且无需声学模型对加载的预设静音进行识别，确保识别效率；另外，在语音解码图中，根据第一语音识别文本的语义完整性采取不同的输出和显示方案，使得语义不完整的第一语音识别文本可以等待第二语音识别文本的拼接，而语义完整的第一语音识别文本可以与第二语音识别文本各自分开输出显示，获得准确的语音识别结果，确保人机交互的可靠性。

图3是本申请示出的语音识别方法的流程示意图。

参见图3，本申请示出的一种语音识别方法，其包括：

S310，接收车辆座舱内用户发出的语音请求。

本步骤与步骤S110的介绍相同，于此不再赘述。

S320，当检测到语音请求中静音的持续时长大于第一时长且小于第二时长时，将静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；跳过具有持续时长的静音；再将静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量。

本步骤与步骤S220的介绍相同，于此不再赘述。

为了便于说明，例如第一时长为0.5s，第二时长为0.8s。当VAD检测到静音的持续时长例如处于0.5~0.8之间时，则执行后续步骤S350。当然，具体时长设值于此仅举例说明，不作限制。

S330，当检测到语音请求中静音的持续时长不大于第一时长时，则将静音之前的第一有效语音和静音之后的第二有效语音视为一句语音请求进行语音识别；其中，依时序对第一有效语音、静音及第二有效语音进行特征提取，生成对应的声学特征向量；将声学特征向量输入声学模型，获得对应的音素概率矩阵；将音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的语音识别文本；将语音识别文本输出并在车载系统的图形用户界面显示。

本步骤中，若VAD检测到静音的持续时长例如不大于0.5s，例如静音的持续时长仅为0.2s，静音后紧接着继续出现有效语音，说明该句语音请求中存在极短的静音，用户并没有进行长时间的停顿后继续说话，表示该段静音之前的第一有效语音和静音之后的第二有效语音实际属于同一句话。因此，将静音之前的第一有效语音和静音之后的第二有效语音结合进行语音识别，即可以按照正常一句语音请求的语音识别流程进行语音识别，语音解码图可以输出连续的第一语音识别文本和第二语音识别文本。

执行完本步骤后，则该语音请求识别流程至此结束。

S340，当检测到语音请求中静音的持续时长不小于第二时长，则将静音之前的第一有效语音和静音之后的第二有效语音视为两句语音请求分别进行语音识别；其中，获取第一有效语音对应的第一语音识别文本并在车载系统的图形用户界面显示，及获取第二有效语音对应的第二语音识别文本并在车载系统的图形用户界面显示。

本步骤中，以第二时长为0.8s为例，当静音的持续时长大于或等于0.8s时，表示第一有效语音是独立的一句语音，与第二有效语音无关。因此，可以直接将第一有效语音和第二有效语音按照语音识别流程各自独立地完成识别。例如，将第一有效语音进行特征提取，生成对应的第一声学特征向量；将第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；将第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；将第一语音识别文本输出并在车载系统的图形用户界面显示。同理，对第二有效语音进行识别，获得对应的第二语音识别文本并输出显示。即第一语音识别文本和第二语音识别文本各自独立地输出和显示。

进一步地，一些实施方式中，可以将第二时长对应的尾帧赋予预设的结束标记。也就是说，当第一有效语音之后的静音持续时长达到0.8s时，则在该段静音的尾帧赋予结束标记，表示第一有效语音已经结束，使得该段静音之后的第二有效语音作为一句独立的语音请求进行语音识别。这样的设计，实现自然断句，确保静音前后两段有效语音各自独立且完整。

执行完本步骤后，则该语音请求识别流程至此结束。

S350，依时序分别将第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；向声学模型加载具有预设时长的预设静音状态；及将第二声学特征向量输入声学模型，获得对应的第二音素概率矩阵；其中，预设时长小于第一时长。

当选择执行本步骤时，表示第一有效语音可能为不完整的语音请求，也可能为完整的一句语音请求，继而执行步骤S360。

S360，将第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本，并判别第一语音识别文本的语义是否完整。

若第一语音识别文本的语义完整，继而执行步骤S370；若第一语音识别文本的语义不完整，继而执行步骤S390。

S370，若第一语音识别文本的语义完整，清空语音解码图中对应的解码状态，并将第一语音识别文本输出并在车载系统的图形用户界面显示。

可以理解，若第一语音识别文本的语义完整，则表示第一有效语音为独立的一句语音请求，与静音之后的第二有效语音无关。因此，可以直接输出第一语音识别文本并独立显示于图形用户界面。

在执行完本步骤后，继续执行步骤S380。

S380，将第二音素概率矩阵输入语音解码图中进行解码，获得对应的第二语音识别文本；并将第二语音识别文本输出并在车载系统的图形用户界面显示。

可以理解，第二语音识别文本按照正常的解码流程获得，与第一语音识别文本无关，继而独立输出并显示。

当执行本步骤后，则该语音请求的识别流程至此结束。

S390，若第一语音识别文本的语义不完整，则在语音解码图中保留状态得分更高的多个第一语音识别文本作为待拼接文本，并删除语音解码图中剩余的候选语音识别文本；将第二音素概率矩阵输入语音解码图中进行解码，获得对应的第二语音识别文本；将第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

本步骤中，第二语音识别文本作为第一语音识别文本的补充文本，与第一语音识别文本进行拼接，组成完整的一句语音识别文本输出并显示。

当执行本步骤后，则该语音请求的识别流程至此结束。

从该示例可知，本申请的语音识别方法，对语音请求中存在的静音的持续时长进行检测，若持续时长不大于第一时长，则表示语音请求是由两句短语音组成；若静音的持续时长不小于第二时长，则表示静音之前和静音之后的语音请求是无关的两句独立的语音请求，则可以按照常规的语音识别程序获得对应语音识别文本。而若语音请求的静音持续时长大于第一时长且小于第二时长时，表明该语音请求可能是中间具有长时间停顿的一句长语句，或者是由该段静音分隔的两句完全独立的短语句；无论是一句长语句还是两句独立的短语句，一方面，通过跳过该段静音，不输入声学模型，提高了识别效率，可以加速语音识别结果的输出和显示；另一方面，通过判别第一语音识别文本的语义完整性，来确定是否需要继续等待第二语音识别文本一并输出或者各自独立输出，确保语音请求的识别结果的准确性，且语音识别效率更佳。

与前述应用功能实现方法实施例相对应，本申请还提供了一种语音识别装置、车辆及相应的实施例。

图4是本申请示出的语音识别装置的结构示意图。

参见图4，本申请示出的一种语音识别装置，其包括语音接收模块410、特征提取模块420、声学处理模块430及语音识别模块440。其中：

语音接收模块410用于接收车辆座舱内用户发出的语音请求。

特征提取模块420用于当检测到语音请求中静音的持续时长大于第一时长且小于第二时长时，将静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；将静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量。

声学处理模块430用于依时序分别将第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；及将第二声学特征向量输入声学模型，获得对应的第二音素概率矩阵。

语音识别模块440用于将第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；若第一语音识别文本的语义不完整，则保留第一语音识别文本；将第二音素概率矩阵输入语音解码图中进行解码，获得对应的第二语音识别文本；将第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

参见图5，在一具体的实施方式中，语音识别装置还包括VAD检测模块450，用于实时检测语音请求中的静音持续时长，以根据静音的持续时长，选择对应的语音识别方式。

一些实施方式中，当VAD检测模块450检测到语音请求中静音的持续时长大于第一时长且小于第二时长时，VAD检测模块450还用于跳过具有持续时长的静音。这样的设计，使得该段静音不用提取对应的声学特征向量，也不用再送入声学模型进行处理，提高整体的语音识别效率。

一些实施方式中，声学处理模块430还用于向声学模型加载具有预设时长的预设静音状态，其中，预设时长小于第一时长。

一些实施方式中，当VAD检测模块450检测到语音请求中静音的持续时长不大于第一时长，则特征提取模块420、声学处理模块430及语音识别模块440将静音之前的第一有效语音和静音之后的第二有效语音视为一句语音请求进行语音识别。

一些实施方式中，当VAD检测模块450检测到语音请求中静音的持续时长不小于第二时长，则征提取模块420、声学处理模块430及语音识别模块440将静音之前的第一有效语音和静音之后的第二有效语音视为两句语音请求分别进行语音识别。

一些实施方式中，语音识别模块440还包括语义判别模块441，用于获取第一语音识别文本的语义完整的置信度；当第一语音识别文本对应的置信度小于预设阈值时，则确定第一语音识别文本的语义不完整。

一些实施方式中，语音识别模块440用于若第一语音识别文本的语义不完整，则在语音解码图中保留状态得分最高的第一语音识别文本作为待拼接文本，并删除语音解码图中剩余的候选语音识别文本。

一些实施方式中，语音识别模块440用于若第一语音识别文本的语义完整，则清空语音解码图中对应的解码状态，并将第一语音识别文本输出并在车载系统的图形用户界面显示；及另将第二语音识别文本单独输出并在车载系统的图形用户界面显。

本申请的语音识别装置，可以根据语音请求中静音的持续时长，采用不同的策略相应进行语音识别，以确保语音识别结果的准确性；在此基础上，通过对声学模型进行静音省略处理，还能提高整体的语音识别效率，使用户体验到极速的人机交互。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图6是本申请示出的车辆的结构示意图。

参见图6，车辆1000包括存储器1010和处理器1020。

处理器1020可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被服务器（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好的解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音识别方法，其特征在于，包括：

接收车辆座舱内用户发出的语音请求；

当检测到所述语音请求中静音的持续时长大于第一时长且小于第二时长时，将所述静音之前的第一有效语音进行特征提取，生成对应的第一声学特征向量；将所述静音之后的第二有效语音进行特征提取，生成对应的第二声学特征向量；

依时序分别将所述第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵；及将所述第二声学特征向量输入所述声学模型，获得对应的第二音素概率矩阵；

将所述第一音素概率矩阵输入语音识别系统的语音解码图中进行解码，获得对应的第一语音识别文本；若所述第一语音识别文本的语义不完整，则保留所述第一语音识别文本；

将所述第二音素概率矩阵输入所述语音解码图中进行解码，获得对应的第二语音识别文本；将所述第一语音识别文本与第二语音识别文本共同输出并在车载系统的图形用户界面显示。

2.根据权利要求1所述的方法，其特征在于，在将所述第一声学特征向量输入声学模型，获得对应的第一音素概率矩阵之后，还包括：

跳过具有所述持续时长的静音。

3.根据权利要求2所述的方法，其特征在于，在将所述第二声学特征向量输入所述声学模型之前，还包括：

向所述声学模型加载具有预设时长的预设静音状态，其中，所述预设时长小于所述第一时长。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一语音识别文本的语义完整，则清空所述语音解码图中对应的解码状态，并将所述第一语音识别文本输出并在车载系统的图形用户界面显示；及另将所述第二语音识别文本单独输出并在车载系统的图形用户界面显。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当检测到所述语音请求中静音的持续时长不大于第一时长，则将所述静音之前的第一有效语音和所述静音之后的第二有效语音视为一句语音请求进行语音识别；或

6.根据权利要求1所述的方法，其特征在于，所述获得对应的第一语音识别文本之后，还包括：

获取所述第一语音识别文本的语义完整的置信度；

当所述第一语音识别文本对应的置信度小于预设阈值时，则确定所述第一语音识别文本的语义不完整。

7.根据权利要求1所述的方法，其特征在于，所述若所述第一语音识别文本的语义不完整，则保留所述第一语音识别文本，包括：

若所述第一语音识别文本的语义不完整，则在所述语音解码图中保留状态得分最高的第一语音识别文本作为待拼接文本，并删除所述语音解码图中剩余的候选语音识别文本。

8.一种语音识别装置，其特征在于，包括：

语音接收模块，用于接收车辆座舱内用户发出的语音请求；

9.一种车辆，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被车辆的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。