CN116364062B

CN116364062B - 语音识别方法、装置及车辆

Info

Publication number: CN116364062B
Application number: CN202310618669.6A
Authority: CN
Inventors: 张辽
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Zhaoqing Xiaopeng Intelligent Manufacturing Research Institute Co ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-25
Anticipated expiration: 2043-05-30
Also published as: CN116364062A

Abstract

本申请涉及一种语音识别方法、装置及车辆。该方法包括：接收车辆座舱内用户发出的语音请求；对待识别的语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到语音请求尾端的静音时长达到预设时长时，将语音请求的尾帧对应的声学特征向量替换为预设标记向量；根据输入的声学特征向量的集合，通过声学模型输出对应的音素概率矩阵；其中，声学模型采用具有预设标记向量的训练数据预先训练获得；根据音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。本申请提供的方案，能够确保语音识别结果的完整性，以及缩短语音尾端的静音时长，提高语音识别效率，改善用户体验。

Description

语音识别方法、装置及车辆

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及车辆。

背景技术

在基于CTC（Connectionist temporal classification，连接时序分类准则）的流式语音识别技术中，声学模型在训练阶段不需要将每一帧音频信号的特征向量与对应的音素标签对齐，具有较高的训练效率而被广泛应用。

然而，基于CTC准则本身的处理特性，针对语音中的有效音频的识别，经过声学模型预测输出的音素序列在时间上会延迟于真实发音对应的时间点，例如预测出的音素序列中的音素尖峰一般相比真实发音会有约2个音素尖峰的延时，再加上误差累积，约延时200ms~300ms，从而相应导致语音识别文本延时输出。

也正因为上述延时特性，为了保证一句语音中的尾字，即语句中的最后一个字被完整识别，语音识别系统要求语音中的尾端有足够长的静音延时，例如长达500ms，才足以支撑语句被完整识别。反之，当尾端静音延时不够时，则会造成尾字不被识别，影响语音识别效果。而若要保证尾字完整识别，又会产生较长的静音延时，影响语音识别效率。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种语音识别方法、装置及车辆，能够获得纠正了口误的语音识别文本，便于语音指令的正确响应，提高人机交互的成功率，改善用户体验。

本申请第一方面提供一种语音识别方法，其包括：接收车辆座舱内用户发出的语音请求；对待识别的所述语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到所述语音请求尾端的静音时长达到预设时长时，将所述语音请求的尾帧对应的声学特征向量替换为预设标记向量；根据输入的所述声学特征向量的集合，通过声学模型输出对应的音素概率矩阵；其中，所述声学模型采用具有预设标记向量的训练数据预先训练获得；根据所述音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。通过利用预先训练好的声学模型习得预设标记向量代表语音完整结束的经验，从而在实际的语音识别场景中，将符合预设时长的静音音频的尾帧替换为预设标记向量并输入声学模型，继而加速语音请求对应的尾字的解码和输出，避免语音尾字的缺漏，且无需延长静音音频的时长，提高语音识别效率，改善用户体验。

在本申请的语音识别方法中，所述声学模型采用具有预设标记向量的训练数据预先训练获得，包括：

对训练音频进行特征提取，获得对应的训练特征向量的集合；将所述训练音频的尾帧对应的训练特征向量替换为所述预设标记向量，获得携带有预设标记向量的训练特征向量的集合；根据携带有预设标记向量的训练特征向量的集合和对应的音素标签对所述声学模型进行训练，获得训练好的声学模型。

在本申请的语音识别方法中，所述将所述训练音频的尾帧对应的训练特征向量替换为所述预设标记向量，包括：

随机选取预设比例的训练音频，分别将尾帧对应的训练特征向量替换为预设标记向量；选取剩余的训练音频，分别将尾帧对应的训练特征向量替换为预设标记向量，且当所述训练音频中的位于最靠近尾帧的静音音频的时长达到所述预设时长时，将所述静音音频的尾帧的训练特征向量替换为预设标记向量。

在本申请的语音识别方法中，所述根据携带有预设标记向量的训练特征向量的集合和对应的音素标签对声学模型进行训练，包括：

将所述训练特征向量的集合进行降采样处理，获得处理后的训练特征向量的集合；根据降采样处理后的训练特征向量的集合和对应的音素标签对声学模型进行前向训练。

在本申请的语音识别方法中，在预设数值范围内，预先设置预设标记向量的各维标记特征值；其中，所述预设数值范围不同于所述声学特征向量的声学特征值。

在本申请的语音识别方法中，所述标记特征值选自20~60，所述声学特征值选自-15~15。

在本申请的语音识别方法中，当所述语音识别文本的语义完整时，NLU模型响应执行对应的语义解析结果。

本申请第二方面提供一种语音识别装置，其包括：

语音接收模块，用于接收车辆座舱内用户发出的语音请求；

特征提取模块，用于对待识别的所述语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到所述语音请求尾端的静音时长达到预设时长时，将所述语音请求的尾帧对应的声学特征向量替换为预设标记向量；

声学处理模块，用于根据输入的所述声学特征向量的集合，通过声学模型输出对应的音素概率矩阵；其中，所述声学模型采用具有预设标记向量的训练数据预先训练获得；

语音识别模块，用于根据所述音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。

本申请第三方面提供一种车辆，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被车辆的处理器执行时，使所述处理器执行如上所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请示出的语音识别方法的流程示意图；

图2是本申请示出的声学模型的训练方法的流程示意图；

图3是本申请示出的语音识别方法的另一流程示意图；

图4是本申请示出的语音识别装置的结构示意图；

图5是本申请示出的语音识别装置的另一结构示意图；

图6是本申请示出的车辆的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中，基于CTC的流式语音识别技术，如果语音尾部的静音时长不够长，则可能存在语音的尾字来不及解析而被省略的问题；例如用户的完整语音为“导航去北京”，但实际得到的语音识别文本为“导航去北”，即尾字的“京”被遗漏。而如果语音尾部的静音时长足够长，虽然保证了语音被完整识别，但过长的等待会影响语音识别效率。

针对上述问题，本申请提供一种语音识别方法，能够确保语音识别结果的完整性，以及缩短语音尾端的静音时长，提高语音识别效率，改善用户体验。

以下结合附图详细描述本申请的技术方案。

图1是本申请示出的语音识别方法的流程示意图。

参见图1，本申请示出的一种语音识别方法，其包括：

S110，接收车辆座舱内用户发出的语音请求。

其中，本语音识别处理的执行主体可以是搭载于服务器或车辆的车载智能设备上的语音识别系统。以车辆为例，当用户在车内通过语音进行人机交互时，可以通过车辆内的麦克风实时采集座舱内用户发出的语音请求。

S120，对待识别的语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到语音请求尾端的静音时长达到预设时长时，将语音请求的尾帧对应的声学特征向量替换为预设标记向量。

本步骤中，可以根据相关技术对待识别的语音请求的音频信号进行预加重、分帧、加窗、傅里叶变换、滤波、去均值等等多重操作，分别实现对各帧音频信号进行声学特征提取，获得各帧音频信号对应的声学特征向量，继而可以将预设帧数的声学特征向量组成声学特征向量的集合。例如，每10ms视为1帧音频信号，1帧音频信号具有对应的声学特征向量，每12帧声学特征向量组成1个声学特征向量的集合，即1个chunk。

一些实施方式中，声学特征向量可以是Fbank（Filter bank）特征向量，1帧Fbank特征向量一般为1*80维，每维特征值选自-15~15。在其他实施方式中，声学特征向量也可以是MFCC（Mel-scale Frequency Cepstral Coefficients）特征向量、PNCC（power-normalized cepstral coefficients）特征向量等，于此不作限制。

本步骤中，可以根据相关技术例如VAD（Voice Activity Detection，语音活动检测）技术对语音请求对应的声学特征向量进行静音检测。可以理解，语音请求中一般包括有效音频和/或静音音频，有效音频是指包含用户语音的音频，静音音频是指不包含用户语音的音频，例如无声的静音或环境噪音。当语音请求中出现静音音频时，静音音频对应的声学特征向量与有效音频的声学特征向量显然不同。当连续累计监测到多个静音音频对应的声学特征向量后，可以根据声学特征向量的帧数判断出静音音频的持续时长，即确定静音时长。当监测到静音时长达到预设时长时，将这段语音请求的尾帧（也即该段语音请求中的静音音频的最后一帧）对应的声学特征向量替换为预设标记向量（Marking Vector）。其中，预设时长可以是150ms~300ms，例如150ms、180ms、200ms、230ms等。

需要说明的是，预设标记向量也是一种与声学特征向量的维度相同的特征向量，一些实施方式中，在预设数值范围内，预先设置预设标记向量的各维标记特征值；其中，预设数值范围不同于声学特征向量的声学特征值。相应地，预设标记向量也可以参照Fbank特征向量设计为（1×80）维，每一标记特征值可以选自20~60。为了减少系统的数据处理负荷，例如可以统一将预设标记向量的每维标记特征值设计为相同的数值，例如标记特征值均为40、50或60等，即与声学特征向量的声学特征值形成了显著区别，产生标志性的作用，同时也降低了数据处理难度。当然，在其他实施方式中，也可以在预设数值范围内自定义标记特征值，于此不作限制。

本步骤中，通过将标记特征值的数值明显区别于声学特征向量中的特征值，使得预设标记向量作为一种特殊标记，替换了具有预设时长的静音音频的尾帧的声学特征向量，相当于及时掐断静音音频，将该段静音音频及在前的有效音频作为后续语音识别系统需要识别的音频信号，不仅满足了基于CTC准则的流式语音识别所需要的尾端静音延时，同时也缩短了不必要的静音音频的产生，缩短语音识别系统的等待时长，提高了语音识别效率。

S130，根据输入的声学特征向量的集合，通过声学模型输出对应的音素概率矩阵；其中，声学模型采用具有预设标记向量的训练数据预先训练获得。

本步骤中，声学模型通过预先训练获得。可以理解，声学模型在训练的过程中，采用的训练数据包括训练音频和对应的音素标签。在训练时，需要提取每一训练音频对应的声学特征向量作为声学模型的输入数据。本申请中，在单个训练音频的声学特征向量输入声学模型之前，需要将每一训练音频的尾帧（即最后一帧）对应的声学特征向量替换为预设标记向量，音素标签仍然保持不变，使得声学模型根据携带有预设标记向量的声学特征向量进行训练。正因为预设标记向量处于训练音频的尾端，形成类似于语音结束的标志，使得声学模型在训练中可以逐渐学习到“每逢预设标记向量即代表语音结束并加速语音尾字的解码输出”，从而可以使声学模型基于CTC准则本身的特性，加速完成语音尾字的解码和输出，且避免尾字的漏字。

本步骤中，将上述步骤S120的集合中的声学特征向量输入声学模型。其中，当输入声学模型的特征向量为标记特征向量时，表示当前语音已到达尾字，使得预先训练好的声学模型加速输出尾字对应的音素概率矩阵。

S140，根据音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。

本申请中，以车辆为例，可以预先在车载智能终端加载语音识别系统，语音识别系统包含解码器，解码器的语音解码图一般由语言模型、发音词典和上下文关系及HMM对应的各个解码图合并而成。本步骤中，可以根据相关技术，获得待识别的语音请求对应的语音识别文本，相应地，生成的语音识别文本可以在车载系统的图形用户界面进行显示，以使用户直观看到解码出的语音识别文本。

可以理解，在步骤S130中，随着尾帧的音素概率矩阵被声学模型加速输出，本步骤S140可以相应获得加速解码出的语音识别文本，继而更快地在图形用户界面进行显示，即实现快速上屏显示，提高语音识别效率的同时，确保语音识别文本的完整性，改善用户体验。

从该示例可知，通过利用预先训练好的声学模型习得预设标记向量代表语音完整结束的经验，从而在实际的语音识别场景中，将符合预设时长的静音音频的尾帧替换为预设标记向量并输入声学模型，继而加速语音请求对应的尾字的解码和输出，避免语音尾字的缺漏，且无需延长静音音频的时长，提高语音识别效率，改善用户体验。

以下将进一步说明本申请的声学模型的训练方法。

参见图2，本申请示出的一种声学模型的训练方法，其包括：

S210，对训练音频进行特征提取，获得对应的训练特征向量的集合。

声学模型的训练数据包括训练音频和对应的音素标签。本步骤中，分别将每条训练音频进行声学特征的提取，获得对应的训练特征向量，也即声学特征向量，例如（1×80）维的Fbank特征向量，各维声学特征值选自-15~15内。其中，多帧训练特征向量可以组成一组训练特征向量的集合，一条训练音频经过特征提取后，可以对应获得多组训练特征向量的集合。

S220，将训练音频的尾帧对应的训练特征向量替换为预设标记向量，获得携带有预设标记向量的训练特征向量的集合。

本步骤中，将各条训练音频的尾帧对应的训练特征向量替换为预设标记向量，使得每条训练音频最末一组训练特征向量的集合里都携带有预设标记向量。

需要说明的是，每一训练音频包括有效音频和/或静音音频，位于尾端的静音音频时长不限，甚至不存在静音音频。因此，预设标记向量无条件地替换掉尾帧的声学特征向量，从而使声学模型可以更随机地学习到实际应用中的各类语音场景，使声学模型专注于学习到“预设标记向量代表当前语音结束”的含义，不受音频尾端的静音音频的实际时长的影响。

进一步地，为了进一步提高声学模型智能识别音频尾字的能力，本步骤中，训练数据还可以根据下述方案进行处理：

S221，随机选取预设比例的训练音频，分别将尾帧对应的训练特征向量替换为预设标记向量。

例如，可以随机选择全部训练音频中的80%的音频，分别将各尾帧对应的训练特征向量替换为预设标记向量。

S222，选取剩余的训练音频，分别将尾帧对应的训练特征向量替换为预设标记向量，且当剩余的训练音频中的位于最靠近尾帧的静音音频的时长达到预设时长时，将静音音频的尾帧的训练特征向量替换为预设标记向量。

本步骤中，将剩余的训练音频参照上一步骤进行处理的同时，还需要确定训练音频句中是否存在静音音频。可以理解，一条训练音频可能同时包含一段或多段有效音频及一段或多段静音音频，即有效音频和静音音频穿插存在。基于此，如果一条训练音频的句中存在至少一段静音音频，则将最靠近尾端的静音音频进行处理，即将该静音音频的尾帧对应的训练特征向量替换为预设标记向量，而同时存在的其他静音音频的向量不作替换。可以理解，如果训练音频的句中不存在任何静音音频，则仅将该训练音频尾端的尾帧的训练特征向量替换为预设标记向量。

也就是说，经过上述特征向量的替换处理，有一些训练音频对应的训练特征向量的集合里会存在2个预设标记向量。这样的设计，可以使声学模型学习到“静音音频不在句尾时不代表语音结束”，即第1个位于句中的预设标记向量不代表语音结束，第2个位于句尾的预设标记向量才代表语音结束，有利于声学模型学习到“完整语音”的含义，避免音频中的最后一段有效音频被遗漏，从而防止最后一段有效音频的解码结果为空值。

需要说明的是，在利用训练好的声学模型进行测试或应用时，仅将音频尾端对应的尾帧的声学特征向量替换为预设标记向量，即一句语音中仅进行1次预设标记向量的替换。

S230，根据携带有预设标记向量的训练特征向量的集合和对应的音素标签对声学模型进行训练，获得训练好的声学模型。

本步骤中，基于CTC的损失函数对声学模型进行训练，音素标签无需改变。通过将每个训练音频对应的多组训练特征向量的集合和对应的音素标签输入声学模型，获得训练好的声学模型。可以理解，根据步骤S222的处理，至少最末一组训练特征向量的集合中携带有预设标记向量，或者至多两组训练特征向量的集合中分别携带有预设标记向量。

为了提高声学模型的训练效率，本步骤中，可以根据下述步骤进行训练：

S231，将训练特征向量的集合进行降采样处理，获得处理后的训练特征向量的集合。

本步骤中，可以将各组训练特征向量的集合分别进行降采样处理。1组训练特征向量的集合例如包括4帧训练特征向量，则将4帧训练特征向量的特征值进行平均，获得平均后的新的1帧训练特征向量。可以理解，同时包含训练特征向量和预设标记向量的1组训练特征向量（不足4帧则按实际帧数平均）则平均为1帧新的预设标记向量。需要说明的是，新的预设标记向量的标记特征值与被降采样之前的原始预设标记向量的标记特征值不同，且仍然需要与训练特征向量的声学特征值的取值范围不同，新的预设标记向量的标记特征值取值仍在预设数值范围内，使新的预设标记向量保持特异性。

通过降采样处理，使得原有的例如40帧训练特征向量缩减为10帧携带有新的预设标记向量的训练特征向量的集合。

S232，根据降采样处理后的训练特征向量的集合和对应的音素标签对声学模型进行前向训练。

本步骤中，将上述步骤S231中降采样处理后的训练特征向量的集合和保持不变的音素标签输入声学模型进行训练。

可以理解，本申请训练好的声学模型，可以加速解码出尾字对应的音素尖峰，不受到尾端的静音音频的实际时长的影响，即使仅存在1帧静音音频，也可以保证尾字的完整识别，避免出现尾字被遗漏的失误。同时根据句中存在的静音音频的时长判断语音是否提前结束，避免声学模型在实际语音未结束时提前终断语音识别。

以下将结合附图更具体的说明本申请的基于CTC的流式语音识别技术的语音识别方法。参见图3，一些实施方式中，本申请的语音识别方法，包括：

S310，接收车辆座舱内用户发出的语音请求。

S320，对待识别的语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到语音请求尾端的静音时长达到预设时长时，将语音请求的尾帧对应的声学特征向量替换为预设标记向量。

本步骤中，例如可以将每10ms形成的1帧音频信号提取对应的声学特征向量。将每120ms即12帧声学特征向量合并为1个声学特征向量的集合（即1个chunk）作为后续声学模型的输入，通过一次性输入多个声学特征向量，减少计算次数，提高计算效率。

其中，通过VAD技术进行静音检测，当监测到静音时长达到预设时长例如为200ms时，将该段静音音频尾帧对应的声学特征向量替换为预设标记向量。

S330，根据输入的声学特征向量的集合，通过声学模型输出对应的音素概率矩阵。

本步骤中，声学模型为上述实施例所训练好的声学模型。声学模型输出集合中的每帧声学特征向量对应的音素概率矩阵。

S340，根据音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。

本步骤中的语音解码图可以根据相关技术构建获得，通过解码可以获得语音请求对应的语音识别文本。输出的语音识别文本可以实时在车载系统的图形用户界面显示。也就是说，不管语音识别文本的语义是否足够完整，都可以上屏显示，以供用户直观看到当前的语音识别结果。

S350，当语音识别文本的语义完整时，NLU模型响应执行对应的语义解析结果。

本步骤中，可以根据相关技术对当前累计获得的语音识别文本的语义完整度进行判断。当语音识别文本的语义完整时，NLU（Natural Language Understanding，自然语言理解）模型响应执行对应的语义解析结果。

需要说明的是，当语义完整时，预设时长即200ms后的音频则不再进入声学模型进行后续的解码动作，即200ms后的音频属于无意义的静音音频，不具备解码价值，当前人机语音交互可以视为结束。

S360，当语音识别文本的语义不完整时，持续接收语音请求，直至监测到静音时长达到500ms时，再次判断语义是否完整。

从上述监测到200ms静音后继续计时，当静音音频长达到500ms时，则视为当前的语音请求结束。再次判断当前累计输出的语音识别文本的语义是否完整，如果完整则执行步骤S350，并结束当前人机交互。

可以理解，当用户继续发出新的语音请求时，则重复执行上述步骤，于此不再赘述。

从该示例可知，本申请的语音识别方法，可以利用达到预设时长的静音音频来确定替换预设标记向量的时机，通过预留恰当时长的静音音频，从而使语音请求对应的声学特征向量被完整地输入声学模型，从而保证后续解码结果的完整性，同时加速尾字的快速解出及更快上屏显示，提高识别效率，改善用户体验。

与前述应用功能实现方法实施例相对应，本申请还提供了一种语音识别装置、车辆及相应的实施例。

图4是本申请示出的语音识别装置的结构示意图。

参见图4，本申请示出的一种语音识别装置，其包括语音接收模块410、特征提取模块420、声学处理模块430及语音识别模块440；其中：

语音接收模块410用于接收车辆座舱内用户发出的语音请求。

特征提取模块420用于对待识别的语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到语音请求尾端的静音时长达到预设时长时，将语音请求的尾帧对应的声学特征向量替换为预设标记向量。

声学处理模块430用于根据输入的声学特征向量的集合，通过声学模型输出对应的音素概率矩阵；其中，声学模型采用具有预设标记向量的训练数据预先训练获得。

语音识别模块440用于根据音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。

参见图5，一些实施方式中，特征提取模块420包括提取子模块421、监测子模块422及替换子模块423，提取子模块421用于对待识别的语音请求进行特征提取，生成声学特征向量的集合；监测子模块422用于监测语音请求中的静音音频的持续时长；替换子模块423用于将语音请求的尾帧对应的声学特征向量替换为预设标记向量。需要说明的是，语音请求的尾帧即为位于尾端的静音音频的尾帧。

进一步地，特征提取模块420还可以用于声学模型的训练过程。一些实施方式中，提取子模块421用于对训练音频进行特征提取，获得对应的训练特征向量的集合；替换子模块423用于将训练音频的尾帧对应的训练特征向量替换为预设标记向量，获得携带有预设标记向量的训练特征向量的集合。预设标记向量的各维标记特征值选自预设数值范围20~60，预设数值范围不同于声学特征向量的声学特征值的数值范围。

在一具体的实施方式中，随机选取预设比例的训练音频，替换子模块423用于分别将尾帧对应的训练特征向量替换为预设标记向量；选取剩余的训练音频，替换子模块423用于分别将尾帧对应的训练特征向量替换为预设标记向量，且当监测子模块422确定训练音频中的位于最靠近尾帧的静音音频的时长达到预设时长时，替换子模块423用于将静音音频的尾帧的训练特征向量替换为预设标记向量。

一些实施方式中，语音识别装置还包括降采样模块。降采样模块可以应用于声学模型的训练阶段。降采样模块用于将训练特征向量的集合进行降采样处理，获得处理后的训练特征向量的集合。

一些实施方式中，语音识别装置还包括响应模块450，响应模块450用于当语音识别文本的语义完整时，NLU模型响应执行对应的语义解析结果。

本申请的语音识别装置，可以缩短语音识别结果的等待时间，即无需等待语音请求尾端的长时间例如500ms的静音结束，只需要预设时长的静音，即可根据预设标记向量判断音频信号是否完整，从而可以提前获得语音识别文本并提前便于NLU模型响应，使用户体验到极速的人机交互。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图6是本申请示出的车辆的结构示意图。

参见图6，车辆1000包括存储器1010和处理器1020。

处理器1020可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被服务器（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好的解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音识别方法，其特征在于，包括：

接收车辆座舱内用户发出的语音请求；

对待识别的所述语音请求进行特征提取，生成声学特征向量的集合；其中，当监测到所述语音请求尾端的静音时长达到预设时长时，将所述语音请求的尾帧对应的声学特征向量替换为预设标记向量；

根据输入的所述声学特征向量的集合，通过声学模型输出对应的音素概率矩阵；其中，所述声学模型采用具有预设标记向量的训练数据预先训练获得；

根据所述音素概率矩阵，输入语音识别系统的语音解码图中进行解码，获得语音识别文本并在车载系统的图形用户界面显示。

2.根据权利要求1所述的方法，其特征在于，所述声学模型采用具有预设标记向量的训练数据预先训练获得，包括：

对训练音频进行特征提取，获得对应的训练特征向量的集合；

将所述训练音频的尾帧对应的训练特征向量替换为所述预设标记向量，获得携带有预设标记向量的训练特征向量的集合；

根据携带有预设标记向量的训练特征向量的集合和对应的音素标签对所述声学模型进行训练，获得训练好的声学模型。

3.根据权利要求2所述的方法，其特征在于，所述将所述训练音频的尾帧对应的训练特征向量替换为所述预设标记向量，包括：

随机选取预设比例的训练音频，分别将尾帧对应的训练特征向量替换为预设标记向量；

选取剩余的训练音频，分别将尾帧对应的训练特征向量替换为预设标记向量，且当所述训练音频中的位于最靠近尾帧的静音音频的时长达到所述预设时长时，将所述静音音频的尾帧的训练特征向量替换为预设标记向量。

4.根据权利要求2或3所述的方法，其特征在于，所述根据携带有预设标记向量的训练特征向量的集合和对应的音素标签对声学模型进行训练，包括：

将所述训练特征向量的集合进行降采样处理，获得处理后的训练特征向量的集合；

根据降采样处理后的训练特征向量的集合和对应的音素标签对声学模型进行前向训练。

5.根据权利要求1所述的方法，其特征在于：

在预设数值范围内，预先设置预设标记向量的各维标记特征值；其中，所述预设数值范围不同于所述声学特征向量的声学特征值。

6.根据权利要求5所述的方法，其特征在于：

所述标记特征值选自20~60，所述声学特征值选自-15~15。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述语音识别文本的语义完整时，NLU模型响应执行对应的语义解析结果。

8.一种语音识别装置，其特征在于，包括：

语音接收模块，用于接收车辆座舱内用户发出的语音请求；

9.一种车辆，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被车辆的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。