CN115910043B

CN115910043B - 语音识别方法、装置及车辆

Info

Publication number: CN115910043B
Application number: CN202310032077.6A
Authority: CN
Inventors: 张辽
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-06-30
Anticipated expiration: 2043-01-10
Also published as: CN115910043A

Abstract

本申请涉及一种语音识别方法、装置及车辆。该方法包括：接收车辆座舱内用户发出的语音请求；对语音请求进行检测，获取语音请求中的静音音频的静音时长；当静音时长大于第一时长阈值时，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。本申请的方案，在语音请求中存在大于第一预设时长阈值的静音音频时，反而可以更快地获得语音识别文本并快速在车载系统的图形用户界面显示，缩短延时，提高识别效率和显示效率，改善用户体验。

Description

语音识别方法、装置及车辆

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置及车辆。

背景技术

传统的语音识别系统包括声学模型和解码器，解码器具有由语言模型、词典模型以及声学建模单元拓扑等合并得到的解码图。端到端语音识别系统提供了一种方式将这三种模型融合到一个神经网络模型中共同建模，从而简化了语音识别系统的构建流程，也提升了语音识别系统的性能。在端到端的语音识别系统中，例如有基于CTC（Connectionisttemporal classification，连接时序分类准则）的识别技术对其中的声学模型进行训练。与传统的利用交叉熵作为损失函数进行训练的声学模型相比，采用CTC准则作为损失函数的声学模型训练，不需要预先将语音和文本做对齐处理，只需要一个输入的特征序列和一个输出的音素序列即可以训练。

在语音识别系统对一段语音进行识别的过程中，采用CTC准则的声学模型最后输出的是各音素尖峰对应的预测音素序列，即CTC准则并不关注每一个音素持续了多长时间。然而，基于CTC准则本身的处理特性，针对语音的非静音部分，经过声学模型预测出的序列结果在时间上会延迟于真实发音对应的时间点，例如预测音素序列中的音素尖峰相比真实发音会有约2个音素尖峰的延时，再加上误差累积，约延时200ms~300ms，从而相应导致语音识别文本延时输出。另外，语音中存在的静音部分本身也会产生延时，从而影响语音识别效率。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种语音识别方法、装置及车辆，能够缩短语音识别结果的输出时的延迟时间，快速上屏显示，提高语音识别效率。

本申请第一方面提供一种语音识别方法，其包括：

接收车辆座舱内用户发出的语音请求；

对所述语音请求进行检测，获取所述语音请求中的静音音频的静音时长；

当所述静音时长大于第一时长阈值时，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。

一些实施方式中，所述将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示，包括：

根据预设语音识别系统输出所述语音请求对应的语音识别文本；将所述语音识别文本在车载系统的图形用户界面显示；其中，所述静音音频之前的语音识别文本的显示速度大于有效音频之前的语音识别文本的显示速度。

一些实施方式中，所述预设语音识别系统包括预先训练好的声学模型，所述声学模型的训练方法包括：

将训练语音样本中的有效音频和对应的音素进行强制时间对齐，获得对齐结果；分别对各段静音音频标注对应的静音标签；根据标注好的所述训练语音样本对基于CTC准则的声学模型进行监督训练，获得训练好的声学模型。

一些实施方式中，所述分别对各段静音音频标注对应的静音标签，包括：

根据所述对齐结果，获取各段静音音频对应的静音时长；根据各段静音音频对应的静音时长，分别对各段所述静音音频标注单个的静音标签。

当所述静音音频的静音时长大于或等于预设时长时，根据所述预设时长将每段静音音频划分为至少一节子静音音频；分别对每节子静音音频标注相同的静音标签。

当所述静音音频的持续时长大于或等于预设时长时，根据所述预设时长将每段静音音频进行等比划分，获得至少一节子静音音频；

分别采用对应的静音标签对不同时长的子静音音频进行标注。

一些实施方式中，所述方法还包括：在所述预设语音识别系统对应的解码图的各状态节点增加自跳转移弧，所述自跳转移弧的输入标签为静音标签、输出标签为占位标签。

一些实施方式中，所述方法还包括：当所述静音时长大于第二时长阈值时，NLU模型根据当前的语音识别文本开始进行响应，所述第二时长阈值大于所述第一时长阈值。

本申请第三方面提供一种语音识别装置，其包括：

语音接收模块，用于接收车辆座舱内用户发出的语音请求；

语音检测模块，用于对所述语音请求进行检测，获取所述语音请求中的静音音频的静音时长；

显示模块，用于当所述静音时长大于第一时长阈值时，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。

本申请第三方面提供一种车辆，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被车辆的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请的语音识别方法，在语音请求中存在大于第一预设时长阈值的静音音频时，反而可以更快地获得语音识别文本并快速在车载系统的图形用户界面显示，缩短延时，提高识别效率和显示效率，改善用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请示出的语音识别方法的流程示意图；

图2是本申请一实施例示出的一种声学模型的训练方法的流程示意图；

图3是传统声学模型与本申请的不同实施例的声学模型的训练标签对比示意图；

图4是基于传统声学模型的语音识别系统与本申请的语音识别系统的解码逻辑对比示意图；

图5是传统声学模型与本申请的不同实施例的声学模型的解码时刻对比示意图；

图6是本申请一实施例示出的一种声学模型的训练方法的另一流程示意图；

图7是本申请一实施例示出的一种声学模型的训练方法的又一流程示意图；

图8是本申请示出的语音识别方法的另一流程示意图；

图9是本申请示出的语音识别装置的结构示意图；

图10是本申请示出的车辆的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

与传统的采用交叉熵损失函数进行训练的声学模型相比，采用CTC作为损失函数的声学模型训练，不需要预先对语音和文本数据做对齐，只需要一个用于输入的特征序列和一个用于输出的音素序列即可以训练。采用CTC准则的声学模型最后输出的是基于声学尖峰的预测音素序列，而预测音素序列在时间点上会延迟于真实发音对应的时间点，从而使语音识别系统解码输出的语音识别结果延迟。

针对上述问题，本申请提供一种语音识别方法，能够将预测出语音识别文本的延迟时间缩短，提高上屏速度且确保语音识别结果的准确率。

以下结合附图详细描述本申请的技术方案。

图1是本申请示出的语音识别方法的流程示意图。

参见图1，本申请示出的一种语音识别方法，其包括：

S110，接收车辆座舱内用户发出的语音请求。

本申请可应用于车辆内的用户语音请求的语音识别。本步骤中，可以通过安装于车辆内的麦克风采集用户发出的语音请求，以便通过车载智能终端中的语音识别系统对语音请求进行语音识别。

S120，对语音请求进行检测，获取语音请求中的静音音频的静音时长。

本步骤中，可以采用相关技术，例如VAD（Voice Activity Detection，语音活动检测）技术对语音请求的音频信号进行检测，以用于检测音频信号是静音音频或有效音频。其中，有效音频是指包含用户语音的音频，静音音频是指不包含用户语音的音频，例如无声的静音或有声的环境噪音。

本步骤中，通过对语音请求实时进行端点检测，可以确定音频信号的起始位置和结束位置，从而确定语音请求中的每一段连续的静音音频对应的静音时长。也就是说，在不确定用户的语音请求完全结束之前，可以实时检测获得每一段静音音频，该静音音频不仅限于存在于语音请求的句尾，也可以是在句首或句中，即同一句语音请求中，可以包括一段以上静音音频，当然也可以不存在静音音频。可以理解，本步骤对实时接收的语音请求实时进行端点检测，并将每段端点检测之后的音频信号输送至语音识别系统。

S130，当静音时长大于第一时长阈值时，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。

本步骤中，根据预设语音识别系统输出所述语音请求对应的语音识别文本后，将所述语音识别文本在车载系统的图形用户界面显示。

具体地，第一时长阈值根据单个建模单元所需的识别时长的2倍进行设置，例如第一时长阈值为100ms、120ms、140ms、160ms等。在基于CTC的语音识别系统中，识别结果会较真实值有2个音素尖峰的识别延时。本步骤通过将静音时长与第一时长阈值进行比较，一方面为语音识别系统预留充分的识别时间；另一方面将大于第一时长阈值的静音音频视为有效音频，从而使在静音音频之前的有效音频可以被加速识别，无需在等待静音音频产生延时的同时还耗费额外的时长等待静音音频之后的有效音频，从而使静音音频之前的有效音频可以快速被识别获得语音识别文本。也就是说，语音识别文本按照等待第一预设时长阈值例如120ms的显示速度在图形用户界面显示，而非传统的延时200ms~300ms后才能显示，使用户体验到极速显示语音识别文本的视觉效果。

从该示例可知，本申请的语音识别方法，在语音请求中存在大于第一预设时长阈值的静音音频时，反而可以更快地获得语音识别文本并快速在车载系统的图形用户界面显示，缩短延时，提高识别效率和显示效率，改善用户体验。

以下分别采用不同的实施例介绍本申请的基于CTC准则的语音识别系统中的声学模型的训练方法。

为了使本申请的语音识别系统可以快速获得语音识别文本以供显示，可以根据下述方法对语音识别系统中的声学模型进行预先训练。

参见图2，本申请示出的一种声学模型的训练方法，其包括：

S210，将训练语音样本中的有效音频和对应的音素标签进行强制时间对齐，获得对齐结果。

本步骤中，可以采用相关技术例如forcealignment将有效音频和对应的音素标签进行强制对齐，使得各帧有效音频具有各自对应的音素标签，从而可以确定每个音素标签的持续时长，并可以确定有效音频和静音音频对应的帧位。

S220，根据对齐结果，获取各段静音音频对应的静音时长；根据各段静音音频对应的静音时长，分别对各段静音音频标注单个的静音标签。

从上一步骤可知，对于没有音素标签的剩余帧的音频即为静音音频，从而可以确定每段静音音频的持续时长。静音音频可以位于训练语音样本的句中、句首或句末等任意位置。

为了便于理解，如图3所示，在进行强制对齐以获得图3中A处的对齐结果时，采用音素作为建模单元，并加入预设的静音建模单元。以训练语音样本“打开地图”为例，通过强制对齐，获得对结果，并分别获得各段静音和各个音素的持续时长。

本实施例中，虽然每段静音音频的持续时长可能不同，例如图3中A处的三段静音音频分别是200ms、250ms及500ms，但均标注统一的静音标签例如“sil”，如图3中C处的完整标注的输出序列为“sil d_a_3 k_ai_1 d_i_4 sil t_u_2 sil”，从而不同于图3中B处的传统的基于CTC准则声学模型的输出序列“d_a_3 k_ai_1 d_i_4 t_u_2”。可以理解，本实施例的相同的静音标签所代表的每段静音音频的时长不作限制。

S230，根据标注好的训练语音样本对基于CTC准则的声学模型进行监督训练，获得训练好的声学模型。

本步骤中，将具有静音标签和音素标签的训练语音样本作为训练数据对基于CTC准则的声学模型进行训练，即可获得训练好的可用于对具有静音音频和有效音频的语音请求进行语音识别的声学模型，也可用于对仅具有有效音频的语音请求进行语音识别。

相应地，为了便于语音识别系统在解码时可以顺利识别静音标签，如图4中A处和B处所示解码逻辑示意图（非解码图）中，在由加权有限状态转换器WFST构成的HCLG解码图中，在各状态节点增加自跳转移弧，自跳转移弧的输入标签为静音标签、输出标签为占位符。也就是说，各状态节点不仅存在空白标签blank的自跳转移弧，还包括静音标签“sil”的自跳转移弧，且二者的输出标签均为占位符例如“null”，使得从解码图输出的语音识别文本可以抹去空白标签和静音标签，只需显示有效音频的语音识别文本。

为了说明采用本申请的声学模型的识别效率与传统的声学模型的识别效率的区别，如图5所示，图5中的各括号内的数值为每个音素被解码出来的时刻所对应的帧数。对于同一段训练语音样本，以最后一个音素“t_u_2”被解码出所对应的帧数可知，图5中B处的传统基于CTC准则的声学模型解码出的帧数是第160帧，而图5中C处的本实施例的声学模型解码出的帧数是第155帧。也就是说，有效音频之后的静音音频可以加速在前的音素尖峰的输出速度，从而使声学模型更快输出对应的预测音素序列。

本申请中，基于CTC准则的声学模型不同于传统的声学模型的训练方式，本申请的一些实施方式中，将训练语音样本中的有效音频和对应的音素标签进行强制时间对齐，获得对齐结果；分别对各段静音音频标注对应的静音标签；根据标注好的训练语音样本对声学模型进行监督训练，获得训练好的声学模型。

也就是说，本申请的声学模型在采用训练语音样本进行训练时，不仅对将每帧有效音频与对应的音素对齐及标注，还对静音音频单独标注了静音标签。采用这样的训练方式所构建的声学模型在对语音请求进行语音识别时，不仅预测出有效音频的音素所在的音素尖峰位置，还可以预测出静音音频所在的静音尖峰位置，继而可以输出对应的预测音素序列，但在预测音素序列中无需显示静音标签。具体地，根据语音请求的端点检测结果，可以确定静音音频的时序位于有效音频之后，静音音频可以作为有效音频的临时截断点，声学模型无需等待静音音频之后新增的有效音频，即可提前预测出静音音频之前的有效音频的音素尖峰对应的音素序列，从而缩短整体的预测时间，提高识别效率，且不影响语音识别结果的准确性。

需要说明的是，声学模型在其前后向搜过程中会将所有可映射到正确文本序列的路径都包含在内，本申请将静音音频充当作有效音频之后的“伪有效音频”，可以在声学模型预测到有效音频和该有效音频末尾的静音音频的尖峰后，无需再等待后续新的有效音频，即可直接快速输出静音音频之前的有效音频的尖峰位置对应的音素序列，从而缩短延迟时间，尤其加速尾部帧的音素的输出，从而提高语音识别效率。

从该示例可知，本申请可以对训练语音样本中不等长的静音音频分别进行独立的静音标签的标注，从而与标注后的有效音频一并对基于CTC准则的声学模型进行训练，获得可以识别静音音频和有效音频的训练好的声学模型。该训练好的声学模型在实际语音识别中，不再将音频尖峰以外的帧全部采用空白标签填补，而是根据识别出的静音音频采用静音尖峰作为预测结果，再将剩余帧采用空白标签填补。这样的设计，使得位于有效音频后的静音音频可以充当“伪有效音频”，以迫使静音音频之前的最近的有效音频及时输出预测音频序列，而不需要等待静音音频之后的真实有效音频的音素尖峰被确认后再输出，从而减少了等待真实音素尖峰的所产生的延迟时间，使语音识别文本可以被加速识别输出，提高语音预测效率。

参见图6，本申请一实施例示出的一种声学模型的训练方法，其包括：

S310，将训练语音样本中的有效音频和对应的音素标签进行强制时间对齐，获得对齐结果。

本步骤与S210相同，于此不再赘述。

S320，当静音音频的静音时长大于或等于预设时长时，根据预设时长将每段静音音频划分为至少一节子静音音频；分别对每节子静音音频标注相同的静音标签。

本步骤中，本步骤与S220的区别在于，对于同一段静音音频，本步骤按照固定的预设时长进行划分，获得至少一节子静音音频，并对每一节子静音音频标注静音标签，使得同一段静音音频可能包含一个或多个静音标签。其中，预设时长为每个建模单元的固定时长，例如可以是60ms、80ms、100ms等，于此不作限制。

以预设时长为60ms为例，如图3中D处与图3中C处对比可知，图3中A处的第一段静音音频的持续时长为200ms，图3中C处对应仅采用了一个静音标签进行标注；在图3中D处，200ms的静音音频可以按照60ms划分获得3节子静音音频，每节子静音音频的时长均为60ms，并采用相同的静音标签“sil”进行标注。需要说明的是，静音音频的持续时长即该静音音频的静音时长。

如图5中D处与图5中C处对比可知，对于音素“d_i_4”后存在静音标签，采用步骤S220的训练的声学模型的预测帧数是在第115帧，而本实施例训练的声学模型的预测帧数是在第95帧。另外，对于音素“t_u_2”后存在静音标签，采用步骤S220的声学模型的预测帧数是在第155帧，而本实施例的声学模型的预测帧数是在第140帧。可见，虽然二者的解码速度均优于传统声学模型的解码速度，但本实施例的解码速度更佳。

本实施例采用固定的预设时长对静音音频进行分节，可以更好地克服S220中因为各段静音音频时长不同但静音标签相同所导致的发音多样性膨胀，继而降低类内方差，提高对静音音频的识别性能。这样的设计，使得在实际应用中，当用户语音请求出现停顿即产生静音时，停顿前的时序最近的语音识别文本反而可以更快被识别出，上屏显示速度加快，而远离静音音频的有效音频的解码效率不受影响。例如图5中B处、C处及D处的音素“d_a_3”对应的被解码帧数分别是第55帧、第56帧及第55帧。可见，静音标签的设置可以加速在前最近的有效语音的音素尖峰更快被预测输出，而不影响距离2个音素尖峰之外的音素的输出速度。

可以理解，当静音音频的持续时长小于预设时长时，则不需要对静音音频进行划分，从而无需标注静音标签。

S330，根据标注好的训练语音样本对声学模型进行监督训练，获得训练好的声学模型。

本步骤与S230的执行方式相同，于此不再赘述。

从该示例可知，以预设时长为60ms为例，按照声学模型本身特性的2个音素尖峰的延时，本实施例可以使得预测的延时时间缩短至120ms，而非传统的延时200ms~300ms。需要说明的是，当预设时长为70ms时，相应缩短延时时间至140ms。

参见图7，本申请一实施例示出的一种声学模型的训练方法，其包括：

S410，将训练语音样本中的有效音频和对应的音素标签进行强制时间对齐，获得对齐结果。

本步骤与S210的执行方式相同，于此不再赘述。

S420，当静音音频的静音时长大于或等于预设时长时，根据预设时长将每段静音音频进行等比划分，获得至少一节子静音音频；分别采用对应的静音标签对不同时长的子静音音频进行标注。

本步骤与S320的区别，每段静音音频的划分方式不是按照固定的预设时长进行划分，而是按照等比划分为至少一节子静音音频。本步骤中，预设时长可视为公比。

以预设时长为60ms为例，图3中A处的最后一段静音音频时长为500ms，则图3中D处划分为至多8节完整的子静音音频，过多的子静音音频导致过多的静音标签，从而影响声学模型的学习重点。基于此，在图3中E处，按照等比划分500ms的静音音频，可以依序划分获得60ms、60ms、120ms、240ms的子静音音频，并分别标注对应的静音标签sil、sil、sil2、sil4。可见，不同时长的子静音音频的静音标签不同，从而便于模型区分学习。这样的设计，相较于上述实施例S320的8个相同的sil静音标签，本实施例缩减至4个不同的静音标签，通过去除冗余标签以使模型集中于有效音频的学习，而非静音标签的学习。需要说明的是，划分后的各节子静音音频的总静音时长为480ms，与500ms相比损失了20ms，然而，这些损失的静音时长并不影响声学模型的预测，属于允许的时长损失误差。

为了便于快速给划分后的各节子静音音频标注对应的静音标签，一些实施方式中，静音音频的静音时长为T，作为公比的预设时长为N，假设N为60ms，则可以根据下述规则对各节子静音音频标注对应的静音标签：

（1）T<N时，静音音频的静音标签为空，静音时长损失T~[0，N)；

（2）N<=T<2N时，子静音音频为1节，静音标签依序为“sil”，静音时长损失T-N~[0，N)；

（3）2N<=T<4N时，子静音音频为2节，各节子静音音频的静音标签依序为“silsil”，静音时长损失T-2N~[0，N)；

（4）4N<= T<6N时，子静音音频为3节，各节子静音音频的静音标签依序为“sil si2sil2”，静音时长损失T-4N~[0，2N)；

（5）6N<=T<8N时，子静音音频为4节，各节子静音音频的静音标签依序为“sil silsil2 sil2”，静音时长损失T-6N~[0，2N)；

（6）4N<=T<6N时，子静音音频为4节，各节子静音音频的静音标签依序为“sil silsi2 sil4”，静音时长损失T-8N~[0，4N)；

（7）8N <= T<12N时，子静音音频为4节，各节子静音音频的静音标签依序为“silsil sil2 sil4”，静音时长损失T-8N~[0，4N)；

（8）12N<= T<16N时，子静音音频为6节，各节子静音音频的静音标签依序为“silsil sil2 sil4 sil4 sil4”，静音时长损失T-12N~[0，4N)；

（9）16N<=T时，子静音音频为[5+（T-16N）/ 8N]节，各节子静音音频的静音标签依序为“sil sil sil2 sil4 sil8 sil8* int（（T-16N）/ 8N）”，静音时长损失T-16N~[0，8N)，其中（T-16N）/ 8N）按照向下取整取值。

可以理解，当N为其他数值时，按照上述规则进行类推，一段静音音频被划分出的子静音音频的节数按照向下取整规则计数，允许静音时长的损失；在依序对各节子静音音频标注静音标签时，在后的子静音音频大于或等于在前的子静音音频对应的静音时长，对应标注的静音标签不同或相同。例如标签sil2之后的静音标签只能是sil2或sil4，sil4之后的静音标签只能是sil4或sil8，从而使得每节子静音音频按照等比单调递增或相等时长划分，即在后的一节子静音音频的时长是在前的一节子静音音频时长的1倍或若干整数倍。另外，为了精简静音标签的类型，在静音标签sil8之后对应的子静音音频按照整数倍率重复标注sil8；或当倍率不足整数倍时，按照静音时长损失进行忽略处理。这样的标签设计方案，可以简化训练过程，通过不同的静音标签标注不同时长的子静音音频，减少模型混淆性，便于模型区分学习；同时可以通过允许的静音时长损失以缩短静音音频的长度，精简标签数量。

如图5中E处和图5中D处对比可知，本实施例按照预设时长并采用的单调递增或相等的方式对静音音频进行分节，可以在S320的效果之上，更好地克服S320中当静音时长较长导致静音标签过多，继而模糊模型学习时的关注焦点问题，使声学模型可以聚焦于有效音频的监督学习。

S430，根据标注好的训练语音样本对声学模型进行监督训练，获得训练好的声学模型。

本步骤与S230的执行方式相同，于此不再赘述。

从该示例可知，通过以预设时长作为公比，按照单调递增或相等的方式划分静音音频并标注不同的静音标签，实现模型对不同时长的静音音频的识别敏感性；另外，在静音时长较短时，需要精确建模，从而只允许较小的静音时长损失；在静音时长较长时，建模可以粗略，从而允许较大的静音时长损失，且可以通过静音时长损失以减少待识别的静音标签，进一步缩短声学模型预测结果的延迟时间，从而提高语音识别系统的识别效率。

图8是本申请示出的语音识别方法的另一流程示意图。

参见图8，本申请示出的一种语音识别方法，其包括：

S510，接收车辆座舱内用户发出的语音请求。

本步骤S510与S110的介绍相同，于此不作赘述。

S520，对语音请求进行检测，获取语音请求中的静音音频的静音时长。

本步骤S520与S120的介绍相同，于此不作赘述。

当检测到静音时长大于第二时长阈值例如400ms时，表明用户的人机语音交互可能结束，则可以暂停端点检测和暂停输送音频数据。当检测到静音时长小于400ms时，表明人机语音交互还在继续，可以对语音请求持续进行端点检测并实时输送每段检测后的音频至语音识别系统，以供语音识别和上屏显示。

S530，当静音时长大于第二时长阈值400ms时，根据预设语音识别系统输出语音请求对应的语音识别文本；将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示，及NLU模型根据当前的语音识别文本开始进行响应。

当静音时长大于第二时长阈值400ms时，表示当前人机交互结束。当然，第二时长阈值还可以选自300ms~500ms，于此仅举例说明。当步骤S520实时检测到每个有效音频尾部存在静音音频时，例如当该段静音音频的时长大于400ms，即可根据上述任意一种声学模型的训练方法所构建的声学模型进行识别以预测输出音素概率矩阵，再输入语音识别系统的解码器中解码输出语音识别文本，语音识别文本实时上屏显示。以S220为例，声学模型将该段450ms的音频预测出静音标签为“sil”的静音尖峰并输出对应的预测音素序列。当预设时长为60ms时，以S320为例，声学模型将该段450ms的音频预测出静音标签为“sil sil silsil sil sil sil”的多个静音尖峰并输出对应的预测音素序列。以S420为例，声学模型将该段450ms的音频预测出静音标签为“sil sil sil2 sil2”的多个静音尖峰并输出对应的预测音素序列。显然，2个静音尖峰的出现可以充抵传统CTC的声学模型需要等待2个音素尖峰所产生的延时，从而迫使静音尖峰之前的末位音素尖峰可以提前预测输出，无需继续等待。这样的设计，使得尾部不具有2个静音尖峰的音频尖峰可以正常速度预测输出，而尾部具有2个静音尖峰的音频尖峰反而可以加速输出，使得用户可以看到对应语音停顿的语音识别文本可以更快上屏显示。

其中，NLU（Natural Language Understanding，自然语言理解）模型可以根据相关技术理解语音识别文本中对应指令，从而对应进行响应。

S540，当静音时长大于第一时长阈值120ms且小于第二时长阈值400ms时，根据预设语音识别系统输出语音请求对应的语音识别文本；将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示，及NLU模型根据当前的语音识别文本开始进行响应。

本步骤中，第一时长阈值120ms的取值根据上述预设时长60ms设计，即1个静音尖峰的预测需要60ms，2个静音尖峰的预测需要120ms。当预设时长改变时，第一时长阈值相应变化，于此不作限制。

当静音时长小于第二时长阈值但大于第一时长阈值时，表明用户还在继续进行语音交互，但同时已经有一段时长的语音请求可以先行输入声学模型获取音素预测序列，以便及时输入解码器进行解码，无需继续等待，并根据当前解码后的语音识别文本输入NLU模型进行指令的提前响应，提高响应效率。

S550，当静音时长小于第一时长阈值120ms，根据语音识别系统对语音请求进行语音识别，获得对应的语音识别文本并在车载系统的图形用户界面显示。

当静音时长小于第一时长阈值时，表明用户还未完成语音交互，但也可将已接收到的语音请求的音频输入声学模型进行预测，以便及时输入解码器进行解码，并将输出的语音识别文本实时上屏显示；麦克风可以持续采集座舱内的语音请求，并继续输入声学模型进行识别直至交互结束，当满足上述步骤S530或S540的条件时，可以对应执行。本步骤S550中，基于有限的语音识别文本的语义不完整，使得NLU模型无需开启响应。

可以理解，上述步骤S530至S550根据实际情况选择执行。另外，由步骤S530至S550可知，当静音时长大于第一时长阈值120ms时，所述静音音频之前的语音识别文本的显示速度大于有效音频之前的语音识别文本的显示速度。而当静音时长小于第一时长阈值120ms时，语音请求中可能不存在静音音频，只存在有效音频，或者存在非常短暂的静音音频；在此情形下的有效音频的语音识别文本的被识别出和上屏显示的速度等同于传统基于CTC的声学模型的速度；也就是说，存在于有效音频之前的有效音频的文本显示速度小于存在于静音音频之前的有效音频的文本显示速度，静音的存在有利于缩短延时。

综上，本申请的语音识别方法，可以根据不同的第一时长阈值或第二时长阈值确定对应的NLU模型响应节点，但均可实时将语音识别文本上屏显示；另外，当出现静音时长超过2个静音尖峰时，可以加速静音尖峰之前的音素尖峰预测输出，从而缩短声学模型本身在预测时的延时，提高语音识别系统的识别效率，且不影响识别结果的准确性。

与前述应用功能实现方法实施例相对应，本申请还提供了一种语音识别装置、车辆及相应的实施例。

图9是本申请示出的语音识别装置的结构示意图。

参见图9，本申请示出的语音识别装置，其包括语音接收模块610、语音检测模块620及显示模块630。其中：

语音接收模块610用于接收车辆座舱内用户发出的语音请求。

语音检测模块620用于对语音请求进行检测，获取语音请求中的静音音频的静音时长。

显示模块630用于当静音时长大于第一时长阈值时，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示。

进一步地，语音识别装置还包括语音识别模块640，语音识别模块640用于在预设语音识别系统对应的解码图的各状态节点增加自跳转移弧，自跳转移弧的输入标签为静音标签、输出标签为占位标签。通过改进后的解码图，可以用于对静音音频预测对应的静音标签，以获得静音尖峰；通过自跳转移弧，使得语音识别文本可以自动消除静音标签而无需显示。

一些实施方式中，采用下述模块对语音识别模块中的声学模型进行训练，以获得训练好的声学模型作用于语音识别系统：

样本处理模块，用于将训练语音样本中的有效音频和对应的音素进行强制时间对齐，获得对齐结果；

静音标注模块，用于分别对各段静音音频标注对应的静音标签；

训练模块，用于根据标注好的训练语音样本对基于CTC准则的声学模型进行监督训练，获得训练好的声学模型。

在一具体的实施方式中，根据对齐结果，获取各段静音音频对应的持续时长；根据各段静音音频对应的持续时长，分别对各段静音音频标注单个的静音标签。

在一具体的实施方式中，当静音音频的持续时长大于或等于预设时长时，根据预设时长将每段静音音频划分为至少一节子静音音频；分别对每节子静音音频标注相同的静音标签。

在一具体的实施方式中，当静音音频的持续时长大于或等于预设时长时，根据预设时长将每段静音音频进行等比划分，获得至少一节子静音音频；分别采用对应的静音标签对不同时长的子静音音频进行标注。

本申请的语音识别装置，可以获得快速显示语音识别文本的效果，改善用户体验。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图10是本申请示出的车辆的结构示意图。

参见图10，车辆1000包括存储器1010和处理器1020。

处理器1020可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被服务器（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好的解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音识别方法，其特征在于，包括：

接收车辆座舱内用户发出的语音请求；

当所述静音时长大于第一时长阈值时，根据预设语音识别系统输出所述语音请求对应的语音识别文本，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示；其中，所述预设语音识别系统包括预先训练好的声学模型，所述声学模型的训练方法包括：

2.根据权利要求1所述的方法，其特征在于，所述静音音频之前最近的有效音频的语音识别文本的显示速度大于剩余有效音频的语音识别文本的显示速度。

3.根据权利要求1所述的方法，其特征在于，所述分别对各段静音音频标注对应的静音标签，包括：

根据所述对齐结果，获取各段静音音频对应的静音时长；

根据各段静音音频对应的静音时长，分别对各段所述静音音频标注单个的静音标签。

4.根据权利要求1所述的方法，其特征在于，所述分别对各段静音音频标注对应的静音标签，包括：

当所述静音音频的静音时长大于或等于预设时长时，根据所述预设时长将每段静音音频划分为至少一节子静音音频；

分别对每节子静音音频标注相同的静音标签。

5.根据权利要求1所述的方法，其特征在于，所述分别对各段静音音频标注对应的静音标签，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述预设语音识别系统对应的解码图的各状态节点增加自跳转移弧，所述自跳转移弧的输入标签为静音标签、输出标签为占位标签。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述静音时长大于第二时长阈值时，NLU模型根据当前的语音识别文本开始进行响应，所述第二时长阈值大于所述第一时长阈值。

8.一种语音识别装置，其特征在于，包括：

语音接收模块，用于接收车辆座舱内用户发出的语音请求；

显示模块，用于当所述静音时长大于第一时长阈值时，根据预设语音识别系统输出所述语音请求对应的语音识别文本，将语音识别文本以不小于预设显示速度在车载系统的图形用户界面显示；

其中，所述预设语音识别系统包括预先训练好的声学模型，所述声学模型的训练方法包括：

9.一种车辆，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被车辆的处理器执行时，使所述处理器执行如权利要求1-7中任一项所述的方法。