CN117496972B

CN117496972B - 一种音频识别方法、音频识别装置、车辆和计算机设备

Info

Publication number: CN117496972B
Application number: CN202311862103.4A
Authority: CN
Inventors: 张辽; 余骁捷
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-16
Anticipated expiration: 2043-12-29
Also published as: CN117496972A

Abstract

本申请公开一种音频识别方法、音频识别装置、车辆和计算机设备。方法包括对待识别音频进行编码，以生成音素概率矩阵；根据预设的句式纠错模型，对音素概率矩阵进行处理，以生成第一发音概率矩阵，发音概率矩阵包括文本特征和槽位特征；在槽位特征的权重不是发音概率矩阵的最大权重的情况下，对第一发音概率矩阵进行解码，以生成第一识别结果；在槽位特征的权重为发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对音素概率矩阵进行处理，以生成第二发音概率矩阵；对第二发音概率矩阵解码，以生成第二识别结果，提高车载的语音识别系统的响应速度、效率和维护效率，降低训练时长和存储的空间占用量。

Description

一种音频识别方法、音频识别装置、车辆和计算机设备

技术领域

本申请涉及语音识别技术领域，更具体而言，涉及一种音频识别方法、音频识别装置、车辆和计算机设备。

背景技术

在车载语音系统的识别与交互的过程中，由于车辆的离线端存储有限、芯片的算力提升及数据处理技术的进步等，大部分厂商的车载语音系统采用了以少量算力换大量内存的神经网络语言模型（Neural Network Language Model，NNLM）与端到端模型相结合的方案。

但是，NNLM模型的训练周期较长，模型维护困难。

发明内容

本申请实施方式提供一种音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质。通过预设的句式纠错模型和预设的槽位纠错模型，对待识别音频编码后的生成的音素概率矩阵进行不同的处理，分别生成第一识别结果和第二识别结果，降低模型的训练时长和模型存储的空间占用量，并且在需要维护时仅需对句式纠错模型或槽位纠错模型进行对应维护，有效提高车载的语音识别系统的维护效率。

本申请的音频识别方法包括对待识别音频进行编码，以生成音素概率矩阵；根据预设的句式纠错模型，对所述音素概率矩阵进行处理，以生成第一发音概率矩阵，所述发音概率矩阵包括文本特征和槽位特征；在所述槽位特征的权重不是所述发音概率矩阵的最大权重的情况下，对所述第一发音概率矩阵进行解码，以生成第一识别结果；在所述槽位特征的权重为所述发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对所述音素概率矩阵进行处理，以生成第二发音概率矩阵；对所述第二发音概率矩阵解码，以生成第二识别结果。

在某些实施方式中，所述句式纠错模型中，Softmax函数的输出维数为预设维数，所述预设维数通过统计预设的多个句式中不同的汉字的数量得到。

在某些实施方式中，还包括：在生成所述第一识别结果的情况下，依次在显示屏显示所述第一识别结果的各个识别文本。

在某些实施方式中，所述依次在显示屏显示所述第一识别结果的各个识别文本，包括：获取所述第一识别结果的每个识别文本的平均识别时间；根据所述平均识别时间和预设延迟权重确定所述第一识别结果中的各个识别文本的上屏延迟，其中，所述第一识别结果中，前N个识别文本的预设延迟权重递增，第N个识别文本之后的识别文本的预设延迟权重与第N个识别文本的预设延迟权重相同；根据各个识别文本的所述上屏延迟，依次在所述显示屏显示所述第一识别结果的各个识别文本。

在某些实施方式中，还包括：在生成所述第二识别结果的情况下，根据所述第二识别结果中的各个识别文本的解码时间，依次在显示屏显示所述第二识别结果的各个识别文本。

在某些实施方式中，还包括：在所述第一识别结果与预设响应句式匹配的情况下，输入所述第一识别结果到预设的自然语言理解模型进行前向推理；在生成所述第二识别结果的情况下，输入所述第二识别结果到所述自然语言理解模型，并基于所述前向推理的结果进行后续推理；根据推理结果，控制所述车辆执行对应的操作。

在某些实施方式中，还包括：判断所述第一识别结果匹配的预设响应句式是否存在对应的模型缓存；若是，则根据所述模型缓存获取所述前向推理的结果；若否，则输入所述第一识别结果到预设的自然语言理解模型进行前向推理。

本申请实施方式的音频识别装置包括编码模块、生成模块、第一解码模块、处理模块和第二解码模块。编码模块，用于对待识别音频进行编码，以生成音素概率矩阵；生成模块，用于根据预设的句式纠错模型，对所述音素概率矩阵进行处理，以生成第一发音概率矩阵，所述发音概率矩阵包括文本特征和槽位特征；第一解码模块，用于在所述槽位特征的权重不是所述发音概率矩阵的最大权重的情况下，对所述第一发音概率矩阵进行解码，以生成第一识别结果；处理模块，用于在所述槽位特征的权重为所述发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对所述音素概率矩阵进行处理，以生成第二发音概率矩阵；第二解码模块，用于对所述第二发音概率矩阵解码，以生成第二识别结果。

本申请实施方式的车辆包括处理器、存储器；及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。

本申请实施方式的计算机设备包括处理器、存储器；及计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行上述任一实施方式所述的音频识别方法的指令。

本申请实施方式的非易失性计算机可读存储介质，包括计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述任一实施方式所述的音频识别方法。

本申请实施方式的音频识别方法、音频识别装置、车辆、计算机设备、和非易失性计算机可读存储介质，通过对待识别音频进行编码，以生成音素概率矩阵；再根据预设的句式纠错模型，对音素概率矩阵进行处理，即进行句式分割，以生成第一发音概率矩阵，发音概率矩阵包括文本特征和槽位特征，使得可以确定待识别音频中的语义和需要填充的槽位信息；再在槽位特征的权重不是第一发音概率矩阵的最大权重的情况下，对第一发音概率矩阵进行解码，以生成第一识别结果，以对待识别音频中的文本特征进行准确地识别，从而提高第一识别结果的识别质量；然后在槽位特征的权重为发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对音素概率矩阵进行处理，以生成第二发音概率矩阵，槽位纠错模型可以对音素概率矩阵进行更深入和确切的槽位的识别处理；最后对第二发音概率矩阵解码，以生成第二识别结果，通过分别生成第一识别结果和第二识别结果，以在车载的语音识别系统中对待识别语音进行对应的文本特征和槽位特征的识别和解码处理，从而提高车载的语音识别系统的响应速度和效率。

并且，对比目前的延迟纠错模型，在训练时需要进行长时间和较大数据量的计算，可以通过对句式纠错模型和槽位纠错模型分别进行训练，可以有效降低训练时长和存储的空间占用量；此外，在需要添加新的表达、新的槽位以进行识别时，可以仅下线和训练对应的需要添加或更新的句式纠错模型和槽位纠错模型，从而提高车载的语音识别系统的维护效率。

本申请的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施方式的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的音频识别方法的应用场景示意图；

图2是本申请某些实施方式的音频识别方法的场景示意图；

图3是本申请某些实施方式的音频识别方法的流程示意图；

图4是本申请一个实施方式的音频识别方法的场景示意图；

图5是本申请一个实施方式的音频识别方法的流程示意图；

图6是本申请另一个实施方式的音频识别方法的流程示意图；

图7是本申请再一个实施方式的音频识别方法的流程示意图；

图8是本申请另一个实施方式的音频识别方法的场景示意图；

图9是本申请又一个实施方式的音频识别方法的流程示意图；

图10是本申请某些实施方式的音频识别方法的流程示意图；

图11是本申请某些实施方式的音频识别装置的模块示意图；

图12是本申请某些实施方式的计算机设备的结构示意图；

图13是本申请某些实施方式的非易失性计算机可读存储介质和处理器的连接状态示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的实施方式的限制。

为方便理解本申请，下面对本申请出现的名词进行解释：

1、自然语言理解（Natural Language Understanding，NLU）：是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理系统中扮演着非常重要的角色，是推荐、问答、搜索等系统的必备模块。本申请实施方式中通过NLU学习和理解文本意图和上下文信息，以更好地响应指令和需求，提高交互效率和准确性。

2、语音识别技术（Automatic Speech Recognition，ASR）：目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

3、归一化指数函数（Softmax regression，Softmax函数）：将输入向量的元素归一化为概率值，使得每个元素表示其属于各个类别的概率。

车辆的语音识别技术是指通过分析车辆内部或周围的声音信号来实现对车辆状态、操作或环境的自动识别和理解，可以用于车辆安全、驾驶辅助系统、车载娱乐等领域。车载语音交互是指车辆内部的交互界面采用语音作为主要的输入和输出方式进行操作和反馈的技术。

目前，一般是通过车辆的车载的端到端识别系统对获取到的语音进行识别及响应。车载的端到端识别系统通常是通过语音识别模型识别获取到的语音，并将获取到的语音指令转化为文本指令，并将生成的文本指令在车辆显示屏上进行显示（即上屏），以供用户查看。语音识别模型一般利用深度学习技术，如卷积神经网络和长短时记忆网络，对从语音信号中提取的特征进行分类，从而得出最终的文本输出，为了提高文本输出的准确性，一般车载的端到端识别系统还会配置纠错模型。

在车载的端到端识别系统中，槽位是用于表示语音指令中的关键信息的占位符或变量。它们用于捕获语音指令中的特定内容，如目的地、音乐选择、温度设定等。槽位可以理解为一种填充空白的机制，将语音指令中的不同部分与特定的语义内容进行关联。

例如，在获取到待识别语音为：“导航去（目的地）”。在这个语音指令中，“（目的地）”就是一个槽位，用于表示待识别语音的指令中希望导航前往的具体地点。通过使用槽位，车载的端到端识别系统能够更好地理解和捕捉语音指令中的重要信息，从而更准确地满足用户需求。

在语音的识别与交互的过程中，经常需要添加新的表达、新的槽位以进行识别。目前一般是把所有领域的表达和槽位扩展成语料，并将扩展得到的语料用于训练神经网络语音模型、纠错模型等，在训练并生成文本后，即将语音指令转换为可读的文本形式，并在车辆的显示屏上屏显示。但是，通过文本扩充提高模型泛化，以使得模型支持多种表达和槽位的做法，会使得模型过大，同时给模型的训练过程带来很大的困难。

并且，目前的纠错模型中，一般在识别的时候会存在3至4个字的延迟，以便模型能够获取足够的上下文信息，从而得出更准确的纠错结果，由于存在3至4个字的延迟，在获取到生成的文本后再进行上屏时，会导致上屏不流畅。

由于在车载场景下，车辆控制的需求具有很强的时效性，同时，车辆所用硬件自身的算力与开发人员离线训练模型所使用的硬件算力存在差异，导致车载环境下的语音交互对于时延有很高的要求，目前的对话系统已经难以满足车载场景下的车辆控制需求。

此外，车辆在获取到待识别语音后，需要先进行ASR解码，在ASR解码完毕后才能进行NLU的解析响应，由于NLU的解析响应与ASR解码的速度紧密相关，因此，在实际应用时，容易产生车辆响应速度较慢的问题。

为解决上述技术问题，本申请实施例提供一种音频识别方法。

下面先对本申请的技术方案的一种应用场景进行介绍，如图1所示，本申请提供的音频识别方法，可以应用于如图1所示的应用场景中。该音频识别方法应用于音频识别系统1000中，该音频识别系统包括车辆100。

车辆100为任一可进行音频识别的车辆100，如汽车、卡车等。

车辆100包括车身50、处理器30和存储器40，处理器30设置在车身50的内部。

在一个实施例中，车辆100还包括存储器40，存储器40可以用于存储音频的解码图、预设的句式纠错模型、预设的槽位纠错模型等。

在一个实施例中，车辆100还包括麦克风20，麦克风20设置在车身50的内部，麦克风20用于采集车辆内部或车辆周围的音频信息，用户可以通过麦克风20向车辆发出控制指令等。

在一个实施例中，音频识别系统1000还包括服务器200，服务器200和车辆100通过网络进行通信；车辆100的句式纠错模型可以部署在车辆100本地或服务器200中至少一者。例如，车辆100的句式纠错模型部署在车辆100本地和服务器200，并对音频进行句式纠错处理，或车辆100的句式纠错模型部署在车辆100本地，在离线状态下对音频进行句式纠错处理。

在一个实施例中，音频识别系统1000还包括服务器200，服务器200和车辆100通过网络进行通信；车辆100的槽位纠错模型可以部署在车辆100本地或服务器200中至少一者。例如，车辆100的槽位纠错模型部署在车辆100本地和服务器200，并对音频进行槽位纠错处理，或车辆100的槽位纠错模型部署在车辆100本地，在离线状态下对音频进行槽位纠错处理。

在一个实施例中，服务器200可以是独立的物理服务器200，也可以是多个物理服务器200构成的服务器200集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器200。本申请实施例对此不做限制。

在一个实施例中，车辆100可包括显示屏（图中未示出），显示屏能够根据第一识别结果和第二识别结果进行上屏。显示屏还可以是可交互的触控显示屏，用户可以通过显示屏触控下达控制命令，如修改识别结果、确认识别结果等。

在一个实施例中，音频识别系统1000还包括终端300，终端300包括显示器301。终端300能够与车辆100进行通信，从而向车辆100发送通过终端300接收到的语音请求等，终端300的显示器301还可以显示音频识别结果等。

在一个实施例中，终端300可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。

在一个实施例中，车辆100、服务器200和终端300之间均通过网络进行通信，如车辆100、服务器200和终端300任意两者之间可通过无线方式通信（如无线局域网（WirelessFidelity，wifi）通信、蓝牙通信、红外通信等）。

可以理解，车辆100、服务器200和终端300之间的通信并不限于上述通信方式，对此不作限制。

如通过wifi通信时，车辆100和终端300分别与服务器200通信，然后由服务器200实现车辆100和服务器200（或终端300）的通信；如通过蓝牙通信或红外通信时，车辆100和终端300各自设置有对应的通信模块，以直接实现两者之间的通信。

在一个实施例中，音频识别方法可以在离线状态下通过车辆100实现；或通过车辆100和终端300实现；还可以在上线状态下，通过车辆100实现；或通过车辆100和终端300实现；或通过服务器200和终端300实现；或通过车辆100、服务器200和终端300实现等等。

下面将对本申请的音频识别方法进行详细阐述：

请参阅图1、图2和图3，本申请实施方式提供一种音频识别方法，该音频识别方法包括：

步骤011：对待识别音频进行编码，以生成音素概率矩阵。

其中，待识别音频可以包括用户通过语音的方式向系统发送的请求或查询，表征用户欲使车辆执行的功能或动作。在语音识别和语音控制领域，通常使用“语音指令”、“语音命令”、“语音控制指令”等术语来描述用户用于触发特定操作或任务的语音词组。这些语音指令可以是单个单词、短语或完整的句子，它们被称为“查询”（query）。也就是说，待识别音频可以是用户在语音交互中使用的query。例如，待识别音频可以是“你好啊”、“放首歌”及“导航去超市”等。音素概率矩阵可以包括音素集合和概率矩阵，音素集合是指语音信号可能出现的所有音素，而概率矩阵则是一个二维矩阵，表示在特定的时间点上出现某个音素的概率。

具体地，车辆在获取待识别音频时，可以通过车辆上的麦克风，接收用户发出的语音请求。待识别音频可以是根据麦克风采集的用户发出的语音请求，所生成的待识别音频；或者，车辆与终端关联（如通过网络连接等），用户通过终端发出语音请求，终端在接收到语音请求后，向车辆发送接收到的语音请求，车辆在接收到语音请求后，生成待识别音频。

车辆在获取到待识别音频后，可以先对待识别音频进行预处理，如通过去噪、音频增强、音频分割等预处理方式，以提高音频质量；再对预处理后的待识别音频进行特征提取，基于预设的声学模型【如高斯混合模型-隐马尔可夫模型（Gaussian Mixture Model -Hidden Markov Model，GMM-HMM）】等对待识别音频进行解码，以生成对应的音素概率矩阵。

步骤012：根据预设的句式纠错模型，对音素概率矩阵进行处理，以生成第一发音概率矩阵，发音概率矩阵包括文本特征和槽位特征。

其中，预设的句式纠错模型可以是能够对生成的音素概率矩阵进行识别和纠错的基于深度学习的神经网络模型，文本特征可以是待识别音频对应的文本内容，槽位特征可以是待识别音频中的关键信息、语义标签、槽位语料等。

具体地，可以通过车辆的处理器，在获取到音素概率矩阵后，将音素概率矩阵送入预设的句式纠错模型中进行句式分割，并生成第一发音概率矩阵，从而确定待识别音频的文本特征（可以包括句子、短语等，如“我要去”、“我想去”等）和待识别音频中存在的槽位标识，使得可以确定待识别音频中的语义和需要填充的槽位信息。

可选地，句式纠错模型中，Softmax函数的输出维数为预设维数，预设维数通过统计预设的多个句式中不同的汉字的数量得到。

具体地，在预设的句式纠错模型中，可以由预设的多个句式中不同的汉字组成对应的词表，并确定词表的大小为预设维数，Softmax函数的输出维数可以与对应的词表的大小相同，即，确定Softmax函数的输出维数为预设维数，其中，预设维数可以是300。通过获取车载的语音识别系统中使用频率较高的5000个句式，并统计5000个句式包括的所有汉字，确定5000个句式中包括的300个汉字（如通过5000个句式中的所有汉字的文字使用频率等确定300个汉字），将Softmax函数的输出节点从3000压缩至预设维数（即300），并建立300维度与3000维度的映射关系，其中，300维度为3000维度的一个子集。Softmax函数提供了概率分布，定义了句式纠错模型输出的可选项，使得在通过执行10次的集束搜索（Beam Search）对待识别音频进行解码后，能够确定最有可能的识别文本。并且，基于300维度与3000维度的映射关系，在识别时将300维度映射回3000维，由于300维度是3000维度的一个子集，那么在搜索时只需补齐3000-300=2700维度即可；并且Beam Search可以在句式纠错模型之外进行，因此，句式纠错模型只需要很小的模型算力和很小的Softmax函数，可以有效降低模型尺寸和计算量。

步骤013：在槽位特征的权重不是第一发音概率矩阵的最大权重的情况下，对第一发音概率矩阵进行解码，以生成第一识别结果。

具体地，第一发音概率矩阵包括文本特征和槽位特征。在根据预设的句式纠错模型对音素概率矩阵进行处理时，第一发音概率矩阵是基于逐字输入句式纠错模型中的音素概率矩阵生成的，也就是说，文本特征和槽位特征的权重可以根据输入的音素概率矩阵变化。比如，以“导航去A地”（即“导航去”为文本特征，“A地”为槽位特征）为例进行说明，在预设的句式纠错模型中对“导”、“航”、“去”的音素概率矩阵逐字进行处理以生成对应的第一发音概率矩阵，且还未生成“A地”这一槽位特征的情况下，即“A地”这一槽位特征的权重不是第一发音概率矩阵的最大权重的情况下，将基于“导”、“航”、“去”的第一发音概率矩阵所生成的文本特征送入语音解码图中进行解码，以根据第一发音概率矩阵的文本特征生成第一识别结果，从而提高第一识别结果的识别质量。

其中，语音解码图可以是为了实现语音识别，而进行的解码操作中，基于加权有限状态转换器（Weighted Finite State Transducer，WFST），将多个有限状态转化器（FiniteState Transducer，FST）进行图耦合（compose）操作合并以构建得到的映射关系。

步骤014：在槽位特征的权重为发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对音素概率矩阵进行处理，以生成第二发音概率矩阵。

具体地，在槽位特征的权重为发音概率矩阵的最大权重的情况下，将音素概率矩阵输入预设的槽位纠错模型进行处理，以输出第二发音概率矩阵。其中，在对预设的槽位纠错模型进行训练时，可以通过将槽位进行分类，例如，分为歌曲名称类别、歌手名称类别或导航地址类别等，那么，对于歌曲名称的槽位来说，槽位语料可为“歌曲A”、“歌曲B”或者“歌曲C”等歌曲名称；对于歌手名称的槽位来说，槽位可为“张三”、“李四”或者“王五”等歌手名称；对于导航地址的槽位来说，导航地址可以是“A地”、“B地”等具体地址。在获取到槽位特征后，可以对各个槽位特征进行识别，确定各个槽位特征是否与预设分好类的槽位相匹配。例如，继续上个例子，以“导航去A地”（即“导航去”为文本特征，“A地”为槽位特征）为例进行说明，在预设的句式纠错模型中，对音素概率矩阵进行处理，当生成的第一发音概率矩阵包括“A地”这一槽位特征时，确定槽位特征的权重为发音概率矩阵的最大权重，根据预设的槽位纠错模型，对音素概率矩阵进行处理，以输出第二发音概率矩阵。

步骤015：对第二发音概率矩阵解码，以生成第二识别结果。

具体地，在预设的槽位纠错模型根据音素概率矩阵输出对应的第二发音概率矩阵后，根据语音解码图，对第二发音概率矩阵进行解码，以生成第二识别结果。

为了提高生成的第二识别结果的准确性，预设的槽位纠错模型一般会存在3-4个音节的延迟，以获取上下文信息后，再确定当前应该输出的文字。由于用户需求的多样化等原因，预设的槽位纠错模型中需要填充的槽位数量、输出节点较多，参数量也较大，因此需要使用更大的模型以保证生成的识别结果。

请参阅图4，以待识别音频为“我想去某一地”为例进行说明，通过对待识别音频“我想去某一地”进行编码，生成音素概率矩阵。再将音素概率矩阵输入预设的句式纠错模型，以生成“我想去某一地”的第一发音概率矩阵，第一发音概率矩阵包括无延迟的文本特征“我想去”和槽位特征“POI”，在槽位特征“POI”的权重不是第一发音概率矩阵的最大权重的情况下，对第一发音概率矩阵进行解码，基于语音解码图，以生成“我想去”的第一识别结果。在槽位特征“POI”的权重为第一发音概率矩阵的最大权重的情况下，在预设的槽位纠错模型中，对音素概率矩阵进行处理，以生成第二发音概率矩阵，再基于语音解码图，对第二发音概率矩阵进行解码，以生成包括“某一地”的第二识别结果。

句式纠错模型可以根据获取到的待识别音频的音素概率矩阵生成无延迟的纠错后的第一发音概率矩阵，并对第一发音概率矩阵进行解码，以生成第一识别结果；而槽位纠错模型可以在确定槽位特征的权重为发音概率矩阵的最大权重的情况下，在延迟3-4个字的时间点对槽位信息进行更深入和确切的识别处理，通过无延迟的句式纠错模型和有延迟的槽位纠错模型完成在车载的语音识别系统中的对待识别语音进行对应的识别处理，提高车载的语音识别系统的响应速度和效率。

此外，以包括5000个句式和500万个槽位的导航文本数据集为例进行说明，在目前的延迟纠错模型中，需要对包括了5000个句式和500万个槽位的延迟纠错模型进行7天的训练时长，获取到参数量为5太字节（T）的延迟纠错模型；可以理解为，将延迟纠错模型拆分为包括了5000个句式的句式纠错模型和包括了500万个槽位的槽位纠错模型，并分别对句式纠错模型和槽位纠错模型进行训练，句式纠错模型和槽位纠错模型可以同时进行训练，句式纠错模型需要进行5分钟（min）的训练时长，获取到500千字节（KB）的句式纠错模型；槽位纠错模型需要进行2小时（h）的训练时长，获取到1千兆字节（GB）的槽位纠错模型，可知，将延迟纠错模型拆分为句式纠错模型和槽位纠错模型可以有效降低训练时长和存储的空间占用量。

可以理解，由于句式纠错模型和槽位纠错模型可以分别对应句式信息和槽位信息的处理，那么，在需要添加新的表达、新的槽位以进行识别时，可以只下线和训练对应的需要添加或更新的句式纠错模型和槽位纠错模型，提高车载的语音识别系统的维护效率。

如此，通过对待识别音频进行编码，以生成音素概率矩阵；再根据预设的句式纠错模型，对音素概率矩阵进行处理，即进行句式分割，以生成第一发音概率矩阵，发音概率矩阵包括文本特征和槽位特征，使得可以确定待识别音频中的语义和需要填充的槽位信息；再在槽位特征的权重不是第一发音概率矩阵的最大权重的情况下，对第一发音概率矩阵进行解码，以生成第一识别结果，以对待识别音频中的文本特征进行准确地识别，从而提高第一识别结果的识别质量；然后在槽位特征的权重为发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对音素概率矩阵进行处理，以生成第二发音概率矩阵，槽位纠错模型可以对音素概率矩阵进行更深入和确切的槽位的识别处理；最后对第二发音概率矩阵解码，以生成第二识别结果，通过分别生成第一识别结果和第二识别结果，以在车载的语音识别系统中对待识别语音进行对应的文本特征和槽位特征的识别和解码处理，从而提高车载的语音识别系统的响应速度和效率。

并且，对比目前的延迟纠错模型，在训练时需要进行长时间和较大数据量的计算，可以通过对句式纠错模型和槽位纠错模型进行分别训练，可以有效降低训练时长和存储的空间占用量；此外，在需要添加新的表达、新的槽位以进行识别时，可以仅下线和训练对应的需要添加或更新的句式纠错模型和槽位纠错模型，从而提高车载的语音识别系统的维护效率。

请参阅图5，在某些实施例中，音频识别方法还包括：

步骤016：在生成第一识别结果的情况下，依次在显示屏显示第一识别结果的各个识别文本。

具体地，第一识别结果可以是在槽位特征的权重不是第一发音概率矩阵的最大权重的情况下，在没有延迟的情况下，将第一发音概率矩阵送入语音解码图进行解码，所生成的第一识别结果。第一识别结果包括识别文本，通过车辆的控制器控制车辆的显示屏，以在显示屏上依次显示第一识别结果的各个识别文本。和目前的上屏技术中，在获取到全部的识别文本后再在显示屏中进行显示相比，用户可以更加快速地通过显示屏获取到待识别音频的识别结果，判断得到的识别文本的正确与否。

请参阅图6，在某些实施例中，步骤016：依次在显示屏显示第一识别结果的各个识别文本，包括：

步骤0161：获取第一识别结果的每个识别文本的平均识别时间；

步骤0162：根据平均识别时间和预设延迟权重确定第一识别结果中的各个识别文本的上屏延迟，其中，第一识别结果中，前N个识别文本的预设延迟权重递增，第N个识别文本之后的识别文本的预设延迟权重与第N个识别文本的预设延迟权重相同；

步骤0163：根据各个识别文本的上屏延迟，依次在显示屏显示第一识别结果的各个识别文本。

具体地，在第一识别结果的各个识别文本在显示屏上依次显示完毕，第二识别结果的各个识别文本开始上屏时，也就是在第一识别结果包括的识别文本的最后一个字上屏完毕，第二识别结果包括的识别文本的第一个字开始上屏时，两个字之间会具有很明显的延迟，导致上屏的观感存在割裂。

为了减少上屏时产生的割裂感，可以通过对第一识别结果的上屏进行延时处理。如根据经验值，即用户的历史语音中的语速，获取第一识别结果的每个识别文本的平均识别时间，再基于平均识别时间和预设延迟权重确定第一识别结果中的各个识别文本的上屏延迟。延迟处理并非是通过固定的某个延迟时间达成，如通过对每个字都设置固定的0.1毫秒（ms）的延迟等，而是对每个字设置对应的预设延迟权重，如根据依次输出的每个字的输出顺序等，分别设置每个字对应的预设延迟权重。因此，基于平均识别时间和预设延迟权重确定第一识别结果中的各个识别文本的上屏延迟可以是，如将平均识别时间与字对应的预设延迟权重相乘的值确定为每个字对应的上屏延迟速度。根据各个识别文本的上屏延迟，通过车辆上的显示屏，依次显示各个识别文本。在第一识别结果中，前N个识别文本的预设延迟权重递增，第N个识别文本之后的识别文本的预设延迟权重与第N个识别文本的预设延迟权重相同。

预设延迟权重和N可以通过实验值、经验值等确定，如通过大量的语音转换技术（Text-to-speech，TTS）的数据解码时间进行统计，以确定在保证句式纠错模型的识别文本的上屏速度相对目前的上屏速度加快的情况下，增加待识别音频的上屏顺滑度所需要的延迟权重。其中，预设延迟权重可以是0.1，0.2，0.3，0.5，1，1.2，1.5，2等，N可以是1，2，3，4，5等。

例如，在N=4的情况下，对句式延迟纠错模型生成的识别文本进行预设延迟权重处理。其中，根据用户的历史语音中的语速，获取第一识别结果的每个识别文本的平均识别时间为T。在句式纠错模型对待识别音频进行解码时，确定第1个字的预设延迟权重为0.2，那么将第1个字在解码完毕后延迟0.2*T进行上屏；确定第2个字的预设延迟权重为0.7，那么将第2个字在解码完毕后延迟0.7*T进行上屏；确定第3个字的预设延迟权重为1.3，那么将第3个字在解码完毕后延迟1.3*T进行上屏；确定第4个字的预设延迟权重为2，那么将第4个字在解码完毕后延迟2*T进行上屏；第4个识别文本之后的识别文本的预设延迟权重与第4个识别文本的预设延迟权重相同，即，句式纠错模型中，在识别出第4个字之后的识别文本，如第5个字、第6个字等之后的字的预设延迟权重均为2，第5个字、第6个字等之后的字都将在解码完毕后延迟2*T进行上屏；根据各个识别文本的上屏延迟，通过车辆的控制器控制显示屏，依次在显示屏上显示各个识别文本。

请参阅图7，在某些实施例中，音频识别方法还包括：

步骤017：在生成第二识别结果的情况下，根据第二识别结果中的各个识别文本的解码时间，依次在显示屏显示第二识别结果的各个识别文本。

具体地，在基于语音解码图，对第二发音概率矩阵进行解码，以生成第二识别结果的情况下，为了提高识别的准确性，一般会根据上下文信息进行解码。由于预设的槽位纠错模型在对音素概率矩阵进行处理，以生成第二发音概率矩阵的过程中，存在3-4个字的延迟，因而生成的第二识别结果也存在至少3-4个字的延迟。例如，根据用户的历史语音中的语速，假设获取第一识别结果的每个识别文本的平均识别时间为T，在槽位纠错模型生成的第二发音概率矩阵存在3个字的延迟的情况下，则第二识别结果中各个识别文本的解码时间均为3T，根据第二识别结果中的各个识别文本的解码时间3T，依次在车辆的显示屏中以3T的上屏延迟速度显示第二识别结果中的各个识别文本。

请参阅图8，仍以获取到的待识别语音为“我想去某一地”为例进行说明，确定N=4，根据用户的历史语音中的语速，获取第一识别结果的每个识别文本的平均识别时间为T，在确定第1个字“我”的预设延迟权重为0.2的情况下，将“我”在解码完毕后延迟0.2*T进行上屏；确定第2个字“想”的预设延迟权重为0.7的情况下，将“想”在解码完毕后延迟0.7*T进行上屏；确定第3个字“去”的预设延迟权重为1.3的情况下，将“去”在解码完毕后延迟1.3*T进行上屏；在预设的槽位纠错模型中，生成的第二发音概率矩阵均存在3T 的延迟，对第二发音概率矩阵进行解码以得到“某”、“一”、“地”，则“某”、“一”、“地”的解码时间均为3T，依次在车辆的显示屏中以3T的上屏延迟速度显示第二识别结果中的“某”、“一”和“地”。

可以理解，根据对第一识别结果的各个文本的上屏速度进行延迟处理，和根据对第二识别结果中的各个识别文本的解码速度进行上屏处理，那么最终确定的待识别音频的上屏速度将为：对第一识别结果的各个文本，首字的上屏速度快，第二个字至第四个字的相对上屏刷新速度（即第二个字、第三个字和第四个字相对前一个字的刷新间隔速度）较慢，在第五个字以上时，相对刷新速度较快；对第二识别结果的各个文本，相比第一识别结果的各个文本，每个字的上屏速度较慢。相对目前的延迟纠错模型在延迟3-4个字的解码，并在获取到全部的解码结果后，再进行上屏的上屏速度而言，本申请的上屏速度更快，且根据句式纠错模型生成第一发音概率矩阵，对第一发音概率矩阵进行解码，以生成第一识别结果的各个文本，由于对第一识别结果的各个识别文本进行上屏延迟处理，使得能够增加上屏顺滑度，从而提高用户的使用体验。

请参阅图9，在某些实施例中，音频识别方法还包括：

步骤018：在第一识别结果与预设响应句式匹配的情况下，输入第一识别结果到预设的自然语言理解模型进行前向推理；

步骤019：在生成第二识别结果的情况下，输入第二识别结果到自然语言理解模型，并基于前向推理的结果进行后续推理；

步骤020：根据推理结果，控制车辆执行对应的操作。

具体地，预设的NLU模型能够理解生成的第一识别结果与第二识别结果，通过预设响应句式（如预设响应句式包括意图模板“我想去”“我要去”等），在句式纠错模型中生成的第一识别结果与预设响应句式匹配的情况下，将第一识别结果输入到预设的NLU模型进行前向推理，NLU模型会根据模型的设计和训练，对输入的第一识别结果进行分析、解析等，以理解文本的含义、识别用户意图等，从而减少车载的语音识别系统的整体的响应时间；在生成第二识别结果的情况下，输入第二识别结果到NLU模型，并基于前向推理的结果进行后续推理，以填充槽位，进一步节省识别和推理的时间，提高识别的正确性，最后根据推理结果，控制车辆执行对应的操作，提高用户的使用体验。

请参阅图10，在某些实施例中，音频识别方法还包括：

步骤021：判断第一识别结果匹配的预设响应句式是否存在对应的模型缓存；

步骤022：若是，则根据模型缓存获取前向推理的结果；

步骤023：若否，则输入第一识别结果到预设的自然语言理解模型进行前向推理。

具体地，模型缓存包括各个句式对应的NLU模型的计算结果，根据实际需求进行管理和更新。可以通过提前计算模型缓存，将相同句意的句式对应至同一个模型缓存，在第一识别结果匹配的预设响应句式存在对应的模型缓存的情况下，不需要再在NLU模型中进行前向推理，而是根据模型缓存直接获取到前向推理的结果，使得在识别过程中，不需要再等待ASR识别结束后再进行NLU的识别和计算，可以有效节省推理时间和算力；在第一识别结果匹配的预设响应句式不存在对应的模型缓存的情况下，再输入第一识别结果到预设的NLU模型进行前向推理，如此，可以有效减少车辆根据推理结果进行响应的整体响应时间。

请参阅图11，为便于更好地实施本申请实施方式的音频识别方法，本申请实施方式还提供一种音频识别装置10。该音频识别装置10可以包括编码模块11、生成模块12、第一解码模块13、处理模块14和第二解码模块15。编码模块11用于对待识别音频进行编码，以生成音素概率矩阵；生成模块12用于根据预设的句式纠错模型，对音素概率矩阵进行处理，以生成第一发音概率矩阵，发音概率矩阵包括文本特征和槽位特征；第一解码模块13用于在槽位特征的权重不是发音概率矩阵的最大权重的情况下，对第一发音概率矩阵进行解码，以生成第一识别结果；处理模块14用于在槽位特征的权重为发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对音素概率矩阵进行处理，以生成第二发音概率矩阵；第二解码模块15用于对第二发音概率矩阵解码，以生成第二识别结果。

在一个实施例中，音频识别装置10还包括显示模块16，显示模块16用于在生成第一识别结果的情况下，依次在显示屏显示第一识别结果的各个识别文本。

在一个实施例中，显示模块16具体还用于获取第一识别结果的每个识别文本的平均识别时间；根据平均识别时间和预设延迟权重确定第一识别结果中的各个识别文本的上屏延迟，其中，第一识别结果中，前N个识别文本的预设延迟权重递增，第N个识别文本之后的识别文本的预设延迟权重与第N个识别文本的预设延迟权重相同；根据各个识别文本的上屏延迟，依次在显示屏显示第一识别结果的各个识别文本。

在一个实施例中，显示模块16具体还用于在生成第二识别结果的情况下，根据第二识别结果中的各个识别文本的解码时间，依次在显示屏显示第二识别结果的各个识别文本。

在一个实施例中，音频识别装置10还包括控制模块17，控制模块17用于在第一识别结果与预设响应句式匹配的情况下，输入第一识别结果到预设的自然语言理解模型进行前向推理；在生成第二识别结果的情况下，输入第二识别结果到自然语言理解模型，并基于前向推理的结果进行后续推理；根据推理结果，控制车辆执行对应的操作。

在一个实施例中，音频识别装置10还包括判断模块18，判断模块18具体还用于判断第一识别结果匹配的预设响应句式是否存在对应的模型缓存；若是，则根据模型缓存获取前向推理的结果；若否，则输入第一识别结果到预设的自然语言理解模型进行前向推理。

上文中结合附图从功能模块的角度描述了音频识别装置10，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

请再次参阅图1，本申请实施方式的车辆包括处理器30、存储器40及计算机程序，其中，计算机程序被存储在存储器40中，并且被处理器30执行，计算机程序包括用于执行上述任一实施方式的音频识别方法的指令。

请参阅图12，本申请实施方式的计算机设备包括处理器402、存储器403及计算机程序，其中，计算机程序被存储在存储器403中，并且被处理器402执行，计算机程序包括用于执行上述任一实施方式的音频识别方法的指令。

在一个实施例中，该计算机设备可以是终端400或车辆100。其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器402、存储器403、网络接口404、显示屏401和输入装置405。

其中，该计算机设备的处理器402用于提供计算和控制能力。该计算机设备的存储器403包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口404用于与外部设备通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施方式的音频识别方法和展示方法。该计算机设备的显示屏401可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置405可以是显示屏401上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图13，本申请实施方式还提供了一种计算机可读存储介质600，其上存储有计算机程序610，计算机程序610被处理器620执行的情况下，实现上述任意一种实施方式的音频识别方法的步骤，为了简洁，在此不再赘述。

在本说明书的描述中，参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

1.一种音频识别方法，其特征在于，包括：

对待识别音频进行编码，以生成音素概率矩阵；

根据预设的句式纠错模型，对所述音素概率矩阵进行处理，以生成第一发音概率矩阵，所述第一发音概率矩阵包括文本特征和槽位特征；

在所述槽位特征的权重不是所述第一发音概率矩阵的最大权重的情况下，对所述第一发音概率矩阵进行解码，以生成第一识别结果；

在所述槽位特征的权重为所述发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对所述音素概率矩阵进行处理，以生成第二发音概率矩阵；

对所述第二发音概率矩阵解码，以生成第二识别结果；

在所述第一识别结果与预设响应句式匹配的情况下，输入所述第一识别结果到预设的自然语言理解模型进行前向推理；

在生成所述第二识别结果的情况下，输入所述第二识别结果到所述自然语言理解模型，并基于所述前向推理的结果进行后续推理；

根据推理结果，控制车辆执行对应的操作。

2.根据权利要求1所述的音频识别方法，其特征在于，所述句式纠错模型中，Softmax函数的输出维数为预设维数，所述预设维数通过统计预设的多个句式中不同的汉字的数量得到。

3.根据权利要求1所述的音频识别方法，其特征在于，还包括：

在生成所述第一识别结果的情况下，依次在显示屏显示所述第一识别结果的各个识别文本。

4.根据权利要求3所述的音频识别方法，其特征在于，所述依次在显示屏显示所述第一识别结果的各个识别文本，包括：

获取所述第一识别结果的每个识别文本的平均识别时间；

根据所述平均识别时间和预设延迟权重确定所述第一识别结果中的各个识别文本的上屏延迟，其中，所述第一识别结果中，前N个识别文本的预设延迟权重递增，第N个识别文本之后的识别文本的预设延迟权重与第N个识别文本的预设延迟权重相同；

根据各个识别文本的所述上屏延迟，依次在所述显示屏显示所述第一识别结果的各个识别文本。

5.根据权利要求1所述的音频识别方法，其特征在于，还包括：

在生成所述第二识别结果的情况下，根据所述第二识别结果中的各个识别文本的解码时间，依次在显示屏显示所述第二识别结果的各个识别文本。

6.根据权利要求1所述的音频识别方法，其特征在于，还包括：

判断所述第一识别结果匹配的预设响应句式是否存在对应的模型缓存；

若是，则根据所述模型缓存获取所述前向推理的结果；

若否，则输入所述第一识别结果到预设的自然语言理解模型进行前向推理。

7.一种音频识别装置，其特征在于，包括：

编码模块，用于对待识别音频进行编码，以生成音素概率矩阵；

生成模块，用于根据预设的句式纠错模型，对所述音素概率矩阵进行处理，以生成第一发音概率矩阵，所述发音概率矩阵包括文本特征和槽位特征；

第一解码模块，用于在所述槽位特征的权重不是所述发音概率矩阵的最大权重的情况下，对所述第一发音概率矩阵进行解码，以生成第一识别结果；

处理模块，用于在所述槽位特征的权重为所述发音概率矩阵的最大权重的情况下，根据预设的槽位纠错模型对所述音素概率矩阵进行处理，以生成第二发音概率矩阵；

第二解码模块，用于对所述第二发音概率矩阵解码，以生成第二识别结果；

控制模块，用于在所述第一识别结果与预设响应句式匹配的情况下，输入所述第一识别结果到预设的自然语言理解模型进行前向推理；在生成所述第二识别结果的情况下，输入所述第二识别结果到所述自然语言理解模型，并基于所述前向推理的结果进行后续推理；根据推理结果，控制车辆执行对应的操作。

8.一种车辆，其特征在于，包括：

处理器、存储器；及

计算机程序，其中，所述计算机程序被存储在所述存储器中，并且被所述处理器执行，所述计算机程序包括用于执行权利要求1至6任意一项所述的音频识别方法的指令。

9. 一种计算机设备，其特征在于，包括：

处理器、存储器；及