CN111354363A

CN111354363A - 车载语音识别方法、装置、可读存储介质及电子设备

Info

Publication number: CN111354363A
Application number: CN202010107278.4A
Authority: CN
Inventors: 莫凡; 孙珏; 薛思皓; 毛丽旦·玉素甫江
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-30

Abstract

本公开涉及一种车载语音识别方法、装置、可读存储介质及电子设备。方法包括：获取车辆内的音频信息；根据所述音频信息和训练后的语音识别模型，确定与所述音频信息相匹配的文本信息；在对语音识别模型进行训练时，由于是采用车辆内特定场景下的历史音频信息和与该历史音频信息相匹配的文本信息进行训练的，所以，训练后的语音识别模型能够适应车载语音场景，进而在利用该语音识别模型对车辆内的音频信息进行识别时，可以提高语音识别模型的识别率，以使语音识别模型准确地识别出文本信息，提升用户的使用体验。

Description

车载语音识别方法、装置、可读存储介质及电子设备

技术领域

本公开涉及语音识别技术领域，具体地，涉及一种车载语音识别方法、装置、可读存储介质及电子设备。

背景技术

随着语音识别技术的快速发展，人们对车辆的要求越来越高，人们不只是希望能够安全驾驶，在保证安全驾驶的前提下，人们同样希望拥有良好的驾驶体验。因此，越来越多的语音识别装置安装在车辆上(通常称为车载语音识别系统)，用户可以通过语音或智能语音设备进行交互，控制智能语音设备执行相应的操作，实现对车辆的自动控制，提升整车高端化、技术化。

发明内容

本公开的目的是提供一种车载语音识别方法、装置、可读存储介质及电子设备，以提高车载语音识别的准确率。

为了实现上述目的，本公开提供一种车载语音识别方法，包括：

获取车辆内的音频信息；

根据所述音频信息和训练后的语音识别模型，确定与所述音频信息相匹配的文本信息；

其中，所述语音识别模型通过以下训练方式得到：

获取所述车辆内特定场景下的历史音频信息以及与所述历史音频信息相匹配的历史文本信息；

根据所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，对所述语音识别模型进行训练，以得到训练后的所述语音识别模型。

可选地，所述语音识别模型包括在线语音识别模型和离线语音识别模型，所述方法还包括：

根据所述在线语音识别模型输出的文本信息，确定所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息；

所述根据所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，对所述语音识别模型进行训练，以得到训练后的所述语音识别模型，包括：

根据所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，对所述离线语音识别模型进行训练，以得到训练后的所述离线语音识别模型。

可选地，每一车辆各自对应不同的在线语音识别模块、离线语音识别模型；所述根据所述在线语音识别模型输出的文本信息，确定所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，包括：

针对每一车辆，根据该车辆的在线语音识别模型输出的文本信息，确定该车辆的所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息。

可选地，所述根据所述在线语音识别模型输出的文本信息，确定所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，包括：

获取所述在线语音识别模型输出的文本信息；

确定所述文本信息是否位于预设列表中，所述预设列表中包括所述车辆的车机端能够执行的操作对应的文本信息；

若所述文本信息位于预设列表中，则存储所述在线语音识别模型输出的所述文本信息，以及与所述文本信息对应的音频信息；

在所存储的音频信息达到预设数值时，将所存储的所述音频信息、所述文本信息分别作为所述历史音频信息、所述历史文本信息。

可选地，所述语音识别模型包括声学模型和语言模型；所述根据所述音频信息和预设的语音识别模型，确定与所述音频信息相匹配的文本信息，包括：

根据所述音频信息和所述声学模型，确定所述音频信息的发音序列；

根据所述发音序列和所述语言模型，确定与所述音频信息相匹配的文本信息。

本公开第二方面还提供一种车载语音识别装置，包括：

第一获取模块，用于获取车辆内的音频信息；

第一确定模块，用于根据所述音频信息和训练后的语音识别模型，确定与所述音频信息相匹配的文本信息；

其中，所述装置还包括：

第二获取模块，用于获取所述车辆内特定场景下的历史音频信息以及与所述历史音频信息相匹配的历史文本信息；

训练模块，用于根据所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，对所述语音识别模型进行训练，以得到训练后的所述语音识别模型。

可选地，所述语音识别模型包括在线语音识别模型和离线语音识别模型，所述装置还包括：

第二确定模块，用于根据所述在线语音识别模型输出的文本信息，确定所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息；

所述训练模块，用于根据所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，对所述离线语音识别模型进行训练，以得到训练后的所述离线语音识别模型。

可选地，每一车辆各自对应不同的在线语音识别模块、离线语音识别模型；所述第二确定模块包括：

第一确定子模块，用于针对每一车辆，根据该车辆的在线语音识别模型输出的文本信息，确定该车辆的所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息。

可选地，所述第二确定模块包括：

获取子模块，用于获取所述在线语音识别模型输出的文本信息；

第二确定子模块，用于确定所述文本信息是否位于预设列表中，所述预设列表中包括所述车辆的车机端能够执行的操作对应的文本信息；

存储子模块，用于若所述文本信息位于预设列表中，则存储所述在线语音识别模型输出的所述文本信息，以及与所述文本信息对应的音频信息；

第三确定子模块，用于在所存储的音频信息达到预设数值时，将所存储的所述音频信息、所述文本信息分别作为所述历史音频信息、所述历史文本信息。

可选地，所述语音识别模型包括声学模型和语言模型；所述第一确定模块，包括：

第四确定子模块，用于根据所述音频信息和所述声学模型，确定所述音频信息的发音序列；

第五确定子模块，用于根据所述发音序列和所述语言模型，确定与所述音频信息相匹配的文本信息。

本公开第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所提供的所述方法的步骤。

通过上述技术方案，在对语音识别模型进行训练时，由于是采用车辆内特定场景下的历史音频信息和与该历史音频信息相匹配的文本信息进行训练的，所以，训练后的语音识别模型能够适应车载语音场景，进而在利用该语音识别模型对车辆内的音频信息进行识别时，可以提高语音识别模型的识别率，以使语音识别模型准确地识别出文本信息，提升用户的使用体验。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种车载语音识别方法的流程图。

图2是根据一示例性实施例示出的一种训练语音识别模型的流程图。

图3是根据一示例性实施例示出的一种车载语音识别装置的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在相关技术中，传统的车载语音识别系统可以通过收集大量不同说话人的音频信息，训练出适用性较强的语音识别模型。但是发明人发现，现有技术中的语音识别模型在通用场景下对语音识别是有效的，但是在离线情况下，由于受到设备条件的限制，例如，车机端的硬件设施有限制，存储空间、内存、运算速度都不如服务器，无法使用很大的模型，导致离线语音识别模型对应用场景和说话内容较为敏感。因此，对于车载场景中特定说话内容如不进行针对性的训练，会严重降低语音识别模型的识别率，影响识别准确率，导致用户的使用体验较差。

鉴于此，本公开提供一种车载语音识别方法、装置、可读存储介质及电子设备，以提高车载语音识别的准确率。

图1是根据一示例性实施例示出的一种车载语音识别方法的流程图。如图1所示，该方法可以包括步骤101和步骤102。

在步骤101中，获取车辆内的音频信息。

其中，可以在车辆内设置音频采集装置(例如，麦克风)，通过该音频采集装置采集车辆内的音频信号，进而车辆内的语音识别系统可以从该音频采集装置中获取到车辆内的音频信息。

在步骤102中，根据音频信息和训练后的语音识别模型，确定与音频信息相匹配的文本信息。

在本公开中，语音识别模型可以包括声学模型和语言模型，其中，声学模型可以用于将音频信息转换成该音频信息的发音序列，语言模型用于将该发音序列转换成文本信息。具体地，步骤102的具体实施方式可以为：根据音频信息和声学模型，确定该音频信息的发音序列；以及，根据该发音序列和语言模型，确定与该音频信息相匹配的文本信息。

在一种实施例中，可以直接将音频信息输入至声学模型，以得到该声学模型输出的音频信息的发音序列，其中，该发音序列中包括表征该音频信息发音的概率。例如，针对音频信息中的某个字节，其发“a”音的概率为0.8，发“o”音的概率为0.2。在另一种实施例中，还可以在将该音频信息输入至声学模型之前，首先对该音频信息进行预处理，例如，针对每一帧音频信息，在该音频信息中分别提取不同频率下的特征信息，该特征信息可以是FilterBank特征，该特征具有类似人耳听觉感知的特性，并能在一定程度上增强语音信号、抑制非语音信号。在该实施例中，在提取出音频信息的特征信息之后，可以将该特征信息输入至声学模型，以得到该声学模型输出的该音频信息的发音序列(例如拼音序列)。

在确定出该音频信息的发音序列之后，可以基于该发音序列和语言模型，确定与音频信息相匹配的文本信息。具体地，可以首先根据该语言模型和发音词典生成解码网络wfst(Weighted Finite State Transducer，加权有限状态传感器)，之后，将发音序列输入至该解码网络wfst中，以得到与音频信息相匹配的文本信息。其中，基于语言模型和发音词典生成解码网络wfst的具体实施方式、以及将发音序列输入至该解码网络wfst中以得到与音频信息相匹配的文本信息的具体实施方式属于现有技术，此处不再赘述。

需要说明的是，如图2所示，本公开所采用的语音识别模型的训练过程可以包括步骤201和步骤202。

在201中，获取车辆内特定场景下的历史音频信息以及与历史音频信息相匹配的历史文本信息。

为了提高离线语音识别模型对语音识别的准确性，在本公开中，可以采用特定场景下的音频信息对语音识别模型进行训练。其中，该特定场景可以是用户自行设定的场景，考虑到在车辆中的语音场景多为控制车载媒体播放器场景、接听电话场景、导航场景、开关车窗场景等，因此，在本公开中，该特定场景可以是控制媒体播放器场景、接听电话场景、导航场景、开关车窗场景，等等。值得说明的是，根据用户实际需求，特定场景还可以包括车辆内的其他场景。

此外，在获取到车辆内特定场景下的历史音频信息之后，还可以进一步获取到与该历史音频信息相匹配的历史文本信息。示例地，可以人工标注与该历史音频信息相匹配的历史文本信息。

在步骤202中，根据历史音频信息以及与历史音频信息相匹配的历史文本信息，对语音识别模型进行训练，以得到训练后的语音识别模型。

具体地，可以将历史音频信息作为训练样本输入至语音识别模型中，以得到语音识别模型的输出结果，之后，将语音识别模型的输出结果与历史文本信息比对，并根据比对结果对语音识别模型进行训练，以得到训练后的语音识别模型。

采用上述技术方案，在对语音识别模型进行训练时，由于是采用车辆内特定场景下的历史音频信息和与该历史音频信息相匹配的文本信息进行训练的，所以，训练后的语音识别模型能够适应车载语音场景，进而在利用该语音识别模型对车辆内的音频信息进行识别时，可以提高语音识别模型的识别率，以使语音识别模型准确地识别出文本信息，提升用户的使用体验。

此外，考虑到在网络状况不好时在线语音识别模型不能实时识别语音，因此，在本公开中，该语音识别模型可以包括在线语音识别模型和离线语音识别模型。这样，在网络较好时可以优先使用在线语音识别模型进行语音识别，在网络不好时，可以自动切换至离线语音识别模型，以通过离线语音识别模型进行语音识别。

在语音识别模型包括在线语音识别模型和离线语音识别模型的情况下，可以根据在线语音识别模型的识别结果和BP(Error Back Propagation，反向传播)算法有监督的对离线语音识别模型进行训练或者更新。

具体地，该方法还可以包括：

根据在线语音识别模型输出的文本信息，确定历史音频信息以及与历史音频信息相匹配的历史文本信息。

相应地，上述根据历史音频信息以及与历史音频信息相匹配的历史文本信息，对语音识别模型进行训练，以得到训练后的语音识别模型，包括：

根据历史音频信息以及与历史音频信息相匹配的历史文本信息，对离线语音识别模型进行训练，以得到训练后的离线语音识别模型。

在第一种实施例中，基于所有车辆内的音频信息对语音识别模型进行训练，或者针对一语音识别模型进行训练，训练好之后，将该训练后的语音识别模型分别下发至所有车辆中，这样，所有车辆内的语音识别模型均是相同的。在该实施例中，可以根据所有车辆的在线语音识别模型输出的文本信息，确定历史音频信息以及与历史音频信息相匹配的历史文本信息。之后，根据该历史音频信息以及与历史音频信息相匹配的历史文本信息，对离线语音识别模型进行训练，以得到训练后的离线语音识别模型

在第二种实施例中，考虑到不同车主喜好不同，例如，在车辆内，有的车主喜欢通过语音控制车载多媒体播放不同的音乐，有的车主喜欢通过语音控制车窗开关，等等，因此，在本公开中，每一车辆各自对应的在线语音识别模块、离线语音识别模型可以不同。这样，针对每一车辆，根据该车辆的在线语音识别模型输出的文本信息，确定该车辆的历史音频信息以及与该历史音频信息相匹配的历史文本信息，这样可以获取到用户的个性化语料。之后，针对每一车辆，均使用该车辆的历史音频信息以及与该历史音频信息相匹配的历史文本信息，对该车辆的离线语音识别模型进行训练，如此，可以分别对每一车辆的离线语音识别模型进行训练。

在该实施例中，可以采用用户的个性化语料对离线语音识别模型进行训练，以使每一车辆的离线语音识别模型更能符合每一车辆的车主的喜好，进一步提高了语音识别的准确率，提升了用户使用体验。

此外，上述根据在线语音识别模型输出的文本信息，确定历史音频信息以及与历史音频信息相匹配的历史文本信息的具体实施方式可以包括以下步骤：

(1)：获取在线语音识别模型输出的文本信息。

在本公开中，对车内的音频信息进行识别的目的是为了将音频信息转换成文本信息，进而使车机端可以根据该文本信息控制车内设备执行相应的操作。例如，在文本信息为“打开车窗”时，自然语言理解(NLU，Natural Language Understanding)进行意图的理解，可以将其理解为：操作：打开，对象：车窗，然后将该意图发送至车机端，以使车机端控制车窗打开。

(2)：确定文本信息是否位于预设列表中，其中，预设列表中包括车辆的车机端能够执行的操作对应的文本信息。

其中，技术人员在车辆出厂或者车主可以根据自身需求预先将车机端能够执行的操作对应的文本信息保存在预设列表中。例如，该预设列表中可以包括：打开车窗、关闭车窗、打开车载多媒体播放器、接听电话、开启导航等文本信息。

(3)：若文本信息位于预设列表中，则存储在线语音识别模型输出的文本信息，以及与该文本信息对应的音频信息。

值的说明的是，若针对某一音频信息，在线语音识别模型识别出的与该音频信息相匹配的文本信息不被NLU理解，或者能被NLU理解但是不能被车机端执行时，该音频信息对语音识别模型的训练起不到积极的效果，所以，在本公开中，只有被NLU理解且能够被车机端执行的文本信息对应的音频信息，才会被存储起来，以作为训练样本对离线语音识别模型进行训练。示例地，若文本信息为“打开导航”，该文本信息位于预设列表中，则可以存储该文本信息，以及与该文本信息对应的音频信息。又示例地，若文本信息为“请帮我把段位提升到王者”，车机端并不能执行该操作，所以，该文本信息不在预设列表中，即，无需存储该文本信息以及与该文本信息对应的音频信息。

(4)：在所存储的音频信息达到预设数值时，将所存储的所述音频信息、文本信息分别作为历史音频信息、历史文本信息。

通常情况下，可以预先划分一存储音频信息的缓存空间，以及，用于存储文本信息的存储空间。但是，由于一帧音频信息远大于与该帧音频信息相匹配的文本信息，所以，在存储的过程中，在音频信息大于或等于存储音频信息的缓存空间时可以将最先存储的音频信息删除。而由于文本信息较小，可以无需删除一直存储即可。

在本公开中，为了减少对离线语音识别模型的训练次数，可以在所存储的音频信息达到预设数值时，将所存储的音频信息、文本信息分别作为历史音频信息、历史文本信息，并利用该历史音频信息和历史文本信息，对语音识别模型进行训练，以得到训练后的语音识别模型。

采用上述技术方案，在语音识别过程中，基于在线语音识别模型识别的结果再次对离线语音识别模型进行训练，以使训练后的离线语音识别模型更能适用当前的车内场景，进一步提高了语音识别的准确率。

值的说明的是，为了防止积累的语料过多，导致上述根据语言模型和发音词典生成的解码网络wfst太大，影响解码效率，在本公开中，还可以对语言模型进行裁剪，以控制语言模型在合理的大小范围内。示例地，可以根据概率值进行裁剪。其中，在裁剪的过程中，通常会保留所有的1-gram，而对2-gram和3-gram会根据一定的概率阈值进行裁剪。其中，可以利用相关技术中对语言模型裁剪的方式进行裁剪，此处不再详细赘述。

基于同一发明构思，本公开还提供一种车载语音识别装置。图3是根据一示例性实施例示出的一种车载语音识别装置的框图。如图3所示，该装置可以包括：

第一获取模块301，用于获取车辆内的音频信息；

第一确定模块302，用于根据所述音频信息和训练后的语音识别模型，确定与所述音频信息相匹配的文本信息；

其中，所述装置还包括：

可选地，所述语音识别模型包括在线语音识别模型和离线语音识别模型，所述装置还可以包括：

可选地，所述第二确定模块包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示，该电子设备400可以包括：处理器401，存储器402。该电子设备400还可以包括多媒体组件403，输入/输出(I/O)接口404，以及通信组件405中的一者或多者。

其中，处理器401用于控制该电子设备400的整体操作，以完成上述的车载语音识别方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的车载语音识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的车载语音识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器402，上述程序指令可由电子设备400的处理器401执行以完成上述的车载语音识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的车载语音识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种车载语音识别方法，其特征在于，包括：

获取车辆内的音频信息；

其中，所述语音识别模型通过以下训练方式得到：

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括在线语音识别模型和离线语音识别模型，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，每一车辆各自对应不同的在线语音识别模块、离线语音识别模型；所述根据所述在线语音识别模型输出的文本信息，确定所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述在线语音识别模型输出的文本信息，确定所述历史音频信息以及与所述历史音频信息相匹配的历史文本信息，包括：

获取所述在线语音识别模型输出的文本信息；

5.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括声学模型和语言模型；所述根据所述音频信息和预设的语音识别模型，确定与所述音频信息相匹配的文本信息，包括：

6.一种车载语音识别装置，其特征在于，包括：

第一获取模块，用于获取车辆内的音频信息；

其中，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述语音识别模型包括在线语音识别模型和离线语音识别模型，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，每一车辆各自对应不同的在线语音识别模块、离线语音识别模型；所述第二确定模块包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-5中任一项所述方法的步骤。