CN110767215A

CN110767215A - 一种训练语音识别模型、识别语音的方法及装置

Info

Publication number: CN110767215A
Application number: CN201910708335.1A
Authority: CN
Inventors: 赵帅江; 赵茜; 罗讷
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2020-02-07

Abstract

本申请提供了一种训练语音识别模型、识别语音的方法及装置，训练语音识别模型的方法包括：获取多条基础语音信息；基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息；基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果，训练语音识别模型；所述语音识别模型用于对待识别语音进行语音识别。该申请实施例能够使得语音识别模型具有更强的泛化能力，提升语音识别模型的精度，进而提升对语音识别的准确度。

Description

一种训练语音识别模型、识别语音的方法及装置

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种训练语音识别模型、识别语音的方法及装置。

背景技术

近年来，随着语音产品的不断推广，语音输入作为一种重要的人机交互手段，被越来越多的人们所接受。例如在网约车领域，在很多情况下需要通过车载设备捕捉车辆内服务提供方或者服务请求方所发出的语音，并基于语音识别模型对捕捉的语音进行识别。

但由于汽车内空间距离小，车内噪音复杂，例如除了人声，还会有发动机轰鸣声、车辆行驶过程中与地面的摩擦声、车载设备运行时出现的杂音等，而鉴于不同车型的车辆，车内构造不同、车内空间大小不同、车载设备的安装位置不同、车载设备的配置不同等，都会使得车内噪音存在较大的差异。因此在对语音识别模型训练的时候，如果不针对不同车型、不同外界条件进行详细化的训练样本筛选，会造成得到的语音识别模型泛化能力较差，进而导致对车内语音的识别不准确。但在实际中，很难针对不同车型、不同外界条件获取较为全面的训练样本，进而造成语音识别模型精度难以提升的问题。

发明内容

有鉴于此，本申请的目的在于提供一种训练语音识别模型、识别语音的方法及装置，能够能够使得语音识别模型具有更强的泛化能力，提升语音识别模型的精度，进而提升对语音识别的准确度。

第一方面，本申请实施例提供了一种训练语音识别模型的方法，包括：

获取多条基础语音信息；

基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息；

基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果，训练语音识别模型；所述语音识别模型用于对待识别语音进行语音识别。

一种可能的实施方式中，获取所述基础语音信息，包括：

获取原始语音信息；

从所述原始语音信息中截取包含人声的第一目标语音信息；

基于所述第一目标语音信息，生成所述基础语音信息。

一种可能的实施方式中，所述基于所述第一目标语音信息，生成所述基础语音信息，包括：

对所述第一目标语音信息进行如下一种或者多种处理，得到所述基础语音信息：

噪声过滤处理、去除静音处理、方言分类处理、无效语音过滤处理。

一种可能的实施方式中，获取所述噪声语音信息，包括：

在多种环境下，基于车载语音系统，获取原始车载语音信息；

从所述原始车载语音信息中截取不包含人声以及静音的第二目标语音信息；

基于所述第二目标语音信息，得到所述噪声语音信息。

一种可能的实施方式中，所述基于所述第二目标语音信息，得到所述噪声语音信息，包括：

剔除所述第二目标语音信息中信噪比高于预设信噪比阈值的信息，得到所述噪声语音信息。

一种可能的实施方式中，获取所述车内冲击响应信息，包括：

针对多种类型的车辆中的每种车辆，在该种类型的车辆内至少一个位置播放扫频语音信号，并在播放所述扫频语音信号时基于车载语音系统获取混响语音信息；

基于各个位置分别对应的所述混响语音信息、所述扫频语音信号的逆扫频语音信号，得到与各个位置分别对应的车内冲击响应信息。

一种可能的实施方式中，当基于所述噪声语音信息，对基础语音信息进行扩展处理时，得到所述样本语音信息，包括：

将所述噪声语音信息与所述基础语音信息进行叠加处理，生成所述样本语音信息。

一种可能的实施方式中，当基于不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理时，得到所述样本语音信息，包括：

将不同类型车辆分别对应的车内冲击响应信息，与所述基础语音信息进行卷积处理，生成所述样本语音信息。

一种可能的实施方式中，当基于多种环境下的噪声语音信息，和不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理时，得到所述样本语音信息，包括：

将所述噪声语音信息与所述基础语音信息进行叠加处理，生成第一中间语音信息；

将不同类型车辆分别对应的车内冲击响应信息，与所述第一中间语音信息进行卷积处理，生成所述样本语音信息；

或者，

将不同类型车辆分别对应的车内冲击响应信息，与所述基础语音信息进行卷积处理，生成第二中间语音信息；

将所述噪声语音信息与所述第二中间语音信息进行叠加处理，生成所述样本语音信息。

一种可能的实施方式中，所述基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理之前，还包括：将所述基础语音信息进行语速变速处理；

所述基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息，包括：

基于所述噪声语音信息和/或所述车内冲击响应信息对进行了语音变速处理后的所述基础语音信息进行扩展处理，得到所述样本语音信息。

第二方面，本申请实施例提供了一种识别语音的方法，包括：

获取训练得到的语音识别模型；所述语音识别模型为基于样本语音信息和所述样本语音信息对应的实际语音识别结果训练得到的，所述样本语音信息为基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理得到的；

在接收到待识别语音信息后，将所述待识别语音信息输入所述语音识别模型中，得到与所述待识别语音信息对应的语音识别结果。

第三方面，本申请实施例提供了一种训练语音识别模型的装置，包括：

第一获取模块，用于获取多条基础语音信息；

扩展处理模块，用于基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息；

训练模块，用于基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果，训练语音识别模型；所述语音识别模型用于对待识别语音进行语音识别。

一种可能的设计中，所述第一获取模块，在用于获取所述基础语音信息时，用于：

获取原始语音信息；

从所述原始语音信息中截取包含人声的第一目标语音信息；

基于所述第一目标语音信息，生成所述基础语音信息。

一种可能的设计中，所述第一获取模块，在用于所述基于所述第一目标语音信息，生成所述基础语音信息时，用于：

一种可能的设计中，所述扩展处理模块，在用于获取所述噪声语音信息时，用于：

基于所述第二目标语音信息，得到所述噪声语音信息。

一种可能的设计中，所述扩展处理模块，在用于所述基于所述第二目标语音信息，得到所述噪声语音信息时，用于：

一种可能的设计中，所述扩展处理模块，在用于获取所述车内冲击响应信息时，用于：

一种可能的设计中，所述扩展处理模块，在用于基于所述噪声语音信息，对基础语音信息进行扩展处理，得到所述样本语音信息时，用于：

一种可能的设计中，所述扩展处理模块，在用于基于不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理，得到所述样本语音信息时，用于：

一种可能的设计中，所述扩展处理模块，在用于基于多种环境下的噪声语音信息，和不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理，得到所述样本语音信息时，用于：

或者，

一种可能的设计中，所述扩展处理模块，在用于所述基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理之前，还用于：将所述基础语音信息进行语速变速处理；

所述扩展处理模块，在基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息时，用于：

第四方面，本申请实施例提供了一种识别语音的装置，包括：

第二获取模块，用于获取训练得到的语音识别模型；所述语音识别模型为基于样本语音信息和所述样本语音信息对应的实际语音识别结果训练得到的，所述样本语音信息为基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理得到的；

语音识别模块，用于在接收到待识别语音信息后，将所述待识别语音信息输入所述语音识别模型中，得到与所述待识别语音信息对应的语音识别结果。

第五方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的第一方面中任一种可能的实施方式中的步骤，或第二方面的实施方式中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的第一方面中任一种可能的实施方式中的步骤，或第二方面的实施方式中的步骤。

本申请实施例中用于训练语音识别模型的样本语音信息，是基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理后得到的。通过这种方式构建的样本语音信息能够更加全面的反应不同车型、不同外界条件的情况，进而基于样本语音信息训练训练语音识别模型时，能够使得语音识别模型具有更强的泛化能力，提升语音识别模型的精度，进而提升对语音识别的准确度，从而解决实际问题中很难针对不同车型、不同外界条件获取较为全面的训练样本，造成语音识别模型准确度难以提升的问题。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下面将结合实施例，并配合所附附图，作详细说明。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种训练语音识别模型的方法的流程图；

图2示出了本申请实施例提供的一种获取基础语音信息的方法的流程图；

图3示出了本申请实施例提供的一种获取噪声语音信息的方法的流程图；

图4示出了本申请实施例提供的一种识别语音的方法的流程图；

图5示出了本申请实施例提供的一种训练语音识别模型的装置的结构示意图；

图6示出了本申请实施例提供的一种识别语音的装置的结构示意图；

图7示出了本申请实施例提供的一种电子设备700的结构示意图；

图8示出了本申请实施例提供的另一种电子设备800的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“网约车”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕对识别网约车内车载语音设备获取的语音信息进行描述，但是应该理解，这仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

首先，对本申请所提供的方法可适用的应用场景做出介绍。

语音产品的推广，使得对输入的语音进行准确识别成为人机交互的重要技术手段。通过语音识别模型对待识别语音信息进行识别，可以得到待识别语音信息对应的语音识别结果，但是在对语音识别模型进行训练的时候，需要大量的、有针对性的、不同外界条件获取到的训练样本，若采集不到足够的训练样本会造成语音识别模型泛化能力较差，并造成对语音的识别不准确的情况。

本申请所提供的方法可适用于多种环境下、不同类型车辆内部的语音识别的场景中。

本申请所提供的方法还可以适用于其它干扰因素多样，无法针对不同干扰因素全面获取训练样本的语音识别场景中。

本申请一个方面涉及一种训练语音识别模型的系统，该系统可以在获取多条基础语音信息后，基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理，得到样本语音信息，并基于样本语音信息和样本语音信息对应的实际语音识别结果，训练语音识别模型。该方法能够较为全面的获取到不同类型车辆、不同的环境条件下的样本语音信息，基于通过该方式获取的样本语音信息训练的语音识别模型具有更高的泛化能力，并能够提升语音识别模型的精度，进而提升对语音识别的准确度，从而解决实际问题中很难针对不同车型、不同外界条件获取较为全面的训练样本，造成语音识别模型准确度难以提升的问题。

下面，结合具体实施例对本申请提供的训练语音识别模型的方法、识别语音的方法及装置进行详细说明。其中，应理解，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。本申请实施例中用到的“第一”、“第二”等限定词，仅用于区分特征，并不限定特征之间的先后顺序或者暗示重要程度等。

实施例一

参照图1所示，为本申请实施例提供的一种训练语音识别模型的方法的流程示意图，具体步骤如下所示：

S101：获取多条基础语音信息。

S102：基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理，得到样本语音信息。

S103：基于样本语音信息和样本语音信息对应的实际语音识别结果，训练语音识别模型；语音识别模型用于对待识别语音进行语音识别。

下面分别对上述S101～S103进行详细介绍。

I：在上述S101中，基础语音信息是指包含了人说话的声音(人声)的语音信息。基础语音信息可以有多种来源，可以采用当前已有的语音信息来作为基础语音信息，也可以是通过车载语音系统获取的；所获取的基础语音信息对应的外界环境可以根据实际需要进行设定，例如可以是在噪声较小的环境下获取的语音信息，也可以是在噪声较大的环境下获取的语音信息。

示例性的，在通过车载语音系统获取的原始车载语音信息中，包括以下几种：

a：仅包含环境带来的噪声的语音信息；此时，车中的人没有发出声音。

b：即不包含噪声也不包含人声的语音信息，又称静音；此时，外界环境较为安静，且车中的人没有发出静音，语音信号的信噪比低于预设的信噪比阈值。

c：仅包含人声的语音信息，此时，环境带来的噪声较为微弱，且车中的人发出了声音。

d：混杂了人声和噪声的语音信息，此时，在坐在车中的人发出声音的同时，环境也存在较大的噪声。

本申请实施例中的基础语音信息可以是上述c和d中至少一种。

示例性的，在通过用户终端获取原始语音信息时，可以是用户通过某应用软件，输入的原始语音信息。

示例性的，噪声可以是车辆起步过程或者车辆驾驶运行过程中不同设备部件产生的各种各样的声音，例如发动机运行时的轰鸣声、车辆行驶过程中产生的摩擦声、或者车载设备运行时出现的杂音等。

这里，车辆内的司机以及乘客也会发出不同的声音，并且不同车型产生的声音也不完全相同，各种人声、环境噪声、车内混响的混合对车载语音的识别造成干扰，在获取基础语音信息时，需要采集多种不同环境下的基础语音信息。

可选的，基础语音信息还可以基于车载语音系统获取、通过乘客使用的服务请求终端、和/或司机使用的服务提供终端来进行获取。所获取的基础语音信息，既可以是从历史语音信息中获取，也可以是在对模型进行训练时即时收集的。

示例性的，本申请实施例提供一种获取基础语音信息的具体方式。参见图2所示，获取基础语音信息的具体方式包括：

S201：获取原始语音信息。

这里，原始语音数据一般是未经过处理的，直接通过收音设备获取的语音信息。

以通过车载语音数据获取原始语音信息为例，可以在多种环境下获取原始语音数据。多种环境可以是车辆处于不同车速阶段、可以是车辆处于不同路况阶段、可以是车辆处于不同天气状况下，还可以是车辆处于不同的道路环境状况，在此不限定具体的环境。

例如，获取高速公路上正在加速行驶的车辆中车载语音系统中的原始车载语音信息。获取行驶在商业繁华路段的车辆中车载语音系统中的原始车载语音信息等。

S202：从原始语音信息中截取包含人声的第一目标语音信息。

示例性的，当获得的原始语音信息中包含司机、乘客的对话信息，还包含车辆运行中按喇叭的声音、以及车辆与地面的摩擦声音等噪声，通过预设方法进行语音识别，截取司机、乘客的对话信息为第一目标语音信息，预设方法可以是基于语音活动检测(VoiceActivity Detection，VAD)进行语音截取，基于动态时间规整(Dynamic Time Warping)的算法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于非参数模型的矢量量化(VQ)的方法、基于人工神经网络(ANN)的算法和混合算法中的一种或多种，在此不限定具体的识别语音的方法。

S203：基于第一目标语音信息，生成基础语音信息。

示例性的，可以对第一目标语音信息进行如下一种或者多种处理，得到基础语音信息：

在将第一目标语音信息进行噪声过滤处理时，可以将第一目标语音信息输入数字滤波器中，通过分析幅频图、以及时域波形，得到噪声滤波后的信号，完成噪声过滤处理。

在对第一目标语音信息进行去除静音处理时，可以通过去除第一目标语音信息中信噪比低于预设信噪比阈值的信息的方式，去除第一目标语音信息中的静音部分；还可以采用检测第一目标语音信息中语音的端点，再除掉静音段，实现对第一目标语音信息的去除静音处理。

在对第一目标语音信息进行方言分类处理时，可以人工进行，也可以将第一目标语音信息输入至预先训练的语种识别模型中，以确定第一目标语音信息所归属的方言；另外，也可以通过对第一目标语音信息进行语音识别，并将识别结果与预先设置的目标关键字映射表进行对比，实现对第一目标语音信息的方言分类处理。

在对第一目标语音信息进行无效语音过滤处理时，可以通过建立停用词表，表中包括各种符号、没有查询意义的中文词、以及英文词，在对第一目标语音信息进行语音识别时，通过停用词表实现无效语音过滤处理。

示例性的，基础语音信息包括分别只对第一目标语音信息进行上述噪声过滤处理、或者去除静音处理后的语音信息，也包括对第一目标语音信息先进行噪声过滤处理，然后进行去除静音处理的语音信息，还包括对第一目标语音信息先进行去除静音处理，然后进行噪声过滤处理的语音信息，在此并不限定对第一目标语音信息进行多种处理时，处理方式的先后顺序。

II：在上述S102中，在噪声语音信息是只包括了环境噪声的语音信息，例如在上述a～d中，可以将a中所指的语音信息作为噪声语音信息。

参见图3所示，本申请实施例还提供一种获取噪声语音信息的具体方法，包括：

S301：在多种环境下，基于车载语音系统，获取原始车载语音信息。

这里，多种环境可以是车辆处于不同车速阶段、可以是车辆处于不同路况阶段、还可以是车辆处于不同天气状况下，在此不限定具体的环境。

例如，获取下雨天气时正在加速行驶的车辆中车载语音系统中的原始车载语音信息。

S302：从原始车载语音信息中截取不包含人声以及静音的第二目标语音信息。

示例性的，当获得的原始车载语音信息中包含司机、乘客的对话信息，还包含车辆运行中存在的静音信息、车辆运行中按喇叭的声音、以及车辆与地面的摩擦声音，通过预设方法进行语音识别，截取车辆运行中按喇叭的声音、以及车辆与地面的摩擦声音为第二目标语音信息，预设方法可以是基于语音活动检测(Voice Activity Detection，VAD)进行语音截取，基于动态时间规整(Dynamic Time Warping)的算法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于非参数模型的矢量量化(VQ)的方法、基于人工神经网络(ANN)的算法和混合算法中的一种或多种，在此不限定具体的识别语音的方法。

S303：基于第二目标语音信息，得到噪声语音信息。

示例性的，在基于第二目标语音信息，得到噪声语音信息时，可以通过剔除第二目标语音信息中信噪比高于预设信噪比阈值的信息，得到噪声语音信息。

这里，信噪比是描述信号中有效成分与噪声成分的比例关系参数。在正常情况下，设备在对噪声进行收音时，所得到的语音信号的信噪比通常是比较低的，若信噪比过高，则通常属于较为异常的情况，因此可以将将第二目标语音信息中信噪比较高的信息剔除后，将剩余的语音信息作为噪声语音信息。

示例性的，假设预设信噪比阈值为60dB，那么剔除第二目标语音信息中信噪比高于60dB的信息后，得到噪声语音信息。

声波在车内传播时，会被车窗、座椅等车内设施反射，这种现象叫做混响。混响为训练语音识别模型样本语音模型带来的影响，会在一定程度上影响语音识别模型的精度。为了能够在基础语音信息加入混响的影响，从而得到样本语音信息，需要首先确定车内冲击响应。

车内冲击响应是指声波在车辆内部传播时的冲击响应，其可以采用下述方式：

针对多种类型的车辆中的每种车辆，在该种类型的车辆内至少一个位置播放扫频语音信号，并在播放扫频语音信号时基于车载语音系统获取混响语音信息；基于各个位置分别对应的混响语音信息、扫频语音信号的逆扫频语音信号，得到与各个位置分别对应的车内冲击响应信息。

具体地，假设扫频语音信号用s表示，并在播放扫频语音信号s时基于车载语音系统获取混响语音信息，该混响语音信息是声波在车内传播时，被车窗、座椅等车内设施反射产生，并且被收音设备收音得到的，用x表示，扫频语音信号的逆扫频语音信号用y表示，车内冲击响应信息用h表示，那么由公式x＝h×s，以及s×y＝1，则该公式可以写成：x×y＝h×s×y，进而得到h＝x×y。

示例性的，分别在某品牌、某型号的轿车车辆内的司机驾驶位置、副驾驶位置以及司机驾驶位置的正后方座位位置播放扫频语音信号s，并获取上述三个位置分别对应混响语音信息x，通过计算得到上述三个位置的扫频语音信号s分别对应的逆扫频语音信号y，根据公式h＝x*y分别计算得到上述三个位置的车内冲击响应信息h。

这里，可以通过相同的计算方法得到客车、挂车等不同类型的车辆中不同位置对应的车内冲击响应信息。

在获取了多种环境下的噪声语音信息，和不同类型车辆对应的车内冲击响应信息后，就能够基于噪声语音信息和/或车内冲击响应信息对基础语音信息进行扩展处理，得到样本语音信息。

具体地，基于噪声语音信息和/或车内冲击响应信息对基础语音信息进行扩展处理，得到样本语音信息的具体方式包括但不仅限于以下几种方式中至少一种方式：

一、将噪声语音信息与基础语音信息进行叠加处理，生成样本语音信息。

这里，可以将噪声语音信息对应的语音信号与基础语音信息对应的语音信号通过线性关系、叠加原理进行叠加，生成样本语音信息。

二、将不同类型车辆分别对应的车内冲击响应信息，与基础语音信息进行卷积处理，生成样本语音信息。

这里，可以将车内冲击响应信息对应的语音信号与基础语音信息对应的语音信号通过非线性关系进行卷积处理，生成样本语音信息。

三、将噪声语音信息与基础语音信息进行叠加处理，生成第一中间语音信息；将不同类型车辆分别对应的车内冲击响应信息，与第一中间语音信息进行卷积处理，生成样本语音信息。

四、将不同类型车辆分别对应的车内冲击响应信息，与基础语音信息进行卷积处理，生成第二中间语音信息；将噪声语音信息与第二中间语音信息进行叠加处理，生成样本语音信息。

在另外一种实施例中，基于噪声语音信息和/或车内冲击响应信息对基础语音信息进行扩展处理之前，还包括：将基础语音信息进行语速变速处理，然后可以基于上述一至四中一种或者多种处理方式，基于噪声语音信息和/或车内冲击响应信息对进行了语音变速处理后的基础语音信息进行扩展处理，得到样本语音信息。这样，通过对基础语音信息进行变速处理，从而能够增加得到的样本语音信息的多样性，进一步增强语音识别模型的泛化能力和语音识别精度。

示例性的，假设获取到乘客A的基础语音信息，但是由于每个人的发音语速不同、以及同一个人不同身体状况下的语速也不相同，因此可以通过对获取到乘客A的基础语音信息进行语速变速处理，得到不同的基础语音信息。然后将经过语音变速处理的基础语音信息作为样本语音信息，还可以将经过语音变速处理的基础语音信息继续基于噪声语音信息和/或车内冲击响应信息进行扩展处理，得到样本语音信息。

利用样本语音信息训练语音识别模型，对于训练完成的语音识别模型，输入待识别语音信息后，得到待识别语音信息对应的语音识别结果。

III：在上述S103中，示例性的，可以采用下述方式训练语音识别模型：

将获取的多个样本语音信息输入至语音识别模型中，得到每一个样本语音信息对应的预测语音识别结果，根据每一个样本语音信息对应的实际语音识别结果，以及预测语音识别结果，计算语音识别模型训练的损失值，若损失值不满足预设条件，则调整语音识别模型的模型参数，并重新执行训练过程，直至损失值满足预设条件，确定语音识别模型训练完成。

实施例二

参照图4所示，本申请实施例还提供的一种识别语音的方法，该方法包括：

S401、获取训练得到的语音识别模型。

语音识别模型为基于样本语音信息和样本语音信息对应的实际语音识别结果训练得到的，样本语音信息为基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理得到的。

具体的语音识别模型的训练方式可以参见上述实施例一所示，在此不在赘述。

S402、在接收到待识别语音信息后，将待识别语音信息输入语音识别模型中，得到与待识别语音信息对应的语音识别结果。

本实施例所提供的识别语音的方法中，语音识别模型是基于样本语音信息和样本语音信息对应的实际语音识别结果训练得到的，样本语音信息为基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理得到的，通过这种方式构建的样本语音信息能够更加全面的反应不同车型、不同外界条件的情况，进而基于样本语音信息训练训练语音识别模型时，能够使得语音识别模型具有更强的泛化能力，提升语音识别模型的精度，进而本申请实施例提供的识别语音的方法能够更准确的对带识别语音信息进行识别。

实施例三

本申请实施例提供了一种训练语音识别模型的装置，如图5所示，为本申请实施例提供的训练语音识别模型的装置的架构示意图，包括：第一获取模块501、扩展处理模块502、训练模块503，具体的：

第一获取模块501，用于获取多条基础语音信息；

扩展处理模块502，用于基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息；

训练模块503，用于基于所述样本语音信息和所述样本语音信息对应的实际语音识别结果，训练语音识别模型；所述语音识别模型用于对待识别语音进行语音识别。

一种可能的设计中，所述第一获取模块501，在用于获取所述基础语音信息时，用于：

获取原始语音信息；

从所述原始语音信息中截取包含人声的第一目标语音信息；

基于所述第一目标语音信息，生成所述基础语音信息。

一种可能的设计中，所述第一获取模块501，在用于所述基于所述第一目标语音信息，生成所述基础语音信息时，用于：

一种可能的设计中，所述扩展处理模块502，在用于获取所述噪声语音信息时，用于：

基于所述第二目标语音信息，得到所述噪声语音信息。

一种可能的设计中，所述扩展处理模块502，在用于所述基于所述第二目标语音信息，得到所述噪声语音信息时，用于：

一种可能的设计中，所述扩展处理模块502，在用于获取所述车内冲击响应信息时，用于：

一种可能的设计中，所述扩展处理模块502，在用于基于所述噪声语音信息，对基础语音信息进行扩展处理，得到所述样本语音信息时，用于：

一种可能的设计中，所述扩展处理模块502，在用于基于不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理，得到所述样本语音信息时，用于：

一种可能的设计中，所述扩展处理模块502，在用于基于多种环境下的噪声语音信息，和不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理，得到所述样本语音信息时，用于：

或者，

一种可能的设计中，所述扩展处理模块502，在用于所述基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理之前，还用于：将所述基础语音信息进行语速变速处理；

所述扩展处理模块502，在基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理，得到样本语音信息时，用于：

本申请另一实施例提供了一种识别语音的装置，如图6所示，为本申请实施例提供的识别语音的装置的架构示意图，包括：第二获取模块601、语音识别模块602，具体的：

第二获取模块601，用于获取训练得到的语音识别模型；所述语音识别模型为基于样本语音信息和所述样本语音信息对应的实际语音识别结果训练得到的，所述样本语音信息为基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理得到的；

语音识别模块602，用于在接收到待识别语音信息后，将所述待识别语音信息输入所述语音识别模型中，得到与所述待识别语音信息对应的语音识别结果。

本实施例中用于训练语音识别模型的样本语音信息，是基于多种环境下的噪声语音信息和/或不同类型车辆对应的车内冲击响应信息对基础语音信息进行扩展处理后得到的。通过这种方式构建的样本语音信息能够更加全面的反应不同车型、不同外界条件的情况，进而基于样本语音信息训练训练语音识别模型时，能够使得语音识别模型具有更强的泛化能力，提升语音识别模型的精度，进而提升对语音识别的准确度，从而解决实际问题中很难针对不同车型、不同外界条件获取较为全面的训练样本，造成语音识别模型准确度难以提升的问题。

实施例四

基于相同的技术构思，本申请实施例还提供了一种电子设备。参照图7所示，为本申请实施例提供的电子设备700的结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当电子设备700运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行以下指令：

获取多条基础语音信息；

一种可能的实施方式中，处理器701执行的指令中，获取所述基础语音信息，包括：

获取原始语音信息；

从所述原始语音信息中截取包含人声的第一目标语音信息；

基于所述第一目标语音信息，生成所述基础语音信息。

一种可能的实施方式中，处理器701执行的指令中，所述基于所述第一目标语音信息，生成所述基础语音信息，包括：

一种可能的实施方式中，处理器701执行的指令中，获取所述噪声语音信息，包括：

基于所述第二目标语音信息，得到所述噪声语音信息。

一种可能的实施方式中，处理器701执行的指令中，所述基于所述第二目标语音信息，得到所述噪声语音信息，包括：

一种可能的实施方式中，处理器701执行的指令中，获取所述车内冲击响应信息，包括：

一种可能的实施方式中，处理器701执行的指令中，基于所述噪声语音信息，对基础语音信息进行扩展处理，得到所述样本语音信息，包括：

一种可能的实施方式中，处理器701执行的指令中，基于不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理，得到所述样本语音信息，包括：

一种可能的实施方式中，处理器701执行的指令中，基于多种环境下的噪声语音信息，和不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理，得到所述样本语音信息，包括：

或者，

一种可能的实施方式中，处理器701执行的指令中，所述基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理之前，还包括：将所述基础语音信息进行语速变速处理；

基于相同的技术构思，本申请实施例还提供了另一种电子设备。参照图8所示，为本申请实施例提供的电子设备800的结构示意图，包括处理器801、存储器802、和总线803。其中，存储器802用于存储执行指令，包括内存8021和外部存储器8022；这里的内存8021也称内存储器，用于暂时存放处理器801中的运算数据，以及与硬盘等外部存储器8022交换的数据，处理器801通过内存8021与外部存储器8022进行数据交换，当电子设备800运行时，处理器801与存储器802之间通过总线803通信，使得处理器801在执行以下指令：

实施例五

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述训练语音识别模型、识别语音的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述训练语音识别模型、识别语音的方法方法，能够通过对基础语音信息的处理，得到不同车型、不同外界条件下较为全面的训练样本通过语音识别模型进行训练，从而提高语音识别模型的准确度。

本申请实施例所提供的训练语音识别模型、识别语音的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种训练语音识别模型的方法，其特征在于，包括：

获取多条基础语音信息；

2.根据权利要求1所述的方法，特征在于，获取所述基础语音信息，包括：

获取原始语音信息；

从所述原始语音信息中截取包含人声的第一目标语音信息；

基于所述第一目标语音信息，生成所述基础语音信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一目标语音信息，生成所述基础语音信息，包括：

4.根据权利要求1所述的方法，其特征在于，获取所述噪声语音信息，包括：

基于所述第二目标语音信息，得到所述噪声语音信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二目标语音信息，得到所述噪声语音信息，包括：

6.根据权利要求1所述的方法，其特征在于，获取所述车内冲击响应信息，包括：

7.根据权利要求1所述的方法，其特征在于，当基于所述噪声语音信息，对基础语音信息进行扩展处理时，得到所述样本语音信息，包括：

8.根据权利要求1所述的方法，其特征在于，当基于不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理时，得到所述样本语音信息，包括：

9.根据权利要求1所述的方法，其特征在于，当基于多种环境下的噪声语音信息和不同类型车辆对应的车内冲击响应信息，对基础语音信息进行扩展处理时，得到所述样本语音信息，包括：

或者，

10.根据权利要求1所述的方法，其特征在于，所述基于所述噪声语音信息和/或所述车内冲击响应信息对所述基础语音信息进行扩展处理之前，还包括：将所述基础语音信息进行语速变速处理；

11.一种识别语音的方法，其特征在于，包括：

12.一种训练语音识别模型的装置，其特征在于，包括：

第一获取模块，用于获取多条基础语音信息；

13.一种识别语音的装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至11任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至11任一项所述方法的步骤。