CN113409776B

CN113409776B - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN113409776B
Application number: CN202110733382.9A
Authority: CN
Inventors: 吴翔; 余程鹏; 朱文和
Original assignee: Nanjing Leading Technology Co Ltd
Current assignee: Nanjing Leading Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-06-07
Anticipated expiration: 2041-06-30
Also published as: CN113409776A

Abstract

本申请提供一种语音识别方法、装置、电子设备及存储介质，属于计算机技术领域，涉及语音识别技术，在网约车订单履约过程中，监听车辆内的语音信号，若监听到目标词汇，则提取目标词汇对应的目标语音的语音特征，根据目标语音的语音特征，确定发出目标语音的目标对象。本申请可以确定使用不文明用语的是司机还是乘客，进而可以对司机和乘客进行约束。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，更具体地说，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着计算机网络技术的发展，智能打车，如网约车等打车方式逐渐成为交通出行的主要手段。

然而，近些年来，网约车市场中频频发生司乘纠纷，一些司机或乘客甚至使用不文明用语，导致司乘冲突的事件时有发生，极大地影响了人们的出行。

因此，如何监控司机和乘客是否使用不文明用语，从而对司机和乘客进行约束，是一个亟待解决的问题。

发明内容

为了解决上述现有技术中的问题，本申请实施例提供了一种语音识别方法，可以监控司机与乘客的对话，并识别目标词汇的发出者，有利于对司机和乘客进行约束。

第一方面，本申请实施例提供了一种语音识别方法，所述方法包括：

在网约车订单履约过程中，监听车辆内的语音信号；

若监听到目标词汇，则提取所述目标词汇对应的目标语音的语音特征；

根据所述目标语音的语音特征，确定发出所述目标语音的目标对象。

在一种可能的实现方式中，所述根据所述目标语音的语音特征，确定发出所述目标语音的目标对象，具体包括：

将所述目标语音的语音特征与预先获取的司机的语音特征进行比对；所述司机为所述网约车订单对应的司机；

若所述目标语音的语音特征与所述司机的语音特征一致，则确定所述目标对象为所述司机；

若所述目标语音的语音特征与所述司机的语音特征不一致，则确定所述目标对象为所述网约车订单对应的乘客。

在一种可能的实现方式中，所述提取所述目标词汇对应的目标语音的语音特征之前，所述方法还包括：

将基于所述语音信号生成的语音数据输入语音识别模型，基于所述语音识别模型确定所述语音数据中是否包含目标词汇；

若所述语音数据中包含目标词汇，则确定监听到目标词汇。

在一种可能的实现方式中，所述语音识别模型包括卷积神经子网络、线性子网络、转换子网络、深度神经子网络；

所述卷积神经子网络用于对所述语音数据进行特征提取，得到所述语音数据的第一语音信息特征图；

所述线性子网络用于对所述卷积神经子网络输出的第一语音信息特征图进行降维处理，得到第二语音信息特征图；

所述转换子网络用于对所述线性子网络输出的第二语音信息特征图进行特征提取，得到语音信息特征向量；

所述深度神经子网络用于基于所述转换子网络输出的语音信息特征向量，确定所述语音数据中是否包含目标词汇，并输出所述语音数据中包含的目标词汇。

在一种可能的实现方式中，所述语音识别模型的训练过程，包括：

根据所述每个预测目标词汇的概率值和所述样本图像的表情类别标签，确定损失值；

基于所述损失值，调整所述语音识别模型的网络参数。

在一种可能的实现方式中，所述根据所述每个预测目标词汇的概率值和所述样本图像的表情类别标签，确定损失值，包括：

根据所述概率值与设定数值的差值的γ次方，确定调制系数；所述γ为设定值；

根据所述调制系数与设定系数的乘积，以及所述样本图像的表情类别标签，确定损失值。

根据所述调制系数与设定系数的乘积，以及所述样本图像的表情类别标签，确定第一部分损失值；

根据上一迭代训练过程中确定的损失值，以及所述每个预测目标词汇的概率值和所述样本图像的表情类别标签，确定第二部分损失值；

将所述第一部分损失值与所述第二部分损失值的和，作为所述损失值。

第二方面，本申请实施例提供了一种语音识别装置，包括：

语音获取单元，用于在网约车订单履约过程中，监听车辆内的语音信号；

特征提取单元，用于若监听到目标词汇，则提取所述目标词汇对应的目标语音的语音特征；

确定单元，用于根据所述目标语音的语音特征，确定发出所述目标语音的目标对象。

在一种可能的实现方式中，所述确定单元，还用于：

在一种可能的实现方式中，所述语音识别装置，还包括：

判断单元，用于将基于所述语音信号生成的语音数据输入语音识别模型，基于所述语音识别模型确定所述语音数据中是否包含目标词汇；

若所述语音数据中包含目标词汇，则确定监听到目标词汇。

在一种可能的实现方式中，所述判断单元，还用于：

所述深度神经子网络用于基于所述转换子网络输出的语音信息特征向量，确定所述语音数据中是否包含目标词汇，并输出所述语音数据中包含的目标词汇。在一种可能的实现方式中，所述语音识别装置，还包括：

训练单元，用于获取训练数据集；所述训练数据集中包括样本图像和样本音频；所述样本图像具有表情类别标签；

基于所述训练数据集对所述语音识别模型进行迭代训练，其中，一次迭代训练过程包括：

将从所述训练数据集中抽取的样本图像输入辅助训练用的视觉识别模型，得到所述样本图像对应的预测表情类别；

将从所述训练数据集中抽取的样本音频输入待训练的语音识别模型，得到所述样本音频中包含的预测目标词汇，以及每个预测目标词汇的概率值；所述概率值为对应的预测目标词汇与所述预测表情类别具有关联关系的概率；

基于所述损失值，调整所述语音识别模型的网络参数。

在一种可能的实现方式中，所述训练单元，还用于：

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现上述第一方面中任一项语音识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面中任一项语音识别方法的步骤。

本申请实施例提供的语音识别方法，在网约车订单履约过程中，监听车辆内的语音信号，若监听到表征不文明用语的目标词汇，则提取目标词汇对应的目标语音的语音特征，根据目标语音的语音特征，确定使用不文明用语的是司机还是乘客，进而可以对司机和乘客进行约束。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种网约车司乘语音的识别方法的流程示意图；

图2为本申请实施例提供的另一种网约车司乘语音的识别方法的流程示意图；

图3为本申请实施例提供的一种语音识别模型的结构图；

图4为本申请实施例提供的一种语音识别模型的训练过程的流程示意图；

图5为本申请实施例的提供的一种语音识别装置的结构示意图；

图6为本申请实施例的提供另一种的语音识别装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

需要说明的是，本申请的文件中涉及的术语“包括”和“具有”以及它们的变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了对网约车运营过程中，司机和乘客使用不文明用语的行为进行约束，减少司乘冲突，营造文明和谐的乘车环境，本申请实施例提出了一种语音识别方法、装置、电子设备及存储介质，在网约车订单履约过程中，监听车辆内的语音信号，若监听到目标词汇，则提取目标词汇对应的目标语音的语音特征，根据目标语音的语音特征，确定发出目标语音的目标对象。本申请可以确定使用不文明用语的是司机还是乘客，进而可以对司机和乘客进行约束。

图1示出了本申请实施例提供的一种网约车司乘语音的识别方法的流程示意图，应用于电子设备。具体可用于车载终端或司机的手机等电子设备，下文以车载终端为例进行说明。如图1所示，该语音识别方法包括如下步骤：

步骤S101，在网约车订单履约过程中，监听车辆内的语音信号。

在一种可能的实施例中，乘客下单进行网约车，网约车服务器进行接单后，为乘客寻找接单车辆，并向接单车辆的车载终端发送根据导航路线下达接乘客的指令。乘客上车时，司机会与乘客进行确认乘客下单时预留的手机号码，确认是否是此次上车乘客的手机号码，若是，则司机会在车载终端上进行确认操作，则认为正式确定此次网约车订单开始履约，一直到司机将乘客送至订单上的目的地，网约车订单履约结束，在此过程中，均为网约车履约过程。

在网约车履约过程中，车载终端会开启语音监听功能，监听车辆内的语音信号，该语音信号包括司机和乘客所发出的声音，可以是司机和乘客之间的对话等。

步骤S102，若监听到目标词汇，则提取目标词汇对应的目标语音的语音特征。

在网约车履约过程中，监听司乘人员的语音信号，语音信号中包含各种各样的词汇。其中，也可能包括不文明用语，本申请实施例中称为目标词汇。具体地说，在司乘人员发生纠纷，争吵等事件时，可能会出现与辱骂、挑衅相关的词汇，或者，在司乘人员聊天过程中出现性、反社会相关的词汇，与这些内容相关的词汇就是在网约车履约过程中不希望出现的目标词汇。

车载终端若监听到目标词汇，会截取一段语音信号，这段语音信号为监听到的目标词汇所对应的目标语音信号，并根据这段截取的目标语音信号提取出目标词汇对应的目标语音的语音特征。对一整段完整连续的语音提取语音特征更为容易，所以，目标词汇对应的目标语音的语音特征指可以是监听到的目标词汇所在的完整的一句话对应的语音特征，若监听到的目标词汇为单个词汇也可以进行提取语音特征。例如，司乘人员发生争吵，司机或乘客说出带有侮辱性的语句，语句中包括侮辱性词语或污蔑性词语，该侮辱性词语或污蔑性词语将被识别为目标词汇，根据目标词汇，提取出包含目标词汇的完整语句中对应的语音特征，或者，司乘人员聊天时，出现单个的辱骂词汇，该单个辱骂词汇也将被识别为目标词汇，可以提取该目标词汇对应的语音特征。

进一步地，监听到的目标词汇可以包括各地方言中的辱骂词汇、各种国外的辱骂性词汇等。

进一步地，在车载终端监听到目标词汇之后，车载终端可以设置语音提醒终止司乘人员的纠纷。

步骤S103，根据目标语音的语音特征，确定发出目标语音的目标对象。

车载终端提取出的目标词汇对应的目标语音的语音特征，会对语音特征进行判断，并确定发出目标语音的目标对象是否是此网约车履约过程中网约车司机的。

在一种可能的实施方式中，可以通过如下方式，确定发出目标语音的目标对象：将目标语音的语音特征与预先获取的司机的语音特征进行比对，司机为网约车订单对应的司机；若目标语音的语音特征与司机的语音特征一致，则确定目标对象为司机；若目标语音的语音特征与司机的语音特征不一致，则确定目标对象为网约车订单对应的乘客。

一种可能的实施例中，这里的预先获取的司机的语音特征，是采集网约车订单对应的司机入职时的语音信号，提取语音特征，将入职时司机的语音特征整理为数据库。将目标语音的语音特征和预先获取的司机的语音特征进行比对时，就是将目标语音的语音特征和入职时司机语音特征的数据库进行比对，确定目标语音的语音特征是否与司机的语音特征一致，若语音特征是一致的，则确定发出目标词汇的目标对象就是司机，若语音特征不一致，则确定发出目标词汇的目标对象为网约车订单对应的乘客。

进一步地，对网约车订单履约过程中监听到的语音信号和司机入职时采集的语音信号处理过程是相同的，均为以下处理过程，先对语音信号进行预处理，预处理过程包括预加重、分帧和加窗；进行预处理之后的司机语音信号在通过傅里叶变换得到语音信号不同时间窗内的频谱；将司机语音信号的频谱通过梅尔滤波组得到梅尔频谱；在将梅尔频谱进行倒谱分析，获得MFCC(Mel-Frequency Ceptral Coefficients，梅尔频谱倒谱)系数。

一种可能的实施方式中，图2示出了本申请实施例提供的另一种网约车司乘语音的识别方法的流程示意图，应用于电子设备。如图2所示，该语音识别方法包括如下步骤：

步骤S201：在网约车订单履约过程中，监听车辆内的语音信号。

步骤S202：通过语音识别模型，确定基于语音信号生成的语音数据中是否包含目标词汇；若是，则执行步骤S203；若否，则结束。

在一种可能的实施例中，监听车辆内的语音信号，并将监听到的语音信号进行采集，将采集到的语音信号生成语音数据，并将语音数据输入语音识别模型中，语音识别模型是为了识别采集到的语音信号中是否包含目标词汇，根据语音识别模型处理语音数据，若语音数据中包含目标词汇，则确定监听到目标词汇。例如，若车载终端监听到目标词汇，则继续判断目标词汇是谁发出的。若没有监听到目标词汇，则结束这一进程，继续进行监听后续的语音信号。

在一种可能的实施例中，如图3所示，语音识别模型可以包括卷积神经子网络、线性子网络、转换子网络、深度神经子网络。将基于语音信号生成的语音数据输入语音识别模型，基于语音识别模型确定语音数据中是否包含目标词汇，包括：

将语音数据输入至卷积神经子网络中，得到语音数据的第一语音信息特征图；

将第一语音信息特征图输入至线性子网络中，得到低维度的第二语音信息特征图；

将第二语音信息特征图输入至转换子网络中，得到语音信息特征向量；

将语音信息特征向量输入深度神经子网络，确定语音数据中是否包含目标词汇。

其中，卷积神经子网络利用的是卷积神经网络(Convolutional NeuralNetworks,CNN)，其中，卷积神经子网络可以包括多层，用于对语音数据进行特征提取。卷积神经子网络的输入是语音数据，输出是第一语音信息特征图。示例性地，卷积神经子网络可以包括两层，第一层部分采用7*7时域-频域滤波器层，第二层采用密集卷积层。采用这样的分层方式可以重复利用特征，并且参数量较少，有利于整个语音识别模型的训练，可以提高语音识别模型训练时域信息能力，还可以解决特征序列和目标序列长度不匹配的问题。

线性子网络利用的是线性层函数处理输入的特征图(Linarlayer)，其中，线性子网络的输入为第一语音信息特征图，输出为维度较低的第二语音信息特征图。需要说明的是，从卷积神经子网络输出的第一语音信息特征图的维度较大，所以利用线性子网络对第一语音信息特征图降低维度。

转换子网络利用的是转换器(transformer)处理输入的特征图，其中，转换子网络采用了编码(encoder)和解码(decoder)的网络结构，转换子网络的输入是维度较低的第二语音信息特征图，输出是语音信息特征向量。

需要说明的是，编码和解码的网络结构中可以采用的是多头注意力层(multi-head attention)和前馈网络层(feed forward network)。利用这样的机制来获取区分性更强的表达，多头注意力层中每个头的注意力机制均采用不同的变换，最后将这些输出进行拼接，达到特征融合的效果。多头注意力机制结构采用的是多个并行的放缩点积注意力头(scaled dot-product attention)组成的，可以进行并行计算，在计算过程中，让某一个scaled dot-product attention以一定的概率停止计算，以保证最终的模型泛化能力更强，不太会依赖某些局部特征。

scaled dot-product attention计算过程中使用的公式如下：

其中，Q表示为query矩阵，矩阵维度为M*d；K表示为key矩阵，矩阵维度为N*d；V表示为value矩阵，矩阵维度为N*d；K^T表示为矩阵K的转置；为缩放因子。

深度神经子网络利用的是机器学习中的深度神经网络((Deep Neural Networks，DNN)，其中，深度神经子网络可以包括多层，用于处理语音信息特征向量。深度神经子网络的输入为语音信息特征向量，输出为语音数据中的目标词汇。

步骤S203：提取目标词汇对应的目标语音的语音特征。

步骤S204：判断目标词汇对应的目标语音的语音特征是否是司机的语音特征。若是，则进行步骤S205，若否，则进行步骤S206。

步骤S205：则确定目标词汇对应的目标语音为司机发出。

步骤S206：则确定目标词汇对应的目标语音为乘客发出。

步骤S207：将目标词汇对应的语音信号和判断结果上传至服务器。

示例性地，监听到目标词汇之后，根据目标词汇提取出对应语音信号的语音特征，与司机入职时预留的语音特征对比，可以对比出此时的语音特征与司机入职时的预留的语音特征是否一致，若一致，则证明是司机发出了目标词汇，将司机录入网约车司机黑名单，影响司机以后网约车订单接单。若不一致，则可能是乘客发出的目标词汇，将乘客录入网约车乘客黑名单，该乘客可能以后呼叫网约车服务，无人接单。判断到具体是否为司机发出的目标词汇之后，会根据判定对司机或乘客进行惩罚，以便于对司机和乘客无约束的使用不文明的词汇进行约束。

将车载终端中，监听到的语音信号，经过语音识别模型识别到的目标词汇，以及判断的是哪位人员发出的语音信号的结果均上传至服务器中。上传到服务器之后，若司机或乘客对判断的结果不认可，则可以向上申诉，服务器会再次根据车载终端上传的语音信号重新判断语音信号中的目标词汇是否为司机发出的。

进一步地，重新判断时，可以为具体的审核人员听服务器中语音信号的录音，根据录音判断是否是司机发出的目标词汇，或者，是否是乘客发出的目标词汇。

上述过程中使用的语音识别模型，可以采用图4所示的训练方法训练得到。如图4所示，语音识别模型的训练过程可以包括以下步骤：

步骤S401：获取训练数据集，训练数据集中包括样本图像和样本音频。

其中，样本图像具有表情类别标签。

获取训练语音识别模型的训练数据集，训练数据集中包括多张样本图像，样本图像包括表示各种表情的图像和表情类别标签。例如，愤怒表情的图像以及愤怒类别的图像标签“愤怒”，辱骂表情的图像以及辱骂类别的图像标签“辱骂”等。训练数据集还包括多个样本音频，样本音频中包括包含各种目标词汇的完整语音信号。

步骤S402：将从训练数据集中抽取的样本图像输入辅助训练用的视觉识别模型，得到样本图像对应的预测表情类别。

将训练数据集中的样本图像输入视觉识别模型，得到样本图像对应的预测表情类别，需要说明的是，这里的视觉识别模型作为辅助训练的网络模型，输入为样本图像，输出为样本图像对应的预测表情类别。视觉识别模型的输出作为待训练的语音识别模型的监督信号。

具体地说，训练语音识别模型时，输入到语音识别模型中的样本音频较少，单独进行训练语音识别模型准确率较低，所以在训练语音识别模型的过程中，可以联合视觉识别模型一起进行训练，因为辅助训练的视觉识别模型的输入为带有表情类别标签的样本图像，输出的结果也带有标签，可以根据视觉和语音之间的联系进行映射，从而解决音频样本中没有标定的问题。

步骤S403：将从训练数据集中抽取的样本音频输入待训练的语音识别模型，得到样本音频中包含的预测目标词汇，以及每个预测目标词汇的概率值。

其中，概率值为对应的预测目标词汇与预测表情类别具有关联关系的概率。

将训练数据集中抽取的样本音频输入待训练的语音识别模型中，对于抽取作为待训练的语音识别模型输入的样本音频，可以将样本音频做好标签，分为正样本以及负样本，包含目标词汇的样本音频则为标注正样本标签，不包含目标词汇的样本音频则为标注负样本标签。输出为样本音频中包含的预测目标词汇，以及每个预测目标词汇的概率值。概率值为对应的预测目标词汇与预测表情类别具有关联关系的概率。

需要说明的是，针对每一段输入的包含目标词汇的样本音频，待训练的语音识别模型的输出均为目标词汇以及每个预测目标词汇的概率值，若样本音频的标签为正，输出结果与表情类别关联，则概率值为1；若样本音频的标签为正，输出结果与表情类别没有关联，则概率值为0；若样本音频的标签为负，输出结果与表情类别没有关联，则概率值为1；若样本音频的标签为负，输出结果与表情类别关联，则概率值为0。输入至待训练的语音识别模型中的样本音频训练完成后，得出概率为1的输出结果占所有输出结果的比例，该比例为样本音频预测为正的概率，其大小介于0到1之间。

进一步地，在训练语音识别模型的过程中，针对于样本音频的标签为负，输出结果与表情类别没有关联，这一结果是很容易得到的，不用经过大量的训练即可得到，主要想在语音识别模型经过训练之后，具备可以识别目标词汇的能力，也就是使样本音频的标签为正的样本音频，输出结果能够与表情类别关联，所以在选择样本音频时，主要选择包含目标词汇的样本音频。

示例性地，输入的大量样本音频中会包括包含目标词汇的样本音频，也会包括不存在目标词汇的样本音频，输入到语音识别模型中，针对于存在目标词汇的样本音频。其中的目标词汇在输入到语音识别模型之前，标注的是正样本标签，目标词汇可以为在愤怒表情下说出的词汇，也可能为在辱骂表情下说出的词汇，若该目标词汇与愤怒或辱骂等视觉识别模型输出的表情类别进行了关联，则认为包含该目标词汇的样本音频的预测的概率值为1，若该目标词汇在训练过程中，没有与任何表情类别进行关联，则认为包含该目标词汇的样本音频的预测的概率值为0。

步骤S404：根据每个预测目标词汇的概率值和样本图像的表情类别标签，确定损失值。

在一种可能的实施例中，输入至待训练的语音识别模型中的样本音频训练完成之后，得出概率为1的输出结果占所有输出结果的比例，该比例为样本音频预测为1的概率，其大小介于0到1之间。利用样本音频预测为1的概率计算损失值。计算损失值的损失函数公式L如下：

其中，L表示损失函数，y′表示样本预测为正的概率，y表示输入的样本音频的标签，包含目标词汇的样本音频为正样本标签为1，不包含目标词汇的样本音频为负样本标签为0。

进一步地，从上述计算公式中可以看出，样本标签为正时，输出的概率越大，则对应的损失值越小，对于样本标签为负时，输出的概率越小，则损失值越小。此时的损失函数若在大量负样本标签的样本音频中训练，其训练过程比较慢并且无法达到最优，所以在输入样本音频时可以主要选择正样本标签的样本音频。

在另一种可能的实施例中，步骤S404还包括以下步骤：根据概率值与设定数值的差值的γ次方，确定调制系数，γ为设定值；根据调制系数与设定系数的乘积，以及样本图像的表情类别标签，确定损失值。

具体地说，加入调制系数后，确定损失值的损失函数公式L₁如下：

其中，L₁为损失函数，(1-y′)^γ为调制系数，-log(y′)表示为发生概率为y′的信息量。

需要说明的是，采用损失函数公式L₁，通过调制系数可以减少容易进行关联的样本音频的权重，使得训练语音识别模型过程中更注重不容易进行关联的样本音频的训练。

加入设定系数后，确定损失值的损失函数公式L₂如下：

其中，L₂为损失函数，α为设定系数，(1-y′)^γ为调制系数，-log(y′)表示为发生概率为y′的信息量。

需要说明的是，采用损失函数公式L₂，是为了平衡输入到语音识别模型中的带有标签的样本音频本身正负标签不均衡的想象，在L₁的基础上加入设定系数α，设定系数的值可以取为0.25。

在另一种可能的实施例中，步骤S404还包括以下步骤：根据概率值与设定数值的差值的γ次方，确定调制系数；γ为设定值；根据调制系数与设定系数的乘积，以及样本图像的表情类别标签，确定第一部分损失值；每个预测目标词汇的概率值和样本图像的表情类别标签，确定第二部分损失值；将第一部分损失值与第二部分损失值的和，作为损失值。

确定损失值的损失函数公式L₃如下：

其中，L₃为总损失值，L₂为第一部分损失函数，公式如下：

为第二部分损失值，ρ为超参数，范围在[0,1]之间，n_y表示样本音频中为正样本标签的样本音频的数量，/>为加权项。

需要说明的是，ρ与样本音频的预测概率为1的样本音频数量成反比，每次针对语音识别样本进行训练的过程中，ρ会根据训练中样本音频的预测概率为1的样本音频数量进行动态调整，ρ值越大，表示样本音频的预测概率为1的样本音频数量越接近训练用的样本音频的总数。每一次动态的调整ρ的值，能够提高语音识别模型的识别精度。

步骤S405：判断损失值是否收敛；如果是，执行步骤S407；如果否，执行步骤S406。

判断损失值是否收敛至预设的期望值，如果损失值小于或等于预设的期望值，或者，连续N次训练得到的损失值的变化幅度小于或等于预设的期望值时，认为损失值已收敛至预设的期望值，说明损失值收敛；否则，说明损失值尚未收敛。

步骤S406，根据损失值对语音识别模型的参数进行调整。

如果损失值尚未收敛，可以采用反向传播算法，根据损失值调整语音识别模型的参数，然后返回步骤S401继续抽取样本图像和样本音频对语音识别模型进行训练。

步骤S407，将当前参数作为语音识别模型的参数，获得已训练的语音识别模型。

训练完成后，可以加载训练得到的语音识别模型到电子设备上，通过语音识别模型监听网约车订单履约过程中的车辆内的语音信号是否存在目标词汇。

本申请实施例还提供了一种语音识别装置。图5为本申请实施例的提供的语音识别装置的结构示意图；如图5所示，该语音识别装置包括：

语音获取单元501，用于在网约车订单履约过程中，监听车辆内的语音信号。

特征提取单元502，用于若监听到目标词汇，则提取目标词汇对应的目标语音的语音特征。

确定单元503，用于根据目标语音的语音特征，确定发出目标语音的目标对象。

在一种可能的实现方式中，确定单元503，还用于：

将目标语音的语音特征与预先获取的司机的语音特征进行比对；司机为网约车订单对应的司机；

若目标语音的语音特征与司机的语音特征一致，则确定目标对象为司机；

若目标语音的语音特征与司机的语音特征不一致，则确定目标对象为网约车订单对应的乘客。

在一种可能的实施方式中，如图6所示，上述语音识别装置还可以包括：

训练单元601，用于获取训练数据集；训练数据集中包括样本图像和样本音频；样本图像具有表情类别标签；

基于训练数据集对语音识别模型进行迭代训练，其中，一次迭代训练过程包括：

将从训练数据集中抽取的样本图像输入辅助训练用的视觉识别模型，得到样本图像对应的预测表情类别；

将从训练数据集中抽取的样本音频输入待训练的语音识别模型，得到样本音频中包含的预测目标词汇，以及每个预测目标词汇的概率值；概率值为对应的预测目标词汇与预测表情类别具有关联关系的概率；

根据每个预测目标词汇的概率值和样本图像的表情类别标签，确定损失值；

基于损失值，调整语音识别模型的网络参数。

在一种可能的实现方式中，训练单元601，还用于：

根据概率值与设定数值的差值的γ次方，确定调制系数；γ为设定值；

根据调制系数与设定系数的乘积，以及样本图像的表情类别标签，确定损失值。

在一种可能的实现方式中，训练单元601，还用于：

根据调制系数与设定系数的乘积，以及样本图像的表情类别标签，确定第一部分损失值；

根据上一迭代训练过程中确定的损失值，以及每个预测目标词汇的概率值和样本图像的表情类别标签，确定第二部分损失值；

将第一部分损失值与第二部分损失值的和，作为损失值。

判断单元603，用于将基于语音信号生成的语音数据输入语音识别模型，基于语音识别模型确定语音数据中是否包含目标词汇；

若语音数据中包含目标词汇，则确定监听到目标词汇。

在一种可能的实现方式中，判断单元603，还用于：

与上述方法实施例相对应地，本申请实施例还提供了一种电子设备。该电子设备可以是服务器，也可以是移动终端或计算机等终端设备，该电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、CPU、GPU(Graphics Processing Unit，图形处理单元)、DSP或FPGA实现。对于存储器来说，存储器中存储有操作指令，该操作指令可以为计算机可执行代码，通过该操作指令来实现上述本申请实施例的游戏控制方法的流程中的各个步骤。

图7为本申请实施例提供的一种电子设备的结构示意图；如图7所示，本申请实施例中该电子设备700包括：处理器710、显示器720、存储器730、输入设备760、总线705和通讯模块740；该处理器710、存储器730、输入设备760、显示器720和通讯模块740均通过总线750连接，该总线750用于该处理器710、存储器730、显示器720、通讯模块740和输入设备760之间传输数据。

其中，存储器730可用于存储软件程序以及模块，处理器710通过运行存储在存储器730中的软件程序以及模块，从而执行电子设备700的各种功能应用以及数据处理，如本申请实施例提供的语音识别方法。存储器730可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个应用的应用程序等；存储数据区可存储根据电子设备700的使用所创建的数据等。此外，存储器730可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器710是电子设备700的控制中心，利用总线750以及各种接口和线路连接整个电子设备700的各个部分，通过运行或执行存储在存储器730内的软件程序和/或模块，以及调用存储在存储器730内的数据，执行电子设备700的各种功能和处理数据。可选的，处理器700可包括一个或多个处理单元，如CPU、GPU(Graphics Processing Unit，图形处理单元)、数字处理单元等。

处理器710还可以通过通讯模块740连接网络，将监听到的语音信号发送到服务器中。

输入设备760主要用于获得用户的输入操作，当该电子设备不同时，该输入设备760也可能不同。例如，当该电子设备为智能手机、平板电脑等便携设备时，该输入设备760可以为触控屏。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于实现本申请任一实施例所记载的游戏控制方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

在网约车订单履约过程中，监听车辆内的语音信号；

通过语音识别模型监听目标词汇；若监听到目标词汇，则提取所述目标词汇对应的目标语音的语音特征；

根据所述目标语音的语音特征，确定发出所述目标语音的目标对象；

所述语音识别模型的训练过程，包括：获取训练数据集；所述训练数据集中包括样本图像和样本音频；所述样本图像具有表情类别标签；

基于所述损失值，调整所述语音识别模型的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音的语音特征，确定发出所述目标语音的目标对象，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述提取所述目标词汇对应的目标语音的语音特征之前，所述方法还包括：

若所述语音数据中包含目标词汇，则确定监听到目标词汇。

4.根据权利要求3所述的方法，其特征在于，所述语音识别模型包括卷积神经子网络、线性子网络、转换子网络、深度神经子网络；

5.根据权利要求1所述的方法，其特征在于，所述根据所述每个预测目标词汇的概率值和所述样本图像的表情类别标签，确定损失值，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述每个预测目标词汇的概率值和所述样本图像的表情类别标签，确定损失值，包括：

7.一种语音识别装置，其特征在于，包括：

特征提取单元，用于通过语音识别模型监听目标词汇；若监听到目标词汇，则提取所述目标词汇对应的目标语音的语音特征；

基于所述损失值，调整所述语音识别模型的网络参数；

8.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1～6中任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～6中任一项所述的方法。