CN114360500A

CN114360500A - 语音识别方法和装置、电子设备及存储介质

Info

Publication number: CN114360500A
Application number: CN202111075662.1A
Authority: CN
Inventors: 邓克琦; 曹松军; 马龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-04-15

Abstract

本申请公开了一种语音识别方法和装置、电子设备及存储介质，应用于车载场景。该方法包括：将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，其中，N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；根据N个融合口音特征向量，确定N帧语音信号的发音识别结果。

Description

语音识别方法和装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，具体而言，涉及一种语音识别方法和装置、电子设备及存储介质。

背景技术

目前，语音交互场景主要分为语音识别和语义理解两大部分，其中，语音识别主要是将语音信号转化为文字，而语义理解主要是理解语音的意图。无论是在何种语音交互场景，均需要对语音数据进行识别。

由于不同国家、不同地区的用户在标准语言(例如，普通话)的发音上会有一些差异，用户发音的口音会影响语音识别的效果。为了提升语音识别系统对口音数据的鲁棒性，相关技术中所采用的一般为多模型方案：根据口音发音的特点，将用户划分为多个区域，每个区域对应一个区域模型，然后使用该区域对应的训练数据训练这个区域模型。

然而，采用多个区域模型识别不同区域语音数据的方式，需要针对每个区域模型进行模型部署和模型维护。由此可见，相关技术中采用多个区域模型识别不同区域语音数据的方式，存在模型部署与模型维护的复杂度高的技术问题。

发明内容

本申请实施例提供了一种语音识别方法和装置、电子设备及存储介质，以至少解决相关技术中采用多个区域模型识别不同区域语音数据的方式存在的模型部署与模型维护的复杂度高的技术问题。

根据本申请实施例的一个方面，提供了一种语音识别方法，包括：将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，所述N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；根据所述N个分类向量，确定与所述N帧语音信号对应的N个口音权重向量，其中，所述N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；使用所述N个口音权重向量对所述N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；根据所述N个融合口音特征向量，确定所述N帧语音信号的发音识别结果。

根据本申请实施例的另一个方面，还提供了一种语音识别装置，包括：输入单元，用于将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，所述N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；第一确定单元，用于根据所述N个分类向量，确定与所述N帧语音信号对应的N个口音权重向量，其中，所述N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；融合单元，用于使用所述N个口音权重向量对所述N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；第二确定单元，用于根据所述N个融合口音特征向量，确定所述N帧语音信号的发音识别结果。

作为一种可选的实施方案，所述第一确定单元包括：执行模块，用于在所述N个分类向量为N个维度为c×1的分类向量、且c为所述口音分类集合中的口音分类的数量时，对所述N个维度为c×1的分类向量中相同位置上的向量成员执行平均操作，得到维度为c×1的分类平均向量，其中，c为大于或等于1的自然数；第一确定模块，用于根据所述维度为c×1的分类平均向量以及所述N个维度为c×1的分类向量，确定N个权重值，其中，所述N个权重值中的每个权重值用于表示所述N帧语音信号中对应的一帧语音信号中的口音的权重；第二确定模块，用于根据所述维度为c×1的分类平均向量与所述N个权重值，确定所述N个口音权重向量。

作为一种可选的实施方案，所述第一确定模块包括：点乘子模块，用于分别将所述维度为c×1的分类平均向量与所述N个维度为c×1的分类向量进行矢量点乘，得到N个矢量点乘值；输入子模块，用于将所述N个矢量点乘值输入到预设的激活函数中，得到所述N个权重值，其中，所述激活函数的输出的取值范围为(0,1)。

作为一种可选的实施方案，所述第二确定模块包括：第一执行子模块，用于对所述维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，其中，所述维度为c×1的分类归一化向量中的向量成员的取值范围为(0,1)、且所述维度为c×1的分类归一化向量中的向量成员的取值之和为1；第二执行子模块，用于将所述维度为c×1的分类归一化向量分别与所述N个权重值相乘，得到所述N个维度为c×1的口音权重向量。

作为一种可选的实施方案，第二确定模块包括：第三执行子模块，用于对所述维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，其中，所述维度为c×1的分类归一化向量中的向量成员的取值范围为(0,1)、且所述维度为c×1的分类归一化向量中的向量成员的取值之和为1；设置子模块，用于在所述N个权重值中存在小于预设权重阈值的权重值时，将所述N个权重值中小于所述预设权重阈值的权重值设置为0，得到N个调整后的权重值；第四执行子模块，用于将所述维度为c×1的分类归一化向量分别与所述N个调整后的权重值相乘，得到所述N个维度为c×1的口音权重向量。

作为一种可选的实施方案，所述融合单元包括：第一转换模块，用于根据所述N个口音权重向量，将所述N个语音特征向量转换成N个口音特征向量；融合模块，用于对所述N个口音特征向量进行特征融合，得到N个融合特征向量；第二转换模块，用于根据所述N个口音权重向量，将所述N个融合特征向量转换成所述N个融合口音特征向量。

作为一种可选的实施方案，所述第一转换模块包括：第一转换子模块，用于在所述N个口音权重向量为N个维度为c×1的口音权重向量、且所述N个语音特征向量为N个维度为n×1的语音特征向量时，根据所述N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将所述N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量，其中，n和c为大于或等于1的自然数。

作为一种可选的实施方案，所述第一转换子模块包括：第一执行子单元，用于通过执行以下步骤将第i个维度为n×1的语音特征向量转换成第i个维度为n×1的口音特征向量，其中，1≤i≤N：将所述维度为n×c的第一参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为n×1的偏移特征向量；将所述第i个维度为n×1的语音特征向量与所述维度为n×1的偏移特征向量之和，确定为所述第i个维度为n×1的口音特征向量。

作为一种可选的实施方案，所述第二转换模块包括：第二转换子模块，用于在所述N个口音权重向量为N个维度为c×1的口音权重向量、且所述N个融合特征向量为N个维度为m×1的融合特征向量时，根据所述N个维度为c×1的口音权重向量以及预先获取到的维度为m×c的第二参数矩阵，将所述N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量，其中，m和c为大于或等于1的自然数。

作为一种可选的实施方案，所述第二转换子模块包括：第二执行子单元，用于通过执行以下步骤将第i个维度为m×1的融合特征向量转换成第i个维度为m×1的融合口音特征向量，其中，1≤i≤N：将所述维度为m×c的第二参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为m×1的偏移特征向量；将所述第i个维度为m×1的融合特征向量与所述维度为m×1的偏移特征向量之和，确定为所述第i个维度为m×1的融合口音特征向量。

作为一种可选的实施方案，所述第二确定单元包括：第三确定模块，用于根据所述N个融合口音特征向量，分别确定N组发音结果，其中，所述N组发音结果中的每组发音结果包括根据对应的一个融合口音特征向量确定出的发音单元集合中的每个发音单元的预测概率；第四确定模块，用于在所述N组发音结果中的每组发音结果中分别确定对应的目标发音结果，共得到与所述N帧语音信号对应的N个目标发音结果，其中，所述N个目标发音结果中的每个目标发音结果所指示的目标发音单元的预测概率在对应的一组发音结果中最大。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的语音识别方法。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的语音识别方法。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音识别方法。

在本申请实施例中，采用参考不同帧语音信号对于口音分类的重要程度进行语音识别的方式，使用口音分类模型确定每帧语音信号对应的口音分类为各个口音分类的预测概率，从而确定出每帧语音信号对应的口音权重向量，上述口音权重向量可以表征出每帧语音信号对于口音分类的重要程度；通过使用口音权重向量对语音信号的音特征向量进行特征融合，得到每帧语音信号对应的融合特征向量；再将融合特征向量与口音权重向量进行融合，得到融合口音特征向量，声学模型的发音识别结果可以是基于融合口音特征向量确定的，由于使用单个声学模型进行语音识别，无需部署多个区域模型，而使用口音分类模型进行口音分类预测，可以适用于不同提供真实口音类别的场景，并且，在进行语音识别时通过融合不同帧对于口音分类的重要程度，从而可以动态调整不同帧的特征向量，减少包含口音信息的语音帧对于语音识别的负面影响，达到了在不提供真实口音分类的情况下利用帧级别的信息进行语音识别的目的，从而实现了降低模型部署与模型维护的复杂度、提高语音识别的准确性的技术效果，进而解决了相关技术中采用多个区域模型识别不同区域语音数据的方式存在的模型部署与模型维护的复杂度高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语音识别方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的语音识别场景的示意图；

图3是根据本申请实施例的一种可选的语音识别方法的流程的示意图；

图4是根据本申请实施例的一种可选的车辆智能系统的示意图；

图5是根据本申请实施例的网络模型训练的示意图；

图6是根据本申请实施例的一种可选的声学模型的示意图；

图7是根据本申请实施例的另一种可选的声学模型的示意图；

图8是根据本申请实施例的一种可选的语音识别装置的示意图；

图9是根据本申请实施例的一种可选的电子设备的结构示意图

图10是根据本申请实施例的另一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种语音识别方法，可选地，作为一种可选的实施方式，上述语音识别方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括：终端设备102，该终端设备102可以但不限于包括存储器104、处理器106及显示器108，网络110，服务器112。在终端设备上可以运行有智能服务系统的目标客户端，该目标客户端可以是具备语音识别功能的客户端。

示例性地，上述语音识别方法的过程可以包括如下步骤：

步骤S102，终端设备102获取待识别的语音数据。

以车联网为例，该终端设备102可以位于目标车辆中。用户可以在使用(例如，驾驶，乘坐)目标车辆的过程中，可以通过语音与车联网进行语音交互。终端设备102(或者，其上的目标客户端)可以通过该终端设备上的麦克风阵列采集用户的语音数据，该语音数据可以是用于播放目标歌曲的语音数据。

语音识别可以分为多个部分，可以包括：前端处理，其中，前端处理可以包括但不限于以下至少之一：语音信号的降噪，声源定位，回声消除。结合图2，声学前端算法可以运行在终端设备102中，其可以对语音数据进行前端处理，例如，抑制噪声/混响等，消除回声，音源定位等，从而得到采集的语音数据。

步骤S104-步骤S106，终端设备102可以通过网络110将采集到的语音数据发送给服务器112。

步骤S108，服务器112可以对采集到的语音数据进行语音识别，得到语音识别结果，并获取与该语音识别结果对应的交互信息。

语音识别还可以包括以下部分：声学模型，是对语音信号到对应发音单元的映射关系进行建模所得到的模型；语言模型和词典，是对发音单元到汉字的映射关系进行建模所得到的模型以及所使用的词典；解码器，可以实现结合声学模型、语言模型、词典，进行语音到文字的整个搜索过程。

如图2所示，在服务器端(例如，云端)，其可以通过云端识别算法进行语音处理，并通过融合算法与云端语义信息进行结合，得到该语音数据的语音识别结果。此外，对于一些具备离线识别功能的终端设备，其也可以具备固定唤醒词唤醒引擎、可定制唤醒词唤醒引擎和离线语音识别引擎，以运行离线识别算法，通过离线识别算法也可以对语音数据进行语音处理，并通过融合算法与离线语义信息进行结合，得到该语音数据的语音识别结果。

上述语音识别结果用于表示播放目标歌曲。响应于语音识别结果，服务器112可以获取与该语音识别结果对应的交互信息，即，该目标歌曲的歌曲资源。

步骤S110-S114，服务器112通过网络110将与该语音识别结果对应的交互信息发送给终端设备102，终端设备102中的处理器106通过显示器108显示与该语音识别结果对应的交互信息，例如，通过目标客户端来播放该目标歌曲的歌曲资源。

除了图1示出的示例之外，上述步骤可以由终端设备102独立完成，即由终端设备102执行语音识别及获取对应的交互信息等步骤，从而减轻服务器的处理压力。该终端设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、智能语音交互设备、智能家电、车载终端等，本申请并不限制终端设备102的实现方式。

可选地，作为一种可选的实施方式，图3是根据本申请实施例的一种可选的语音识别方法的流程示意图，如图3所示，该语音识别方法的流程可以包括以下步骤：

步骤S302，将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数。

本实施例中的语音识别方法可以应用到车载场景，例如，应用到车载场景中的车联智能系统。如图4所示，车载智能系统可以包括：智能服务语音，用于提供语音识别服务；地图APP(Application，应用)，用于提供导航服务；车载音乐平台App，用于为车载场景提供音乐播放等服务；车载即时通信App，用于提供即时通信服务；音乐播放App，用于提供通用的音乐播放等服务，唱歌App，用于提供唱歌等服务。

可选地，车载服务语音可以关联车载语音产品及能力，所应用到的技术可以包括但不限于以下至少之一：全双工，多音区，声纹识别，虚拟人等。其中，车载语音产品及能力可以包括但不限于以下至少之一：

车载降噪，可以包括但不限于以下至少之一：风声胎噪，机器回声，音乐回声，空调噪声，车内聊天；

车载语音引擎，可以包括但不限于以下至少之一：语音唤醒引擎，云端语音识别，云端语义理解，离线TTS(Text to Speech，文本到语音)引擎；

车载技能生态，可以包括但不限于以下至少之一：音乐，电台，新闻，导航，周边美食，电话，车控，天气，知识查询，闲聊等。

在车载场景中，车辆中可以设置有车载终端，该车载终端可以与麦克风阵列等语音采集设备相连，或者，在该车载终端内布设有语音采集设备。语音采集设备可以进行语音采集，得到待识别语音信号。车载终端可以获取语音采集设备所采集的待识别语音信号，并将采集到的待识别语音信号通过网络传输给服务器，例如，云端服务器，由服务器使用目标声学模型对待识别语音信号进行语音识别，得到待识别语音信号的发音识别结果。

在将待识别语音信号输入到目标声学模型之前，可以对待识别语音信号进行前端处理，例如，对待识别语音信号进行降噪处理、回声消除处理等，可选地，在一些场景中，还可以对待识别语音信号进行声源定位，得到前端处理后的待识别语音信号。执行上述前端处理的设备可以是车载终端，也可以是服务器，本实施例中对此不做限定。

口音问题一直是语音识别所需解决的问题，在使用声学模型进行语音识别时，由于不同国家、不同区域的用户在在标准语言的发音上会有一些差异，用户发音的口音会影响语音识别的效果。为了增强声学模型对于口音数据的鲁棒性，减弱口音对于语音识别的影响，可以采用多个区域模型对不同区域的语音数据进行语音识别。通过上述方式可以按照区域将模型解耦，但是模型部署和后期维护相对复杂。

可选地，也可以采用单个声学模型的方案，可以根据口音发音的特点，将用户划分为多个区域，然后将区域信息作为额外的输入传入模型。上述方案只需使用了一个声学模型，在保证性能收益的同时，简化了模型部署和后期维护的难度。上述方案可以针对提供真实口音类别的场景，还需要考虑无法应对不提供真实口音类别的场景。此外，如果包含口音信息的额外输入属于句子级别，则无法根据句子中不同字在不同口音之间的差异程度进行动态调整，灵活性较差，无法利用帧级别的信息。

在本实施例中，为了提升网络对于口音数据的识别能力，并且适用于不提供真实口音类别的场景，更加方便在实际业务中的使用，可以根据不同帧对于口音分类的重要程度动态地调整帧级别的口音相关输入对于每帧的权重，从而有效利用帧级别的信息，提高语音识别的准确性。

对于待识别语音信号，待识别语音信号可以包含待识别的N帧语音信号，如，N个语音帧，这里，N为大于或者等于1的自然数。由于待识别语音信号未提供口音类别，为了确定出待识别语音信号所对应的口音类别，服务器可以将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量。N帧语音信号与N个分类向量之间具备一一对应关系。

目标口音分类模型所预测的口音分类可以从口音分类集合中预测出的，该口音分类集合可以包含预先配置的多个口音分类。一个分类向量对应于一帧语音信号，可以包含根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，也就是，根据每个语音帧确定出的、本语音帧对应的口音类别为各个口音分类的概率。

例如，待识别语音信号包含10帧语音信号，口音分类集合中包含8种口音类别。与每帧语音信号对应的分类向量是一个8×1的向量，向量中的每一维元素为预测出的、本语音信号对应的口音类别为该元素对应的口音分类的概率。

步骤S304，根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，其中，N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率。

根据N个分类向量，服务器可以确定与N帧语音信号对应的N个口音权重向量，每帧语音信号对应于一个口音权重向量，每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率V_i(i＝1,2,……,N)。每帧语音信号对应的口音权重向量可以用于表示本帧语音信号对于口音分类的重要程度，例如，每个口音权重向量与对应的一帧语音信号对于口音分类的重要程度正相关。

通过为不同帧语音信号确定不同的口音权重向量，可以区分不同帧语音信号对于口音分类的重要程度，可以为目标声学模型的语音识别提供参考，从而减少对于口音分类重要的语音帧包含的口音信息对于语音识别带来的负面影响，提高语音识别的准确性。

步骤S306，使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量。

对于N帧语音信号，可以对每帧语音信号进行特征提取，得到N个语音特征向量，一帧语音信号可以对应于一个语音特征向量，一个语音特征向量可以是一个维度为n×1的语音特征向量，例如，对于10帧语音信号，在进行特征提取之后，可以得到10个维度为768×1的语音特征向量。

上述特征提取可以是由目标声学模型中的特征编码层(Feature encoder，也可称为特征编码器)执行的。该Feature encoder可以用于提取输入语音帧的语音特征，其可以包含多层CNN(Convolutional Neural Networks，卷积神经网络)，负责将原始的语音波形提取特征表示C'，提取的第i帧的语音特征向量为C_i'。

在得到N个语音特征向量之后，服务器可以使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量。每帧语音信号可以对应于一个融合口音特征向量，该融合口音特征向量可以是融合了口音信息的特征向量。上述融合可以是特征向量的叠加、拼接或者其他的融合方式，本实施例中对此不做限定。

由于口音权重向量可以表征出每帧语音信号对于口音分类的重要程度，通过将N个口音权重向量作为bias(偏置量)加到原始声学模型中，使得声学模型可以通过融合不同帧对于口音分类的重要程度，动态调整不同帧的特征向量，减少包含口音信息的语音帧对于语音识别的负面影响，例如，可以声学模型调整特征向量的方向可以为：语音帧对于口音分类的重要程度越高，对应的特征向量的比重越小，也即，融合口音特征向量越小(特征向量的大小可以通过特征值的大小来表示)。

对于一段语音信号，不同的语音信号之间具有关联性，例如，相邻的多帧语音信号表述的可以是同一个发音单元。对于上述N帧语音数据，每帧语音信号可以对应于一个特征向量，每帧语音信号对应的特征向量之间离散性，忽略了语音数据之间的关联性。为了提高语音识别的准确性，服务器可以对N个语音特征向量进行特征融合，得到N个融合语音特征向量。N帧语音信号与N个融合语音特征向量之间具有一一对应关系，每帧语音信号对应的融合语音特征向量可以是每帧语音信号对应的语音特征向量和其他帧语音信号(可以是与本帧语音信号相邻的至少一帧语音信号，也可以是除了本帧语音信号以外的全部帧语音信号)对应的语音特征向量进行融合所得到的特征向量。

可选地，语音特征向量的融合可以是由原始声学模型的上下文网络(Contextnetwork)执行的。Context network可以包含多层transformer(转换器)结构，featureencoder部分的输出C'经过GELU(Gaussian Error Linerar units，高斯误差线性单元)层，作为Context network的输入，Context network的输出是R'，第i帧的融合特征向量为R_i'。这里的Context network可以用于融合不同帧语音信号的语音特征向量。

可选地，N个口音权重向量作为bias加到原始声学模型中的方式可以有多种，例如，可以加到特征编码层的输出上，也可以加到上下文网络的输出上，还可以同时加到特征编码层的输出和上下文网络的输出上。将N个口音权重向量加到特征编码层的输出上的方式与将N个口音权重向量加到上下文网络的输出上的方式可以是相同的(例如，使用相同的参数矩阵)，也可以是不同的(例如，使用不同的矩阵)。

使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合的方式可以有多种。例如，可以根据N个口音权重向量将N个语音特征向量转换成N个融合口音特征向量(无需上下文网络)；或者，根据N个口音权重向量将N个语音特征向量转换成N个口音特征向量之后，再对N个口音特征向量进行特征融合，得到N个融合口音特征向量(即，N个口音权重向量只加到特征编码层的输出上)。又例如，可以先将N个语音特征向量进行特征融合，得到N个融合语音特征向量，再根据N个口音权重向量将N个融合语音特征向量转换成N个融合口音特征向量(即，N个口音权重向量只加到上下文网络的输出上)。再例如，可以根据N个口音权重向量，将N个语音特征向量转换成N个口音特征向量；对N个口音特征向量进行特征融合，得到N个融合特征向量；根据N个口音权重向量，将N个融合特征向量转换成N个融合口音特征向量(即，N个口音权重向量加到特征提取层的输出上和上下文网络的输出上)。本实施例中对此不做限定。

步骤S308，根据N个融合口音特征向量，确定N帧语音信号的发音识别结果。

根据N个融合口音特征向量，服务器可以确定N帧语音信号的发音识别结果。上述发音识别结果可以指示N帧语音信号映射到的至少一个发音单元。每个发音单元可以对应至少一帧语音信号，不同的发音单元所对应的语音信号的帧数可以是相同的，也可以是不同的，本实施例中对此不做限定。

确定发音识别结果可以是基于目标声学模型的线性层的输出结果确定的。N个融合口音特征向量可以被输入到目标声学模型的线性层，该线性层的维度与发音单元的数量一致。发音单元为不同语言进行发音的基本单元，其可以包括元音、辅音等，不同的语言，其对应的发音单元以及发音单元的数量可以是不同的。本实施例中对此不做限定。

在得到线性层的输出结果之后，通过对该线性层的输出结果进行归一化处理，可以得到每帧语音信号对应于发音单元集合中的每个发音单元的概率，进而确定出每帧语音信号所对应的发音单元。通过对每帧语音信号所对应的发音单元进行融合(例如，合并等)，可以得到发音识别结果。

在得到发音识别结果之后，可以对发音识别结果进行语义理解，得到与待识别语音信号对应的语音信息，并获取与该语音信息对应的交互信息，并将获取的交互信息返回给车载终端，由车载终端执行与该交互信息对应的交互操作。

例如，待识别语音为“打开车载空调”，获取到的交互信息可以为设置的空调运行参数，车载空调(车载终端的一种示例)可以按照空调运行参数控制车载空调进行运行。

通过上述步骤S302至步骤S308，将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，其中，N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；根据N个融合口音特征向量，确定N帧语音信号的发音识别结果，解决了相关技术中采用多个区域模型识别不同区域语音数据的方式存在的模型部署与模型维护的复杂度高的技术问题，降低了模型部署与模型维护的复杂度，提高了语音识别的准确性。

作为一种可选的实施方案，根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，包括：

S1，在N个分类向量为N个维度为c×1的分类向量、且c为口音分类集合中的口音分类的数量时，对N个维度为c×1的分类向量中相同位置上的向量成员执行平均操作，得到维度为c×1的分类平均向量，其中，c为大于或等于1的自然数；

S2，根据维度为c×1的分类平均向量以及N个维度为c×1的分类向量，确定N个权重值，其中，N个权重值中的每个权重值用于表示N帧语音信号中对应的一帧语音信号中的口音的权重；

S3，根据维度为c×1的分类平均向量与N个权重值，确定N个口音权重向量。

口音分类模型可以包括：Feature encoder，Context network，以及第一线性层(目标声学模型的线性层可以为第二线性层)，第一线性层的维度与口音类别的数量是一致，都为c(例如，8)，c的数量可以根据需要进行配置，本实施例中对此不做限定。

该口音分类模型可以是使用标注有对应口音类别的口音样本语音数据对初始口音分类模型进行训练得到的。为了提高模型训练的速度，可以采用自监督学习的训练方式使用不含口音的样本语音数据(例如，标准普通话)对初始网络模型进行多轮预训练，得到对应的目标网络模型，其中，初始网络模型可以包含特征编码层和上下文网络。

每个样本语音数据可以包含多帧样本语音信号。在每轮迭代的过程中，可以重复执行以下步骤，直到初始网络模型收敛：

将当前样本语音数据的多帧样本语音信号输入到特征编码层，得到特征编码层输出的与每个样本语音信号对应的第一语音特征向量；

对与从多帧样本语音信号中选取的参考样本语音信号对应的第一语音特征向量执行masking(遮挡)操作，得到与参考样本语音信号对应的遮挡特征向量，上述masking操作可以是将参考样本语音信号对应的第一语音特征向量替换为全0的特征向量；

将除了参考样本语音信号以外的其他样本语音信号对应的第一语音特征向量以及参考样本语音信号对应的遮挡特征向量输入到上下文网络，得到上下文网络基于其他样本语音信号对应的第一语音特征向量所预测出的、与参考样本语音信号对应的预测特征向量；

对与每个样本语音信号对应的第一语音特征向量执行量化操作，得到与每个样本语音信号对应的量化语音特征向量，或者，至少对与参考样本语音信号对应的第一语音特征向量执行量化操作，得到与参考样本语音信号对应的量化语音特征向量；

基于与参考样本语音信号对应的预测特征向量和与参考样本语音信号对应的量化语音特征向量调整初始网络模型的模型参数，得到更新后的初始网络模型。

为了避免由于相邻语音信号的语音特征相似度过高导致的模型参数调整不合理的问题，可以在多帧样本语音信号中设置K个干扰语音信号(K个distractor)，并基于与参考样本语音信号对应的预测特征向量和与参考样本语音信号对应的量化语音特征向量的相似度、以及与参考样本语音信号对应的预测特征向量和K个干扰语音信号对应的第一语音特征向量之间的相似度调整初始网络模型的模型参数，得到更新后的初始网络模型。

例如，如图5所示，初始网络模型可以采用自监督学习算法进行模型训练，该算法框架的输入为原始的语音波形X(raw waveform)，网络主要包含三个部分：

1)Feature encoder，将原始的语音波形提取特征表示Z，即，潜在语音表征(Latent speech representations)；

2)Context network，Feature encoder部分的输出Z经过GELU层，作为此部分的输入，最后的输出是C，即，上下文表征(context representations)；

3)Quantization module(量化模块)，对Feature encoder的输出Z进行离散化(即，量化)，得到Q，即，量化表征(Quantized representations)，作为监督信息帮助网络训练。

在网络训练的过程中，首先可以对feature encoder的输出Z进行masking操作，然后再作为输入传给context network。对于masking区间t时刻context network的输出为c_t，对应量化以后的隐式语音表征为q_t，Q_t表示所有候选量化语音表征集合，包括q_t及K个distractor，训练loss(损失)可以表示为公式(1)所示：

其中，sim(a,b)＝a^Tb/||a||||b||，表示两个向量之间的相关性。

在经过多轮训练，如果L_m的值小于设定的阈值，则可以结束训练，得到训练好的目标网络模型。

在得到目标网络模型之后，可以使用口音样本语音数据对初始口音分类模型进行多轮训练，得到目标口音分类模型，初始口音分类模型是在目标网络模型的上下文网络之上添加第一线性层得到的。

N个分类向量可以为N个维度为c×1的分类向量，c为口音分类集合中的口音分类的数量，其可以是大于或等于1的自然数。在确定口音权重向量时，可以对N个维度为c×1的分类向量中相同位置上的向量成员执行平均操作，得到维度为c×1的分类平均向量A^mean。

例如，N为10，c为8，10个分类向量分别为：[a_1,1,a_1,2,……,a_1,8],……,[a_10,1,a_10,2,……,a_10,8]。对10个维度为8×1的分类向量中相同位置上的向量成员执行平均操作，得到维度为8×1的分类平均向量，即，矢量A^mean为

其中，

为(a_1,i+a_2,i+……+a_10,i)。

根据维度为c×1的分类平均向量以及N个维度为c×1的分类向量，服务器可以确定N个权重值，N个权重值中的每个权重值用于表示N帧语音信号中对应的一帧语音信号中的口音的权重(即，w_i)。每帧语音信号中的口音的权重可以是本帧语音信号对应的分类向量与分类平均向量之间的关联性，关联性越大，该帧语音信号中的口音的权重越大，反之，则该帧语音信号中的口音的权重越小。

根据维度为c×1的分类平均向量与N个权重值，服务器可以确定出N个口音权重向量。确定N个口音权重向量可以有多种，例如，可以直接将分类平均向量与N个权重值的乘积，确定为N个口音权重向量V_i，即，V_i＝w_i×A^mean，又例如，可以将N个权重值中小于设定阈值k的权重值设置为0，然后将分类平均向量与N个权重值的乘积，确定为N个口音权重向量V_i，再例如，可以对分类平均向量进行归一化处理，得到归一化的分类平均向量，然后将归一化的分类平均向量与N个权重值的乘积，确定为N个口音权重向量V_i。本实施例中对此不做限定。

通过本申请提供的实施例，通过确定N个分类向量的分类平均向量，并确定一帧语音信号中的口音的权重，从而基于分类平均向量和一帧语音信号中的口音的权重确定口音权重向量，可以提高确定的口音权重向量表征语音信号中的口音信息的能力。

作为一种可选的实施方案，根据维度为c×1的分类平均向量以及N个维度为c×1的分类向量，确定N个权重值，包括：

S1，分别将维度为c×1的分类平均向量与N个维度为c×1的分类向量进行矢量点乘，得到N个矢量点乘值；

S2，将N个矢量点乘值输入到预设的激活函数中，得到N个权重值，其中，激活函数的输出的取值范围为(0,1)。

在本实施例中，可以基于分类平均向量与各帧语音信号的分类向量进行矢量点乘结果，确定每一帧语音信号所对应的权重w_i。服务器可以首先分别将维度为c×1的分类平均向量与N个维度为c×1的分类向量进行矢量点乘，得到N个矢量点乘值。矢量点乘是指两个向量相同位置上的向量成员相乘之后再相加。

例如，10个分类向量分别为：[a_1,1,a_1,2,……,a_1,8],……,[a_10,1,a_10,2,……,a_10,8]。维度为8×1的分类平均向量A^mean为

则将分类平均向量A^mean与10个维度为8×1的分类向量进行矢量点乘，得到10个矢量点乘值，第i个矢量点乘值为：

在得到N个矢量点乘值之后，可以将其直接作为N个权重值。可选地，为了避免口音数据对语音数据影响过大导致降低语音识别的准确性，服务器可以将N个矢量点乘值输入到预设的激活函数中，得到N个权重值，激活函数的输出的取值范围为(0,1)，从而将每帧语音信号对应的权重值设置到0,1之间。激活函数可以是Sigmoid函数。Sigmoid函数为一种S型函数，可以被用作神经网络的激活函数，将变量映射到0,1之间。示例性地，Sigmoid函数可以由公式(2)定义：

例如，可以将语音输入训练好的口音分类模型，将每一帧线性层的输出求平均，得到矢量A，维度大小为c×1，将A^mean与每一帧线性层的输出进行矢量点乘，并将结果经过Sigmoid函数，得到第i帧对应的权重w_i。

通过本申请提供的实施例，通过计算分类平均向量与每个分类向量的矢量点乘值，并对通过激活函数将其映射到0,1之间，可以避免口音信息对语音数据影响过大导致降低语音识别的准确性。

作为一种可选的实施方案，根据维度为c×1的分类平均向量与N个权重值，确定N个口音权重向量，包括：

S1，对维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，其中，维度为c×1的分类归一化向量中的向量成员的取值范围为(0,1)、且维度为c×1的分类归一化向量中的向量成员的取值之和为1；

S2，将维度为c×1的分类归一化向量分别与N个权重值相乘，得到N个维度为c×1的口音权重向量。

在确定N个口音权重向量时，可以直接将维度为c×1的分类平均向量分别与N个权重值，得到N个维度为c×1的口音权重向量。可选地，为了避免口音数据对语音数据影响过大导致降低语音识别的准确性，服务器可以首先对维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量。在归一会处理之后，分类归一化向量中的每个向量成员的取值范围均位于为(0,1)，并且所有向量成员的取值之和为1。

服务器可以将维度为c×1的分类归一化向量分别与N个权重值相乘，得到N个维度为c×1的口音权重向量，得到的口音权重向量可以是作为目标声学模型的一个输入参数，可以称为帧级别口音相关的输入(frame-level accent-specific input)。

例如，将矢量A^mean经过Softmax函数后得到矢量A，第i帧的frame-level accent-specific input对应的矢量V_i可以表示为如公式(3)所示：

V_i＝w_i*A (3)

通过本申请提供的实施例，通过对分类平均向量执行归一化操作，可以避免口音信息对语音数据影响过大导致降低语音识别的准确性。

S2，在N个权重值中存在小于预设权重阈值的权重值时，将N个权重值中小于预设权重阈值的权重值设置为0，得到N个调整后的权重值；

S3，将维度为c×1的分类归一化向量分别与N个调整后的权重值相乘，得到N个维度为c×1的口音权重向量。

在本实施例中，在确定N个口音权重向量时，可以首先对维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，归一化操作的过程可以与前述类似在此不做赘述。

前述的口音权重向量中的权重值可以是动态调整的，即，口音权重向量不是固定不变的，其可以根据语音数据进行动态调整。通过动态调整权重，可以使得对于口音分类重要的帧获得较大的权重；而对于那些口音分类不重要的帧，则给予较低的权重，以减小包含口音信息的bias对这一帧可能带来的负面影响。

可选地，那些口音分类不重要的帧可以将其权重直接置为0，以减少所需的计算量。服务器可以在N个权重值中存在小于预设权重阈值(例如，前述k)的权重值时，将N个权重值中小于预设权重阈值的权重值设置为0，得到N个调整后的权重值。例如，引入阈值k，将小于k的w_i设为零。服务器还可以将维度为c×1的分类归一化向量分别与N个调整后的权重值相乘，得到N个维度为c×1的口音权重向量。得到N个维度为c×1的口音权重向量与前述类似，在此不做赘述。

通过本申请提供的实施例，通过将小于设置阈值的权重值设置为0，可以减少语音识别过程中所需的计算量，提高语音识别的效率。

作为一种可选示例，可以对初始口音分类模型进行训练，得到目标口音分类模型。初始口音分类模型是在目标网络模型的上下文网络之上添加第一线性层得到的。

训练设备(可以是前述服务器，也可以是其他设备)可以首先使用大量没有标注的训练语音数据，使用自监督学习的方式对前述初始网络模型进行训练，可以得到目标网络模型。

对得到的目标网络模型，可以保留feature encoder和context network两部分网络，在context network的上面可增加一层随机初始化的线性层，线性层的输出作为语音识别任务(识别口音)的分类结果，可以结合CTC(Connectionist Temporal Classification，连接时序分类)的损失函数对这个新的网络进行训练。在训练的前期，可以保持featureencoder和context network的网络参数不变，只更新该新增加的线性层的参数，训练的后期，所有的网络参数都可以更新。

在进行口音分类模型训练时，可以对每一帧线性层的输出求平均值，再经过Softmax(归一化指数函数)后作为模型的最终预测，并得到交叉熵损失函数。同时，可以对每一帧线性层的输出求标准差，将得到的标准差矢量的每个元素求平均，将求得的平均结果与交叉熵损失函数相加，用来训练网络。

在训练基于自监督学习网络(即，前述目标网络模型)的口音分类器(即，前述口音分类模型)，口音的种类总共有8类，前面2000个迭代保持feature encoder和contextnetwork的网络参数不变，只更新该新增加的affine网络层，从2000迭代开始，所有的网络参数都开始正常训练更新，初始学习率为0.00002。训练基于自监督学习网络的语音识别系统时，除了feature encoder以外的网络参数都可以更新，初始学习率为0.00002，如表1所示。

表1

口音	训练数据量(小时)	测试数据(条数)
			美国(AM)	20	1427
英国(BR)	20	1582
			中国(CH)	20	1491
印度(IN)	20	914
			日本(JA)	20	1489
韩国(KO)	20	1459
			葡萄牙(PO)	20	1617
俄罗斯(RU)	20	1617

通过本可选示例，通过首先采用无监督学习的方式学习网络模型的模型参数，并在模型参数上添加用于分类的线程层，并通过先调节线性层的参数，再整体更新网络参数，可以提高模型训练的效率，提高模型训练的效率。

作为一种可选的实施方案，使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量，包括：

S1，根据N个口音权重向量，将N个语音特征向量转换成N个口音特征向量；

S2，对N个口音特征向量进行特征融合，得到N个融合特征向量；

S3，根据N个口音权重向量，将N个融合特征向量转换成N个融合口音特征向量。

为了提高语音识别的准确性，在进行口音权重向量与语音特征向量的特征融合时，可以将口音权重向量加到特征提取层的输出上和上下文网络的输出上。N个口音权重向量可以作为bias(偏置量)加到原始声学模型中的特征编码层的输出上。在得到N个语音特征向量之后，目标声学模型可以根据N个口音权重向量，将N个语音特征向量转换成N个口音特征向量。每帧语音信号可以对应于一个口音特征向量，该口音特征向量可以是融合了口音信息的特征向量。上述融合可以是特征向量的叠加、拼接或者其他的融合方式，本实施例中对此不做限定。

在本实施例中，服务器也可以对N个口音特征向量进行特征融合，得到N个融合特征向量。N帧语音信号与N个融合特征向量之间具有一一对应关系，每帧语音信号对应的融合特征向量可以是每帧语音信号对应的口音特征向量和其他帧语音信号(可以是与本帧语音信号相邻的至少一帧语音信号，也可以是除了本帧语音信号以外的全部帧语音信号)对应的口音特征向量进行融合所得到的特征向量。可选地，上述特征融合可以是由目标声学模型中的上下文网络执行的。

N个口音权重向量也可以作为bias加到原始声学模型中的上下文网络的输出上。在得到N个融合特征向量之后，服务器可以根据N个融合特征向量，确定N帧语音信号的发音识别结果。为了减少包含口音信息的语音信号对于发音识别带来的负面影响，可以根据N个口音权重向量，将N个融合特征向量转换成N个融合口音特征向量。每帧语音信号可以对应于一个融合口音特征向量，该融合口音特征向量可以是融合了口音信息的特征向量。上述融合可以是特征向量的叠加、拼接或者其他的融合方式，本实施例中对此不做限定。

N个口音权重向量作为目标声学模型的输入，其可以认为是目标声学模型帧级别口音相关输入(frame-level accent-specific input)，相当于在声学模型中引入了额外的口音监督信息，有助于网络更好的应对口音数据。

通过本申请提供的实施例，将口音权重向量作为bias分别加到声学模型的特征编码层的输出上和上下文网络的输出上，可以提高口音监督信息的可靠性，提高语音识别的准确性。

作为一种可选的实施方案，根据N个口音权重向量，将N个语音特征向量转换成N个口音特征向量，包括：

S1，在N个口音权重向量为N个维度为c×1的口音权重向量、且N个语音特征向量为N个维度为n×1的语音特征向量时，根据N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量，其中，n和c为大于或等于1的自然数。

在本实施例中，N个口音权重向量为N个维度为c×1的口音权重向量(例如，10个维度为8×1的口音权重向量)，并且N个语音特征向量为N个维度为n×1的语音特征向量(例如，10个维度为768×1的语音特征向量)。为了将N个口音权重向量与N个语音特征向量进行融合，从而将N个语音特征向量转换成N个口音特征向量，N个口音权重向量可以经过一个线性转换层，作为bias加到原始声学模型的特征编码层的输出上。

上述经过的线性转化层可以与第一参数矩阵对应，该第一参数矩阵可以是预先训练好的、维度为n×c的参数矩阵。服务器可以根据N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量。例如，可以将维度为n×c的第一参数矩阵与N个维度为c×1的口音权重向量分别相乘，得到N个维度为n×1的偏移特征向量，并将N个维度为n×1的偏移特征向量与N个维度为n×1的语音特征向量进行对应融合，得到N个维度为n×1的口音特征向量。

通过本申请提供的实施例，将包含口音信息的口音权重向量经过一个线性转换层作为bias加到声学模型中特征编码层的输出上，可以提高特征融合的便捷性，也提高了语音识别的准确性。

作为一种可选的实施方案，根据N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量，包括：

通过执行以下步骤将第i个维度为n×1的语音特征向量转换成第i个维度为n×1的口音特征向量，其中，1≤i≤N：

将维度为n×c的第一参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为n×1的偏移特征向量；

将第i个维度为n×1的语音特征向量与维度为n×1的偏移特征向量之和，确定为第i个维度为n×1的口音特征向量。

在本实施例中，在将N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量时，可以将维度为n×c的第一参数矩阵与N个维度为c×1的口音权重向量分别相乘，得到N个维度为n×1的偏移特征向量。

对于将i个维度为n×1的语音特征向量转换成第i个维度为n×1的口音特征向量时，可以将维度为n×c的第一参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为n×1的偏移特征向量，例如，可以将维度为768×8的参数矩阵与第i个维度为8×1的口音权重向量相乘，得到维度为768×1的偏移特征向量。

在进行第i个维度为n×1的语音特征向量与维度为n×1的偏移特征向量的融合时，可以逐向量成员进行加权求和，或者，将两个特征向量进行拼接，得到对应的口音特征向量，口音特征向量的维度可以是n×1或者2n×1。可选地，在本实施例中，可以将第i个维度为n×1的语音特征向量与维度为n×1的偏移特征向量之和，确定为第i个维度为n×1的口音特征向量。例如，可以将维度为768×1的语音特征向量与维度为768×1的偏移特征向量进行逐向量成员相加，即，相同位置上的向量成员相加，从而得到维度为768×1的口音特征向量。

例如，如图6所示，可以增加包含口音信息的frame-level accent-specificinput作为新的输入，frame-level accent-specific input会经过一个线性转换层(affine层)，作为bias加到原始声学模型中feature encoder的输出上，线性转换层的参数矩阵为W_C，维度分别为n*c。在将语音波形输入到声学模型的feature encoder之后，可以得到feature encoder输出的特征向量C'，维度为n×1。在增加frame-level accent-specific input之后，feature encoder的最终输出可以如公式(4)所示：

C_i＝C′_i+W_CV_i (4)

通过本申请提供的实施例，通过将第一参数矩阵与口音权重向量相乘，得到对应的偏移特征向量，并将语音特征向量与对应的偏移特征向量进行求和，从而确定口音特征向量，可以提高特征融合的便捷性，也提高了语音识别的准确性。

作为一种可选的实施方案，根据N个口音权重向量，将N个融合特征向量转换成N个融合口音特征向量，包括：

在N个口音权重向量为N个维度为c×1的口音权重向量、且N个融合特征向量为N个维度为m×1的融合特征向量时，根据N个维度为c×1的口音权重向量以及预先获取到的维度为m×c的第二参数矩阵，将N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量，其中，m和c为大于或等于1的自然数。

在本实施例中，N个口音权重向量为N个维度为c×1的口音权重向量(例如，10个维度为8×1的口音权重向量)，并且N个融合特征向量为N个维度为m×1的融合特征向量(例如，10个维度为768×1的融合特征向量)。为了将N个口音权重向量与N个融合特征向量进行融合，从而将N个融合特征向量转换成N个融合口音特征向量，N个口音权重向量可以经过一个线性转换层，作为bias加到原始声学模型的上下文网络的输出上。

经过的线性转化层可以与第二参数矩阵对应，第二参数矩阵可以是预先训练好的、维度为m×c的参数矩阵。服务器可以根据N个维度为c×1的口音权重向量及预先获取到的维度为m×c的第一参数矩阵，将N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量。例如，可以将维度为m×c的第一参数矩阵与N个维度为c×1的口音权重向量分别相乘，得到N个维度为m×1的中间特征向量，将N个维度为m×1的中间特征向量与N个维度为m×1的融合特征向量进行对应融合，得到N个维度为m×1的融合口音特征向量。

通过本申请提供的实施例，将包含口音信息的口音权重向量经过一个线性转换层作为bias加到声学模型中上下文网络的输出上，可以提高特征融合的便捷性，也提高了语音识别的准确性。

作为一种可选的实施方案，根据N个维度为c×1的口音权重向量以及预先获取到的维度为m×c的第二参数矩阵，将N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量，包括：

通过执行以下步骤将第i个维度为m×1的融合特征向量转换成第i个维度为m×1的融合口音特征向量，其中，1≤i≤N：

将维度为m×c的第二参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为m×1的偏移特征向量；

将第i个维度为m×1的融合特征向量与维度为m×1的偏移特征向量之和，确定为第i个维度为m×1的融合口音特征向量。

在本实施例中，在将N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量时，可以将维度为m×c的第二参数矩阵与N个维度为c×1的口音权重向量分别相乘，得到N个维度为m×1的偏移特征向量。

对于将i个维度为m×1的融合特征向量转换成第i个维度为n×1的融合口音特征向量时，可以将维度为m×c的第二参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为m×1的偏移特征向量，例如，可以将维度为768×8的参数矩阵与第i个维度为8×1的口音权重向量相乘，得到维度为768×1的偏移特征向量。这里，m与前述n可以是相同的值，也可以是不同的值。

在进行第i个维度为m×1的融合特征向量与维度为m×1的偏移特征向量的融合时，可以逐向量成员进行加权求和，或者，将两个特征向量进行拼接，得到对应的融合口音特征向量，融合口音特征向量的维度可以是m×1或者2m×1。可选地，在本实施例中，可以将第i个维度为m×1的融合特征向量与维度为m×1的偏移特征向量之和，确定为第i个维度为m×1的融合口音特征向量。例如，可以将维度为768×1的融合特征向量与维度为768×1的偏移特征向量进行逐向量成员相加，即，相同位置上的向量成员相加，从而得到维度为768×1的融合口音特征向量。

例如，如图7所示，可以增加包含口音信息的frame-level accent-specificinput作为新的输入，frame-level accent-specific input会经过一个线性转换层(affine层)，作为bias加到原始声学模型中context network的输出上，线性转换层的参数矩阵为W_R，维度分别为m*c。在将语音波形输入到声学模型的feature encoder之后，可以得到feature encoder输出的特征向量C'。在增加frame-level accent-specific input之后，feature encoder的最终输出为C。C输入到context network之后，可以得到contextnetwork的输出为特征向量R'，维度为m×1。在增加了frame-level accent-specificinput之后，context network的最终输出可以如公式(5)所示：

R_i＝R′_i+W_RV_i (5)

通过本申请提供的实施例，通过将第二参数矩阵与口音权重向量相乘，得到对应的偏移特征向量，将融合特征向量与对应的偏移特征向量进行求和，从而确定融合口音特征向量，可以提高特征融合的便捷性，也提高了语音识别的准确性。

作为一个可选示例，如图7所示，包含口音信息的frame-level accent-specificinput作为新的输入，frame-level accent-specific input会经过线性转换层作为bias加到原始声学模型(记为AR0)中feature encoder和context network的输出上，得到的新声学模型记为AR1，AR1相比AR0网络增加口音信息的输入frame-level accent-specificinput。对于AR1模型，其可以根据不同帧对于口音分类的重要程度动态地调整frame-levelaccent-specific input对于每帧的权重，可以有效利用帧级别的信息。

本可选示例中，使用的无监督训练数据为960小时的开发集数据，使用的口音的训练数据包含8种口音的英文，分别是俄罗斯、韩国、美国、葡萄牙、日本、印度、英国、中国，每个口音约20小时的训练数据。两个系统在开发集上面对应的词错误率(％)可以如表2所示，其中，词错误率越小，系统性能越好：

表2

口音	AR0	AR1
			AM	6.29	5.85
BR	7.50	6.95
			CH	10.64	10.52
IN	7.86	7.80
			JA	8.21	7.84
KO	5.00	4.72
			PO	6.22	5.82
RU	7.46	6.92
			所有口音	7.37	7.02

从表2的数据可知，AR0->AR1对应的是引入了frame-level dialect-specificinput，从结果来看引入frame-level dialect-specific input能帮助模型进一步提升对于带口音的语音识别性能。

同时为了验证算法的有效性，在AR1的基础上去掉了w_i对于不同帧的动态调整功能，将所有帧的w_i统一设置为1，将这样的模型标记为AR1-，AR1-无法利用帧级别的信息，可以被视为输入了句子级别的dialect-specific input(句子相关的输入)，对应的结果如表3所示。

表3

口音	AR1	AR1-
			AM	5.85	5.98
BR	6.95	7.18
			CH	10.52	10.46
IN	7.80	7.67
			JA	7.84	8.12
KO	4.72	4.84
			PO	5.82	6.14
RU	6.92	7.19
			所有口音	7.02	7.17

由表3可知，AR1-在大部分的口音数据及整体数据上的错误率都要高于AR1。可见，通过权重w_i来代表不同帧对于口音分类的重要程度，并且动态调整包含口音信息的bias对于不同帧的影响大小，对于进一步提升模型对于带口音的语音识别性能是有效的。

作为一种可选的实施方案，根据N个融合口音特征向量，确定N帧语音信号的发音识别结果，包括：

S1，根据N个融合口音特征向量，分别确定N组发音结果，其中，N组发音结果中的每组发音结果包括根据对应的一个融合口音特征向量确定出的发音单元集合中的每个发音单元的预测概率；

S2，在N组发音结果中的每组发音结果中分别确定对应的目标发音结果，共得到与N帧语音信号对应的N个目标发音结果，其中，N个目标发音结果中的每个目标发音结果所指示的目标发音单元的预测概率在对应的一组发音结果中最大。

在得到N个融合口音特征向量，可以根据每个融合口音特征向量分别对本帧语音信号所属的发音单元进行预测，得到一组发音结果，该组发音结果包括根据对应的一个融合口音特征向量确定出的发音单元集合中的每个发音单元的预测概率。一组发音结果中包含的预测概率可以与预设的发音单元的数量相同，发音结果集合中的所有预测概率的和可以为1。

例如，共有26个发音单元，那么，一组发音结果包含了26个概率值，这26个概率值的和可以为1。

对于每组发音结果中，服务器可以每组发音结果中分别确定对应的目标发音结果。该目标发音结果用于指示对应的一帧语音信号所属的发音单元，即，目标发音单元，目标发音单元的预测概率在该组发音结果中的值最大，也就是，预测概率最大。由于有N帧语音信号，一共可以得到与N帧语音信号对应的N个目标发音结果。

在得到N组发音结果之后，还可以对每帧语音信号所属的发音单元进行组合，最终得到N帧语音信号所对应的各个发音单元。得到的发音单元可以通过语言模型和词典被映射为对应的汉字，以便进行后续的语义理解等，本实施例中对此不做限定。

通过本申请提供的实施例，通过对每帧语音信号所属的发音单元进行预测，可以得到语音识别的识别结果，可以提高语音识别的便捷性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述语音识别方法的语音识别装置。如图8所示，该装置包括：

输入单元802，用于将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；

第一确定单元804，用于根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，其中，N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；

融合单元806，用于使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；

第二确定单元808，用于根据N个融合口音特征向量，确定N帧语音信号的发音识别结果。

需要说明的是，该实施例中的输入单元802可以用于执行上述步骤S302，该实施例中的第一确定单元804可以用于执行上述步骤S304，该实施例中的融合单元806可以用于执行上述步骤S306，该实施例中的第二确定单元808可以用于执行上述步骤S308。

通过本申请提供的实施例，将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，其中，N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；根据N个融合口音特征向量，确定N帧语音信号的发音识别结果，解决了相关技术中采用多个区域模型识别不同区域语音数据的方式存在的模型部署与模型维护的复杂度高的技术问题，降低了模型部署与模型维护的复杂度，提高了语音识别的准确性。

作为一种可选的实施方案，第一确定单元804包括：

执行模块，用于在N个分类向量为N个维度为c×1的分类向量、且c为口音分类集合中的口音分类的数量时，对N个维度为c×1的分类向量中相同位置上的向量成员执行平均操作，得到维度为c×1的分类平均向量，其中，c为大于或等于1的自然数；

第一确定模块，用于根据维度为c×1的分类平均向量以及N个维度为c×1的分类向量，确定N个权重值，其中，N个权重值中的每个权重值用于表示N帧语音信号中对应的一帧语音信号中的口音的权重；

第二确定模块，用于根据维度为c×1的分类平均向量与N个权重值，确定N个口音权重向量。

本实施方案的可选示例可以参考上述语音识别方法中所示的示例，本实施方案中在此不再赘述。

作为一种可选的实施方案，第一确定模块包括：

点乘子模块，用于分别将维度为c×1的分类平均向量与N个维度为c×1的分类向量进行矢量点乘，得到N个矢量点乘值；

输入子模块，用于将N个矢量点乘值输入到预设的激活函数中，得到N个权重值，其中，激活函数的输出的取值范围为(0,1)。

作为一种可选的实施方案，第二确定模块包括：

第一执行子模块，用于对维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，其中，维度为c×1的分类归一化向量中的向量成员的取值范围为(0,1)、且维度为c×1的分类归一化向量中的向量成员的取值之和为1；

第二执行子模块，用于将维度为c×1的分类归一化向量分别与N个权重值相乘，得到N个维度为c×1的口音权重向量。

作为一种可选的实施方案，第二确定模块包括：

第三执行子模块，用于对维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，其中，维度为c×1的分类归一化向量中的向量成员的取值范围为(0,1)、且维度为c×1的分类归一化向量中的向量成员的取值之和为1；

设置子模块，用于在N个权重值中存在小于预设权重阈值的权重值时，将N个权重值中小于预设权重阈值的权重值设置为0，得到N个调整后的权重值；

第四执行子模块，用于将维度为c×1的分类归一化向量分别与N个调整后的权重值相乘，得到N个维度为c×1的口音权重向量。

作为一种可选的实施方案，融合单元806包括：

第一转换模块，用于根据N个口音权重向量，将N个语音特征向量转换成N个口音特征向量；

融合模块，用于对N个口音特征向量进行特征融合，得到N个融合特征向量；

第二转换模块，用于根据N个口音权重向量，将N个融合特征向量转换成N个融合口音特征向量。

作为一种可选的实施方案，第一转换模块包括：

第一转换子模块，用于在N个口音权重向量为N个维度为c×1的口音权重向量、且N个语音特征向量为N个维度为n×1的语音特征向量时，根据N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量，其中，n和c为大于或等于1的自然数。

作为一种可选的实施方案，第一转换子模块包括：

第一执行子单元，用于通过执行以下步骤将第i个维度为n×1的语音特征向量转换成第i个维度为n×1的口音特征向量，其中，1≤i≤N：

作为一种可选的实施方案，第二转换模块包括：

第二转换子模块，用于在N个口音权重向量为N个维度为c×1的口音权重向量、且N个融合特征向量为N个维度为m×1的融合特征向量时，根据N个维度为c×1的口音权重向量以及预先获取到的维度为m×c的第二参数矩阵，将N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量，其中，m和c为大于或等于1的自然数。

作为一种可选的实施方案，第二转换子模块包括：

第二执行子单元，用于通过执行以下步骤将第i个维度为m×1的融合特征向量转换成第i个维度为m×1的融合口音特征向量，其中，1≤i≤N：

作为一种可选的实施方案，第二确定单元808包括：

第三确定模块，用于根据N个融合口音特征向量，分别确定N组发音结果，其中，N组发音结果中的每组发音结果包括根据对应的一个融合口音特征向量确定出的发音单元集合中的每个发音单元的预测概率；

第四确定模块，用于在N组发音结果中的每组发音结果中分别确定对应的目标发音结果，共得到与N帧语音信号对应的N个目标发音结果，其中，N个目标发音结果中的每个目标发音结果所指示的目标发音单元的预测概率在对应的一组发音结果中最大。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图9所示，该电子设备包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；

S2，根据N个分类向量，确定与N帧语音信号对应的N个口音权重向量，其中，N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；

S3，使用N个口音权重向量对N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；

S4，根据N个融合口音特征向量，确定N帧语音信号的发音识别结果。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本申请实施例中的语音识别方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音识别方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储语音信号、语音识别结果、口音分类模型、声学模型等。

作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述语音识别装置中的输入单元802、第一确定单元804、融合单元806以及第二确定单元808。此外，还可以包括但不限于上述。语音识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器908，用于显示语音识别结果；和连接总线910，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的又一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序/指令，该计算机程序/指令存储在计算机可读存储介质中，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。计算机设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该计算机设备执行上述各种可选实现方式中提供的方法，其中，该计算机程序/指令被设置为运行时执行上述任一项方法实施例中的步骤。在这样的实施例中，图10示意性地示出了用于实现本申请实施例的计算机程序产品或计算机程序的计算机系统结构框图，该计算机系统可以运行在如前述实施例中所示的电子设备中。

需要说明的是，图10示出的计算机系统1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理器1001(Central Processing Unit，CPU)，其可以根据存储在只读存储器1002(Read-Only Memory，ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中，还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口，即I/O接口)也连接至总线1004。

以下部件连接至输入/输出接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音识别方法，其特征在于，包括：

将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，所述N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；

根据所述N个分类向量，确定与所述N帧语音信号对应的N个口音权重向量，其中，所述N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；

使用所述N个口音权重向量对所述N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；

根据所述N个融合口音特征向量，确定所述N帧语音信号的发音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个分类向量，确定与所述N帧语音信号对应的N个口音权重向量，包括：

在所述N个分类向量为N个维度为c×1的分类向量、且c为所述口音分类集合中的口音分类的数量时，对所述N个维度为c×1的分类向量中相同位置上的向量成员执行平均操作，得到维度为c×1的分类平均向量，其中，c为大于或等于1的自然数；

根据所述维度为c×1的分类平均向量以及所述N个维度为c×1的分类向量，确定N个权重值，其中，所述N个权重值中的每个权重值用于表示所述N帧语音信号中对应的一帧语音信号中的口音的权重；

根据所述维度为c×1的分类平均向量与所述N个权重值，确定所述N个口音权重向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述维度为c×1的分类平均向量以及所述N个维度为c×1的分类向量，确定N个权重值，包括：

分别将所述维度为c×1的分类平均向量与所述N个维度为c×1的分类向量进行矢量点乘，得到N个矢量点乘值；

将所述N个矢量点乘值输入到预设的激活函数中，得到所述N个权重值，其中，所述激活函数的输出的取值范围为(0,1)。

4.根据权利要求2所述的方法，其特征在于，所述根据所述维度为c×1的分类平均向量与所述N个权重值，确定所述N个口音权重向量，包括：

对所述维度为c×1的分类平均向量中的向量成员执行归一化操作，得到维度为c×1的分类归一化向量，其中，所述维度为c×1的分类归一化向量中的向量成员的取值范围为(0,1)、且所述维度为c×1的分类归一化向量中的向量成员的取值之和为1；

将所述维度为c×1的分类归一化向量分别与所述N个权重值相乘，得到所述N个维度为c×1的口音权重向量。

5.根据权利要求2所述的方法，其特征在于，所述根据所述维度为c×1的分类平均向量与所述N个权重值，确定所述N个口音权重向量，包括：

在所述N个权重值中存在小于预设权重阈值的权重值时，将所述N个权重值中小于所述预设权重阈值的权重值设置为0，得到N个调整后的权重值；

将所述维度为c×1的分类归一化向量分别与所述N个调整后的权重值相乘，得到所述N个维度为c×1的口音权重向量。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述使用所述N个口音权重向量对所述N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量，包括：

根据所述N个口音权重向量，将所述N个语音特征向量转换成N个口音特征向量；

对所述N个口音特征向量进行特征融合，得到N个融合特征向量；

根据所述N个口音权重向量，将所述N个融合特征向量转换成所述N个融合口音特征向量。

7.根据权利要求6所述的方法，其特征在于，所述根据所述N个口音权重向量，将所述N个语音特征向量转换成N个口音特征向量，包括：

在所述N个口音权重向量为N个维度为c×1的口音权重向量、且所述N个语音特征向量为N个维度为n×1的语音特征向量时，根据所述N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将所述N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量，其中，n和c为大于或等于1的自然数。

8.根据权利要求7所述的方法，其特征在于，所述根据所述N个维度为c×1的口音权重向量以及预先获取到的维度为n×c的第一参数矩阵，将所述N个维度为n×1的语音特征向量转换成N个维度为n×1的口音特征向量，包括：

将所述维度为n×c的第一参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为n×1的偏移特征向量；

将所述第i个维度为n×1的语音特征向量与所述维度为n×1的偏移特征向量之和，确定为所述第i个维度为n×1的口音特征向量。

9.根据权利要求6所述的方法，其特征在于，所述根据所述N个口音权重向量，将所述N个融合特征向量转换成所述N个融合口音特征向量，包括：

在所述N个口音权重向量为N个维度为c×1的口音权重向量、且所述N个融合特征向量为N个维度为m×1的融合特征向量时，根据所述N个维度为c×1的口音权重向量以及预先获取到的维度为m×c的第二参数矩阵，将所述N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量，其中，m和c为大于或等于1的自然数。

10.根据权利要求9所述的方法，其特征在于，所述根据所述N个维度为c×1的口音权重向量以及预先获取到的维度为m×c的第二参数矩阵，将所述N个维度为m×1的融合特征向量转换成N个维度为m×1的融合口音特征向量，包括：

将所述维度为m×c的第二参数矩阵与第i个维度为c×1的口音权重向量相乘，得到维度为m×1的偏移特征向量；

将所述第i个维度为m×1的融合特征向量与所述维度为m×1的偏移特征向量之和，确定为所述第i个维度为m×1的融合口音特征向量。

11.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述N个融合口音特征向量，确定所述N帧语音信号的发音识别结果，包括：

根据所述N个融合口音特征向量，分别确定N组发音结果，其中，所述N组发音结果中的每组发音结果包括根据对应的一个融合口音特征向量确定出的发音单元集合中的每个发音单元的预测概率；

在所述N组发音结果中的每组发音结果中分别确定对应的目标发音结果，共得到与所述N帧语音信号对应的N个目标发音结果，其中，所述N个目标发音结果中的每个目标发音结果所指示的目标发音单元的预测概率在对应的一组发音结果中最大。

12.一种语音识别装置，其特征在于，包括：

输入单元，用于将待识别的N帧语音信号分别输入到目标口音分类模型，得到N个分类向量，其中，所述N个分类向量中的每个分类向量包括根据对应的一帧语音信号确定出的口音分类集合中的每个口音分类的预测概率，N为大于或等于1的自然数；

第一确定单元，用于根据所述N个分类向量，确定与所述N帧语音信号对应的N个口音权重向量，其中，所述N个口音权重向量中的每个口音权重向量用于表示对应的一帧语音信号的口音加权预测概率；

融合单元，用于使用所述N个口音权重向量对所述N帧语音信号的N个语音特征向量进行特征融合，得到N个融合口音特征向量；

第二确定单元，用于根据所述N个融合口音特征向量，确定所述N帧语音信号的发音识别结果。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至11中任一项所述的方法。

15.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至11中任一项所述的方法。