CN116825092B

CN116825092B - 语音识别方法、语音识别模型的训练方法及装置

Info

Publication number: CN116825092B
Application number: CN202311088656.9A
Authority: CN
Inventors: 殷绪成; 赖志豪; 张天昊; 魏丽芳; 陈松路; 陈�峰
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-01
Anticipated expiration: 2043-08-28
Also published as: CN116825092A

Abstract

本公开提供一种语音识别方法、语音识别模型的训练方法及装置，包括：获取待识别语音信号的初始局部语音特征和初始全局语音特征，基于初始全局语音特征，对初始局部语音特征表示待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于初始局部语音特征，对初始全局语音特征表示待识别语音信号的能力进行增强处理，得到目标全局语音特征，根据目标全局语音特征和目标局部语音特征确定待识别语音信号的语音文本，充分考虑了全局语音特征和局部语音特征之间的互补特征，避免了语音信息的丢失，提高了语音识别的准确性和可靠性。

Description

语音识别方法、语音识别模型的训练方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种语音识别方法、语音识别模型的训练方法及装置。

背景技术

随着深度学习的发展，语音识别技术取得了快速的进步和发展。目前语音识别成为许多应用领域的重要技术之一，包括智能家居、智能客服、语音助手、智能手机、车载语音交互等。它可以让计算机更好地理解人类语言，使得人机交互更加自然和高效，提高计算机系统的易用性。同时，它也可以帮助人们更好地理解语言，提高语言学习和交流的能力。

在相关技术中，可以采用提取待识别语音信号的全局语音特征或者局部语音特征，以基于全局语音特征或者局部语音特征确定待识别语音信号的语音文本。

然而，采用上述方法可能存在语音信息缺失，从而导致语音识别的准确性偏低的问题。

背景技术部分的内容仅仅是发明人个人所知晓的信息，并不代表上述信息在本公开申请日之前已经进入公共领域，也不代表其可以成为本公开的现有技术。

发明内容

本公开提供一种语音识别方法、语音识别模型的训练方法及装置，用以提高语音识别的准确性。

第一方面，本公开提供一种语音识别方法，包括：

获取待识别语音信号的初始局部语音特征和初始全局语音特征；

基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征；

基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征；

根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本。

在一些实施例中，基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征，包括：

对所述初始局部语音特征进行激活处理，得到交互权重；

基于所述交互权重，对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理，得到所述目标全局语音特征。

在一些实施例中，基于所述交互权重，对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理，得到所述目标全局语音特征，包括：

对所述初始全局语音特征进行逐点卷积，得到待交互全局语音特征；

对所述待交互全局语音特征与所述交互权重进行点乘，得到所述目标全局语音特征。

在一些实施例中，基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征，包括：

对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；

基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征。

在一些实施例中，所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的；

所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的。

在一些实施例中，根据所述目标全局语音特征和所述目标局部语音特征确定与所述待识别语音信号的语音文本，包括：

对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；

依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；

对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征；

对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征；

基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子，并根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征，并根据所述融合语音特征确定所述语音文本。

第二方面，本公开提供一种语音识别模型的训练方法，包括：

获取样本语音信号的初始局部语音特征和初始全局语音特征；

基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征；

基于所述初始局部语音特征，对所述初始全局语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标全局语音特征；

根据所述目标全局语音特征和所述目标局部语音特征预测所述待识别语音信号的预测语音文本，并根据所述预测语音文本与预设的语音文本真值生成语音识别模型。

第三方面，本公开提供一种语音识别装置，包括：

获取单元，用于获取待识别语音信号的初始局部语音特征和初始全局语音特征；

第一处理单元，用于基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征；

第二处理单元，用于基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征；

确定单元，用于根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本。

在一些实施例中，所述第二处理单元，包括：

第一激活子单元，用于对所述初始局部语音特征进行激活处理，得到交互权重；

第一交互子单元，用于基于所述交互权重，对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理，得到所述目标全局语音特征。

在一些实施例中，所述第一交互子单元，包括：

卷积模块，用于对所述初始全局语音特征进行逐点卷积，得到待交互全局语音特征；

点乘模块，用于对所述待交互全局语音特征与所述交互权重进行点乘，得到所述目标全局语音特征。

在一些实施例中，所述第一处理单元，包括：

第二激活子单元，用于对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；

第二交互子单元，用于基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征。

在一些实施例中，所述确定单元，包括：

拼接子单元，用于对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；

处理子单元，用于依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；

还原子单元，用于对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征；

聚合子单元，用于对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征；

第一确定子单元，用于基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子；

选取子单元，用于根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征；

第二融合子单元，用于根据所述融合语音特征确定所述语音文本。

第四方面，本公开提供一种语音识别模型的训练装置，包括：

获取单元，用于获取样本语音信号的初始局部语音特征和初始全局语音特征；

第一处理单元，用于基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征；

第二处理单元，用于基于所述初始局部语音特征，对所述初始全局语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标全局语音特征；

预测单元，用于根据所述目标全局语音特征和所述目标局部语音特征预测所述待识别语音信号的预测语音文本；

生成单元，用于根据所述预测语音文本与预设的语音文本真值生成语音识别模型。

第五方面，本公开提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的方法；或者，以实现如第二方面所述的方法。

第六方面，本公开提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行如上第一方面或第二方面所述的方法。

第七方面，本公开提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面或第二方面所述的方法。

本公开提供了一种语音识别方法、语音识别模型的训练方法及装置，包括：获取待识别语音信号的初始局部语音特征和初始全局语音特征，基于初始全局语音特征，对初始局部语音特征表示待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于初始局部语音特征，对初始全局语音特征表示待识别语音信号的能力进行增强处理，得到目标全局语音特征，根据目标全局语音特征和目标局部语音特征确定待识别语音信号的语音文本，在本实施例中，通过分别提取初始局部语音特征和初始全局语音特征，以对初始局部语音特征和初始全局语音特征进行交互，即基于初始局部语音特征增强初始全局语音特征的表示能力，基于初始全局语音特征增强初始局部语音特征的表示能力，以结合增强了表示能力后的全局语音特征（即目标全局语音特征）和局部语音特征（即目标局部语音特征）确定语音文本的技术特征，充分考虑了全局语音特征和局部语音特征之间的互补特征，避免了语音信息的丢失，提高了语音识别的准确性和可靠性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本公开一个实施例的语音识别方法的示意图；

图2为本公开一个实施例的语音识别方法的整体原理图；

图3为本公开另一实施例的语音识别方法的示意图；

图4为本公开一个实施例的语音识别方法的细节原理图；

图5为本公开实施例的语音识别方法的Transformer分支的原理示图；

图6为本公开实施例的语音识别模型的训练方法的示意图；

图7为本公开实施例的语音识别方法在AISHELL1数据集上与不同网络模型的识别性能对比示意图；

图8为本公开实施例的语音识别方法在Librispeech和Tedlium3数据集上与不同网络模型的识别性能对比示意图；

图9为本公开实施例的语音识别方法在BFIM模块的消融实验的示意图；

图10为本公开实施例的语音识别方法在不同的融合方式下的对比示意图；

图11为本公开实施例的语音识别装置的示意图；

图12为本公开实施例的语音识别模型的训练装置的示意图；

图13为本公开实施例的电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应该理解的是，本公开实施例中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本公开实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

本公开中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明（Unless otherwiseindicated）。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本公开实施例图示或描述中给出那些以外的顺序实施。

本公开中使用的术语“单元/模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

为便于读者对本公开地理解，现对本公开所涉及的至少部分术语解释如下：

人工智能（Artificial Intelligence，AI）技术，是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术。

深度学习（Deep Learning，DL）是机器学习（Machine Learning，ML）领域中一个子领域，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。

深度神经网络（Deep Neural Networks，DNN）是一种多层无监督神经网络，并且将上一层的输出特征作为下一层的输入进行特征学习，通过逐层特征映射后，将现有空间样本的特征映射到另一个特征空间，以此来学习对现有输入具有更好的特征表达。

端到端（end to end）是指从输入端到输出端会得到一个预测结果，将预测结果和真实结果（如真值）进行比较得到误差（如损失函数或损失值），将误差反向传播到网络模型的各个层之中，调整网络模型的权重和参数直到模型收敛或者达到预期的效果为止，中间所有的操作都包含在网络模型内部，不再分成多个模块处理。

相应的，端到端的模型是指由原始数据输入，到结果输出，从输入端到输出端，中间的网络模型自成一体（也可以当作黑盒子看待）。

语音识别是一种将人类的语音转换为计算机可读文本或者人类可读文本的技术，通常也被称作自动语音识别（Automatic Speech Recognition，ASR）。

在语音识别的实际应用中，语音识别受多种因素的影响，包括语音质量、环境噪声等，同时语音识别对语音信号的变化非常敏感，包括说话人、发音、语速、语调等因素的变化都会影响识别效果，因此，要准确地识别出语音信号（如语音序列）所对应的语音文本（如文本序列）仍是一个具有挑战性的任务。

传统的方法通常采用隐马尔科夫模型（Hidden Markov Model- GaussianMixture Model，HMM-GMM）或者深度学习神经网络（Deep-Learning Neural Network，DNN）模型，需要声学模型、语言模型、发音模型协同工作，这些模型需要分别进行训练和优化，且需要复杂的模型融合和调优算法，增加了系统的复杂度。

近年来，随着深度学习技术的发展，越来越多的研究者开始探索将深度学习应用于端到端的语音识别领域。相比于传统的语音识别方法，基于深度学习的端到端语音识别系统无需分别训练和优化多个模型，只需要训练一个模型即可实现从语音到文本的过程，节省了训练成本和开销，同时带来了更高的识别准确率和更低的延迟率。

在相关技术中，语音识别方法大致可以分为三类：一、基于卷积神经网络（Convolutional Neural Networks，CNNs）的方法，提取语音的局部特征；二、基于Transformer网络和基于循环神经网络（Recurrent Neural Networks，RNNs）的方法，提取语音的全局特征；三、基于CNNs网络和Transformer网络的方法，同时提取局部和全局特征。

其中，第一类方法使用基于CNNs的方法来提取语音的局部特征来进行语音识别，上下文（Contextnet）还考虑到由于CNNs的感受野受限，对于全局信息的提取效果不好，因此引入了压缩和激励模块（Squeeze-and-Excitation，SE），SE模块将局部特征的序列信息压缩为一个全局的上下文，然后将其广播到每个局部特征中，实现了局部和全局特征的浅交互。

第二类基于Transformer网络的方法则是利用注意力机制（attention）去捕获语音序列的长距离依赖信息，具体来说会计算每个语音帧与当前序列中所有语音帧的依赖关系构成注意力图，根据注意权重去计算全局的上下文信息，基于RNNs网络的方法同样会计算语音序列的全局特征，但是这种方法的计算方式是按照时间的长度串行进行，每个时间帧的计算都会依赖过去的隐藏状态来捕获对当前时间帧的依赖，受长期依赖的困扰，因此不如Transformer网络并行计算效率高，效果好。基于Transformer网络以及RNNs网络的方法都存在一个问题，那就是对于细粒度的局部特征提取效果不好，容易忽略语音的边界信息。

第三类方法则是将局部与全局特征提取模块进行简单组合，如将在Transformer网络的基础上加入卷积神经网络，在提取全局特征的基础上进一步提取语音的局部特征，从而实现语音的局部和全局特征的提取。局部特征和全局特征对于ASR任务来说都起着关键作用，全局特征主要影响的是上下文的语义信息，对于语音的一些同音不同字，比如青涩和青色，植物和职务，白鹿和白露等等，都需要在识别过程中结合上下文信息去识别，而对于局部特征则是对应于语音的一些边界信息，一个发音单元是由多个相邻的语音帧构成的，忽略这些边界信息会导致语音识别的准确率下降，因此语音的局部和全局信息是存在潜在的信息互补特性的，需要构建两者之间的信息交互，才能提高语音识别的准确率，只是进行简单的模块组合会丢失掉部分全局上下文信息以及局部的边界信息，导致模型性能的下降，识别准确率的降低。

值得说明的是，上述相关技术的内容仅仅是发明人个人所知晓的信息，并不代表上述信息在本公开申请日之前已经进入公共领域，也不代表其可以成为本公开的现有技术。

本公开发明人创造性地发现，采用上述相关技术中的技术方案进行语音识别，忽视了局部特征与全局特征的互补特性，导致了潜在语音信息的丢失，同时缺乏衡量局部特征与全局特征重要性的手段，导致不能有效地融合局部特征和全局特征息，造成语音识别的字错误率升高的问题。

为了避免上述技术问题中的至少一种，本公开提出了创造性的技术构思：分别获取待识别语音信号的局部语音特征（可以简称为局部特征）和全局语音特征（可以简称为全局特征），对局部语音特征和全局语音特征进行交互，以结合局部语音特征增强全局语音特征表示待识别语音信号的能力（可以简称为表示能力），结合全局语音特征增强局部语音特征的表示能力，并对增强了表示能力后的全局语音特征和增强了表示能力后的局部语音特征进行动态地融合，得到融合特征，并基于融合特征确定待识别语音信号的语音文本。

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，并不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

请参阅图1，图1为本公开一个实施例的语音识别方法的示意图，如图1所示，该方法包括：

S101：获取待识别语音信号的初始局部语音特征和初始全局语音特征。

本实施例的执行主体可以为语音识别装置，语音识别装置可以为服务器（如本地服务器，或者云端服务器），可以为终端设备，可以为计算机，可以为处理器，也可以为芯片，等等，本实施例不做限定。

结合上述分析可知，本实施例的语音识别方法可以应用于不同的应用场景，针对不同的应用场景，语音识别装置的产品形式可能不同。例如，若应用场景为智能家居，则语音识别装置可能为智能家用电器，如电视遥控等；若应用场景为智能客服，则语音识别装置可以为提供智能服务的计算机；若应用场景为导航，则语音装置为支持车载语音交互的车载终端，等等，此处不再一一列举。

本实施例对语音识别装置获得初始局部语音特征和初始全局语音特征的方式不做限定。例如，结合上述分析可知，语音识别装置可以基于预先训练的语音识别模型获得初始局部语音特征和初始全局语音特征。

示例性的，结合图2的左边（以读者观看图2的视角为基准）部分可知，待识别语音信号可以通过规格扩展（如图2中所示的“SpecAugment”）进行数据增广，以增加待识别语音信号的多样性，然后利用卷积层进行下采样（如图2中所示的“卷积下采样”）以降低时间维度，以减少语音识别模型的计算量，之后过一个线性层进行特征映射，最后通过N（N为大于1的整数）个交互模块（如图2中所示的“Interformer”）输出最后的语音特征表示，最终基于语音特征表示得到语音文本。其中，语音识别模型可以包括如图2的左边部分的各组件。

结合图2的右边部分可知，Interformer可以包括两个前馈层（也可以称为前馈网络（Feed Forward Network，FFN））、Transformer分支（也可以称为Transformer模块）、卷积分支（即CNN分支，也可以称为卷积神经网络模块）、选择性聚变模块（Selective FusionModule，SFM，如图2中所示的“SFM”）。

其中，卷积分支可以用于提取待识别语音信号的局部细粒度的语音特征，相当于提取待识别语音信号的边界信息，如捕获发音边界，从而获得初始局部语音特征。Transformer分支可以用于提取待识别语音信号的语音序列的上下文依赖信息，从而获得初始全局语音特征。

S102：基于初始全局语音特征，对初始局部语音特征表示待识别语音信号的能力进行增强处理，得到目标局部语音特征。

S103：基于初始局部语音特征，对初始全局语音特征表示待识别语音信号的能力进行增强处理，得到目标全局语音特征。

结合上述示例和图2，Transformer分支和卷积分支之间包括两个方向的特征交互的“桥梁”，一个是由卷积分支至Transformer分支的局部（Local）到（to）全局（Global）方向（如图2所示的“L2G方向”），一个是由Transformer分支至卷积分支的全局到局部方向（如图2所示的“G2L方向”）。

相应的，卷积分支可以基于L2G方向将初始局部语音特征传输给Transformer分支，以对Transformer分支的初始全局语音特征的表示能力进行增强，得到增强表示能力后的全局特征（即目标全局语音特征）。Transformer分支可以基于G2L方向将初始全局语音特征传输给卷积分支，以对卷积分支的初始局部语音特征的表示能力进行增强，得到增强表示能力后的局部特征（即目标局部语音特征）。

S104：根据目标全局语音特征和目标局部语音特征确定待识别语音信号的语音文本。

结合上述示例和图2，Transformer分支可以将目标全局语音特征传输给SFM，卷积分支可以将目标局部语音特征传输给SFM，SFM可以对目标全局语音特征和目标局部语音特征进行融合，得到融合特征，并将融合特征传输给前馈层，由前馈层进行处理后输出最终的特征（如图2中所示的“输出特征”），以基于该最终的特征确定语音文本。

基于上述分析可知，本公开提供了一种语音识别方法，包括：获取待识别语音信号的初始局部语音特征和初始全局语音特征，基于初始全局语音特征，对初始局部语音特征表示待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于初始局部语音特征，对初始全局语音特征表示待识别语音信号的能力进行增强处理，得到目标全局语音特征，根据目标全局语音特征和目标局部语音特征确定待识别语音信号的语音文本，在本实施例中，通过分别提取初始局部语音特征和初始全局语音特征，以对初始局部语音特征和初始全局语音特征进行交互，即基于初始局部语音特征增强初始全局语音特征的表示能力，基于初始全局语音特征增强初始局部语音特征的表示能力，以结合增强了表示能力后的全局语音特征（即目标全局语音特征）和局部语音特征（即目标局部语音特征）确定语音文本的技术特征，充分考虑了全局语音特征和局部语音特征之间的互补特征，避免了语音信息的丢失，提高了语音识别的准确性和可靠性。

为使读者更加深刻地理解本公开的实现原理，现结合图3对本公开的语音识别方法进行详细阐述，如图3所示，该方法包括：

S301：获取待识别语音信号的初始局部语音特征和初始全局语音特征。

应该理解的是，为了避免繁琐地陈述，关于本实施例与上述示例中相同的技术特征，本实施例不再赘述。例如，关于本实施例的执行主体，可以参见上述实施例地描述，等等。

在一些实施例中，初始全局语音特征是依次对待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的。

初始局部语音特征是依次对待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的。

示例性的，如图4所示，卷积分支（如图4所示的“CNN分支”）包括：双向特征交互模块（Bidirectional Feature Interaction Module，BFIM，如图4中所示的“BFIM（CNN）”）、深度卷积（Depthwise Convolution）、批规范化（BatchNorm，BN，如图4中所示的“BatchNorm”）、动态激活函数（dynamic ReLU，如图4中所示的“动态ReLU”）、逐点卷积。

Transformer分支包括：归一化（LayerNorm，LN，如图4中所示的“LayerNorm”）、相对位置编码（图4中未示出）、多头注意力（如图4所示的“多头自注意”）、BFIM（如图4中所示的“BFIM（Transformer）”）。

结合上述示例和图2，待识别语音信号经过线性层进行特征映射后得到输入特征，输入特征被输入至如图4左侧的前馈层（如图4中左侧所示的“Feed-forward Network”），前馈层的输出连接CNN分支的输入，也连接Transformer分支的输入。

相应的，如图4所示，输入特征依次经过Feed-forward Network、BFIM（CNN）、深度卷积、BatchNorm、动态ReLU、逐点卷积，得到初始局部语音特征。输入特征依次经过Feed-forward Network、LayerNorm、相对位置编码（图4中未示出）、多头自注意、BFIM（Transformer），得到初始全局语音特征。

其中，在如图4所示的LayerNorm与多头自注意之间可以包括相对位置编码（Relative Positional Encoding，RPE），相对位置编码标注每一个语音帧的位置信息，以此帮助多头自注意更好地提取全局上下文信息。

在本实施例中，通过结合如图4所示的方式获取初始局部语音特征和初始全局语音特征，可以使得获得的语音特征具有较高的有效性和可靠性。

在一些实施例中，前馈层可以包括：归一化、两层线性变换、激活函数、退出（Dropout）函数。其中，归一化为第一层，归一化的输出与一个线性层的输入连接，该线性层的输出与激活函数的输入连接，激活函数的输出与另一个线性层的输入连接，另一个线性层的输出与Dropout函数的输入连接。激活函数可以为非线性的Swish激活函数（Swishactivation）。Dropout函数用于防止过拟合，规范化网络。

前馈层的处理可以通过式1表示，式1：

其中，为前馈层的输入，为前馈层的输出，和为两次线性变换，和为前馈层的两次线性变换参数（预设），和为前馈层的偏置参数（预设），为前馈层的特征维度（预设），和为卷积分支和Transformer分支各自对应的特征维度（预设）。

在一些实施例中，可以对前馈层的输出进行处理，得到处理后的特征，以进一步提高输入至卷积分支和Transformer分支的输入特征的有效性和可靠性。

示例性的，对前馈层的输出进行处理可以通过式2表示，得到处理后的特征，式 2：

其中，为前馈层的输入，为前馈层的输出。

S302：对初始局部语音特征进行激活处理，得到交互权重。

结合上述分析和图4，BFIM（Transformer）的输入包括两部分的内容，一部分的内容为多头自注意的输出，即初始全局语音特征，另一部分的内容为逐点卷积的输出，即初始局部语音特征，初始局部语音特征充当着门控的作用来影响初始全局语音特征。

示例性的，当前的门控信息（即初始局部语音特征）经过激活函数（如Sigmoid激活函数）可以得到交互权重，交互权重可以表征初始全局语音特征影响初始全局语音特征的激活参数。

S303：基于交互权重，对初始局部语音特征和初始全局语音特征进行特征交互处理，得到目标全局语音特征。

结合上述分析，在语音识别装置得到交互权重之后，语言识别装置可以根据交互权重对得到的两个维度（局部维度和全局维度）的语音特征进行特征交互，以提高目标全局语音特征的有效性和可靠性。

在一些实施例中，S303可以包括如下步骤：

第一步骤：对初始全局语音特征进行逐点卷积，得到待交互全局语音特征。

第二步骤：对待交互全局语音特征与交互权重进行点乘，得到目标全局语音特征。

示例性的，结合上述示例、图4、图5可知，Transformer分支得到的初始全局语音特征，BFIM（Transformer）可以包括逐点卷积（如图5中所示的“逐点卷积”），因此，初始全局语音特征经过逐点卷积之后，可以将接收（如图5中所示的“接收”）到的来自卷积分支（如图5所示的CNN分支）的初始局部语音特征作为门控（如图5中所示的“门控”），并将初始全局语音特征和初始局部语音特征进行拼接（如图5中所示的“拼接”），而后与交互权重进行点乘（如图5中所示的“”），从而实现局部特征与全局特征在全局特征维度的交互（如图5中所示的“交互”），以得到交互后的全局语音特征（即目标全局语音特征）。

在一些实施例中，目标全局语音特征可以通过式3表示，式3：

其中，为初始全局语音特征，，为语音序列长度，为逐点卷积，为所属的特征维度（预设），为的偏置参数（预设），为 Sigmoid激活函数，为初始局部语音特征，为所属的特征维度（预设），为点乘。

在本实施例中，语音识别装置通过逐点卷积和点乘的方式实现初始全局语音特征与初始局部语音特征之间的交互，以得到目标全局语音特征，可以全局特征和局部特征的互补，增强目标全局语音特征的表示能力，从而提高语音识别的准确性和可靠性。

S304：对初始全局语音特征进行动态激活处理，得到对初始全局语音特征和初始局部语音特征进行交互处理的作用域。

示例性的，结合上述示例和图4，CNN分支中的BFIM（CNN）的输入包括两部分的内容，一部分的内容为CNN分支中的输出，即初始全局语音特征，另一部分的内容为来自Transformer分支中的多头自注意的输出，即初始全局语音特征，初始全局语音特征充当门控的作用于初始局部语音特征进行交互。

在一些实施例中，目标局部语音特征可以基于式4表示，式4：

其中，为初始局部语音特征，为逐点卷积，为的偏置参数（预设），为Sigmoid激活函数，为点乘。

在一些实施例中，语音识别装置可以将初始全局语音特征作为动态Relu激活函数的参考因子，动态调整分段线性激活函数，局部与全局信息的交互过程是一种动态变化的过程，使用传统的静态激活函数无法作用于动态变化的局部特征，因此对全局特征应用以下函数映射到-1到1的区间，指导动态Relu激活函数的作用域（如图4所示的“”）。

在一些实施例中，作用域可以基于式5表示，式5：

其中，和为两次线性变换，和表示两次线性变换各自对应的参数（预设），表示的是Relu激活函数。

S305：基于作用域，对初始全局语音特征和初始局部语音特征进行交互处理，得到目标局部语音特征。

在本实施例中，通过先基于初始全局语音特征确定作用域，以在作用域的基础上对全局特征和局部特征进行交互，从而得到目标局部语音特征，可以进一步探索全局特征的作用，实现更好的交互，即可以提高目标全局语音特征的有效性和可靠性，从而提高语音识别的准确性。

S306：对目标全局语音特征和目标局部语音特征进行拼接处理，得到拼接语音特征。

示例性的，结合上述分析和图4，语音识别模型还可以包括SFM，语音识别装置可以基于SFM执行S306至S310直至得到S310中的融合语音特征，即SFM的输入为CNN分支的输出（目标局部语音特征）和Transformer分支（目标全局语音特征），输出为融合语音特征。

在一些实施例中，拼接语音特征可以基于式6表示，式6：

其中，为目标局部语音特征，为目标全局语音特征，为所属的维度信息（预设），为所属的维度信息（预设），为所属的维度信息（预设），为拼接处理。

S307：依次对拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征。

示例性的，语音识别特征在时间维度（即式6中的）上对拼接语音特征计算其每一行的平均值（即平均值计算），之后是一个线性层（即线性处理）和Relu激活函数（即激活处理）降低通道维度，以得到更好的效能的降低通道维度的语音特征。

在一些实施例中，降低通道维度的语音特征可以基于式7表示，式7：

其中，为Relu激活函数，为时间维度，为线性处理，为所属的维度信息（预设）。

S308：对降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征。

示例性的，语音识别装置可以通过两个线性层对进行映射，以将其恢复到原始的维度，即语音识别装置可以通过一个线性层对降低通道维度的语音特征分别进行局部特征维度的映射，以对其进行原始维度的还原，得到还原后的局部语音特征，也可以通过另一个线性层对降低通道维度的语音特征分别进行全局特征维度的映射，以对其进行原始维度的还原，得到还原后的全局语音特征。

S309：对还原后的局部语音特征和还原后的全局语音特征进行聚合，得到聚合语音特征。

结合上述分析和图4，S306-S309可以理解为如图4所示的“特征聚合”。

在一些实施例中，聚合语音特征可以基于式8表示，式8：

其中，为聚合，为还原后的全局语音特征，为通过线性层对进行全局特征维度的映射，为所属的维度信息（预设），为还原后的全局语音特征，为通过线性层对进行全局特征维度的映射，为所属的维度信息（预设）。

S310：基于注意力机制从聚合语音特征中确定用于语音特征选择的选择性因子，并根据选择性因子从拼接语音特征中选取得到融合语音特征，并根据融合语音特征确定语音文本。

结合上述分析和图4，语音识别装置在SFM中引入了注意力机制（如注意力权重的竞争机制），以获得选择性因子，并基于选择性因子进行如图4所示的“加权选择”，从而基于加权选择得到的特征进行融合（如图4所示的“融合”），得到融合语音特征。

示例性的，语音识别装置可以通过Softmax函数引入注意力权重的竞争机制，这对于选择性地获取重要因子十分关键，即语音识别装置可以使用Softmax函数确定选择性因子α，它可以从局部和全局两个维度选择适当的语音特征来进行融合。

在一些实施例中，融合语音特征可以基于式9表示，式9：

其中，为Softmax函数，为聚合语音特征，为点乘，为拼接语音特征。

值得说明的是，在一些实施例中，语音识别装置可以对目标全局语音特征和目标局部语音特征进行相加，或者，在通道维度上对目标全局语音特征和目标局部语音特征进行拼接在通过一个线性层进行融合，从而得到融合语音特征，但是，该类方法没有办法突出目标全局语音特征和目标局部语音特征各自对应的重要程度，不能进行动态调整，导致融合得到的融合语音特征丢失一部分信息，而在本实施例中，通过结合SFM，以根据注意力权重去选择对应的局部特征和全局特征进行融合，可以避免信息丢失，提高融合语音特征的丰富性和可靠性，从而可以提高语音识别的准确性。

在一些实施例中，结合上述示例和图4，SFM还可以包括SE模块（如图4中所示的“SE”），以基于SE模块对融合语音特征进行进一步的特征提取，从而进一步提高特征提取的有效性和可靠性。

相应的，如图4所示，SE模块的输出与图4右侧的前馈层（如图4中右侧所示的“Feed-forward Network”），以通过该前馈层输出最终的语音特征（如图4中所示的“输出特征”）。

基于上述分析可知，语音识别装置可以基于语音识别模型对待识别语音信号进行语音识别，得到待识别语音信号的语音文本，相应的，本公开的另一方面提供了一种语音识别模型的训练方法。请参阅图6，图6为本公开实施例的语音识别模型的训练方法的示意图，如图6所示，该方法包括：

S601：获取样本语音信号的初始局部语音特征和初始全局语音特征。

S602：基于初始全局语音特征，对初始局部语音特征表示样本待识别语音信号的能力进行增强处理，得到目标局部语音特征。

S603：基于初始局部语音特征，对初始全局语音特征表示样本待识别语音信号的能力进行增强处理，得到目标全局语音特征。

S604：根据目标全局语音特征和目标局部语音特征预测待识别语音信号的预测语音文本，并根据预测语音文本与预设的语音文本真值生成语音识别模型。

同理，本实施例的执行主体可以为语音识别模型的训练装置（下文简称为训练装置），训练装置可以为服务器（如本地服务器，或者云端服务器），可以为终端设备，可以为计算机，可以为处理器，也可以为芯片，等等，本实施例不做限定。

其中，训练装置与语音识别装置可以为相同的装置，也可以为不同的装置，若为不同的装置，则训练装置与语音识别装置之间具有通信链路，训练装置在训练得到语音识别模型之后，可以通过该通信链路将语音识别模型传输给语音识别装置。

由于该实施例涉及的为语音识别模型的训练过程，而上述实施例涉及的为语音识别模型的应用过程，相对而言，训练过程的原理与应用过程的原理类似，所以，关于本实施例中S601至S604中直至得到预测语音文本的实现原理，可以参见上述示例，此处不再赘述。

相应的，由于本实施例涉及的训练过程，而训练过程通常表现为迭代优化的过程，如在训练装置得到预测语音文本之后，可以将预测语音文本与语音文本真值进行比对，比得到两者之间的差异（如损失），并基于差异调整基础网络模型，直至得到差异较小（如满足预设的需求）或者迭代次数达到预设阈值。

在一些实施例中，可以基于联结主义时间分类（Connectionist TemporalClassification，CTC）确定损失，也可以基于注意力机制（attention）确定损失，但是，CTC的条件独立性假设，其假设每个时刻的输出概率是独立的，没有考虑到上下文信息，所以会导致准确率的下降，而attention则通过注意力机制对音频输入的各帧进行联合建模，考虑到了上下文的信息，与CTC正好相反，因此，本实施例结合CTC和attention各自对应的特点确定损失，以利用两种机制各自优点和差异来实现更鲁棒的识别效果。

示例性的，结合CTC和attention的损失可以基于式10表示，式10：

其中，是可调节的参数，如可以为0.3，为CTC的目标函数（即CTC的损失），为attention的目标函数（即attention的损失），为CTC的预测语音文本，为attention的预测语音文本，为语音文本真值。

为使读者进一步理解基于本公开的语音识别方法所带来的效果，本公开结合实验情况进行说明：

第一数据集为ASR领域中常用的中文语音数据集（AISHELL1）总共178小时，400个人讲，其中训练集340个人，测试解20个人，验证集40个人。AISHELL1录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1千兆赫兹（kHz），16-字节（bit））；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。高保真麦克风录制的音频降采样为16kHz，用于制作AISHELL1。400名来自不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在95%以上。我们使用该数据集的训练集、验证集以及测试机进行训练与测试，评估我们的模型在中文数据集上的效果。

第二数据集为包含文本和语音的有声读物数据集（LibriSpeech）大约1000小时的16kHz读取英语演讲的语料库。数据来源于阅读有声读物，并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件。该数据集的训练数据被分成3个分区（具体可以基于需求等划分），而开发和测试数据则分别被分成“干净”和“其他”类别，是目前ASR领域最常用的一个英文数据集。

第三数据集是一个收集自TED演讲的音频数据集（Tedlium3），它包含2351个NISTsphere format（SPH）格式的演讲音频，其中包括来自英语演讲（TED-LIUM 2），但是不相同的演讲音频，共包含452小时的音频文件以及2351个以文件扩展名（STM）格式对齐的自动转录文件。

上述三种数据集都包含语音、对应说话人以及对应语音文本标注的信息。

在本实施例中，可以采用语音识别领域常用的错误率作为性能评估的指标。如因为英文语句中句子的最小单位是单词，而中文语句中的最小单位是汉字，所以对于中文数据集采用的是字错误率，而对于英文数据集则采用的是单词错误率。错误率是一项用于评价ASR性能的重要指标，用来评价预测文本与标准文本之间错误率，因此错误率越小越好。

本实施例的实验可以在一个语音开源框架（ESPnet）下进行部署和训练的，在语音特征提取阶段，使用Kaldi框架提取原始音频的滤波器组的特征（FilterBank，Fbank）特征，在声学前端处理阶段，使用SpecAugment和速度扰动（Speed Perturbation），对于英文集，由于其数据量过大，所有没有对它们使用速度扰动，对于不同的数据集我们调整不同的注意力集中（attention head）的数量、attention的维度、隐藏节点（hidden size）以及编码器（encoder）和解码器（decoder）的数量以取得更好的识别效果。

本公开对于中文数据集利用优化器（Adam）训练50轮，对于英文数据集则训练100 轮，动量参数分别设置为0.9和0.98。训练批量（Batch Size）设置为32，权重衰减（Weight Decay）设置为，同时标签平滑（label smoothing）设置为0.1，dropout大小设置为 0.1去避免过拟合。所有的实验均在两块显卡（2080ti）上进行。

如图7所示，在AISHELL1数据集（如图7中所示的“AISHELL1”）上，本公开的语音识别模型（如图7中所示的“Interformer”）相比于Conformer模型（如图7中所示的“Conformer”）提升了0.2%，在验证集和测试集上分别实现了4.4%和4.9%的字符错误率，且相较于Citrinet模型（如图7中所示的“Citrinet”）和Transformer模型（如图7中所示的“Transformer”）也有相应的提升。

如图8所示，本公开的语音识别模型（如图8中所示的“Interformer”）在Librispeech数据集（如图8中所示的“Librispeech”）的测试集“test”和其他测试集“test-other”（如图8中所示的“test/test-other”）上相比于Transformer模型（如图8中所示的“Transformer”）和Conformer模型（如图8中所示的“Conformer”）分别取得了0.5%/1.5%以及0.4%/0.2%的提升。在Tedlium3数据集（如图8中所示的“Tedlium3”）上在测试集（如图8中所示的“test”）上达到了9.5的单词错误率，同样要优于Transformer模型（如图8中所示的“Interformer”）以及Conformer模型（如图8中所示的“Conformer”）。

在一些实施例中，可以通过消融实验来验证本公共提出的交互模块和选择性融合模块的有效性。

如图9所示，在AISHELL1数据集（如图9中所示的“AISHELL1”）的试验中可以将卷积分支和Transformer分支并行化处理，然后加入不同的交互组件，分别为L2G方向（如图9中所示的“交互方向”下的“L2G”）和G2L方向（如图9中所示的“交互方向”下的“G2L”）以及同时加入L2G方向和G2L方向。结果显示不管是L2G方向还是G2L方向的交互均对语音识别模型性能有显著提高，同时也表明本公开提出的BFIM模块为卷积分支和Transformer分支提供了重要的特征补充信息，带来了显著性能的提高。

在一些实施例中，可以通过不同的融合方式在是否交互的场景中（如图10中所示的“是否交互”）对语音识别模型的效果的影响进行试验。

如图10所示，融合方式的方法包括如图10中所示的“Conformer”、“双分支直接相加”、“双分支拼接”、“SFM（InterFormer）”。结合图10可知，相对而言，本公开提出的选择性融合模块（SFM）要比拼接（concatenation）以及直接相加（direct addition）的效果要更好。

结合上述示例和试验分析可知，相较于相关技术中的端到端的语音识别方法要么只关注语音的局部特征，要么只关注语音的全局上下文特征，而缺乏语音的局部特征会导致语音识别模型对于语音的边界信息识别出错，而缺乏全局特征则会导致模型缺乏上下文信息，对于一些同音不同字的语音识别效果差，虽然也有语音识别模型开始考虑将局部和全局信息进行结合来提升语音识别模型的表示能力，但是这些方法在结合过程中忽略了局部特征和全局特征的内在互补特性，丢失了一部分潜在的语音信息，而且缺乏两种特征之间的重要性衡量方法，导致局部和特征全局特征不能有效融合，而本公开提出了一个BFIM模块，用于构建卷积分支和Transformer分支的桥梁，分别为两个分支提供补充的特征信息，实现两者信息的交互，在此基础上，本公开还提出了一个选择性融合模块SFM用于将局部特征和全局特征进行高效融合，结合实验表明，所提出的语音识别方法在中文和英语的语音识别数据集上都有良好的表现。

根据本公开的另一个方面，本公开还提供了一种语音识别装置。请参阅图11，图11为本公开实施例的语音识别装置的示意图，如图11所示，语音识别装置1100包括：

获取单元1101，用于获取待识别语音信号的初始局部语音特征和初始全局语音特征；

第一处理单元1102，用于基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征。

在一些实施例中，所述第一处理单元1102，包括：

第二激活子单元，用于对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域。

第二处理单元1103，用于基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征。

在一些实施例中，所述第二处理单元1103，包括：

第一激活子单元，用于对所述初始局部语音特征进行激活处理，得到交互权重。

在一些实施例中，所述第一交互子单元，包括：

卷积模块，用于对所述初始全局语音特征进行逐点卷积，得到待交互全局语音特征。

确定单元1104，用于根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本。

在一些实施例中，所述确定单元1104，包括：

拼接子单元，用于对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征。

处理子单元，用于依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征。

还原子单元，用于对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征。

聚合子单元，用于对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征。

第一确定子单元，用于基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子。

选取子单元，用于根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征。

根据本公开的另一个方面，本公开还提供了一种语音识别模型的训练装置。请参阅图12，图12为本公开实施例的语音识别模型的训练装置的示意图，如图12所示，语音识别模型的训练装置1200，包括：

获取单元1201，用于获取样本语音信号的初始局部语音特征和初始全局语音特征。

第一处理单元1202，用于基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征。

第二处理单元1203，用于基于所述初始局部语音特征，对所述初始全局语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标全局语音特征。

预测单元1204，用于根据所述目标全局语音特征和所述目标局部语音特征预测所述待识别语音信号的预测语音文本。

生成单元1205，用于根据所述预测语音文本与预设的语音文本真值生成语音识别模型。

本公开的技术方案中，所涉及的用户个人信息（如语音信号）的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器（ROM）1302中的计算机程序或者从存储单元1308加载到随机访问存储器（RAM）1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出（I/O）接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如语音识别方法、语音识别模型的训练方法。例如，在一些实施例中，语音识别方法、语音识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的语音识别方法、语音识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行语音识别方法、语音识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机可执行指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中，使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

获取待识别语音信号的初始局部语音特征和初始全局语音特征，所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的，所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的；

基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征，包括：对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征；

根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本，在根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本时，包括：对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征；对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征；基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子，并根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征，并根据所述融合语音特征确定所述语音文本。

2.根据权利要求1所述的方法，其特征在于，基于所述初始局部语音特征，对所述初始全局语音特征表示所述待识别语音信号的能力进行增强处理，得到目标全局语音特征，包括：

对所述初始局部语音特征进行激活处理，得到交互权重；

3.根据权利要求2所述的方法，其特征在于，基于所述交互权重，对所述初始局部语音特征和所述初始全局语音特征进行特征交互处理，得到所述目标全局语音特征，包括：

4.一种语音识别模型的训练方法，其特征在于，所述方法包括：

获取样本待识别语音信号的初始局部语音特征和初始全局语音特征，所述初始全局语音特征是依次对所述样本待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的，所述初始局部语音特征是依次对所述样本待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的；

基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征，包括：对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征；

根据所述目标全局语音特征和所述目标局部语音特征预测所述样本待识别语音信号的预测语音文本，并根据所述预测语音文本与预设的语音文本真值生成语音识别模型，在根据所述目标全局语音特征和所述目标局部语音特征预测所述样本待识别语音信号的预测语音文本时，包括：对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征；对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征；基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子，并根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征，并根据所述融合语音特征确定所述预测语音文本。

5.一种语音识别装置，其特征在于，包括：

获取单元，用于获取待识别语音信号的初始局部语音特征和初始全局语音特征，所述初始全局语音特征是依次对所述待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的，所述初始局部语音特征是依次对所述待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的；

第一处理单元，用于基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于所述初始全局语音特征，对所述初始局部语音特征表示所述待识别语音信号的能力进行增强处理，得到目标局部语音特征，包括：对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征；

确定单元，用于根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本，在根据所述目标全局语音特征和所述目标局部语音特征确定所述待识别语音信号的语音文本时，包括：对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征；对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征；基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子，并根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征，并根据所述融合语音特征确定所述语音文本。

6.一种语音识别模型的训练装置，其特征在于，包括：

获取单元，用于获取样本待识别语音信号的初始局部语音特征和初始全局语音特征，所述初始全局语音特征是依次对所述样本待识别语音信号进行前馈特征提取、归一化、相对位置编码、多头注意力处理得到的，所述初始局部语音特征是依次对所述样本待识别语音信号进行前馈特征提取、深度卷积、批规范化、逐点卷积处理得到的；

第一处理单元，用于基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征，基于所述初始全局语音特征，对所述初始局部语音特征表示所述样本待识别语音信号的能力进行增强处理，得到目标局部语音特征，包括：对所述初始全局语音特征进行动态激活处理，得到对所述初始全局语音特征和所述初始局部语音特征进行交互处理的作用域；基于所述作用域，对所述初始全局语音特征和所述初始局部语音特征进行交互处理，得到所述目标局部语音特征；

预测单元，用于根据所述目标全局语音特征和所述目标局部语音特征预测所述样本待识别语音信号的预测语音文本，在根据所述目标全局语音特征和所述目标局部语音特征预测所述样本待识别语音信号的预测语音文本时，包括：对所述目标全局语音特征和所述目标局部语音特征进行拼接处理，得到拼接语音特征；依次对所述拼接语音特征进行平均值计算、线性处理、激活处理，得到降低通道维度的语音特征；对所述降低通道维度的语音特征分别进行局部特征维度和全局特征维度的还原，得到还原后的局部语音特征和还原后的全局语音特征；对所述还原后的局部语音特征和所述还原后的全局语音特征进行聚合，得到聚合语音特征；基于注意力机制从所述聚合语音特征中确定用于语音特征选择的选择性因子，并根据所述选择性因子从所述拼接语音特征中选取得到融合语音特征，并根据所述融合语音特征确定所述预测语音文本；

7.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-3中任一项所述的方法。

8.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求4所述的方法。