CN114495903A

CN114495903A - 一种语言类别识别方法、装置、电子设备和存储介质

Info

Publication number: CN114495903A
Application number: CN202111571820.2A
Authority: CN
Inventors: 许云飞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-05-13

Abstract

本公开关于一种语言类别识别方法、装置、电子设备和存储介质，该方法可以获取待处理语音信息对应的语音特征信息，将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，第一语言特征信息表征待处理语音信息的上下文特征信息，基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。该方法可以在对语音特征信息进行动态特征扩展时，扩展到语音特征信息的上下文信息，使得动态扩展网络在进行特征提取时，可以提取到语音特征信息以及语音特征信息相关的上下文中的第一语言特征信息，从而提高了第一语言特征信息的区分性，以及语言识别的有效性。

Description

一种语言类别识别方法、装置、电子设备和存储介质

技术领域

本公开涉及语言识别技术领域，尤其涉及一种语言类别识别方法、装置、电子设备和存储介质。

背景技术

语言类别识别是指从一段说话语音中识别出语种的类别或方言的类别，如日语、韩语、普通话、粤语等。语言类别识别技术的应用非常广泛，不仅可以作为多语言语音识别和多语言翻译系统的前端预处理模块，也可以用于定向广告和生物特征验证。近年来，随着深度学习技术的兴起，语种识别在工业界和学术界都得到广泛的关注。相关技术中，将语音特征信息先通过帧级别的网络模块，然后经过池化层得到段级别的语言特征，经过线性层通道维度整合后再进行分类，得到语言类别，其中，帧级别的网络模型得到的语言特征较为单一，从而导致不同的语言特征信息之间的区分性不明显。

发明内容

本公开提供一种语言类别识别方法、装置、电子设备和存储介质，以至少解决相关技术中不同的语言特征信息之间的区分性不明显的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语言类别识别方法，所述方法包括：

获取待处理语音信息对应的语音特征信息；

将所述语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，所述第一语言特征信息表征所述待处理语音信息的上下文特征信息；

基于所述第一语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别。

作为一个可选的实施例，所述动态扩展网络包括注意力计算层和动态扩展层，所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息包括：

将所述语音特征信息输入到所述注意力计算层中进行注意力计算，得到注意力特征信息；

将所述语音特征信息和所述注意力特征信息输入到所述动态扩展层中进行动态特征扩展，得到所述第一语言特征信息。

作为一个可选的实施例，所述动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，所述将所述语音特征信息和所述注意力特征信息输入到所述特征扩展层中进行动态特征扩展，得到所述第一语言特征信息包括：

将所述语音特征信息和所述注意力特征信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息对所述语音特征信息和所述注意力特征信息进行特征扩展，得到至少一个特征扩展结果，所述每个特征扩展结果对应的特征扩展程度不同；

将所述至少一个特征扩展结果输入到所述特征融合层中进行特征融合，得到所述第一语言特征信息。

作为一个可选的实施例，所述动态扩展网络为按序排列的多个扩展网络，所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息包括：

在当前扩展网络为第一个扩展网络的情况下，将所述语音特征信息输入到所述第一个扩展网络中进行动态特征扩展，得到所述第一个扩展网络对应的语言特征信息，所述当前扩展网络为每一次执行特征扩展的扩展网络；

在所述当前扩展网络为非第一个扩展网络的情况下，将所述当前扩展网络对应的上一语言特征信息，输入到所述当前扩展网络中进行动态特征扩展，得到所述当前扩展网络对应的语言特征信息；

基于每一个扩展网络对应的语言特征信息，得到第二语言特征信息。

所述基于所述第一语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别包括：

基于所述第二语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别。

作为一个可选的实施例，所述扩展网络包括注意力计算层和动态扩展层，所述动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，所述将所述当前扩展网络对应的上一语言特征信息，输入到所述当前扩展网络中进行动态特征扩展，得到所述当前扩展网络对应的第一语言特征信息包括：

将所述上一语言特征信息输入到所述注意力计算层中进行注意力计算，得到语言注意力信息；

将所述上一语言特征信息和所述语言注意力信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息，对所述上一语言特征信息和所述语言注意力特征信息进行特征扩展，得到至少一个当前动态扩展结果，所述每个当前动态扩展结果对应的特征扩展程度不同；

将所述至少一个当前动态扩展结果输入到所述特征融合层中进行特征融合，得到所述当前扩展网络对应的语言特征信息。

作为一个可选的实施例，所述第一语言特征信息包括多个第一帧特征信息，所述基于所述第一语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别包括：

对所述多个第一帧特征信息进行多尺度池化，得到第三语言特征信息；

基于所述第三语言特征信息，对所述待处理语音信息进行分类，得到所述待处理语音信息对应的所述目标语言类别。

作为一个可选的实施例，所述对所述多个第一帧特征信息进行多尺度池化，得到第三语言特征信息包括：

对所述多个第一帧特征信息进行均值操作，得到均值特征信息；

确定所述多个第一帧特征信息对应的离散特征信息；

将所述均值特征信息和所述离散特征信息进行组合后，得到所述第三语言特征信息。

对所述多个第一帧特征信息进行加权均值操作，得到加权特征信息；

确定所述多个第一帧特征信息对应的离散特征信息；

将所述加权特征信息和所述离散特征信息进行组合后，得到所述第三语言特征信息。

根据本公开实施例的第二方面，提供一种语言识别装置，所述装置包括：

语音特征信息获取模块，被配置为执行获取待处理语音信息对应的语音特征信息；

动态扩展模块，被配置为执行将所述语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，所述第一语言特征信息表征所述待处理语音信息的上下文特征信息；

第一语言识别模块，被配置为执行基于所述第一语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别。

作为一个可选的实施例，所述动态扩展网络包括注意力计算层和动态扩展层，所述动态扩展模块包括：

第一注意力计算单元，被配置为执行将所述语音特征信息输入到所述注意力计算层中进行注意力计算，得到注意力特征信息；

动态扩展单元，被配置为执行将所述语音特征信息和所述注意力特征信息输入到所述动态扩展层中进行动态特征扩展，得到所述第一语言特征信息。

作为一个可选的实施例，所述动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，所述动态扩展单元包括：

第一特征扩展单元，被配置为执行将所述语音特征信息和所述注意力特征信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息对所述语音特征信息和所述注意力特征信息进行特征扩展，得到至少一个动态扩展结果，所述每个动态扩展结果对应的特征扩展程度不同；

第一特征融合单元，被配置为执行将所述至少一个动态扩展结果输入到所述特征融合层中进行特征融合，得到所述第一语言特征信息。

作为一个可选的实施例，所述动态扩展网络为按序排列的多个动态扩展网络，所述动态扩展模块包括：

第一动态扩展单元，被配置为执行在当前扩展网络为第一个扩展网络的情况下，将所述语音特征信息输入到所述第一个扩展网络中进行动态特征扩展，得到所述第一个扩展网络对应的语言特征信息，所述当前扩展网络为每一次执行特征扩展的扩展网络；

第二动态扩展单元，被配置为执行在所述当前扩展网络为非第一个扩展网络的情况下，将所述当前扩展网络对应的上一语言特征信息，输入到所述当前扩展网络中进行动态特征扩展，得到所述当前扩展网络对应的语言特征信息；

第二语言特征信息获取单元，被配置为执行基于每一个扩展网络对应的语言特征信息，得到第二语言特征信息。

所述第一语言识别模块包括：

第二语言识别单元，被配置为执行基于所述第二语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别。

作为一个可选的实施例，所述扩展网络包括注意力计算层和动态扩展层，所述动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，所述第二语言特征信息获取单元包括：

第二注意力计算单元，被配置为执行将所述上一语言特征信息输入到所述注意力计算层中进行注意力计算，得到语言注意力信息；

第二特征扩展单元，被配置为执行将所述上一语言特征信息和所述语言注意力信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息，对所述上一语言特征信息和所述语言注意力特征信息进行特征扩展，得到至少一个当前动态扩展结果，所述每个当前动态扩展结果对应的特征扩展程度不同；

第二特征融合单元，被配置为执行将所述至少一个当前动态扩展结果输入到所述特征融合层中进行特征融合，得到所述当前扩展网络对应的语言特征信息。

作为一个可选的实施例，所述第一语言特征信息包括多个第一帧特征信息，所述第一语言识别模块包括：

多尺度池化单元，被配置为执行对所述多个第一帧特征信息进行多尺度池化，得到第三语言特征信息；

分类单元，被配置为执行基于所述第三语言特征信息，对所述待处理语音信息进行分类，得到所述待处理语音信息对应的所述目标语言类别。

作为一个可选的实施例，所述多尺度池化单元包括：

均值单元，被配置为执行对所述多个第一帧特征信息进行均值操作，得到均值特征信息；

第一离散特征确定单元，被配置为执行确定所述多个第一帧特征信息对应的离散特征信息；

第一信息组合单元，被配置为执行将所述均值特征信息和所述离散特征信息进行组合后，得到所述第三语言特征信息。

作为一个可选的实施例，所述多尺度池化单元包括：

加权均值单元，被配置为执行对所述多个第一帧特征信息进行加权均值操作，得到加权特征信息；

第二离散特征信息确定单元，被配置为执行确定所述多个第一帧特征信息对应的离散特征信息；

第二信息组合单元，被配置为执行将所述加权特征信息和所述离散特征信息进行组合后，得到所述第三语言特征信息。

根据本公开实施例的第三方面，提供一电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述所述的语言类别识别方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上述所述的语言类别识别方法。

根据本公开实施例的第四方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述所述的语言类别识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取待处理语音信息对应的语音特征信息，将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，第一语言特征信息表征待处理语音信息的上下文特征信息，基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。该方法可以在对语音特征信息进行动态特征扩展时，扩展到语音特征信息的上下文信息，使得动态扩展网络在进行特征提取时，可以提取到语音特征信息以及语音特征信息相关的上下文中的第一语言特征信息，从而提高了第一语言特征信息的区分性，以及语言识别的有效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语言类别识别方法的应用场景示意图；

图2是根据一示例性实施例示出的一种语言类别识别方法的流程图。

图3是根据一示例性实施例示出的一种语言类别识别方法中对语音特征信息进行注意力计算和动态特征扩展流程图。

图4是根据一示例性实施例示出的一种语言类别识别方法中对语音特征信息进行一次动态特征扩展的情况下，得到第一语言特征信息的流程图。

图5是根据一示例性实施例示出的一种语言类别识别方法中的一种多尺度卷积核的结构示意图。

图6是根据一示例性实施例示出的一种语言类别识别方法中基于多个动态扩展网络对语音特征信息进行动态特征扩展的流程图。

图7是根据一示例性实施例示出的一种语言类别识别方法中对当前扩展网络对应的上一语言特征信息进行动态特征扩展的流程图。

图8是根据一示例性实施例示出的一种语言类别识别方法中在全局多尺度特征提取网络中进行多尺度特征提取的示意图。

图9是根据一示例性实施例示出的一种语言类别识别方法中进行多尺度池化的流程图。

图10是根据一示例性实施例示出的应用语言类别识别方法的语言识别模型的示意图。

图11是根据一示例性实施例示出的应用语言类别识别方法的语言识别模型中动态扩展网络的示意图。

图12是根据一示例性实施例示出的一种语言类别识别装置的框图。

图13是根据一示例性实施例示出的一种服务器侧电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语言类别识别方法的应用场景示意图，该应用场景图包括客户端110和服务器120，客户端110接收输入的待处理语音信息，并将待处理语音信息发送到服务器120中，服务器120获取待处理语音信息对应的语音特征信息，并将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，服务器120基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别，服务器120可以将目标语言类别发送到客户端110中，或者基于目标语言类别对应的语音识别方式，对待处理语音信息进行语音识别，生成待处理语音信息对应的文本信息。

在本公开实施例中，客户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。客户端110包括UI(User Interface，用户界面)层和扬声器，客户端110通过所述UI层对外提供文本信息或目标语言类别的显示，客户端 110通过扬声器进行待处理语音信息的采集，另外，基于API(Application Programming Interface，应用程序接口)将待处理语音信息发送给服务器120。

在本公开实施例中，服务器120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的，服务器120可以获取待处理语音信息对应的语音特征信息，对语音特征信息进行处理得到第一语言特征信息，以及基于第一语言特征信息，确定目标语言类别。

图2是根据一示例性实施例示出的一种语言类别识别方法的流程图，如图2所示，该方法用于服务器中，包括以下步骤。

S210.获取待处理语音信息对应的语音特征信息；

作为一个可选的实施例，对待处理语音信息进行语音特征提取，可以得到语音特征信息，即将语音信号转换为模型能够处理的语音特征向量，从而便于后续利用语言识别模型，对语音特征信息进行处理，识别出待处理语音信息对应的目标语言类别。语音特征信息可以为梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)，MFCC是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换的系数，可以表示人耳频率的非线性特性。

作为一个可选的实施例，在语音特征信息时，可以基于数据增强算法，对语音特征信息对应的声音频谱图像进行增强，例如采用SpecAgu的方法，扭曲时域信号、掩盖频域通道并掩盖时域通道，从而可以对声音频谱图像进行修改

S220.将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，第一语言特征信息表征待处理语音信息的上下文特征信息；

作为一个可选的实施例，语言识别模型可以包括动态扩展网络，基于动态扩展网络，对语音特征信息进行至少一次动态特征扩展，每一次动态特征扩展对应的扩展结果对应不同的扩展程度，基于不同扩展程度对应的动态扩展结果，可以表示待处理语音信息的上下文特征信息。对每一次动态特征扩展对应的动态扩展结果进行处理，可以得到第一语言特征信息。

作为一个可选的实施例，请参见图3，动态扩展网络包括注意力计算层和动态扩展层，将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息包括：

S310.将语音特征信息输入到注意力计算层中进行注意力计算，得到注意力特征信息；

S320.将语音特征信息和注意力特征信息输入到动态扩展层中进行动态特征扩展，得到第一语言特征信息。

作为一个可选的实施例，动态扩展网络包括注意力计算层和动态扩展层。注意力计算层可以为基于多头注意力机制构建的神经网络。基于注意力计算层中预设的多种权重信息，分别对语音特征信息进行至少一次注意力计算，得到每种权重信息对应的注意力计算结果，对每种权重信息对应的注意力计算结果进行特征拼接，可以得到注意力特征信息。将注意力特征信息和语音特征信息进行组合，得到组合特征信息，并将组合特征信息输入到动态扩展层中进行动态扩展。

作为一个可选的实施例，动态扩展层可以为多尺度卷积核，多尺度卷积核中每种尺度对应一种扩展程度，基于多尺度卷积核，可以对组合特征信息进行至少一次动态扩展，可以得到不同扩展程度对应的扩展结果，将不同扩展程度对应的扩展结果进行特征拼接，可以得到第一语言特征信息。

在动态扩展网络中，基于注意力计算网络从语音特征信息中获取高价值的注意力特征信息，并将注意力特征信息和语音特征信息进行组合，再进行动态特征扩展，可以在不丢失特征的情况下更加关注高价值的特征信息，从而保证了动态扩展网络的泛化性和动态扩展的准确性。

作为一个可选的实施例，请参见图4，动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，将语音特征信息和注意力特征信息输入到特征扩展层中进行动态特征扩展，得到第一语言特征信息包括：

S410.将语音特征信息和注意力特征信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息对语音特征信息和注意力特征信息进行特征扩展，得到至少一个动态扩展结果，每个动态扩展结果对应的特征扩展程度不同；

S420.将至少一个动态扩展结果输入到特征融合层中进行特征融合，得到第一语言特征信息。

作为一个可选的实施例，动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层对应不同的扩展尺寸信息，特征扩展层的数目和动态扩展结果的数目一致。特征扩展层对应的扩展尺寸信息可以为多个按序排列的扩展尺寸信息，例如：扩展尺寸为扩展一倍的特征扩展层、扩展尺寸为扩展两倍的特征扩展层、扩展尺寸为扩展三倍的特征扩展层等。在扩展尺寸信息越大的情况下，动态扩展结果中包含的组合特征信息中的特征越多，特征感受野的范围越大，能够得到长期特征。在扩展尺寸信息越小的情况下，动态扩展结果中包含的组合特征信息中的特征越小，特征感受野的范围越小，能够得到短期特征。因此，可以基于不同扩展尺寸信息对应的特征扩展层，获取语音特征信息和注意力特征信息中短期和长期的特征信息，从而得到上下文之间不同的语言表征。

在动态扩展层为多尺寸卷积核的情况下，每个特征扩展层即为具有不同大小的核的卷积核，将语音特征信息和注意力特征信息组合后得到的组合特征信息输入到每个卷积核中进行特征扩展，得到每个卷积核输出的特征扩展结果，即得到至少一个动态扩展结果。

将至少一个动态扩展结果输入到特征融合层中进行特征融合，可以得到第一语言特征信息。在特征融合时，可以使用concat函数拼接至少一个动态扩展结果。在至少一个动态扩展结果为每个卷积核输出的特征扩展结果时，将每个卷积核输出的特征扩展结果输入到特征融合层中进行特征融合，对每个卷积核输出的特征扩展结果进行拼接，可以得到第一语言特征信息。

作为一个可选的实施例，如图5所示为一种多尺度卷积核的结构示意图，在该多尺度卷积核中包括四个核的大小不同的卷积核和一个特征融合层，卷积核的核的大小即对应扩展尺寸信息。第一个卷积核为3x3的卷积核，第二个卷积核为5x5的卷积核，第三个卷积核为7x7的卷积核，第四个卷积核为9x9的卷积核。将语音特征信息和注意力特征信息组合后得到的组合特征信息输入到该多尺度卷积核中进行特征扩展，将组合特征信息输入到第一个卷积核中进行特征扩展，得到第一个动态扩展结果。将组合特征信息输入到第二个卷积核中进行特征扩展，得到第二个动态扩展结果。将组合特征信息输入到第三个卷积核中进行特征扩展，得到第三个动态扩展结果。将组合特征信息输入到第四个卷积核中进行特征扩展，得到第四个动态扩展结果。将第一个动态扩展结果、第二个动态扩展结果、第三个动态扩展结果和第四个动态扩展结果输入到特征融合层中进行特征融合，可以得到第一语言特征信息。

在动态扩展网络中，对语音特征信息进行动态特征扩展，将语音特征信息扩展到之前的语音特征信息和之后的语音特征信息中，并根据动态扩展层中预设的扩展尺寸信息，确定语音特征信息对应的至少一个动态扩展结果，使得不同的动态扩展结果具有不同的扩展尺寸，从而在基于动态扩展结果进行特征提取时，可以提高第一语言特征信息的准确性。

作为一个可选的实施例，请参见图6，动态扩展网络为按序排列的多个扩展网络，将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息包括：

S610.在当前扩展网络为第一个扩展网络的情况下，将语音特征信息输入到第一个扩展网络中进行动态特征扩展，得到第一个扩展网络对应的语言特征信息，当前扩展网络为每一次执行特征扩展的扩展网络；

S620.在当前动态扩展网络为非第一个动态扩展网络的情况下，将当前动态扩展网络对应的上一语言特征信息，输入到当前动态扩展网络中进行动态特征扩展，得到当前动态扩展网络输出语言特征信息；

S630.基于每一个扩展网络对应的语言特征信息，得到第二语言特征信息。

基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别包括：

S640.基于第二语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，动态扩展网络可以为按序排列的多个扩展网络，每一次执行特征扩展的扩展网络为当前扩展网络，在第一次进行特征扩展时，即当前扩展网络为第一个扩展网络的情况下，将语音特征信息输入到第一个扩展网络中进行动态特征扩展，得到第一个扩展网络对应的语言特征信息，即第一个语言特征信息。在第二次进行特征扩展时，即当前扩展网络为第二个扩展网络的情况下，将第一个语言特征信息输入到第二个扩展网络中进行动态特征扩展，得到第二个扩展网络对应的语言特征信息，即第二个语言特征信息，以此类推，在当前扩展网络为非第一个扩展网络的情况下，将当前扩展网络对应的上一语言特征信息，输入到当前扩展网络中进行动态特征扩展，得到当前扩展网络对应的语言特征信息。在特征扩展的次数达到预设次数的情况下，对每个扩展网络对应的语音特征信息进行特征融合，可以得到第二语言特征信息。预设次数与扩展网络的数目相同。

基于第二语言特征信息，可以对待处理语音信息进行语言识别，从而得到待处理语音信息对应的目标语言类别。

基于动态扩展网络，对语音特征信息进行局部多尺度动态扩展操作，即将上一次动态特征扩展时的输出结果作为本次动态特征扩展的输入，从而可以在局部叠加语言特征信息的层次，在细粒度级别表示多尺度的语言特征信息，增加了特征提取时的感受野范围，提高了语言特征信息的区分度。

作为一个可选的实施例，请参见图7，扩展网络包括注意力计算层和动态扩展层，动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，将当前扩展网络对应的上一语言特征信息，输入到当前扩展网络中进行动态特征扩展，得到当前扩展网络对应的第一语言特征信息包括：

S710.将上一语言特征信息输入到注意力计算层中进行注意力计算，得到语言注意力信息；

S720.将上一语言特征信息和语言注意力信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息，对上一语言特征信息和语言注意力特征信息进行特征扩展，得到至少一个当前动态扩展结果，每个当前动态扩展结果对应的特征扩展程度不同；

S730.将至少一个当前动态扩展结果输入到特征融合层中进行特征融合，得到当前扩展网络对应的语言特征信息。

作为一个可选的实施例，扩展网络包括注意力计算层和动态扩展层。注意力计算层可以为基于多头注意力机制构建的神经网络。基于注意力计算层中预设的多种权重信息，分别对上一语言特征信息进行至少一次注意力计算，得到每种权重信息对应的注意力计算结果，对每种权重信息对应的注意力计算结果进行特征拼接，可以得到语言注意力信息。将语言注意力信息和上一语言特征信息进行组合，得到语言组合特征信息，并将语言组合特征信息输入到动态扩展层中进行动态扩展，得到当前动态扩展结果。

动态扩展层可以包括至少一个特征扩展层和特征融合层，每个特征扩展层对应不同的扩展尺寸信息，特征扩展层的数目和动态扩展结果的数目一致。特征扩展层对应的扩展尺寸信息可以为多个按序排列的扩展尺寸信息，在扩展尺寸信息越大的情况下，当前动态扩展结果中包含的组合特征信息中的特征越多，特征感受野的范围越大，能够得到长期特征。在扩展尺寸信息越小的情况下，当前动态扩展结果中包含的组合特征信息中的特征越小，特征感受野的范围越小，能够得到短期特征。因此，可以基于不同扩展尺寸信息对应的特征扩展层，获取上一语言特征信息和语言注意力信息中短期和长期的特征信息，从而得到上下文之间不同的语言表征。

在动态扩展层为多尺寸卷积核的情况下，每个特征扩展层即为具有不同大小的核的卷积核，将上一语言特征信息和语言注意力信息组合后得到的组合特征信息输入到每个卷积核中进行特征扩展，得到每个卷积核输出的当前特征扩展结果，即得到至少一个当前动态扩展结果。

将至少一个当前动态扩展结果输入到特征融合层中进行特征融合，可以得到当前扩展网络对应的语言特征信息。在特征融合时，可以使用concat函数对至少一个当前动态扩展结果进行拼接。

在动态扩展网络中，对上一语言特征信息进行动态特征扩展，可以延长上一语言特征信息，从而将上一语言特征信息扩展到之前的上一语言特征信息或之后的上一语言特征信息中，使得动态扩展网络在进行特征提取时，可以提取到上一语言特征信息以及上一语言特征信息相关的上下文中的语言特征信息，从而提高了语言特征信息的连续性和有效性。

S230.基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，对第一语言特征信息进行多尺度池化后，再进行分类处理，可以得到待处理语音对应的目标语言类别。也可以对第二语言特征信息进行多尺度池化后，再进行分类处理，得到待处理语音对应的目标语言类别。

作为一个可选的实施例，第一语言特征信息包括多个第一帧特征信息，基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别包括：

对多个第一帧特征信息进行多尺度池化，得到第三语言特征信息；

基于第三语言特征信息，对待处理语音信息进行分类，得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，第一语言特征信息也可以包括多个第一帧特征信息，第一帧特征信息可以表示为h_t1，t＝1,…,T，t表示待处理语音信息对应的时间维度。对多个第一帧特征信息进行多尺度池化，得到第三语言特征信息，并基于第三语言特征信息，对待处理语音信息进行分类，可以得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，第二语言特征信息也可以包括多个第二帧特征信息，将瓶颈特征提取层输出的特征提取结果设置为h^bi(i＝1，…，n)，其中n为特征提取层的数目，因此第二帧特征信息可以表示为

t表示待处理语音信息对应的时间维度。对多个第二帧特征信息进行多尺度池化，得到第四语言特征信息，基于第四语言特征信息，对待处理语音信息进行分类，得到待处理语音信息对应的目标语言类别。

对第一语言特征信息或第二语言特征信息进行多尺度池化，再基于具有区分度的第一语言特征信息或第二语言特征信息进行语言识别，增加了语言识别的准确性和有效性。

作为一个可选的实施例，请参见图8，对多个第一帧特征信息进行多尺度池化，得到第三语言特征信息包括：

S810.对多个第一帧特征信息进行均值操作，得到均值特征信息；

S820.确定多个第一帧特征信息对应的离散特征信息；

S830.将均值特征信息和离散特征信息进行组合后，得到第三语言特征信息。

作为一个可选的实施例，离散特征信息包括多个第一帧特征信息的标准差和方差。分别计算第一帧特征信息对应的均值、标准差和方差，得到不同尺度的池化后特征信息，也就是均值特征信息和离散特征信息，将均值特征信息和离散特征信息进行组合后，可以得到第三语言特征信息。对多个第一帧特征信息进行相加求和，得到第一和值，再用第一和值除以第一帧特征信息的数量，得到均值特征信息。对每个第一帧特征信息进行平方运算，得到多个第一平方值，将每个第一平方值与均值特征信息的平方值之间的差值进行相加求和，并除以第一帧特征信息的数量，可以得到第一帧特征信息对应的方差，对方差进行开方计算后可以得到标准差。

作为一个可选的实施例，在基于第二语言特征信息进行语言识别时，离散特征信息包括多个第二帧特征信息的标准差和方差。分别计算第二帧特征信息对应的均值、标准差和方差，得到不同尺度的池化后特征信息，也就是均值特征信息和离散特征信息，将均值特征信息和离散特征信息进行组合后，可以得到第四语言特征信息。对多个第二帧特征信息进行相加求和，得到第二和值，再用第二和值除以第二帧特征信息的数量，得到均值特征信息。对每个第二帧特征信息进行平方运算，得到多个第二平方值，将每个第二平方值与均值特征信息的平方值之间的差值进行相加求和，并除以第二帧特征信息的数量，可以得到第二帧特征信息对应的方差，对方差进行开方计算后可以得到标准差。

作为一个可选的实施例，可以将多个第一帧特征信息或多个第二帧特征信息输入到统计池化层中(statistic pooling)进行多尺度池化，得到第三语言特征信息或第四语言特征信息。

计算第一语言特征信息或第二语言特征信息的均值、标准差和方差，得到第一语言特征信息或第二语言特征信息对应的统计学分布，提高了第三语言特征信息或第四语言特征信息的准确性，从而增加了语言识别的准确性和有效性。

作为一个可选的实施例，请参见图9，对多个第一帧特征信息进行多尺度池化，得到第三语言特征信息包括：

S910.对多个第一帧特征信息进行加权均值操作，得到加权特征信息；

S920.确定多个第一帧特征信息对应的离散特征信息；

S930.将加权特征信息和离散特征信息进行组合后，得到第三语言特征信息。

作为一个可选的实施例，可以将多个第一帧特征信息或多个第二帧特征信息输入到基础向量注意力池化层中(Vector-Based Attentive Pooling，VBAP)进行多尺度池化，得到第三语言特征信息或第四语言特征信息。在VBAP中具有时间维度上的权重信息，从而可以对多个第一帧特征信息或多个第二帧特征信息进行加权平均，得到对应的加权特征信息。

计算第一语言特征信息或第二语言特征信息的加权均值、标准差和方差，得到第一语言特征信息或第二语言特征信息对应的统计学分布，且权重信息为时间维度上的权重信息，可以区分待处理语音信息内不同时段的特征侧重点，提高了第三语言特征信息或第四语言特征信息的准确性，从而增加了语言识别的准确性和有效性。

作为一个可选的实施例，请参见图10，如图10所示为应用一种语言类别识别方法的语言识别模型的结构。语言识别模型包括频谱图增强模块、特征过滤模块、至少一个动态扩展网络、多尺度池化层、全连接层和语言分类层。将待处理语音信息对应的语音特征信息输入到语言识别模型中，基于频谱图增强模块，对语音特征信息进行增强，并基于特征过滤模块过滤部分特征。频谱图增强模块可以采用SpecAug算法，特征过滤模块可以采用dropout算法。将特征增强并特征过滤后的语音特征信息输入到动态扩展网络中对语音特征信息进行动态特征扩展，可以得到第一语言特征信息。

在至少一个动态扩展网络中对语音特征信息进行动态扩展，如图10所示，动态扩展网络可以为3个。在第一次动态扩展的情况下，将语音特征信息输入到第一个动态扩展网络中进行动态扩展，得到第一个动态扩展网络对应的第一个语言特征信息。在第二次动态扩展的情况下，将第一个语言特征信息输入到第二个动态扩展网络中进行动态扩展，得到第二个动态扩展网络对应的第二个语言特征信息。在第三次动态扩展的情况下，将第二个语言特征信息输入到第三个动态扩展网络中进行动态扩展，得到第三个动态扩展网络对应的第三个语言特征信息。

在动态扩展网络中可以进行局部多尺度动态卷积操作，请参见图11，每一个动态扩展网络包括第一前馈模块、注意力计算层、动态扩展层、第二前馈模块和归一化层。将上一语言特征信息输入到前馈模块中进行预处理，并将预处理后的上一语言特征信息和上一语言特征信息进行组合，得到第一组合特征信息，再将第一组合特征信息输入到注意力计算层中进行注意力计算，得到语言注意力信息，将语言注意力信息和第一组合特征信息进行组合，得到第二组合特征信息，将第二组合特征信息输入到动态扩展层进行特征扩展，得到特征扩展信息，将特征扩展信息和第二组合特征信息组合得到第三组合特征信息，将第三组合特征信息输入到第二前馈模块中进行特征处理，将特征处理后的第三组合特征信息输和第三组合特征信息进行组合，得到第四组合特征信息，将第四组合特征信息输入到归一化层中进行归一化处理，得到当前动态扩展网络对应的语言特征信息。其中，从第一前馈模块或第二前馈模块中输出的特征信息在与输入的特征信息进行组合时，可以基于预设的特征缩放尺寸，对输出的特征信息进行缩放后，再与输入的特征信息进行组合，例如预设的特征缩放尺寸为1/2，则将输出的特征信息乘以1/2后，再与输入的特征信息进行组合。

将每个当前动态扩展网络对应的语言特征信息进行特征融合，得到第二语言特征信息。将第二语言特征信息输入到多尺度池化层进行多尺度池化，得到第四语言特征信息，将第四语言特征信息输入到语言分类层中进行语言识别，可以得到待处理语言信息对应的目标语言类别。目标语言类别可以为语种，例如英语、德语、法语等，目标语言类别也可以为方言，例如粤语、客家话等。在得到目标语言类别后，可以根据目标语言类别对应的语音识别方式，对待处理语音信息进行语音识别，将待处理语音信息转换为文本信息。例如，在为短视频配字幕时，可以基于上述的语言类别识别方法，得到短视频中说话人对应的语音信息的语言类别，并基于该语言类别对应的语音识别方式，对说话人对应的语音信息进行识别，生成该短视频对应的字幕信息。

本公开实施例提出了一种语言类别识别方法，该方法包括：获取待处理语音信息对应的语音特征信息，将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，第一语言特征信息表征待处理语音信息的上下文特征信息，基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。该方法可以在对语音特征信息进行动态特征扩展时，扩展到语音特征信息的上下文信息，使得动态扩展网络可以对语音特征信息和语音特征信息的上下文信息进行特征提取，提高第一语言特征信息的区分性，以及语言识别的有效性。

图12是根据一示例性实施例示出的一种语言识别装置框图。参照图12，该装置包括：

语音特征信息获取模块1210，被配置为执行获取待处理语音信息对应的语音特征信息；

动态扩展模块1220，被配置为执行将语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息，第一语言特征信息表征待处理语音信息的上下文特征信息；

第一语言识别模块1230，被配置为执行基于第一语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，动态扩展网络包括注意力计算层和动态扩展层，动态扩展模块包括：

第一注意力计算单元，被配置为执行将语音特征信息输入到注意力计算层中进行注意力计算，得到注意力特征信息；

动态扩展单元，被配置为执行将语音特征信息和注意力特征信息输入到动态扩展层中进行动态特征扩展，得到第一语言特征信息。

作为一个可选的实施例，动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，动态扩展单元包括：

第一特征扩展单元，被配置为执行将语音特征信息和注意力特征信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息对语音特征信息和注意力特征信息进行特征扩展，得到至少一个动态扩展结果，每个动态扩展结果对应的特征扩展程度不同；

第一特征融合单元，被配置为执行将至少一个动态扩展结果输入到特征融合层中进行特征融合，得到第一语言特征信息。

作为一个可选的实施例，动态扩展网络为按序排列的多个动态扩展网络，动态扩展模块包括：

第一动态扩展单元，被配置为执行在当前扩展网络为第一个扩展网络的情况下，将语音特征信息输入到第一个扩展网络中进行动态特征扩展，得到第一个扩展网络对应的语言特征信息，当前扩展网络为每一次执行特征扩展的扩展网络；

第二动态扩展单元，被配置为执行在当前扩展网络为非第一个扩展网络的情况下，将当前扩展网络对应的上一语言特征信息，输入到当前扩展网络中进行动态特征扩展，得到当前扩展网络对应的语言特征信息；

第一语言识别模块包括：

第二语言识别单元，被配置为执行基于第二语言特征信息，对待处理语音信息进行语言识别，得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，扩展网络包括注意力计算层和动态扩展层，动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，第二语言特征信息获取单元包括：

第二注意力计算单元，被配置为执行将上一语言特征信息输入到注意力计算层中进行注意力计算，得到语言注意力信息；

第二特征扩展单元，被配置为执行将上一语言特征信息和语言注意力信息输入到每个特征扩展层中，基于每个特征扩展层对应的扩展尺寸信息，对上一语言特征信息和语言注意力特征信息进行特征扩展，得到至少一个当前动态扩展结果，每个当前动态扩展结果对应的特征扩展程度不同；

第二特征融合单元，被配置为执行将至少一个当前动态扩展结果输入到特征融合层中进行特征融合，得到当前扩展网络对应的语言特征信息。

作为一个可选的实施例，第一语言特征信息包括多个第一帧特征信息，第一语言识别模块包括：

多尺度池化单元，被配置为执行对多个第一帧特征信息进行多尺度池化，得到第三语言特征信息；

分类单元，被配置为执行基于第三语言特征信息，对待处理语音信息进行分类，得到待处理语音信息对应的目标语言类别。

作为一个可选的实施例，多尺度池化单元包括：

均值单元，被配置为执行对多个第一帧特征信息进行均值操作，得到均值特征信息；

第一离散特征确定单元，被配置为执行确定多个第一帧特征信息对应的离散特征信息；

第一信息组合单元，被配置为执行将均值特征信息和离散特征信息进行组合后，得到第三语言特征信息。

作为一个可选的实施例，多尺度池化单元包括：

加权均值单元，被配置为执行对多个第一帧特征信息进行加权均值操作，得到加权特征信息；

第二离散特征信息确定单元，被配置为执行确定多个第一帧特征信息对应的离散特征信息；

第二信息组合单元，被配置为执行将加权特征信息和离散特征信息进行组合后，得到第三语言特征信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图13是根据一示例性实施例示出的一种用于进行语言识别的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言类别识别方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1304，上述指令可由电子设备1300的处理器1320执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述所述的语言类别识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语言类别识别方法，其特征在于，所述方法包括：

获取待处理语音信息对应的语音特征信息；

2.根据权利要求1所述的语言类别识别方法，其特征在于，所述动态扩展网络包括注意力计算层和动态扩展层，所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息包括：

3.根据权利要求2所述的语言类别识别方法，其特征在于，所述动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，所述将所述语音特征信息和所述注意力特征信息输入到所述特征扩展层中进行动态特征扩展，得到所述第一语言特征信息包括：

4.根据权利要求1所述的语言类别识别方法，其特征在于，所述动态扩展网络为按序排列的多个扩展网络，所述将所述语音特征信息输入到动态扩展网络中进行动态特征扩展，得到第一语言特征信息包括：

基于每一个扩展网络对应的语言特征信息，得到第二语言特征信息；

5.根据权利要求4所述的语言类别识别方法，其特征在于，所述扩展网络包括注意力计算层和动态扩展层，所述动态扩展层包括至少一个特征扩展层和特征融合层，每个特征扩展层中的扩展尺寸信息不同，所述将所述当前扩展网络对应的上一语言特征信息，输入到所述当前扩展网络中进行动态特征扩展，得到所述当前扩展网络对应的第一语言特征信息包括：

6.根据权利要求1至5任一一项所述的语言类别识别方法，其特征在于，所述第一语言特征信息包括多个第一帧特征信息，所述基于所述第一语言特征信息，对所述待处理语音信息进行语言识别，得到所述待处理语音信息对应的目标语言类别包括：

7.一种语言识别装置，其特征在于，所述装置包括：

8.一电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语言类别识别方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的语言类别识别方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1到6任一项所述的语言类别识别方法。