CN110033756A

CN110033756A - 语种识别方法、装置、电子设备及存储介质

Info

Publication number: CN110033756A
Application number: CN201910299006.6A
Authority: CN
Inventors: 张大威; 卢亮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-19
Anticipated expiration: 2039-04-15
Also published as: CN110033756B

Abstract

本公开是关于一种语种识别方法、装置、电子设备及存储介质，属于计算机技术领域。所述方法包括：获取待识别的音视频文件；对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征；将所述多个音频特征输入语种识别模型，由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，基于所述关键音频特征进行语种识别，输出语种识别结果，所述语种识别结果用于指示所述音视频文件的语种。本公开基于注意力机制，从多个音频特征中筛选出少量的关键音频特征，使得语种识别模型将注意力集中在关键音频特征上，能够更加准确快速的识别出音视频文件的语种，提高了语种识别的准确率和效率。

Description

语种识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种语种识别方法、装置、电子设备及存储介质。

背景技术

语种识别是指计算机自动识别出音频所属语种的过程，近年来，语种识别越来越显示出其应用价值，在信息服务、军事、网络社交等领域得到了广泛的应用。

相关技术中，采用深度学习技术进行语种识别，通过人工标注的方式获得海量的强标签数据，通过CNN(Convolutional Neural Networks，卷积神经网络)、RNN(RecurrentNeural Network，循环神经网络)等神经网络对强标签数据进行训练，得到具有语种识别能力的模型，通过该模型对待识别音频进行语种识别，得到语种识别结果。其中，强标签数据是指人工严格标注出音频中每个时间点的语种标签的音频数据。

上述技术对训练数据的质量要求很高，需要海量的强标签数据，然而强标签数据需要进行严格的人工标注才能得到，这个标注过程费时又费力，往往很难得到海量的强标签数据，导致训练出来的模型的精度也不高，语种识别的准确率低。

发明内容

本公开提供一种语种识别方法、装置、电子设备及存储介质，能够克服语种识别的准确率低的问题。

根据本公开实施例的第一方面，提供一种语种识别方法，包括：

获取待识别的音视频文件；

对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征，所述多个音频特征包含所述音视频文件的多个音频片段的音频特征；

将所述多个音频特征输入语种识别模型，由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，基于所述关键音频特征进行语种识别，输出语种识别结果，所述语种识别结果用于指示所述音视频文件的语种。

在一种可能实现方式中，所述由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，包括：

分别由所述语种识别模型中的第一全连接层和第二全连接层，对所述多个音频特征中的每个音频特征进行计算，得到所述每个音频特征的第一分数和第二分数，所述第一全连接层用于基于线性函数对音频特征进行计算，所述第二全连接层用于基于非线性函数对音频特征进行计算，所述第一分数和所述第二分数用于表示音频特征与人声的相关程度，分数越大则相关程度越大；

由所述语种识别模型中的乘积层，对所述第一全连接层和所述第二全连接层输出的所述每个音频特征的第一分数和第二分数进行计算，得到所述每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为所述关键音频特征。

在一种可能实现方式中，所述基于所述关键音频特征进行语种识别，输出语种识别结果，包括：

由所述语种识别模型中顺次连接的批归一化层、激活层和丢弃层，对所述关键音频特征进行处理；

由所述语种识别模型中的第三全连接层，对所述丢弃层输出的关键音频特征进行计算，得到所述音视频文件的第四分数，所述第三全连接层基于非线性函数对特征进行计算；

由所述语种识别模型中的输出层根据所述第三全连接层输出的所述音视频文件的第四分数，输出所述音视频文件的语种识别结果。

在一种可能实现方式中，所述对所述丢弃层输出的关键音频特征进行计算，得到所述音视频文件的第四分数，包括：

当所述丢弃层输出的关键音频特征有多个时，对所述丢弃层输出的每个关键音频特征进行计算，得到所述每个关键音频特征的第四分数；

将多个关键音频特征的第四分数的平均值作为所述音视频文件的第四分数。

在一种可能实现方式中，所述根据所述第三全连接层输出的所述音视频文件的第四分数，输出所述音视频文件的语种识别结果，包括：

根据所述音视频文件的第四分数和多个语种的分数范围，输出所述音视频文件的第四分数所处分数范围对应的语种，作为所述音视频文件的语种识别结果。

在一种可能实现方式中，所述对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征，包括：

对所述音视频文件的多个音频片段进行处理，得到所述多个音频片段的梅尔频谱；

对所述梅尔频谱进行对数运算，得到所述多个音频片段的第一特征；

将所述多个音频片段的第一特征输入VGGish模型，输出所述多个音频片段的第二特征；

将所述多个音频片段的第二特征作为所述音视频文件的多个音频特征。

在一种可能实现方式中，所述对所述音视频文件的多个音频片段进行处理，得到所述多个音频片段的梅尔频谱，包括：

对所述多个音频片段进行预处理，所述预处理包括预加重和加窗处理；

对预处理后的所述多个音频片段进行傅里叶变换，得到频谱；

对所述频谱进行模的平方运算，得到功率谱；

将所述功率谱通过梅尔滤波器组，得到所述多个音频片段的梅尔频谱。

在一种可能实现方式中，所述对所述音视频文件进行特征提取之前，所述方法还包括：

对所述音视频文件的多个音频片段进行语音激活检测，去除所述多个音频片段中的静音片段。

对所述音视频文件进行解码，得到所述音视频文件的各帧音频数据；

根据所述各帧音频数据，获取所述音视频文件的多个音频片段，每个音频片段包括时间戳连续的多帧音频数据。

在一种可能实现方式中，所述语种识别模型的训练过程包括：

获取多个样本音视频文件以及每个样本音视频文件的语种标签；

对所述每个样本音视频文件进行特征提取，得到所述每个样本音视频文件的多个音频特征，所述每个样本音视频文件的多个音频特征包含所述每个样本音视频文件的多个音频片段的音频特征；

将所述每个样本音视频文件的多个音频特征以及所述每个样本音视频文件的语种标签输入初始识别模型，由所述初始识别模型基于注意力机制，从所述每个样本音视频文件的多个音频特征中筛选出所述每个样本音视频文件的关键音频特征，基于所述每个样本音视频文件的关键音频特征进行语种识别，输出所述每个样本音视频文件的语种识别结果；

基于所述每个样本音视频文件的语种识别结果和语种标签，对所述初始识别模型的参数进行调整，直至满足目标条件时，得到所述语种识别模型。

在一种可能实现方式中，所述由所述初始识别模型基于注意力机制，从所述每个样本音视频文件的多个音频特征中筛选出所述每个样本音视频文件的关键音频特征，包括：

分别由所述初始识别模型的第一全连接层和第二全连接层，对所述每个样本音视频文件的每个音频特征进行计算，得到所述每个样本音视频文件的每个音频特征的第一分数和第二分数，所述第一全连接层用于基于线性函数对音频特征进行计算，所述第二全连接层用于基于非线性函数对音频特征进行计算，所述第一分数和所述第二分数用于表示音频特征与人声的相关程度，分数越大则相关程度越大；

由所述初始识别模型的乘积层，对所述第一全连接层和所述第二全连接层输出的所述每个样本音视频文件的每个音频特征的第一分数和第二分数进行计算，得到所述每个样本音视频文件的每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为所述每个样本音视频文件的关键音频特征。

在一种可能实现方式中，所述基于所述每个样本音视频文件的关键音频特征进行语种识别，输出所述每个样本音视频文件的语种识别结果，包括：

由所述语种识别模型中顺次连接的批归一化层、激活层和丢弃层，对所述每个样本音视频文件的关键音频特征进行处理；

由所述初始识别模型中的第三全连接层，对所述丢弃层输出的所述每个样本音视频文件的关键音频特征进行计算，得到所述每个样本音视频文件的第四分数，所述第三全连接层基于非线性函数对特征进行计算；

由所述初始识别模型中的输出层根据所述第三全连接层输出的所述每个样本音视频文件的第四分数，输出所述每个样本音视频文件的语种识别结果。

在一种可能实现方式中，所述对所述丢弃层输出的关键音频特征进行计算，得到所述每个样本音视频文件的第四分数，包括：

当所述丢弃层输出的关键音频特征有多个时，对所述丢弃层输出的每个关键音频特征进行计算，得到所述每个样本音视频文件的每个关键音频特征的第四分数；

将所述每个样本音视频文件的多个关键音频特征的第四分数的平均值作为所述每个样本音视频文件的第四分数。

在一种可能实现方式中，所述根据所述第三全连接层输出的所述每个样本音视频文件的第四分数，输出所述每个样本音视频文件的语种识别结果，包括：

根据所述每个样本音视频文件的第四分数和多个语种的分数范围，输出所述每个样本音视频文件的第四分数所处分数范围对应的语种，作为所述每个样本音视频文件的语种识别结果。

在一种可能实现方式中，所述对所述每个样本音视频文件的每个音频片段进行特征提取，得到所述每个样本音视频文件的多个音频特征，包括：

对所述每个样本音视频文件的多个音频片段进行处理，得到所述每个样本音视频文件的多个音频片段的梅尔频谱；

对所述梅尔频谱进行对数运算，得到所述每个样本音视频文件的多个音频片段的第一特征；

将所述每个样本音视频文件的多个音频片段的第一特征输入VGGish模型，输出所述每个样本音视频文件的多个音频片段的第二特征；

将所述每个样本音视频文件的多个音频片段的第二特征作为所述每个样本音视频文件的多个音频特征。

在一种可能实现方式中，所述对所述每个样本音视频文件的多个音频片段进行处理，得到所述每个样本音视频文件的多个音频片段的梅尔频谱，包括：

对所述每个样本音视频文件的多个音频片段进行预处理，所述预处理包括预加重和加窗处理；

对预处理后的所述每个样本音视频文件的多个音频片段进行傅里叶变换，得到频谱；

对所述频谱进行模的平方运算，得到功率谱；

将所述功率谱通过梅尔滤波器组，得到所述每个样本音视频文件的多个音频片段的梅尔频谱。

在一种可能实现方式中，所述对所述每个样本音视频文件进行特征提取之前，所述方法还包括：

对所述每个样本音视频文件的多个音频片段进行语音激活检测，去除所述每个样本音视频文件的多个音频片段中的静音片段。

对所述每个样本音视频文件进行解码，得到所述每个样本音视频文件的各帧音频数据；

根据所述每个样本音视频文件的各帧音频数据，获取所述每个样本音视频文件的多个音频片段，每个音频片段包括时间戳连续的多帧音频数据。

根据本公开实施例的第二方面，提供一种语种识别装置，包括：

获取模块，被配置为执行获取待识别的音视频文件；

提取模块，被配置为执行对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征，所述多个音频特征包含所述音视频文件的多个音频片段的音频特征；

识别模块，被配置为执行将所述多个音频特征输入语种识别模型，由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，基于所述关键音频特征进行语种识别，输出语种识别结果，所述语种识别结果用于指示所述音视频文件的语种。

在一种可能实现方式中，所述识别模块被配置为执行：

在一种可能实现方式中，所述提取模块被配置为执行：

对所述频谱进行模的平方运算，得到功率谱；

在一种可能实现方式中，所述获取模块还被配置为执行对所述音视频文件的多个音频片段进行语音激活检测，去除所述多个音频片段中的静音片段。

在一种可能实现方式中，所述获取模块还被配置为执行：

在一种可能实现方式中，所述获取模块还被配置为执行获取多个样本音视频文件以及每个样本音视频文件的语种标签；

所述提取模块还被配置为执行对所述每个样本音视频文件进行特征提取，得到所述每个样本音视频文件的多个音频特征，所述每个样本音视频文件的多个音频特征包含所述每个样本音视频文件的多个音频片段的音频特征；

所述识别模块还被配置为执行将所述每个样本音视频文件的多个音频特征以及所述每个样本音视频文件的语种标签输入初始识别模型，由所述初始识别模型基于注意力机制，从所述每个样本音视频文件的多个音频特征中筛选出所述每个样本音视频文件的关键音频特征，基于所述每个样本音视频文件的关键音频特征进行语种识别，输出所述每个样本音视频文件的语种识别结果；

所述获取模块还被配置为执行基于所述每个样本音视频文件的语种识别结果和语种标签，对所述初始识别模型的参数进行调整，直至满足目标条件时，得到所述语种识别模型。

在一种可能实现方式中，所述识别模块被配置为执行：

在一种可能实现方式中，所述提取模块被配置为执行：

对所述频谱进行模的平方运算，得到功率谱；

在一种可能实现方式中，所述获取模块还被配置为执行对所述每个样本音视频文件的多个音频片段进行语音激活检测，去除所述每个样本音视频文件的多个音频片段中的静音片段。

在一种可能实现方式中，所述获取模块还被配置为执行：

根据本公开实施例的第三方面，提供了一种电子设备，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述第一方面或第一方面的任一种可能实现方式所述的语种识别方法。

根据本公开实施例的第四方面，提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面或第一方面的任一种可能实现方式所述的语种识别方法。

根据本公开实施例的第五方面，提供一种应用程序产品，当所述应用程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面或第一方面的任一种可能实现方式所述的语种识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过获取待识别的音视频文件的多个音频特征，将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，并基于关键音频特征进行语种识别，由于基于注意力机制，从多个音频特征中筛选出少量的关键音频特征，使得语种识别模型将注意力集中在关键音频特征上，能够更加准确快速的识别出音视频文件的语种，提高了语种识别的准确率和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语种识别方法的流程图。

图2是根据一示例性实施例示出的一种语种识别方法的流程图。

图3是根据一示例性实施例示出的一种对音频片段进行处理的示意图。

图4是根据一示例性实施例示出的一种VGGish模型的结构示意图。

图5是根据一示例性实施例示出的一种模型的结构示意图。

图6是根据一示例性实施例示出的一种语种识别方法的流程图。

图7是根据一示例性实施例示出的一种语种识别装置的框图。

图8是根据一示例性实施例示出的一种电子设备800的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语种识别方法的流程图，如图1所示，语种识别方法用于电子设备中，包括以下步骤。

在步骤S11中，获取待识别的音视频文件。

在步骤S12中，对该音视频文件进行特征提取，得到该音视频文件的多个音频特征，该多个音频特征包含该音视频文件的多个音频片段的音频特征。

在步骤S13中，将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，基于该关键音频特征进行语种识别，输出语种识别结果，该语种识别结果用于指示该音视频文件的语种。

本公开实施例提供的方法，通过获取待识别的音视频文件的多个音频特征，将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，并基于关键音频特征进行语种识别，由于基于注意力机制，从多个音频特征中筛选出少量的关键音频特征，使得语种识别模型将注意力集中在关键音频特征上，能够更加准确快速的识别出音视频文件的语种，提高了语种识别的准确率和效率。

在一种可能实现方式中，该由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，包括：

分别由该语种识别模型中的第一全连接层和第二全连接层，对该多个音频特征中的每个音频特征进行计算，得到该每个音频特征的第一分数和第二分数，该第一全连接层用于基于线性函数对音频特征进行计算，该第二全连接层用于基于非线性函数对音频特征进行计算，该第一分数和该第二分数用于表示音频特征与人声的相关程度，分数越大则相关程度越大；

由该语种识别模型中的乘积层，对该第一全连接层和该第二全连接层输出的该每个音频特征的第一分数和第二分数进行计算，得到该每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为该关键音频特征。

在一种可能实现方式中，该基于该关键音频特征进行语种识别，输出语种识别结果，包括：

由该语种识别模型中顺次连接的批归一化层、激活层和丢弃层，对该关键音频特征进行处理；

由该语种识别模型中的第三全连接层，对该丢弃层输出的关键音频特征进行计算，得到该音视频文件的第四分数，该第三全连接层基于非线性函数对特征进行计算；

由该语种识别模型中的输出层根据该第三全连接层输出的该音视频文件的第四分数，输出该音视频文件的语种识别结果。

在一种可能实现方式中，该对该丢弃层输出的关键音频特征进行计算，得到该音视频文件的第四分数，包括：

当该丢弃层输出的关键音频特征有多个时，对该丢弃层输出的每个关键音频特征进行计算，得到该每个关键音频特征的第四分数；

将多个关键音频特征的第四分数的平均值作为该音视频文件的第四分数。

在一种可能实现方式中，该根据该第三全连接层输出的该音视频文件的第四分数，输出该音视频文件的语种识别结果，包括：

根据该音视频文件的第四分数和多个语种的分数范围，输出该音视频文件的第四分数所处分数范围对应的语种，作为该音视频文件的语种识别结果。

在一种可能实现方式中，该对该音视频文件进行特征提取，得到该音视频文件的多个音频特征，包括：

对该音视频文件的多个音频片段进行处理，得到该多个音频片段的梅尔频谱；

对该梅尔频谱进行对数运算，得到该多个音频片段的第一特征；

将该多个音频片段的第一特征输入VGGish模型，输出该多个音频片段的第二特征；

将该多个音频片段的第二特征作为该音视频文件的多个音频特征。

在一种可能实现方式中，该对该音视频文件的多个音频片段进行处理，得到该多个音频片段的梅尔频谱，包括：

对该多个音频片段进行预处理，该预处理包括预加重和加窗处理；

对预处理后的该多个音频片段进行傅里叶变换，得到频谱；

对该频谱进行模的平方运算，得到功率谱；

将该功率谱通过梅尔滤波器组，得到该多个音频片段的梅尔频谱。

在一种可能实现方式中，该对该音视频文件进行特征提取之前，该方法还包括：

对该音视频文件的多个音频片段进行语音激活检测，去除该多个音频片段中的静音片段。

对该音视频文件进行解码，得到该音视频文件的各帧音频数据；

根据该各帧音频数据，获取该音视频文件的多个音频片段，每个音频片段包括时间戳连续的多帧音频数据。

在一种可能实现方式中，该语种识别模型的训练过程包括：

对该每个样本音视频文件进行特征提取，得到该每个样本音视频文件的多个音频特征，该每个样本音视频文件的多个音频特征包含该每个样本音视频文件的多个音频片段的音频特征；

将该每个样本音视频文件的多个音频特征以及该每个样本音视频文件的语种标签输入初始识别模型，由该初始识别模型基于注意力机制，从该每个样本音视频文件的多个音频特征中筛选出该每个样本音视频文件的关键音频特征，基于该每个样本音视频文件的关键音频特征进行语种识别，输出该每个样本音视频文件的语种识别结果；

基于该每个样本音视频文件的语种识别结果和语种标签，对该初始识别模型的参数进行调整，直至满足目标条件时，得到该语种识别模型。

在一种可能实现方式中，该由该初始识别模型基于注意力机制，从该每个样本音视频文件的多个音频特征中筛选出该每个样本音视频文件的关键音频特征，包括：

分别由该初始识别模型的第一全连接层和第二全连接层，对该每个样本音视频文件的每个音频特征进行计算，得到该每个样本音视频文件的每个音频特征的第一分数和第二分数，该第一全连接层用于基于线性函数对音频特征进行计算，该第二全连接层用于基于非线性函数对音频特征进行计算，该第一分数和该第二分数用于表示音频特征与人声的相关程度，分数越大则相关程度越大；

由该初始识别模型的乘积层，对该第一全连接层和该第二全连接层输出的该每个样本音视频文件的每个音频特征的第一分数和第二分数进行计算，得到该每个样本音视频文件的每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为该每个样本音视频文件的关键音频特征。

在一种可能实现方式中，该基于该每个样本音视频文件的关键音频特征进行语种识别，输出该每个样本音视频文件的语种识别结果，包括：

由该语种识别模型中顺次连接的批归一化层、激活层和丢弃层，对该每个样本音视频文件的关键音频特征进行处理；

由该初始识别模型中的第三全连接层，对该丢弃层输出的该每个样本音视频文件的关键音频特征进行计算，得到该每个样本音视频文件的第四分数，该第三全连接层基于非线性函数对特征进行计算；

由该初始识别模型中的输出层根据该第三全连接层输出的该每个样本音视频文件的第四分数，输出该每个样本音视频文件的语种识别结果。

在一种可能实现方式中，该对该丢弃层输出的关键音频特征进行计算，得到该每个样本音视频文件的第四分数，包括：

当该丢弃层输出的关键音频特征有多个时，对该丢弃层输出的每个关键音频特征进行计算，得到该每个样本音视频文件的每个关键音频特征的第四分数；

将该每个样本音视频文件的多个关键音频特征的第四分数的平均值作为该每个样本音视频文件的第四分数。

在一种可能实现方式中，该根据该第三全连接层输出的该每个样本音视频文件的第四分数，输出该每个样本音视频文件的语种识别结果，包括：

根据该每个样本音视频文件的第四分数和多个语种的分数范围，输出该每个样本音视频文件的第四分数所处分数范围对应的语种，作为该每个样本音视频文件的语种识别结果。

在一种可能实现方式中，该对每个样本音视频文件的每个音频片段进行特征提取，得到该每个样本音视频文件的多个音频特征，包括：

对该每个样本音视频文件的多个音频片段进行处理，得到该每个样本音视频文件的多个音频片段的梅尔频谱；

对该梅尔频谱进行对数运算，得到该每个样本音视频文件的多个音频片段的第一特征；

将该每个样本音视频文件的多个音频片段的第一特征输入VGGish模型，输出该每个样本音视频文件的多个音频片段的第二特征；

将该每个样本音视频文件的多个音频片段的第二特征作为该每个样本音视频文件的多个音频特征。

在一种可能实现方式中，该对该每个样本音视频文件的多个音频片段进行处理，得到该每个样本音视频文件的多个音频片段的梅尔频谱，包括：

对该每个样本音视频文件的多个音频片段进行预处理，该预处理包括预加重和加窗处理；

对预处理后的该每个样本音视频文件的多个音频片段进行傅里叶变换，得到频谱；

对该频谱进行模的平方运算，得到功率谱；

将该功率谱通过梅尔滤波器组，得到该每个样本音视频文件的多个音频片段的梅尔频谱。

在一种可能实现方式中，该对该每个样本音视频文件进行特征提取之前，该方法还包括：

对该每个样本音视频文件的多个音频片段进行语音激活检测，去除该每个样本音视频文件的多个音频片段中的静音片段。

对该每个样本音视频文件进行解码，得到该每个样本音视频文件的各帧音频数据；

根据该每个样本音视频文件的各帧音频数据，获取该每个样本音视频文件的多个音频片段，每个音频片段包括时间戳连续的多帧音频数据。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种语种识别方法的流程图，如图2所示，语种识别方法用于电子设备中，包括以下步骤：

在步骤S21中，获取语种识别模型。

本公开实施例中，该语种识别模型可以由电子设备训练得到，也可以由其他设备训练得到后，发送给电子设备，使得该电子设备获取到该语种识别模型。在一种可能实现方式中，该语种识别模型的训练过程可以包括下述步骤a至步骤h：

步骤a、获取多个样本音视频文件以及每个样本音视频文件的语种标签。

其中，每个样本音视频文件的语种标签用于指示每个样本音视频文件的语种，例如，该语种可以为藏语、维语或其他任一语种。该语种标签可以是一个弱标签，例如，仅指示音视频文件中包含目标语种的音频片段，但并未明确指示该音频片段在整个音视频文件中的时间戳信息。

该多个样本音视频文件以及对应的语种标签可以由技术人员收集并打上语种标签后存储到该电子设备中，电子设备也可以从网络上下载该多个样本音视频文件，从其描述信息中获得语种信息后生成语种标签。

步骤b、对该每个样本音视频文件进行解码，得到该每个样本音视频文件的各帧音频数据。

电子设备可以采用FFmpeg(Fast Forward Mpeg，多媒体处理工具)解码器，对样本音视频文件进行解码，得到样本音视频文件的每帧音频数据。

步骤c、根据该每个样本音视频文件的各帧音频数据，获取该每个样本音视频文件的多个音频片段，每个音频片段包括时间戳连续的多帧音频数据。

对于每个样本音视频文件，电子设备可以按照时间段划分多个音频片段，如根据解码得到的各帧音频数据的时间戳，将每预设时间段内的多帧音频数据作为一个音频片段，以此得到该样本音视频文件的多个音频片段。电子设备也可以按数量划分多个音频片段，如将每预设数量的多帧音频数据作为一个音频片段，以此得到多个音频片段。

通过将音视频文件划分为多个音频片段，可以通过对该多个音频片段进行特征提取，得到音视频文件的多个音频特征。

步骤d、对该每个样本音视频文件的多个音频片段进行语音激活检测，去除该每个样本音视频文件的多个音频片段中的静音片段。

其中，静音片段是指信号能量低于一定门限值的片段。通过利用VAD(VoiceActivity Detection，语音激活检测)技术，去除无效的静音片段，保留有效的音频片段，可以避免该无效的静音片段对模型训练过程造成干扰，影响模型训练效率以及模型的准确度。

步骤e、对该每个样本音视频文件的多个音频片段进行处理，得到该每个样本音视频文件的多个音频片段的梅尔频谱，对该梅尔频谱进行对数运算，得到该每个样本音视频文件的多个音频片段的第一特征。

在一种可能实现方式中，该对该每个样本音视频文件的多个音频片段进行处理，得到该每个样本音视频文件的多个音频片段的梅尔频谱，包括：对该每个样本音视频文件的多个音频片段进行预处理，该预处理包括预加重和加窗处理；对预处理后的该每个样本音视频文件的多个音频片段进行傅里叶变换，得到频谱；对该频谱进行模的平方运算，得到功率谱；将该功率谱通过梅尔滤波器组，得到该每个样本音视频文件的多个音频片段的梅尔频谱。

参见图3，提供了一种对音频片段进行处理的示意图，其中，预加重处理是将音频信号通过一个高通滤波器，目的是提升音频信号的高频部分，使信号的频谱变得平坦。加窗是将该音频片段转变为帧序列，目的是平滑信号，加窗函数可以为哈明窗，以减弱傅里叶变换以后旁瓣大小。傅里叶变换可以是STFT(short-time Fourier transform，短时傅里叶变换)，STFT通过时间窗内的一段信号来表示某一时刻的信号特征。梅尔滤波器组是一组非线性分布的滤波器组，它在低频部分分布密集，高频部分分布稀疏，这样的分布可以更好得满足人耳听觉特性。将梅尔滤波器组处理得到的梅尔功率谱取对数(log)，可以得到Logmel特征，也即是第一特征，这样做的原因是由于人耳对声音的感知并不是线性的，用log这种非线性关系能够更好的描述。

步骤f、将该每个样本音视频文件的多个音频片段的第一特征输入VGGish模型，输出该每个样本音视频文件的多个音频片段的第二特征，将该每个样本音视频文件的多个音频片段的第二特征作为该每个样本音视频文件的多个音频特征。

参见图4，提供了一种VGGish模型的结构示意图，如图4所示，VGGish模型包括输入层、多个卷积层(Conv)、多个池化层(Pool)和多个全连接层(FC，Fully Connected)，一个卷积层后连接一个池化层，或者串行连接的多个卷积层后连接一个池化层，最后一个池化层后串联连接多个全连接层。其中，Conv后的数字表示卷积核的个数，FC后的数字表示全连接层的节点个数，全连接层的每一个节点都与上一层的所有节点相邻，用来把前面提取到的特征综合起来。输入层输入的为第一特征，输出层输出的为VGGish特征，也即是第二特征。

对于每个样本音视频文件的每个音频片段，电子设备可以通过图3和图4所示的过程得到该音频片段的第二特征，将每个样本音视频文件的多个音频片段的多个第二特征作为该样本音视频文件的多个音频特征。

需要说明的是，上述步骤e和步骤f是对该每个样本音视频文件的多个音频片段进行特征提取，得到该每个样本音视频文件的多个音频特征的一种可能实现方式，其中，该每个样本音视频文件的多个音频特征包含该每个样本音视频文件的多个音频片段的音频特征。通过将第一特征进一步经过卷积层、池化层和全连接层处理，可以得到更抽象化的第二特征，更有利于模型进行学习训练。

步骤g、将该每个样本音视频文件的多个音频特征以及该每个样本音视频文件的语种标签输入初始识别模型，由该初始识别模型基于注意力机制，从该每个样本音视频文件的多个音频特征中筛选出该每个样本音视频文件的关键音频特征，基于该每个样本音视频文件的关键音频特征进行语种识别，输出该每个样本音视频文件的语种识别结果。

视觉注意力机制是人类视觉所特有的大脑信号处理机制。当人类在看信息时，会选择性地关注所有信息的一部分，对该部分投入更多注意力资源，以获取更多需要关注的细节信息，同时忽略其他无用信息。将注意力模型机制引入到神经网络模型中，可以提高模型对于关键特征学习的准确性与效率，从而提高模型的识别性能。

该初始识别模型可以是一个基于注意力(attention)机制的神经网络模型，参见图5，提供了一种模型的结构示意图，如图5所示，该模型可以包括输入层、第一全连接层(FC(Linear))、第二全连接层(FC(Sigmoid))、乘积层批归一化层(BatchNormal)、激活层(ReLu)、丢弃层(Dropout)和第三全连接层(FC(sigmoid))。其中，该激活层的激活函数为ReLu(Rectified Linear Units，线性修正单元)激活函数。第一全连接层采用线性函数f(x)＝wx+b，对输入的音频特征进行计算，其中，b表示偏置参数，w表示由权重组成的权重矩阵，与人声的相关程度越大的音频特征的权重越大，计算得到的第一分数越大。第二全连接层采用非线性函数(sigmoid函数)f(x)＝1/(1+e^-x)，对输入的音频特征进行计算，sigmoid激活函数会将每个音频特征映射到0到1的区间。

其中，输入层的输入为音频特征，如VGGish特征；该第一全连接层用于基于线性函数对音频特征进行计算得到第一分数；该第二全连接层用于基于非线性函数对音频特征进行计算得到第二分数；乘积层用于对第一全连接层和第二全连接层的输出进行乘积计算；批归一化层用于对乘积层的输出进行归一化处理，将乘积层的输出限定在0到1的区间；批归一化层、激活层和丢弃层用于提高模型的泛化能力，避免过拟合；第三连接层所基于非线性函数对特征进行处理得到第四分数；输出层的输出为第四分数，电子设备可以将该第四分数对应的语种作为语种识别结果。

在一种可能实现方式中，该步骤g中由该初始识别模型基于注意力机制，从该每个样本音视频文件的多个音频特征中筛选出该每个样本音视频文件的关键音频特征可以包括下述步骤g1至步骤g2:

步骤g1、分别由该初始识别模型的第一全连接层和第二全连接层，对该每个样本音视频文件的每个音频特征进行处理，得到该每个样本音视频文件的每个音频特征的第一分数和第二分数，该第一分数和该第二分数用于表示音频特征与人声的相关程度，分数越大则相关程度越大。

对于每个样本音视频文件的每个音频特征，电子设备可以通过初始识别模型的第一全连接层，对该音频特征进行处理，得到该音频特征的第一分数，通过初始识别模型的第二全连接层，对该音频特征进行处理的，得到该音频特征的第二分数。

步骤g2、由该初始识别模型的乘积层，对该第一全连接层和该第二全连接层输出的该每个样本音视频文件的每个音频特征的第一分数和第二分数进行计算，得到该每个样本音视频文件的每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为该每个样本音视频文件的关键音频特征。

对于每个样本音视频文件的每个音频特征，电子设备可以通过初始识别模型的乘积层，对该音频特征的第一分数和第二分数进行乘积计算，得到该音频特征的第三分数。对于每个样本音视频文件，电子设备可以根据该样本音视频文件的多个音频特征的第三分数，从该多个音频特征中筛选出第三分数大于分数阈值的音频特征作为关键音频特征，而将该多个音频特征中第三分数小于或等于分数阈值的音频特征舍弃掉。

通过采用两个全连接层对音频特征进行处理，根据两个全连接层分别得到的分数的乘积，来筛选关键音频特征，只有两个全连接层计算得到的分数均较大时，相乘得到的结果才比较大，分数越大表示越与人声越有关，是模型要学习的特征，分数越小表示越与人声无关，不是模型要学习的特征，这样可以将音视频文件中非人声的杂音特征过滤掉，留下最有用的特征，模型将注意力集中在最有用的特征上进行训练学习。

在一种可能实现方式中，该步骤g中基于该每个样本音视频文件的关键音频特征进行语种识别，输出该每个样本音视频文件的语种识别结果可以包括下述步骤g3至步骤g5：

步骤g3、由该语种识别模型中顺次连接的批归一化层、激活层和丢弃层，对该每个样本音视频文件的关键音频特征进行处理。

通过模型的批归一化层、激活层和丢弃层对关键音频特征进行处理，可以提高模型的泛化能力，避免过拟合，之后再通过模型的第三全连接层对处理后的关键音频特征进行计算，可以得到更加准确的语种识别结果。其中，该激活层的激活函数可以为ReLU(Rectified Linear Unit，线性修正单元)激活函数。

步骤g4、由该初始识别模型中的第三全连接层，对该丢弃层输出的每个样本音视频文件的关键音频特征进行计算，得到该每个样本音视频文件的第四分数，该第三全连接层基于非线性函数对特征进行计算。

对于每个样本音视频文件，电子设备可以通过初始模型的第三连接层，对该样本音视频文件的关键音频特征进行计算，得到第四分数。在一种可能实现方式中，该步骤g4可以包括：当该丢弃层输出的关键音频特征有多个时，对该丢弃层输出的每个关键音频特征进行计算，得到该每个样本音视频文件的每个关键音频特征的第四分数；将该每个样本音视频文件的多个关键音频特征的第四分数的平均值作为该每个样本音视频文件的第四分数。

样本音视频文件的关键音频特征可能有多个，电子设备可以基于每个关键音频特征计算得到一个第四分数，这样多个关键音频特征可以计算得到多个第四分数，电子设备可以对该多个第四分数求平均值，将结果作为样本音视频文件的第四分数。

步骤g5、由该初始识别模型中的输出层根据该第三全连接层输出的该每个样本音视频文件的第四分数，输出该每个样本音视频文件的语种识别结果。

在一种可能实现方式中，该步骤g5可以包括：根据该每个样本音视频文件的第四分数和多个语种的分数范围，输出该每个样本音视频文件的第四分数所处分数范围对应的语种，作为该每个样本音视频文件的语种识别结果。

电子设备可以预先存储有多个语种对应的分数范围，电子设备可以先确定该第四分数所处的分数范围，然后将该分数范围所对应的语种作为该样本音视频文件的语种识别结果。

步骤h、基于该每个样本音视频文件的语种识别结果和语种标签，对该初始识别模型的参数进行调整，直至满足目标条件时，得到该语种识别模型。

电子设备可以对初始识别模型进行迭代训练，不断调整其参数，直至达到目标条件时，将此时得到的识别模型作为最终的语种识别模型。

该目标条件可以是模型的识别准确度达到目标准确度，例如，电子设备可以基于该每个样本音视频文件的语种识别结果和语种标签，计算模型的识别准确度，如果模型的识别准确度大于或等于准确度阈值，则将此时的模型作为语种识别模型，如果模型的识别准确度小于目标准确度，则对该初始识别模型的参数进行调整后，再次执行上述步骤a至步骤f，直至模型的识别准确度等于或大于目标准确度，从而得到语种识别模型。

对于每个样本音视频文件，电子设备可以将该样本音视频文件的语种识别结果和语种标签进行比较，确定该样本音视频文件的语种识别结果与语种标签是否一致，如果一致，表明该样本音视频文件的语种识别结果准确，否则该样本音视频文件的语种识别结果不准确。这样电子设备可以从多个样本音视频文件中，确定语种识别结果准确的样本音视频文件的数量，根据该数量与该多个样本音视频文件的总数量，计算该初始识别模型的识别准确度，如果识别准确度低于准确度阈值，则对该初始识别模型的参数进行调整后，再次执行上述步骤a至步骤e，直至模型的识别准确度大于准确度阈值，则将此时的模型作为最终的语种识别模型。

该目标条件也可以是迭代次数达到目标次数，相应地，电子设备可以在迭代次数达到次数阈值时，将此时的模型作为最终的语种识别模型。可以理解的是，该目标条件也可以是迭代次数大于次数阈值且模型的识别准确度大于准确度阈值，本公开实施例对模型训练的终止条件不做限定。

需要说明的是，该步骤S21为可选步骤，该步骤S21为对音视频文件进行识别之前需要执行的步骤，并不是每次对音视频文件进行识别时均需执行该步骤，保证在对音视频文件进行识别时，已经获取到该语种识别模型即可，如电子设备可以预先训练得到该语种识别模型后存储在本地，或预先从其他设备获取到该语种识别模型后存储在本地，在需要基于该语种识别模型对音视频文件进行识别时，直接调用该语种识别模型。

在步骤S22中，获取待识别的音视频文件。

其中，该待识别的音视频文件可以是音频，也可以是视频。

该步骤S22中，电子设备可以从本地存储中获取该待识别的音视频文件，也可以从网络上下载该待识别的音视频文件，还可以接收其他设备发送的该待识别的音视频文件，本公开实施例对待识别的音视频文件的来源不做限定。

在步骤S23中，对该音视频文件进行解码，得到该音视频文件的各帧音频数据。

该步骤S23与步骤S21中的步骤b同理，此处不再赘述。

在步骤S24中，根据该各帧音频数据，获取该音视频文件的多个音频片段，每个音频片段包括时间戳连续的多帧音频数据。

该步骤S24与步骤S21中的步骤c同理，此处不再赘述。

需要说明的是，该步骤S23和步骤S24为可选步骤，也即是，电子设备也可以不执行该步骤S23和步骤S24，例如，电子设备在步骤S22中获取的音视频文件可以是指该音视频文件的多个音频片段，也即是，该音视频文件已经预先解码好了，电子设备可以直接获取到该音视频文件的多个音频片段。

在步骤S25中，对该音视频文件的多个音频片段进行语音激活检测，去除该多个音频片段中的静音片段。

该与步骤S25中的步骤d同理，此处不再赘述。

需要说明的是，该步骤S25为可选步骤，也即是，电子设备也可以不执行该步骤S25，而是直接对音视频文件的多个音频片段执行步骤S26，例如，该音视频文件不包含静音片段的情况。

在步骤S26中，对该音视频文件的多个音频片段进行处理，得到该多个音频片段的梅尔频谱，对该梅尔频谱进行对数运算，得到该多个音频片段的第一特征。

在一种可能实现方式中，该对该音视频文件的多个音频片段进行处理，得到该多个音频片段的梅尔频谱，包括：对该多个音频片段进行预处理，该预处理包括预加重和加窗处理；对预处理后的该多个音频片段进行傅里叶变换，得到频谱；对该频谱进行模的平方运算，得到功率谱；将该功率谱通过梅尔滤波器组，得到该多个音频片段的梅尔频谱。

该步骤S26与步骤S21中的步骤e同理，此处不再赘述。

在步骤S27中，将该多个音频片段的第一特征输入VGGish模型，输出该多个音频片段的第二特征，将该多个音频片段的第二特征作为该音视频文件的多个音频特征。

该步骤S27与步骤S21中的步骤f同理，此处不再赘述。

需要说明的是，上述步骤S26和步骤S27是对该音视频文件进行特征提取，得到该音视频文件的多个音频特征的一种可能实现方式，其中，该多个音频特征包含该音视频文件的多个音频片段的音频特征。

在步骤S28中，将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，基于该关键音频特征进行语种识别，输出语种识别结果，该语种识别结果用于指示该音视频文件的语种。

在一种可能实现方式中，该步骤S28中由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，包括下述步骤A1至步骤A2：

步骤A1、分别由该语种识别模型中的第一全连接层和第二全连接层，对该多个音频特征中的每个音频特征进行计算，得到该每个音频特征的第一分数和第二分数，该第一全连接层用于基于线性函数对音频特征进行计算，该第二全连接层用于基于非线性函数对音频特征进行计算，该第一分数和该第二分数用于表示音频特征与人声的相关程度，分数越大则相关程度越大。

该步骤A1与步骤S21中的步骤e1同理，此处不再赘述。

步骤A2、由该语种识别模型中的乘积层，对该第一全连接层和该第二全连接层输出的该每个音频特征的第一分数和第二分数进行计算，得到该每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为该关键音频特征。

该步骤A2与步骤S21中的步骤e2同理，此处不再赘述。

在一种可能实现方式中，该步骤S27中该基于该关键音频特征进行语种识别，输出语种识别结果，包括下述步骤A3至步骤A5：

步骤A3、由该语种识别模型中顺次连接的批归一化层、激活层和丢弃层，对该关键音频特征进行处理。

该步骤A3与步骤S21中的步骤e3同理，此处不再赘述。

步骤A4、由该语种识别模型中的第三全连接层，对该丢弃层输出的关键音频特征进行计算，得到该音视频文件的第四分数，该第三全连接层基于非线性函数对特征进行计算。

在一种可能实现方式中，该步骤A4可以包括：当该丢弃层输出的关键音频特征有多个时，对该丢弃层输出的每个关键音频特征进行计算，得到该每个关键音频特征的第四分数；将多个关键音频特征的第四分数的平均值作为该音视频文件的第四分数。

该步骤A4与步骤S21中的步骤e4同理，此处不再赘述。

步骤A5、由该语种识别模型中的输出层根据该第三全连接层输出的该音视频文件的第四分数，输出该音视频文件的语种识别结果。

在一种可能实现方式中，该步骤A5可以包括：根据该音视频文件的第四分数和多个语种的分数范围，输出该音视频文件的第四分数所处分数范围对应的语种，作为该音视频文件的语种识别结果。

该步骤A5与步骤S21中的步骤e5同理，此处不再赘述。

参见图6，提供了一种语种识别方法的流程图，如图6所示，在对待识别的音视频文件进行识别之前，可以通过线下训练部分得到语种识别模型，其中，线下训练部分包括对音视频文件进行解码(FFmpeg解码器)、提取特征(VGGish特征)、对初始识别模型进行训练，得到语种识别结果。在需要对音视频文件进行识别时，可以通过线上识别部分得到语种识别结果，其中，线上识别部分包括对音视频文件进行解码、语音激活检测、提取特征，将特征输入该语种识别模型，输出语种识别结果。

在一些示例实施场景中，本公开实施例提供的语种识别方法可以应用于信息检索领域，如信息查询系统可以提供多种语种服务，利用本公开实施例提供的语种识别方法确定用户的语种后，就可以提供相应语种的服务，这类典型服务的包括旅游信息查询、应急服务、银行和股票交易所等。本公开实施例提供的语种识别方法还可以应用于信息安全领域，如随着信息时代的到来以及因特网的发展，在网络上存在着海量的音视频，这其中也包含了大量的政治和暴恐视频，对用户造成了不好的用户体验，甚至有损公司产品，危害国家安全，对公司和国家造成不可估量的影响，本公开实施例提供的语种识别方法可以大大减少人力成本，快速定位可疑的音视频，提高效率，保障公司和国家安全。本公开实施例提供的语种识别方法还可以应用于在刑侦和军事领域，用来对说话人身份进行监听或判别，强有力的保障国家安全。

图7是根据一示例性实施例示出的一种语种识别装置的框图。参照图7，该装置包括获取模块701，提取模块702和识别模块703。

获取模块701，被配置为执行获取待识别的音视频文件；

提取模块702，被配置为执行对该音视频文件进行特征提取，得到该音视频文件的多个音频特征，该多个音频特征包含该音视频文件的多个音频片段的音频特征；

识别模块703，被配置为执行将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，基于该关键音频特征进行语种识别，输出语种识别结果，该语种识别结果用于指示该音视频文件的语种。

在一种可能实现方式中，该识别模块703被配置为执行：

在一种可能实现方式中，该提取模块702被配置为执行：

对预处理后的该多个音频片段进行傅里叶变换，得到频谱；

对该频谱进行模的平方运算，得到功率谱；

在一种可能实现方式中，该获取模块701还被配置为执行对该音视频文件的多个音频片段进行语音激活检测，去除该多个音频片段中的静音片段。

在一种可能实现方式中，该获取模块701还被配置为执行：

在一种可能实现方式中，该获取模块701还被配置为执行获取多个样本音视频文件以及每个样本音视频文件的语种标签；

该提取模块702还被配置为执行对该每个样本音视频文件进行特征提取，得到该每个样本音视频文件的多个音频特征，该每个样本音视频文件的多个音频特征包含该每个样本音视频文件的多个音频片段的音频特征；

该识别模块703还被配置为执行将该每个样本音视频文件的多个音频特征以及该每个样本音视频文件的语种标签输入初始识别模型，由该初始识别模型基于注意力机制，从该每个样本音视频文件的多个音频特征中筛选出该每个样本音视频文件的关键音频特征，基于该每个样本音视频文件的关键音频特征进行语种识别，输出该每个样本音视频文件的语种识别结果；

该获取模块701还被配置为执行基于该每个样本音视频文件的语种识别结果和语种标签，对该初始识别模型的参数进行调整，直至满足目标条件时，得到该语种识别模型。

在一种可能实现方式中，该识别模块703被配置为执行：

由该初始识别模型的乘积层，对该第一全连接层和该第二全连接层输出的每个样本音视频文件的每个音频特征的第一分数和第二分数进行计算，得到该每个样本音视频文件的每个音频特征的第三分数，将第三分数大于分数阈值的音频特征作为该每个样本音视频文件的关键音频特征。

在一种可能实现方式中，该识别模块703被配置为执行：

由该初始识别模型中的第三全连接层，对该丢弃层输出的每个样本音视频文件的关键音频特征进行计算，得到该每个样本音视频文件的第四分数，该第三全连接层基于非线性函数对特征进行计算；

在一种可能实现方式中，该识别模块703被配置为执行：

在一种可能实现方式中，该提取模块702被配置为执行：

对该频谱进行模的平方运算，得到功率谱；

在一种可能实现方式中，该获取模块701还被配置为执行对该每个样本音视频文件的多个音频片段进行语音激活检测，去除该每个样本音视频文件的多个音频片段中的静音片段。

在一种可能实现方式中，该获取模块701还被配置为执行：

本公开实施例中，通过获取待识别的音视频文件的多个音频特征，将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，并基于关键音频特征进行语种识别，由于基于注意力机制，从多个音频特征中筛选出少量的关键音频特征，使得语种识别模型将注意力集中在关键音频特征上，能够更加准确快速的识别出音视频文件的语种，提高了语种识别的准确率和效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备800的框图，该电子设备800可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processingunits，CPU)801和一个或多个的存储器802，其中，该存储器802中存储有至少一条指令，该至少一条指令由该处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行下述语种识别方法：

获取待识别的音视频文件；

对该音视频文件进行特征提取，得到该音视频文件的多个音频特征，该多个音频特征包含该音视频文件的多个音频片段的音频特征；

将该多个音频特征输入语种识别模型，由该语种识别模型基于注意力机制，从该多个音频特征中筛选出关键音频特征，基于该关键音频特征进行语种识别，输出语种识别结果，该语种识别结果用于指示该音视频文件的语种。

例如，该非临时性计算机可读存储介质可以是ROM(Read-Only Memory,只读内存)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序产品，当该应用程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行下述语种识别方法：

获取待识别的音视频文件；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语种识别方法，其特征在于，包括：

获取待识别的音视频文件；

2.根据权利要求1所述的语种识别方法，其特征在于，所述由所述语种识别模型基于注意力机制，从所述多个音频特征中筛选出关键音频特征，包括：

3.根据权利要求1所述的语种识别方法，其特征在于，所述基于所述关键音频特征进行语种识别，输出语种识别结果，包括：

4.根据权利要求3所述的语种识别方法，其特征在于，所述对所述丢弃层输出的关键音频特征进行计算，得到所述音视频文件的第四分数，包括：

5.根据权利要求3所述的语种识别方法，其特征在于，所述根据所述第三全连接层输出的所述音视频文件的第四分数，输出所述音视频文件的语种识别结果，包括：

6.根据权利要求1所述的语种识别方法，其特征在于，所述对所述音视频文件进行特征提取，得到所述音视频文件的多个音频特征，包括：

7.根据权利要求6所述的语种识别方法，其特征在于，所述对所述音视频文件的多个音频片段进行处理，得到所述多个音频片段的梅尔频谱，包括：

对所述频谱进行模的平方运算，得到功率谱；

8.一种语种识别装置，其特征在于，包括：

获取模块，被配置为执行获取待识别的音视频文件；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行权利要求1-7任一项所述的语种识别方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-7任一项所述的语种识别方法。