CN113327584A

CN113327584A - 语种识别方法、装置、设备及存储介质

Info

Publication number: CN113327584A
Application number: CN202110593396.5A
Authority: CN
Inventors: 秦冲; 魏韬; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31
Anticipated expiration: 2041-05-28
Also published as: CN113327584B

Abstract

本申请涉及人工智能和语音识别领域，具体公开了一种语种识别方法、装置、设备及存储介质，所述方法包括：获取样本音频和样本音频对应的音频标签；对样本音频进行数据处理，得到样本音频对应的特征矩阵；将特征矩阵输入第一神经网络，得到特征矩阵对应的帧内特征；将特征矩阵输入第二神经网络，得到特征矩阵对应的帧间特征；根据帧内特征和帧间特征进行逻辑回归，以对样本音频进行语种识别，得到样本音频的预测类别；基于样本音频的预测类别和音频标签对第一神经网络和第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于语种识别模型对待识别语音进行语种识别。提高了语种识别的准确率。

Description

语种识别方法、装置、设备及存储介质

技术领域

本申请涉及语种识别领域，尤其涉及一种语种识别方法、装置、设备及存储介质。

背景技术

随着人工智能的发展和国际化程度的提高，语音识别和机器翻译等行业对于语种识别的要求也越来越高。可以根据每种语种不同的发音节奏、声韵母、语言结构和发音习惯来对音频进行语种识别。目前大多是利用深度学习方法的说话人识别技术为主来对音频进行识别，但这种深度学习方法在进行语种识别时的准确率有限，尤其是在短语音方面的识别效果较差，难以满足实际业务的需要，因此，如何提高语种的识别准确率成为亟待解决的问题。

发明内容

本申请提供了一种语种识别方法、装置、设备及存储介质，以提高语种识别的准确率。

第一方面，本申请提供了一种语种识方法，所述方法包括：

获取样本音频和所述样本音频对应的音频标签；对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵；将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征；将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征；根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别；基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

第二方面，本申请还提供了一种语种识别装置，所述装置包括：

样本获取模块，用于获取样本音频和所述样本音频对应的音频标签；矩阵生成模块，用于对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵；帧内提取模块，用于将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征；帧间提取模块，用于将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征；类别预测模块，用于根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别；迭代训练模块，用于基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语种识别方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语种识别方法。

本申请公开了一种语种识别方法、装置、设备及存储介质，获取样本音频以及样本音频对应的音频标签，并对样本音频进行数据处理得到特征矩阵，将特征矩阵分别输入第一神经网络和第二神经网络，以得到帧内特征和帧间特征，再基于帧内特征和帧间特征来进行逻辑回归，从而对样本音频进行语种识别，得到预测类别，最终基于得到的预测类别与音频标签来对第一神经网络和第二神经网络进行迭代训练，在训练完成后，将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，最终可以根据语种识别模型对待识别语音进行语种识别。利用两个神经网络分别提取音频的帧间特征和帧内特征，基于这两种特征进行语种识别，提高语种识别的准确率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语种识别方法的示意流程图；

图2为本申请实施例提供的得到特征矩阵的步骤示意流程图；

图3为本申请实施例提供的对样本音频进行语种识别得到预测类别的步骤示意图；

图4为本申请实施例提供的一种语种识别装置的示意性框图；

图5为本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种语种识别方法、装置、设备及存储介质。语种识别方法通过训练了一个语种识别模型，利用训练完成的语种识别模型进行语种识别，提高了语种识别的准确率。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种语种识别方法的示意流程图。该语种识别方法是通过设置两个神经网络，分别对这两个神经网络进行训练，使这两个神经网络能够准确提取出音频的帧间特征和帧内特征，从而得到训练完成的语种识别模型，以便于基于语种识别模型对待识别语音进行语种识别，实现语种识别准确率的提高。

如图1所示，该语种识别模型的训练方法，具体包括：步骤S101至步骤S106。

S101、获取样本音频和所述样本音频对应的音频标签。

可以从语种数据库中获取用于训练语种识别模型的样本音频，样本音频对应设置有音频标签，音频标签表示该样本音频所对应的语种类型，例如音频标签可以包括汉语、英语、俄语、法语、西班牙语和意大利语等等。

S102、对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵。

在得到样本音频后，对样本音频进行数据处理，从而得到样本音频所对应的特征矩阵，以基于该特征矩阵进行语种识别模型的训练。其中，对样本音频进行数据处理可以包括音频采样和特征提取。

在一实施例中，请参阅图2，得到特征矩阵的步骤可以包括：

S1021、对所述样本音频进行音频采样，得到采样信号；S1022、对所述采样信号进行预处理，得到预处理后的信号；S1023、对所述预处理后的信号进行特征提取，得到特征矩阵。

对样本音频进行音频采样，得到采样信号，例如可以使用PCM音频采样的方式得到采样信号。其中，音频采样包括抽样、量化和编码。其中，抽样是指从采样信号中按照一定的抽样规则抽取出一些采样点。而为了更高效地保存和传输每个采样点的数值，从而将这些振幅值进行规整，也即量化的过程。然后，将量化后离散整数序列转化为计算机实际储存所用的二进制字节序列的过程叫做音频编码。

在得到采样信号后，对采样信号进行预处理，其中，预处理包括对采样信号进行预加重、分帧、加窗等多种操作中的至少一种。

其中，预加重是指对采样信号的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。例如，可以通过传递函数为一阶FIR高通数字滤波器来实现预加重。

由于语音信号具有短时平稳性，因此为了方便进行傅里叶变换，可以将采样信号分为一些短段，每一个短段为一帧，该过程称为分帧。

加窗是指在数字处理时把长时间的信号序列截断得到截断信号，并将截断后的信号与一个窗函数相乘。加窗便于进行傅里叶展开，使全局更加连续，避免出现吉布斯效应。

在经过预处理后，对预处理后的信号进行特征提取，从而得到特征矩阵。在一实施例中，所述对所述预处理后的信号进行特征提取，得到特征矩阵的步骤包括：对所述预处理后的信号进行傅里叶变换，得到频域信号；将所述频域信号通过梅尔滤波器，并取对数功率，从而得到单帧特征；基于所述频域信号的帧数和所述单帧特征得到特征矩阵。

将预处理后的信号进行傅里叶变换，得到频域上的频域信号，然后将频域信号通过梅尔滤波器组，并对梅尔滤波器组的输出求对数功率，从而得到单帧特征。其中，单帧特征可以是Fbank特征，也可以是对Fbank特征进行离散余弦变换后得到的MFCC特征。

由于频域信号有多帧，对每一帧分别采取该步骤得到每一帧的单帧特征后，根据帧数和单帧特征即可得到特征矩阵。例如得到的特征矩阵的格式可以为帧数*特征维数。其中，音频信号特征可以是40维的特征。在具体实施过程中，梅尔滤波器组可以是由一组梅尔频标上线性分布的三角窗滤波器组成的。

例如，对一段1秒长度、采样率16000hz的样本音频，它由16000个PCM点组成，可看作是一维向量，首先做预加重，提高高频信号的能量，再取0.25ms为一帧，对每帧信号加窗平滑，再做快速傅立叶变换，将时域信号变换为频域信号，利用梅尔滤波器对频域信号的功率谱滤波，取对数后即可得到40维的Fbank特征。若使用MFCC特征来进行模型训练，则可以再对Fbank特征进行离散余弦变换，之后得到的即是MFCC特征，这样就对每条样本音频可以得到一个帧数*40的特征矩阵。

S103、将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征。

将得到的特征矩阵输入第一神经网络，从而基于第一神经网络提取特征矩阵对应的帧内特征。其中，帧内特征用于表征语种的发音特性，例如不同语种在发音因素上的特点。

在一实施例中，得到帧内特征的步骤可以包括：将所述特征矩阵输入第一神经网络，得到多个输出特征，对多个所述输出特征进行平均，得到帧内特征；或者将所述特征矩阵输入第一神经网络，得到多个输出特征，将多个所述输出特征作为帧内特征。

在具体实施过程中，第一神经网络可以是利用一维空洞卷积神经网络构建的五层编码器，每层神经网络的网络参数如表1中所示。然后利用第一神经网络做最大似然估计训练，从而得到帧内特征。

表1

Layer	Out-channels	Kernel-size	Dilation
				CNN-1	512	5	1
CNN-2	512	5	2
				CNN-3	512	7	3
CNN-4	512	1	1
				CNN-5	1500	1	1

其中，第一神经网络中第一层卷积神经网络CNN-1的输出通道的数量为512，卷积核为5，膨胀系数为1，此时CNN-1输出的特征维度为512维。第二层卷积神经网络CNN-2的输出通道的数量为512，卷积核为5，膨胀系数为2，此时CNN-2输出的特征维度为512维。第三层卷积神经网络CNN-2的输出通道的数量为512，卷积核为7，膨胀系数为3，此时CNN-3输出的特征维度为512维。第四层卷积神经网络CNN-2的输出通道的数量为512，卷积核为1，膨胀系数为1，此时CNN-4输出的特征维度为512维。第五层卷积神经网络CNN-2的输出通道的数量为1500，卷积核为1，膨胀系数为1，此时CNN-5输出的特征维度为1500维。

在具体实施过程中，最大似然估计训练可以是D-vector网络形式的，也可以是X-vector网络形式的。对于不同类型的网络形式，得到的帧内特征也有所不同。

对于D-vector网络形式而言，将特征矩阵输入第一神经网络，对于每一帧的特征矩阵，取第一神经网络最后一层的卷积层，也即CNN-5层输出的输出特征，此时的输出特征为1500维，对全部帧的1500维的输出特征进行平均，将平均后的平均特征作为帧内特征。

对于X-vector网络形式而言，将特征矩阵输入第一神经网络，对于每一帧的特征矩阵，取第一神经网络倒数第二层的卷积层，也即CNN-4层输出的输出特征，此时的输出特征为512维，将该512维的输出特征作为帧内特征。

S104、将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征。

将得到的特征矩阵输入第二神经网络，从而基于第二神经网络提取特征矩阵对应的帧间特征。其中，帧间特征用于表征语种的时序依赖信息，例如同一语种在发音时的内在联系。

在具体实施过程中，第二神经网络可以是利用一维空洞卷积神经网络构建的五层编码器和自回归模型组成的，其中，自回归模型可以使用隐藏层维度为256维度的前向传播网络。在具体实施过程中，第二神经网络中的五层编码器可以与第一神经网络中的五层编码器的网络参数相同。

将特征矩阵输入第二神经网络后，分别经过五层编码器和自回归模型，最终得到输出特征，将该输出特征作为特征矩阵对应的帧间特征。

S105、根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别。

在得到帧内特征和帧间特征后，根据帧内特征和帧间特征进行逻辑回归，以对样本音频进行语种识别，得到样本音频的预测类别。

在一实施例中，请参阅图3，对样本音频进行语种识别得到预测类别的步骤可以包括：S1051、对所述帧内特征和所述帧间特征进行拼接融合，得到拼接特征；S1052、基于所述拼接特征进行逻辑回归，对所述拼接特征对应的样本音频进行打分，以根据所述样本音频的得分确定得到所述样本音频的预测类别。

由于帧内特征和帧间特征分别具有各自的作用，帧内信息侧重某一个语种的发音特性，帧间信息侧重同一个语种发音的内在联系，因此，将帧内特征和帧间特征进行拼接融合，从而得到拼接特征。

例如，当帧内特征为使用D-vector网络形式得到的时，拼接特征为1756维的特征。当帧内特征为使用X-vector网络形式得到的时，拼接特征为768维的特征。

对于拼接特征，采用逻辑回归的打分方法，分别计算出拼接特征归属于不同语种类别的得分，从而根据样本音频的得分来进行语种识别，得到样本音频的预测类别。在具体实施过程中，得分最高的语种类别即为样本音频的预测类别。在计算得分时，可以使用语音识别框架Kaldi所自带的脚本工具来计算得分，从而得到预测类别。

S106、基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

在得到样本音频的预测类别后，根据预测类别和音频标签来对第一神经网络和第二神经网络进行迭代训练，并在第一神经网络和第二神经网络训练完成后，将训练完成的第一神经网络和第二神经网络进行合并，从而得到语种识别模型。

在一实施例中，该方法可以包括：统计所述样本音频的识别正确的正确数量和所述样本音频的总数量，并给予所述正确数量和所述总数量计算所述样本音频的识别准确率；若所述识别准确率大于或等于预设阈值，则完成对所述第一神经网络和所述第二神经网络的训练；其中，若所述样本音频的预测类别和所述样本音频的音频标签相同，则确定对所述样本音频的识别结果为识别正确。

在得到样本音频的预测类别后，通过预测类别和音频标签来计算对于样本音频的识别准确率。在计算过程中，若预测类别和音频标签相同，则认为该样本音频识别正确，若预测类别和音频标签不同，则认为该样本音频识别错误，根据样本音频识别正确的数量和样本音频的总数来确定对于样本音频的识别准确率。也即，样本音频的识别准确率等于样本音频识别正确的数量占样本音频的总数的百分比。

若识别准确率大于或等于预设阈值，则可以认为第一神经网络提取出的帧内特征和第二神经网络所提取出的帧间特征的准确度较高，基于帧内特征和帧间特征确定的预测类别的准确度也较高，此时第一神经网络和第二神经网络训练完成。

若识别准确率小于预设阈值，则认为此时基于提取出的帧内特征和帧间特征确定的预测类别的准确度尚有不足，再重新调整第一神经网络和/或第二神经网络的网络参数，来对第一神经网络和第二神经网络进行训练，直至识别准确率大于或等于预设阈值。

此时认为第一神经网络和第二神经网络训练完成，将第一神经网络和第二神经网络合并，从而得到语种识别模型，并根据语种识别模型对待识别语音进行语种识别。

在具体实施过程中，可以通过语音采集装置来采集需要进行语种识别的待识别语音，语音采集装置例如可以是麦克风等。然后将获取到的待识别语音输入预先训练的语种识别模型中，通过该预先训练的语种识别模型得到待识别语音的帧内特征和帧间特征，以便于基于该帧内特征和帧间特征进行语种识别。

在得到待识别语音的帧间特征和帧内特征后，基于帧内特征和帧间特征进行逻辑回归，以计算待识别语音的语种得分，根据计算出的分数确定待识别语音对应的分类结果，并将该分类结果作为语种识别结果，完成语种识别。

上述实施例提供的语种识别方法，获取样本音频以及样本音频对应的音频标签，并对样本音频进行数据处理得到特征矩阵，将特征矩阵分别输入第一神经网络和第二神经网络，以得到帧内特征和帧间特征，再基于帧内特征和帧间特征来进行逻辑回归，从而对样本音频进行语种识别，得到预测类别，最终基于得到的预测类别与音频标签来对第一神经网络和第二神经网络进行迭代训练，在训练完成后，将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，最终可以根据语种识别模型对待识别语音进行语种识别。利用两个神经网络分别提取音频的帧间特征和帧内特征，基于这两种特征进行语种识别，提高语种识别的准确率。

请参阅图4，图4是本申请的实施例还提供一种语种识别装置的示意性框图，该语种识别装置用于执行前述的语种识别方法。其中，该语种识别装置可以配置于服务器或终端中。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

如图4所示，语种识别装置200包括：样本获取模块201、矩阵生成模块202、帧内提取模块203、帧间提取模块204、类别预测模块205和迭代训练模块206。

样本获取模块201，用于获取样本音频和所述样本音频对应的音频标签。

矩阵生成模块202，用于对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵。

其中，矩阵生成模块202包括音频采样子模块2021、预处理子模块2022和特征提取子模块2023。

具体地，音频采样子模块2021，用于对所述样本音频进行音频采样，得到采样信号。预处理子模块2022，用于对所述采样信号进行预处理，得到预处理后的信号。特征提取子模块2023，用于对所述预处理后的信号进行特征提取，得到特征矩阵。

帧内提取模块203，用于将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征。

帧间提取模块204，用于将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征。

类别预测模块205，用于根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别。

其中，类别预测模块205包括特征拼接子模块2051和逻辑打分子模块2052。

具体的，特征拼接子模块2051，用于对所述帧内特征和所述帧间特征进行拼接融合，得到拼接特征；逻辑打分子模块2052，用于基于所述拼接特征进行逻辑回归，对所述拼接特征对应的样本音频进行打分，以根据所述样本音频的得分确定得到所述样本音频的预测类别。

迭代训练模块206，用于基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语种识别装置和各模块的具体工作过程，可以参考前述语种识方法实施例中的对应过程，在此不再赘述。

上述的语种识别装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

参阅图5，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语种识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语种识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取样本音频和所述样本音频对应的音频标签；

对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵；

将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征；

将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征；

根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别；

基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

在一个实施例中，所述处理器在实现所述将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征时，用于实现：

将所述特征矩阵输入第一神经网络，得到多个输出特征，对多个所述输出特征进行平均，得到帧内特征；或者将所述特征矩阵输入第一神经网络，得到多个输出特征，将多个所述输出特征作为帧内特征。

在一个实施例中，所述处理器在实现所述对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵时，用于实现：

对所述样本音频进行音频采样，得到采样信号，所述音频采样包括抽样、量化和编码；对所述采样信号进行预处理，得到预处理后的信号，所述预处理包括预加重、分帧、加窗中的至少一种；对所述预处理后的信号进行特征提取，得到特征矩阵。

在一个实施例中，所述处理器在实现所述对所述预处理后的信号进行特征提取，得到特征矩阵时，用于实现：

对所述预处理后的信号进行傅里叶变换，得到频域信号；将所述频域信号通过梅尔滤波器，并取对数功率，从而得到单帧特征；基于所述频域信号的帧数和所述单帧特征得到特征矩阵。

在一个实施例中，所述处理器在实现所述根据所述帧内特征和所述帧间特征进行进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别时，用于实现：

对所述帧内特征和所述帧间特征进行拼接融合，得到拼接特征；基于所述拼接特征进行逻辑回归，对所述拼接特征对应的样本音频进行打分，以根据所述样本音频的得分确定得到所述样本音频的预测类别。

在一个实施例中，所述处理器还用于实现：

统计所述样本音频的识别正确的正确数量和所述样本音频的总数量，并给予所述正确数量和所述总数量计算所述样本音频的识别准确率；若所述识别准确率大于或等于预设阈值，则完成对所述第一神经网络和所述第二神经网络的训练；其中，若所述样本音频的预测类别和所述样本音频的音频标签相同，则确定对所述样本音频的识别结果为识别正确。

在一个实施例中，所述第一神经网络包括使用一维空洞卷积神经网络构建的五层编码器，所述第二神经网络包括使用一维空洞卷积神经网络构建的五层编码器和自回归模型，其中，所述自回归模型为隐藏层特征为256维度的前向传播网络。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语种识别方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语种识别方法，其特征在于，包括：

获取样本音频和所述样本音频对应的音频标签；

基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

2.根据权利要求1所述的语种识别方法，其特征在于，所述将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征，包括：

将所述特征矩阵输入第一神经网络，得到多个输出特征，对多个所述输出特征进行平均，得到帧内特征；或者

将所述特征矩阵输入第一神经网络，得到多个输出特征，将多个所述输出特征作为帧内特征。

3.根据权利要求1所述的语种识别方法，其特征在于，所述对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵，包括：

对所述样本音频进行音频采样，得到采样信号，所述音频采样包括抽样、量化和编码；

对所述采样信号进行预处理，得到预处理后的信号，所述预处理包括预加重、分帧、加窗中的至少一种；

对所述预处理后的信号进行特征提取，得到特征矩阵。

4.根据权利要求3所述的语种识别方法，其特征在于，所述对所述预处理后的信号进行特征提取，得到特征矩阵，包括：

对所述预处理后的信号进行傅里叶变换，得到频域信号；

将所述频域信号通过梅尔滤波器，并取对数功率，从而得到单帧特征；

基于所述频域信号的帧数和所述单帧特征得到特征矩阵。

5.根据权利要求1所述的语种识别方法，其特征在于，所述根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别，包括：

对所述帧内特征和所述帧间特征进行拼接融合，得到拼接特征；

基于所述拼接特征进行逻辑回归，对所述拼接特征对应的样本音频进行打分，以根据所述样本音频的得分确定所述样本音频的预测类别。

6.根据权利要求1所述的语种识别方法，其特征在于，所述方法还包括：

统计所述样本音频的识别正确的正确数量和所述样本音频的总数量，并给予所述正确数量和所述总数量计算所述样本音频的识别准确率；

若所述识别准确率大于或等于预设阈值，则完成对所述第一神经网络和所述第二神经网络的训练；

其中，若所述样本音频的预测类别和所述样本音频的音频标签相同，则确定对所述样本音频的识别结果为识别正确。

7.根据权利要求1所述的语种识别方法，其特征在于，所述第一神经网络包括使用一维空洞卷积神经网络构建的五层编码器，所述第二神经网络包括使用一维空洞卷积神经网络构建的五层编码器和自回归模型，其中，所述自回归模型为隐藏层特征为256维度的前向传播网络。

8.一种语种识别装置，其特征在于，包括：

样本获取模块，用于获取样本音频和所述样本音频对应的音频标签；

矩阵生成模块，用于对所述样本音频进行数据处理，得到所述样本音频对应的特征矩阵；

帧内提取模块，用于将所述特征矩阵输入第一神经网络，得到所述特征矩阵对应的帧内特征；

帧间提取模块，用于将所述特征矩阵输入第二神经网络，得到所述特征矩阵对应的帧间特征；

类别预测模块，用于根据所述帧内特征和所述帧间特征进行逻辑回归，以对所述样本音频进行语种识别，得到所述样本音频的预测类别；

迭代训练模块，用于基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练，并将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型，并基于所述语种识别模型对待识别语音进行语种识别。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的语种识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的语种识别方法。