CN110930978A

CN110930978A - 一种语种识别方法、装置和用于语种识别的装置

Info

Publication number: CN110930978A
Application number: CN201911089845.1A
Authority: CN
Inventors: 陈艳妮; 潘逸倩; 于泓
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-03-27

Abstract

本发明实施例提供了一种语种识别方法、装置和用于语种识别的装置。其中的方法具体包括：对语音片段进行声学特征提取，得到基于帧序列的声学特征；将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；根据所述高层特征序列，确定所述语音片段对应的语言种类。本发明实施例可以提高语种识别的准确性。

Description

一种语种识别方法、装置和用于语种识别的装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语种识别方法、装置和用于语种识别的装置。

背景技术

语种识别是指通过计算机自动处理一段语音并判断其语言种类的技术。语种识别技术主要用在多语言语音处理系统的前端，通过语种识别技术对语音进行自动分类，可以节省资源，避免繁琐的人工分类，大大提高工作效率。

目前，语种识别系统通常采用i-Vector特征，i-Vector特征用一个固定长度的低维向量表示一段语音。由于在提取i-Vector特征的过程中，需要计算声学特征的充分统计量，因此，各语音片段的有效数据必须足够长，才可以保证统计量的计算是有效的。

在语种识别过程中，当训练阶段的语音片段和测试阶段的语音片段都足够长且长度相近时，使用i-Vector特征能够取得较好的识别效果。但是这样的条件在实际应用中难以保证，例如在手机语种识别系统中，在训练阶段，可以使用较长的语音片段(如30秒以上)进行训练，而在测试阶段，语音片段的长度一般为仅为3秒到5秒。由于提取i-Vector特征需要估计声学特征的充分统计量，因此，较短的测试语音片段表征不充分将导致系统性能下降，进而难以提高语种识别系统的准确性。

发明内容

本发明实施例提供一种语种识别方法、装置和用于语种识别的装置，可以提高语种识别的准确性。

为了解决上述问题，本发明实施例公开了一种语种识别方法，所述方法包括：

对语音片段进行声学特征提取，得到基于帧序列的声学特征；

将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；

从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；

根据所述高层特征序列，确定所述语音片段对应的语言种类。

另一方面，本发明实施例公开了一种语种识别装置，所述装置包括：

特征提取模块，用于对语音片段进行声学特征提取，得到基于帧序列的声学特征；

特征输入模块，用于将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；

特征转换模块，用于从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；

语种分类模块，用于根据所述高层特征序列，确定所述语音片段对应的语言种类。

再一方面，本发明实施例公开了一种用于语种识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语种识别方法。

本发明实施例包括以下优点：

本发明实施例对语音片段进行声学特征提取，得到基于帧序列的声学特征，在语音特征帧层面进行语种识别，可以避免使用i-Vector特征由于语音片段时间太短导致语种识别准确率下降的问题，并且能够及时给出当前时刻的识别结果，可以避免识别延迟。

此外，本发明实施例将所述声学特征输入深度神经网络，从所述深度神经网络的瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述深度神经网络的时间递归层，以通过所述时间递归层输出高层特征序列，所述瓶颈层的输出连接到所述时间递归层。

由此，语音片段的声学特征首先经过瓶颈层提取瓶颈特征序列，瓶颈层具有显著减小的维度，并且将输入的声学特征转换成音素状态，可以抑制说话人信息、信道噪声等干扰成分，更有利于提取语种信息。接下来，瓶颈特征序列经过时间递归层的处理后，得到保留时序特征的高层特征序列，以对输入的不必要的干扰信息进行判断和屏蔽，从而可以更好地对时序特征数据进行分析处理，使其在短语音识别分类任务中更具优势，提升语种识别系统的鲁棒性。因此，根据该高层特征序列，确定所述语音片段对应的语言种类，可以提高语种识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语种识别方法实施例的步骤流程图；

图2是本发明的一种语种识别装置实施例的结构框图；

图3是本发明的一种用于语种识别的装置800的框图；及

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语种识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101、对语音片段进行声学特征提取，得到基于帧序列的声学特征；

步骤102、将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；

步骤103、从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；

步骤104、根据所述高层特征序列，确定所述语音片段对应的语言种类。

本发明实施例的语种识别方法可适用于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。

本发明实施例的语种识别方法可用于自动识别语音片段的语言种类。例如，识别语音片段的语言种类可以为中文、英文、少数民族语音等。

具体地，本发明实施例可以训练端到端的语种识别模型，所述语种识别模型的输入端可以接收待识别的语音片段，所述语种识别模型的输出端可以输出该语音片段对应的语言种类。

在本发明实施例中，所述语种识别模型可以包括特征提取、特征变换、以及特征分类三大功能模块。其中，特征提取指对接收的语音片段进行声学特征提取，得到基于帧序列的声学特征。特征变换指将所述声学特征输入深度神经网络，将所述声学特征转换为高层特征序列。特征分类指对所述高层特征序列进行分类，以确定所述语音片段对应的语言种类。

所述语音片段指的是一段连续的语音，例如一个句子的语音、一段话的语音等。可以理解，本发明实施例对所述语音片段的来源不加以限制。所述语音片段可以为通过所述电子设备的录音功能实时采集的语音片段；或者，所述语音片段可以为通过例如即时通讯应用获取或者文件拷贝等方式获取的语音片段。通过即时通讯应用获取的语音片段，例如，通过即时通讯应用向通讯对端发送的语音片段，或者，通过即时通讯应用接收的、来自通讯对端的语音片段等。

在本发明的一种可选实施例中，所述对语音片段进行声学特征提取之前，所述方法还可以包括：

对所述语音片段进行噪声抑制处理；或者进行有效语音检测处理；

或者，对所述语音片段进行噪声抑制处理，进行有效语音检测处理。

本发明实施例在对语音片段进行语种识别之前，可以对所述语音片段进行预处理，所述预处理可以包括噪声抑制和/或有效语音检测处理，以去除非语音数据和/或静默语音数据，并可以对语音片段进行分帧，对频域的语音信号按固定窗提取声学特征。

所述声学特征可为所述语音片段的MFCC(Mel-frequencycepstral coefficient，梅尔频率倒谱系数)，或PLP((Perceptual LinearPrediction，感知线性预测系数)，或滤波器组特征(Filter Bank Feature)等。当然，所述声学特征也可为所述语音片段的原始语音数据。

在一个实施例中，所述声学特征为梅尔频率倒谱系数MFCC。梅尔频率是基于人耳听觉特性提出来的，梅尔频率与赫兹(Hz)频率成非线性对应关系。从语音中提取MFCC特征一般包括以下步骤：预加重，分帧，加窗，傅里叶变换，梅尔滤波器组，DCT(Discrete CosineTransform，离散余弦变换)等。其中，预加重可用于在一定程度提升高频部分，使信号的频谱变得平坦；分帧可用于将语音按时间分成一系列帧；加窗步骤是采用窗函数增加帧左端和右端的连续性。接着，将语音进行傅里叶变换，从而将时域信号转换为频域信号。然后，利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上，从而获得梅尔频谱。之后，通过离散余弦变换获得梅尔频谱的倒谱系数，进而可以获得倒谱梅尔频谱。

需要说明的是，本发明实施例对所述语种识别模型的具体类型不加以限制，所述语种识别模型可以包括DNN(Deep Neural Networks，深度神经网络)。所述深度神经网络可以融合多种神经网络，所述多种神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-Term Memory，长短时记忆)网络、RNN(Simple Recurrent Neural Network，循环神经网络)、注意力神经网络等。

在对语音片段进行声学特征提取，得到基于帧序列的声学特征之后，所述语种识别模型即可根据之前训练所定义的规则处理所述声学特征，例如，将所述声学特征可以依次经过深度神经网络的输入层、各隐层、全连接层进行分析处理。

在本发明实施例中，所述深度神经网络可以包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层。在将所述声学特征输入所述深度神经网络的输入层之后，可以从所述瓶颈层提取瓶颈特征序列，并且将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列。

在本发明的一种可选实施例中，所述瓶颈层包括：三音子声学模型中的隐层；所述从所述瓶颈层提取瓶颈特征序列，具体可以包括：

步骤S11、获取所述三音子声学模型的隐层输出数据；

步骤S12、根据所述隐层输出数据，得到瓶颈特征序列。

本发明实施例通过三音子(tri-phone)声学模型来进行瓶颈特征的提取，三音子声学模型的输入为声学特征，输出为音素状态。在将输入的声学特征转换成输出的tri-phone音素状态的过程中，可以抑制说话人信息、信道噪声等干扰成分，更有利于提取与语种识别相关的信息。

在具体应用中，瓶颈层是DNN模型中所包含的节点数(或称维度)，较其他隐层明显减少的一个隐层。或者说，瓶颈层包含的节点数目比深度神经网络DNN中其他层的节点数目都要少。例如，在一个深度神经网络DNN中，其他各个隐层节点数目为1024，而中间某一层的节点数目只有64，那么中间这个节点数目仅为64的隐含层就被称为瓶颈层。

瓶颈层中节点的激励值可以看作是输入信号的一种低维表示，也称为瓶颈特征，瓶颈特征可以包含更多说话人的语音信息。瓶颈特征序列指的是语音片段中每一帧语音提取的瓶颈特征组成的序列。因此，本发明实施例在提取语音片段的声学特征之后，将基于帧序列的声学特征输入深度神经网络DNN，以得到该语音片段的瓶颈特征序列。

接下来，将所述瓶颈特征序列输入时间递归层，以通过所述时间递归层输出高层特征序列。

在本发明的一种可选实施例中，所述时间递归层可以包括：基于长短期记忆LSTM(Long Short Time Memory)模型的隐层。

在一个实施例中，为了更好地反映瓶颈特征序列的上下文相关性，本发明实施例在深度神经网络DNN中增加记忆功能，形成包含时间递归层的深度神经网络DNN。具体地，所述深度神经网络DNN可以包括至少一个时间递归层，所述瓶颈层的输出连接到所述时间递归层，如此使得瓶颈特征能够体现时序特征。

具体地，所述时间递归层可以采用基于长短期记忆LSTM模型。LSTM模型独有的时序记忆功能能够在长时间段内学习先前时刻输入的信息，使其在短语音识别分类任务中更具优势。根据LSTM模型，在重复网络模块中实现三个门计算，即输入门(input gate)、输出门(output gate)和遗忘门(forget gate)。遗忘门的设置可以让信息选择性通过，以此丢弃某些不再需要的信息，如此对输入的不必要的干扰信息进行判断和屏蔽，从而更好地对时序特征数据进行分析处理。

在本发明实施例中，通过所述时间递归层输出高层特征序列可以是LSTM模型最后一层的输出。通过所述时间递归层输出的高层特征序列可以保留语音片段中的时序特征，并且屏蔽不必要的干扰信息，因此，根据所述高层特征序列，确定所述语音片段对应的语言种类，可以提高语种识别的准确性。

在本发明的一种可选实施例中，所述深度神经网络还可以包括注意力机制层，所述根据所述高层特征序列，确定所述语音片段对应的语言种类，具体可以包括：

步骤S21、将所述高层特征序列输入所述注意力机制层，以通过所述注意力机制层确定所述语音片段的关键帧序列；

步骤S22、将所述关键帧序列输入分类器，以通过所述分类器输出所述关键帧序列对应的语言种类。

本发明实施例采用的分类器对标准的LSTM结构进行了改进，在时间递归层(LSTM模块)的基础上，增加了注意力机制层。具体地，LSTM模块之后连接注意力机制层，也即LSTM模块的输出为注意力机制层的输入。LSTM模块对输入的瓶颈特征序列的时序关系进行建模，经LSTM网络隐层处理后，由全连接层映射输出为高层特征h_t(t＝1,..T)，由此可以得到语音片段的高层特征序列。

将所述高层特征序列输入所述注意力机制层，以通过所述注意力机制层确定所述语音片段的关键帧序列。

其中，所述关键帧是指包含对语种分类有用的信息的语音帧，在确定语音片段中的关键帧之后，可以将关键帧进行拼接得到关键帧序列，并且将关键帧序列输入分类器进行语种分类，得到所述关键帧序列对应的语言种类，也即所述语音片段对应的语言种类。

在本发明的一种可选实施例中，所述通过所述注意力机制层确定所述语音片段的关键帧序列，具体可以包括：

步骤S31、通过所述注意力机制层，对接收的每一帧语音对应的高层特征计算重要性得分；

步骤S32、根据所述重要性得分，确定当前高层特征对应的语音帧是否为关键帧；

步骤S33、将已确定的关键帧组成关键帧序列。

在本发明实施例中，注意力机制层用于确定语音片段中的关键帧，具体地，通过所述注意力机制层，可以对接收的每一帧语音对应的高层特征计算重要性得分，计算过程如下：

e_t＝f(h_t),t＝1,..T (1)

其中，t指语音帧对应的时刻，h_t为t时刻LSTM模块最后一层输出的高层特征，f(h_t)泛指函数映射。

然后根据所述重要性得分，确定当前高层特征(t时刻输出的高层特征)对应的语音帧是否为关键帧，具体地，可以将重要性得分映射为不同的权重，计算过程如下：

其中，e_t指公式(1)中计算得到的重要性得分，公式(2)根据t时刻语音帧的关键性得分，计算得到t时刻语音帧的权重，该权重越大，表示该t时刻的语音帧为关键帧的概率越高。例如，可以设置权重大于预设阈值的语音帧为关键帧。

在语音片段中，由于静音、背景噪声等语音帧对应的权重较低，因此，注意力机制层能够摒弃静音、背景噪声等无关信息，如果仅关注与语种识别相关的关键帧，最后将已确定的关键帧组成关键帧序列，用于语种分类，可以提高语种分类的准确性。

本发明实施例的语种识别方法可运行在电子设备上，如移动终端，可用于自动识别语音片段的语言种类。在本发明的一种可选实施例中，在所述对语音片段进行声学特征提取之前，所述方法还可以包括：

步骤S41、响应于针对预置界面的第一操作，开始采集语音片段；

步骤S42、响应于针对所述预置界面的第二操作，停止采集语音片段，得到采集的语音片段；

所述确定所述语音片段对应的语言种类之后，所述方法还可以包括：

在所述预置界面中显示所述语音片段对应的语言种类。

在本发明实施例中，可以在移动终端中显示预置界面，该预置界面可以接收用户的第一操作，所述第一操作用于指示移动终端开始采集语音片段。

可选地，在进行语音片段的采集过程中，可以在所述预置界面中显示预设的动态图形，以提示用户当前正在采集语音片段。该预置界面还可以接收用户的第二操作，所述第二操作用于指示移动终端结束采集语音片段，由此可以得到第一操作和第二操作之间采集的语音片段。

可选地，本发明实施例对语音片段进行语种识别的过程可以执行在采集语音片段的电子设备上，并在该电子设备的预置界面中显示识别得到的所述语音片段对应的语言种类；或者，该电子设备还可以将采集的语音片段发送至服务器执行语种识别过程，再由服务器向该电子设备返回识别结果，并显示在该电子设备的预置界面中。

综上，本发明实施例对语音片段进行声学特征提取，得到基于帧序列的声学特征，在语音特征帧层面进行语种识别，可以避免使用i-Vector特征由于语音片段时间太短导致语种识别准确率下降的问题，并且能够及时给出当前时刻的识别结果，可以避免识别延迟。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种语种识别装置实施例的结构框图，所述装置具体可以包括：

特征提取模块201，用于对语音片段进行声学特征提取，得到基于帧序列的声学特征；

特征输入模块202，用于将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；

特征转换模块203，用于从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；

语种分类模块204，用于根据所述高层特征序列，确定所述语音片段对应的语言种类。

可选地，所述深度神经网络还包括注意力机制层，所述语种分类模块204，具体可以包括：

确定子模块，用于将所述高层特征序列输入所述注意力机制层，以通过所述注意力机制层确定所述语音片段的关键帧序列；

分类子模块，用于将所述关键帧序列输入分类器，以通过所述分类器输出所述关键帧序列对应的语言种类。

可选地，所述确定子模块，具体可以包括：

计算单元，用于通过所述注意力机制层，对接收的每一帧语音对应的高层特征计算重要性得分；

确定单元，用于根据所述重要性得分，确定当前高层特征对应的语音帧是否为关键帧；

生成单元，用于将已确定的关键帧组成关键帧序列。

可选地，所述装置还可以包括：

预处理模块，用于对所述语音片段进行噪声抑制和/或有效语音检测处理。

可选地，所述装置还可以包括：

开始采集模块，用于响应于针对预置界面的第一操作，开始采集语音片段；

停止采集模块，用于响应于针对所述预置界面的第二操作，停止采集语音片段，得到采集的语音片段；

所述装置还包括：

结果显示模块，用于在所述预置界面中显示所述语音片段对应的语言种类。

可选地，所述瓶颈层包括：三音子声学模型中的隐层；所述特征转换模块203，具体可以包括：

数据获取子模块，用于获取所述三音子声学模型的隐层输出数据；

特征获取子模块，用于根据所述隐层输出数据，得到瓶颈特征序列。

可选地，所述时间递归层包括：基于长短期记忆LSTM模型的隐层。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于语种识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对语音片段进行声学特征提取，得到基于帧序列的声学特征；将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；根据所述高层特征序列，确定所述语音片段对应的语言种类。

图3是根据一示例性实施例示出的一种用于语种识别的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语种识别方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语种识别方法，所述方法包括：对语音片段进行声学特征提取，得到基于帧序列的声学特征；将所述声学特征输入深度神经网络，所述深度神经网络包括瓶颈层和时间递归层，所述瓶颈层的输出连接到所述时间递归层；从所述瓶颈层提取瓶颈特征序列，以及将所述瓶颈特征序列输入所述时间递归层，以通过所述时间递归层输出高层特征序列；根据所述高层特征序列，确定所述语音片段对应的语言种类。

本发明实施例公开了A1、一种语种识别方法，包括：

A2、根据A1所述的方法，所述深度神经网络还包括注意力机制层，所述根据所述高层特征序列，确定所述语音片段对应的语言种类，包括：

将所述高层特征序列输入所述注意力机制层，以通过所述注意力机制层确定所述语音片段的关键帧序列；

将所述关键帧序列输入分类器，以通过所述分类器输出所述关键帧序列对应的语言种类。

A3、根据A2所述的方法，所述通过所述注意力机制层确定所述语音片段的关键帧序列，包括：

通过所述注意力机制层，对接收的每一帧语音对应的高层特征计算重要性得分；

根据所述重要性得分，确定当前高层特征对应的语音帧是否为关键帧；

将已确定的关键帧组成关键帧序列。

A4、根据A1所述的方法，所述对语音片段进行声学特征提取之前，所述方法还包括：

对所述语音片段进行噪声抑制和/或有效语音检测处理。

A5、根据A1所述的方法，在所述对语音片段进行声学特征提取之前，所述方法还包括：

响应于针对预置界面的第一操作，开始采集语音片段；

响应于针对所述预置界面的第二操作，停止采集语音片段，得到采集的语音片段；

所述确定所述语音片段对应的语言种类之后，所述方法还包括：

在所述预置界面中显示所述语音片段对应的语言种类。

A6、根据A1至A5中任一所述的方法，所述瓶颈层包括：三音子声学模型中的隐层；所述从所述瓶颈层提取瓶颈特征序列，包括：

获取所述三音子声学模型的隐层输出数据；

根据所述隐层输出数据，得到瓶颈特征序列。

A7、根据A1至A5中任一所述的方法，所述时间递归层包括：基于长短期记忆LSTM模型的隐层。

本发明实施例公开了B8、一种语种识别装置，包括：

B9、根据B8所述的装置，所述深度神经网络还包括注意力机制层，所述语种分类模块，包括：

B10、根据B9所述的装置，所述确定子模块，包括：

生成单元，用于将已确定的关键帧组成关键帧序列。

B11、根据B8所述的装置，所述装置还包括：

B12、根据B8所述的装置，所述装置还包括：

所述装置还包括：

B13、根据B8至B12中任一所述的装置，所述瓶颈层包括：三音子声学模型中的隐层；所述特征转换模块，包括：

B14、根据B8至B12中任一所述的装置，所述时间递归层包括：基于长短期记忆LSTM模型的隐层。

本发明实施例公开了C15、一种用于语种识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

C16、根据C15所述的装置，所述深度神经网络还包括注意力机制层，所述根据所述高层特征序列，确定所述语音片段对应的语言种类，包括：

C17、根据C16所述的装置，所述通过所述注意力机制层确定所述语音片段的关键帧序列，包括：

将已确定的关键帧组成关键帧序列。

C18、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述语音片段进行噪声抑制和/或有效语音检测处理。

C19、根据C15所述的装置，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

响应于针对预置界面的第一操作，开始采集语音片段；

在所述预置界面中显示所述语音片段对应的语言种类。

C20、根据C15至C19中任一所述的装置，所述瓶颈层包括：三音子声学模型中的隐层；所述从所述瓶颈层提取瓶颈特征序列，包括：

获取所述三音子声学模型的隐层输出数据；

根据所述隐层输出数据，得到瓶颈特征序列。

C21、根据C15至C19中任一所述的方法，所述时间递归层包括：基于长短期记忆LSTM模型的隐层。

本发明实施例公开了D22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如A1至A7中一个或多个所述的语种识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语种识别方法、一种语种识别装置和一种用于语种识别的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语种识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络还包括注意力机制层，所述根据所述高层特征序列，确定所述语音片段对应的语言种类，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述注意力机制层确定所述语音片段的关键帧序列，包括：

将已确定的关键帧组成关键帧序列。

4.根据权利要求1所述的方法，其特征在于，所述对语音片段进行声学特征提取之前，所述方法还包括：

对所述语音片段进行噪声抑制和/或有效语音检测处理。

5.根据权利要求1所述的方法，其特征在于，在所述对语音片段进行声学特征提取之前，所述方法还包括：

响应于针对预置界面的第一操作，开始采集语音片段；

在所述预置界面中显示所述语音片段对应的语言种类。

6.根据权利要求1至5中任一所述的方法，其特征在于，所述瓶颈层包括：三音子声学模型中的隐层；所述从所述瓶颈层提取瓶颈特征序列，包括：

获取所述三音子声学模型的隐层输出数据；

根据所述隐层输出数据，得到瓶颈特征序列。

7.根据权利要求1至5中任一所述的方法，其特征在于，所述时间递归层包括：基于长短期记忆LSTM模型的隐层。

8.一种语种识别装置，其特征在于，所述装置包括：

9.一种用于语种识别的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的语种识别方法。