CN109559735B

CN109559735B - 一种基于神经网络的语音识别方法、终端设备及介质

Info

Publication number: CN109559735B
Application number: CN201811182186.1A
Authority: CN
Inventors: 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-10-27
Anticipated expiration: 2038-10-11
Also published as: CN109559735A; WO2020073509A1

Abstract

本发明适用于人工智能技术领域，提供了一种基于神经网络的语音识别方法、终端设备及介质，包括：获取待识别的语音序列，将所述语音序列分为至少两帧语音片段；对所述语音片段进行声学特征提取，得到所述语音片段的特征向量；在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量；所述第一概率向量中的每个元素的值用于标识所述语音片段的发音为该元素对应的预设音素的概率；在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列，从而节省了语音识别的时间成本和人工成本。

Description

一种基于神经网络的语音识别方法、终端设备及介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于神经网络的语音识别方法、终端设备及计算机可读存储介质。

背景技术

语音识别是将语音序列转换为文本序列的过程。随着人工智能技术的快速发展，基于机器学习的语音识别模型被广泛应用于各种语音识别场景中。

然而，在对传统的基于机器学习的语音识别模型进行训练时，对于待识别的语音序列中的每一帧语音数据，需要预先知道其对应的发音音素才能对语音识别模型进行有效训练，这就要求在训练语音识别模型之前，将语音序列与文本序列进行帧对齐处理。而训练模型时所用的样本数据较为庞大，对每条样本数据包含的语音序列与文本序列均进行帧对齐处理需要消耗大量的人力和时间，人工成本和时间成本较高。

发明内容

有鉴于此，本发明实施例提供了一种基于神经网络的语音识别方法、终端设备及计算机可读存储介质，以解决现有的基于传统语音识别模型的语音识别方法所存在的人工成本和时间成本较高的问题。

本发明实施例的第一方面提供了一种基于神经网络的语音识别方法，包括：

获取待识别的语音序列，将所述语音序列分为至少两帧语音片段；

对所述语音片段进行声学特征提取，得到所述语音片段的特征向量；

在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量；所述第一概率向量中的每个元素的值用于标识所述语音片段的发音为该元素对应的预设音素的概率；

在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下各步骤：

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现以下各步骤：

实施本发明实施例提供的一种基于神经网络的语音识别方法、终端设备及计算机可读存储介质具有以下有益效果：

本发明实施例提供的一种基于神经网络的语音识别方法，通过将待识别的语音序列分为至少两帧语音片段，提取每帧语音片段的特征向量；在预设神经网络模型的概率计算层基于语音片段的特征向量，确定语音片段的第一概率向量；在预设神经网络模型的联合时序分类层基于所有语音片段的第一概率向量，确定待识别的语音序列对应的文本序列，由于预设神经网络模型中的联合时序分类层可以基于待识别的语音序列对应的所有语音片段的第一概率向量，直接确定出待识别的语音序列对应的文本序列，因而在对本实施例中的预设神经网络模型进行训练时，无需将用于模型训练的样本数据中的语音序列与文本序列均进行帧对齐处理，从而节省了语音识别的时间成本和人工成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种基于神经网络的语音识别方法的实现流程图；

图2是本发明第二实施例提供的一种基于神经网络的语音识别方法中S13的具体实现流程图；

图3是本发明第三实施例提供的一种基于神经网络的语音识别方法中S14的具体实现流程图；

图4是本发明第四实施例提供的一种基于神经网络的语音识别方法的实现流程图；

图5是本发明实施例提供的一种终端设备的结构框图；

图6是本发明另一实施例提供的一种终端设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1是本发明第一实施例提供的一种基于神经网络的语音识别方法的实现流程图。本实施例中，基于神经网络的语音识别方法的执行主体为终端设备。终端设备包括但不限于智能手机、平板电脑或台式电脑。

如图1所示的基于神经网络的语音识别方法包括以下步骤：

S11：获取待识别的语音序列，将所述语音序列分为至少两帧语音片段。

语音序列指一段持续时长大于预设时长阈值的语音数据，其中，预设时长阈值大于零。待识别的语音序列为需要翻译为本文序列的语音序列。

在实际应用中，当需要将一段语音序列翻译为与之对应的文本序列时，可以在终端设备上触发针对该语音序列的语音识别请求，语音识别请求中携带待识别的语音序列。语音识别请求用于请求终端设备将待识别的语音序列翻译为与之对应的文本序列。示例性的，当用户通过终端设备上安装的即时通讯应用与某联系人聊天时，若接收到对端发送的语音序列，则用户在需要时可以将该语音序列翻译为与之对应的文本序列，以便用户查看。具体的，用户可以通过长按或右击该语音序列对应的语音显示图标来触发终端设备显示针对该语音序列的菜单栏，并通过触发该菜单栏中的“翻译为文本”选项来触发针对该语音序列的语音识别请求。

终端设备检测到针对某一语音序列的语音识别请求时，从该语音识别请求中提取待识别的语音序列，并将提取到的语音序列分为至少两帧语音片段。

作为本发明一实施例，终端设备可以通过如下方式将待识别的语音序列分为至少两帧语音片段，即S11具体可以包括以下步骤：

基于预设帧长及预设帧移量对所述语音序列进行分帧操作，得到至少两帧语音片段；每帧所述语音片段的时长为所述预设帧长。

本实施例中，预设帧长用于标识对语音序列进行分帧操作后得到的各帧语音片段的时长；预设帧移量用于标识对语音序列进行分针操作时的时序步长。

终端设备获取到待识别的语音序列后，从待识别的语音序列的起始时间点开始，每隔预设帧移量从待识别的语音序列中截取一段预设帧长的语音片段，进而将待识别的语音序列分为至少两帧语音片段，对待识别的语音序列进行分帧操作得到的每帧语音片段的时长为预设帧长，且每相邻两帧语音片的起始时间点之间间隔预设帧移量。

需要说明的是，本发明实施例中，预设帧移量小于预设帧长，也就是说，每相邻两帧语音片段之间在时序上存在一定的交叠，交叠部分的时长即为预设帧长与预设帧移量之差。在实际应用中，预设帧长和预设帧移量均可以根据实际需求设置。示例性的，若预设帧长设置为25毫秒，预设帧移量设置为10毫秒，那么，终端设备基于预设帧长及预设帧移量对语音序列进行分帧操作后得到的每相邻两帧语音片段之间有25-10＝15毫秒的交叠。

S12：对所述语音片段进行声学特征提取，得到所述语音片段的特征向量。

本发明实施例中，由于对待识别的语音序列进行分帧操作后得到的各帧语音片段在时域上几乎没有对该语音片段的描述能力，因此，终端设备将待识别的语音序列分为至少两帧语音片段后，基于预设特征提取网络对每帧语音片段进行声学特征提取，得到每帧语音片段的特征向量。语音片段的特征向量中包含了语音片段的声学特征信息。

预设神经网络可以根据实际需求进行设置，此处不做限制。例如，作为本发明一实施例，预设特征提取网络可以是梅尔频率倒谱系数(Mel Frequency CepstralCoefficents，MFCC)特征提取网络。需要说明的是，由于MFCC特征提取网络为现有技术，因此，此处不再对其原理进行详述。

S13：在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量；所述第一概率向量中的每个元素的值用于标识所述语音片段的发音为该元素对应的预设音素的概率。

本发明实施例中，终端设备确定了对待识别的语音序列进行分帧操作得到的各帧语音片段的特征向量后，将对待识别的语音序列进行分帧操作得到的所有语音片段的特征向量均导入预设神经网络模型。预设神经网络模型是基于预设数量的样本数据，通过机器学习算法对预先构建的原始神经网络模型进行训练得到的。样本数据中的每条数据均由对一语音序列进行分帧操作得到的所有语音片段的特征向量及该语音序列对应的文本序列构成。

原始神经网络模型包括依次连接的概率计算层及联合时序分类层。其中：

概率计算层用于基于语音片段的特征向量，确定语音片段的第一概率向量。第一概率向量中的每个元素的值用于标识语音片段的发音为该元素对应的预设音素的概率，第一概率向量中包含的元素个数与预设音素的个数相同。其中，音素是根据语音的自然属性划分出来的最小语音单位，音素通常包含元音音素和辅音音素两大类。预设音素可以根据实际需求设置，此处不做限制。本发明实施例中，预设音素中至少包含一个空白音素，例如，预设音素可以包含一个空白音素以及汉语拼音中的所有元音音素和辅音音素。联合时序分类层用于基于对待识别的语音序列进行分帧操作得到的所有语音片段的第一概率向量，确定该语音序列对应的文本序列。

在对原始神经网络模型进行训练时，将每条样本数据中包含的对语音序列进行分帧操作得到的所有语音片段的特征向量作为原始神经网络模型的输入，将每条样本数据中包含的语音序列对应的文本序列作为原始神经网络模型的输出，对原始神经网络模型进行训练，将完成训练的原始神经网络模型确定为本发明实施例中的预设神经网络模型。需要说明的是，在原始神经网络模型的训练过程中，终端设备会在概率计算层学习到样本数据中出现的所有语音片段的特征向量相对于各个预设音素的概率。

作为本发明一实施例，终端设备将对待识别的语音序列进行分帧操作得到的所有语音片段的特征向量导入至预设神经网络模型后，可以基于如图2所示的S131～S132来确定各帧语音片段的第一概率向量：

S131：在所述概率计算层基于预先学习到的各个预设语音片段的特征向量相对于各个预设音素的概率，分别确定所述至少两帧语音片段的特征向量相对于各个所述预设音素的概率。

S132：基于所述语音片段的特征向量相对于各个所述预设音素的概率确定所述语音片段的第一概率向量。

本实施例中，预设语音片段包含样本数据中出现过的所有语音片段，预先学习到的各个预设语音片段的特征向量相对于各个预设音素的概率即为预先学习到的样本数据中出现过的语音片段的特征向量相对于各个预设音素的概率。

终端设备将对待识别的语音序列进行分帧操作得到的所有语音片段的特征向量导入至预设神经网络模型后，在预设神经网络模型的概率计算层基于预先学习到的所有可能的语音片段的特征向量相对于各个预设音素的概率，确定对待识别的语音序列进行分帧操作得到的各帧语音片段的特征向量相对于各个预设音素的概率，每一语音片段的特征向量相对于各个预设音素的概率构成该语音片段的第一概率向量。

S14：在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列。

本发明实施例中，终端设备确定了对待识别的语音序列进行分帧操作得到的各帧语音片段的第一概率向量后，在预设神经网络模型的联合时序分类层基于所有语音片段的第一概率向量，确定待识别的语音序列对应的文本序列。

在实际应用中，假设预设音素的总数目为N，对待识别的语音序列进行分帧操作后得到T帧语音片段，由于每帧语音片段对应的发音音素可能是N个预设音素中的任一一个，因此，待识别的语音序列对应的发音音素序列总共有N^T种可能，本实施例中，将该N^T种发音音素序列确定为预设发音音素序列，N^T种发音音素序列中的每一发音音素序列均是由预设音素中的至少一个音素组成的长度为T的序列。

具体的，作为本发明一实施例，S14可以通过如图3所示的S141～S143实现，详述如下：

S141：在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量及预设概率计算公式，计算所述语音序列的发音音素概率向量；所述发音音素概率向量中的每个元素的值用于标识所述语音序列对应的发音音素序列为该元素对应的预设发音音素序列的概率，所述预设概率计算公式如下：

其中，表示发音音素概率向量中第i个元素的值，i∈[1,N^T]，T表示对所述语音序列进行分帧操作得到的语音片段的总数目，N表示预设音素的总数目，N^T表示由N个所述预设音素中的至少一个所述预设音素组合而成的长度为T的预设发音音素序列的总数目，y_it表示第i个预设发音音素序列中包含的第t个发音音素对应的先验概率，t∈[1,T]，第t个发音音素对应的先验概率的值根据第t帧语音片段的第一概率向量确定。

本实施例中，终端设备确定了对待识别的语音序列进行分帧操作得到的各帧语音片段的第一概率向量后，在预设神经网络模型的联合时序分类层基于对待识别的语音序列进行分帧操作得到的所有语音片段的第一概率向量及上述预设概率计算公式，计算待识别的语音序列的发音音素概率向量。其中，语音序列的发音音素概率向量中的每个元素的值用于标识该语音序列对应的发音音素序列为该元素对应的预设发音音素序列的概率。

示例性的，若预设音素包括以下4个音素：a、i、o及空白音素-，对待识别的语音序列进行分帧操作后得到5帧语音片段，即T＝5，由于5帧语音片段中每帧语音片段对应的发音音素均可以为预设音素中的任一音素，因此，待识别的语音序列对应的发音音素序列总共有4⁵＝1024种可能，在这1024个预设发音音素序列中，假设第一个预设发音音素序列为[a,a,i,-,-]，则该第一个预设发音音素序列中包含的第1个发音音素对应的先验概率即为在概率计算层确定出的第一帧语音片段的特征向量相对于预设音素a的概率，该第一个预设发音音素序列中包含的第2个发音音素对应的先验概率即为在概率计算层确定出的第二帧语音片段的特征向量相对于预设音素a的概率，该第一个预设发音音素序列中包含的第3个发音音素对应的先验概率即为在概率计算层确定出的第三帧语音片段的特征向量相对于预设音素i的概率，该第一个预设发音音素序列中包含的第4个发音音素对应的先验概率即为在概率计算层确定出的第四帧语音片段的特征向量相对于预设音素i的概率，该第一个预设发音音素序列中包含的第5个发音音素对应的先验概率即为在概率计算层确定出的第五帧语音片段的特征向量相对于空白音素-的概率，终端设备将第一预设发音音素序列中所有元素各自对应的先验概率相乘即得到待识别的语音序列对应的发音音素序列为第一预设发音音素序列的概率，以此类推，即可得到待识别的语音序列对应的发音音素序列为各个预设发音音素序列的概率，待识别的语音序列对应的发音音素序列为各个预设发音音素序列的概率即构成语音序列的发音音素概率向量。

S142：基于所述语音序列的发音音素概率向量，确定所述语音序列的文本序列概率向量；所述文本概率序列向量中的每个元素的值用于标识所述语音序列对应的文本序列为该元素对应的预设文本序列的概率，所述预设文本序列通过对所述预设发音音素序列进行压缩处理得到。

在实际应用中，由于预设发音音素序列中通常会包含一些空白音素，或者预设发音音素序列中有些相邻元素对应的音素相同，因此，终端设备在确定出待识别的语音序列对应的发音音素序列为各个预设发音音素序列的概率后，对每一预设发音音素序列进行压缩处理，得到每一预设发音音素序列对应的文本序列，进而将待识别的语音序列对应的发音音素序列为各个预设发音音素序列的概率转换为：待识别的语音序列对应的文本序列为各个预设发音音素序列对应的文本序列的概率，也就是说，将待识别的语音序列对应的发音音素为各个预设发音音素序列的概率确定为该语音序列对应的文本序列为各个预设发音音素序列对应的文本序列的概率。

本实施例中，终端设备对预设发音音素序列进行压缩处理具体可以为：将预设发音音素序列中的空白音素剔除，同时对于连续几个值相同的元素仅保留一个即可。例如，若某预设发音音素序列为[a,a,i,-,-]，则对其进行压缩处理后得到的文本序列为[a,i]。

在实际应用中，终端设备对不同发音音素序列进行压缩处理后得到的文本序列可能相同，例如，终端设备对发音音素序列[a,a,i,-,-]进行压缩处理后得到的文本序列为[a,i]，对发音音素序列[a,-,i,i,-]进行压缩处理后得到的文本序列也为[a,i]，因此，本发明实施例中，当预设发音音素序列中有至少两个预设发音音素序列对应的文本序列相同，则终端设备将待识别的语音序列对应的文本序列为该至少两个预设发音音素序列对应的文本序列的概率进行求和运算，进而得到待识别的语音序列对应的文本序列为各个预设文本序列的概率。预设文本序列由对预设发音音素序列进行压缩处理得到的所有不同的文本序列构成。待识别的语音序列对应的文本序列为各个预设文本序列的概率即构成待识别的语音序列对应的文本序列概率向量。

S143：将所述文本序列概率向量中值最大的元素对应的所述预设文本序列确定为所述语音序列对应的文本序列。

文本序列概率向量中元素的值越大，说明待识别的语音序列对应的文本序列为该元素对应的预设文本序列的概率越大。因此，本实施例中，终端在确定了待识别的语音序列对应的文本序列概率向量后，将文本序列概率向量中值最大的元素对应的预设文本序列确定为待识别的语音欲裂对应的文本序列。

以上可以看出，本实施例提供的一种基于神经网络的语音识别方法，通过将待识别的语音序列分为至少两帧语音片段，提取每帧语音片段的特征向量；在预设神经网络模型的概率计算层基于语音片段的特征向量，确定语音片段的第一概率向量；在预设神经网络模型的联合时序分类层基于所有语音片段的第一概率向量，确定待识别的语音序列对应的文本序列，由于预设神经网络模型中的联合时序分类层可以基于待识别的语音序列对应的所有语音片段的第一概率向量，直接确定出待识别的语音序列对应的文本序列，因而在对本实施例中的预设神经网络模型进行训练时，无需将用于模型训练的样本数据中的语音序列与文本序列均进行帧对齐处理，从而节省了语音识别时间成本和人工成本。

请参阅图4，图4是本发明第四实施例提供的一种基于神经网络的语音识别方法的实现流程图。相对于图1对应的实施例，本实施例提供的一种基于神经网络的语音识别方法在S11之前，还可以包括S01～S04，详述如下：

S01：获取预设的样本数据集，并将所述样本数据集划分为训练集和测试集；所述样本数据集中的每条样本数据均由对一语音序列进行分帧操作得到的所有语音片段的特征向量及该语音序列对应的文本序列构成。

在将待识别的语音序列翻译为与之对应的文本序列之前，需要先构建原始神经网络模型。原始神经网络包括依次连接的概率计算层及联合时序分类层。概率计算层及联合时序分类层的具体结构及原理请参照第一实施例S13中的相关描述，此处不再赘述。

在构建好原始神经网络模型后，终端设备获取预设的样本数据集。其中，样本数据集中的每条样本数据均由对一语音序列进行分帧操作得到的所有语音片段的特征向量及该语音序列对应的文本序列构成。

终端设备获取到预设的样本数据集后，可以基于预设分配比例将样本数据集分为训练集和测试集。训练集用于对原始神经网络模型进行训练，测试集用于对已完成训练的原始神经网络模型的准确度进行校验。预设分配比例可以根据实际需求设置，此处不做限制，例如，预设分配比例可以为：训练集：测试集＝3:1。即样本数据集中3/4的样本数据用于训练原始神经网络模型，1/4的样本数据用于对已完成训练的原始神经网络模型的准确度进行校验。

S02：基于所述训练集对预先构建的原始神经网络模型进行训练，确定所述原始神经网络模型的特征提取层及联合时序分类层所包含的各个预设参数的值。

本实施例中，终端设备基于训练集对预先构建的原始神经网络模型进行训练，在对原始神经网络模型进行训练时，将每条样本数据中包含的对语音序列进行分帧操作得到的所有语音片段的特征向量作为原始神经网络模型的输入，将每条样本数据中包含的语音序列对应的文本序列作为原始神经网络模型的输出，在概率计算层学习样本数据中出现的所有语音片段的特征向量相对于各个预设音素的概率，进而完成对原始神经网络模型进行训练。

S03：基于所述测试集对已完成训练的所述原始神经网络模型进行验证。

本实施例中，终端设备基于训练集完成对原始神经网络模型的训练后，基于测试集对已完成训练的原始神经网络模型进行验证。

具体的，终端设备在基于测试集对已完成训练的原始神经网络模型进行验证时，将每条样本数据中包含的对语音序列进行分帧操作得到的所有语音片段的特征向量作为原始神经网络模型的输入，通过已完成训练的原始神经网络模型确定测试集中每条样本数据中的语音序列对应的文本序列的预测值。

终端设备基于测试集中每条样本数据中的语音序列对应的文本序列及每条样本数据中的语音序列对应的文本序列的预测值，计算已训练完成的原始神经网络模型的预测误差。已完成训练的原始神经网络模型的预测误差用于标识已完成训练的原始神经网络模型的语音识别准确度，已完成训练的原始神经网络模型的预测误差值越大，表明其语音识别准确度低。

本实施例中，终端设备得到已完成训练的原始神经网络模型的预测误差后，将已完成训练的原始神经网络模型的预测误差与预设误差阈值进行比较，并基于比较结果确定对已完成训练的原始神经网络模型的验证结果。其中，预设误差阈值为实际应用中可允许的语音识别准确度误差值。

其中，若比较结果为已完成训练的原始神经网络模型的预测误差小于或等于所述预设误差阈值，则说明已完成训练的原始神经网络模型的语音识别准确度在可允许的误差范围内，此时终端设备将对已完成训练的原始神经网络模型的验证结果确定为验证通过；若比较结果为已完成训练的原始神经网络模型的预测误差大于预设误差阈值，则说明已完成训练的原始神经网络模型的语音识别准确度超过了可允许的误差范围，此时终端设备将对已完成训练的原始神经网络模型的验证结果确定为验证未通过。

S04：若验证通过，则将已完成训练的所述原始神经网络模型确定为所述预设神经网络模型。

实施例中，终端设备若检测到对已完成训练的原始神经网络模型的验证通过，则将已完成训练的原始神经网络模型确定为预设神经网络模型。

以上可以看出，本实施例提供的一种基于神经网络的语音识别方法通过包含一定数量的样本数据的训练集对预先构建的原始神经网络模型进行训练，并通过包含一定数量的样本数据的测试集对已完成训练的原始神经网络模型的车辆定损准确度进行验证，验证通过后才将已完成训练的原始神经网络模型作为后续用于进行语音识别的预设神经网络模型，从而提高了语音识别的准确度。

请参阅图5，图5是本发明实施例提供的一种终端设备的结构框图。本实施例中的终端设备为终端设备。该终端设备包括的各单元用于执行图1至图4对应的实施例中的各步骤。具体请参阅图1至图4以及图1至图4所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，终端设备500包括：第一切分单元51、特征提取单元52、第一确定单元53第二确定单元54。其中：

第一切分单元51用于获取待识别的语音序列，将所述语音序列分为至少两帧语音片段。

特征提取单元52用于对所述语音片段进行声学特征提取，得到所述语音片段的特征向量。

第一确定单元53用于在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量；所述第一概率向量中的每个元素的值用于标识所述语音片段的发音为该元素对应的预设音素的概率。

第二确定单元54用于在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列。

作为本发明一实施例，第一切分单元51具体用于：

作为本发明一实施例，第一确定单元53包括第一概率确定单元及第二概率确定单元。其中：

第一概率确定单元用于在所述概率计算层基于预先学习到的各个预设语音片段的特征向量相对于各个预设音素的概率，分别确定所述至少两帧语音片段的特征向量相对于各个所述预设音素的概率。

第二概率确定单元用于基于所述语音片段的特征向量相对于各个所述预设音素的概率确定所述语音片段的第一概率向量。

作为本发明一实施例，第二确定单元54包括：第一计算单元、第三概率确定单元及文本序列确定单元。其中：

第一计算单元用于在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量及预设概率计算公式，计算所述语音序列的发音音素概率向量；所述发音音素概率向量中的每个元素的值用于标识所述语音序列对应的发音音素序列为该元素对应的预设发音音素序列的概率，所述预设概率计算公式如下：

其中，表示发音音素概率向量中第i个元素的值，i∈[1,N^T]，T表示对所述语音序列进行分帧操作得到的语音片段的总数目，N表示预设音素的总数目，N^T表示由N个所述预设音素中的至少一个所述预设音素组合而成的长度为T的预设发音音素序列的总数目，y_it表示第i个预设发音音素序列中包含的第t个发音音素对应的先验概率，t∈[1,T]，第t个发音音素对应的先验概率的值根据第t帧语音片段的第一概率向量确定；

第三概率确定单元用于基于所述语音序列的发音音素概率向量，确定所述语音序列的文本序列概率向量；所述文本概率序列向量中的每个元素的值用于标识所述语音序列对应的文本序列为该元素对应的预设文本序列的概率，所述预设文本序列通过对所述预设发音音素序列进行压缩处理得到。

文本序列确定单元用于将所述文本序列概率向量中值最大的元素对应的所述预设文本序列确定为所述语音序列对应的文本序列。

作为本发明一实施例，终端设备500还可以包括：第一获取单元、模型训练单元、模型验证单元、模型生成单元。其中：

第一获取单元用于获取预设的样本数据集，并将所述样本数据集划分为训练集和测试集；所述样本数据集中的每条样本数据均由对一语音序列进行分帧操作得到的所有语音片段的特征向量及该语音序列对应的文本序列构成。

模型训练单元用于基于所述训练集对预先构建的原始神经网络模型进行训练，确定所述原始神经网络模型的特征提取层及联合时序分类层所包含的各个预设参数的值。

模型验证单元用于基于所述测试集对已完成训练的所述原始神经网络模型进行验证。

模型生成单元用于若验证通过，则将已完成训练的所述原始神经网络模型确定为所述预设神经网络模型。

以上可以看出，本实施例提供的一种终端设备通过将待识别的语音序列分为至少两帧语音片段，提取每帧语音片段的特征向量；在预设神经网络模型的概率计算层基于语音片段的特征向量，确定语音片段的第一概率向量；在预设神经网络模型的联合时序分类层基于所有语音片段的第一概率向量，确定待识别的语音序列对应的文本序列，由于预设神经网络模型中的联合时序分类层可以基于待识别的语音序列对应的所有语音片段的第一概率向量，直接确定出待识别的语音序列对应的文本序列，因而在对本实施例中的预设神经网络模型进行训练时，无需将用于模型训练的样本数据中的语音序列与文本序列均进行帧对齐处理，从而节省了语音识别时间成本和人工成本。

图6是本发明另一实施例提供的一种终端设备的结构框图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62，例如基于神经网络的语音识别方法的程序。处理器60执行所述计算机程序62时实现上述各个基于神经网络的语音识别方法各实施例中的步骤，例如图1所示的S11至S14。或者，所述处理器60执行所述计算机程序62时实现上述图5对应的实施例中各单元的功能，例如，图5所示的单元51至54的功能，具体请参阅图5对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序62可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。例如，所述计算机程序62可以被分割成第一切分单元、特征提取单元、第一确定单元第二确定单元，各单元具体功能如上所述。

所述终端设备可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是终端设备6的示例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的语音识别方法，其特征在于，包括：

在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列；

所述在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量，确定所述语音序列对应的文本序列，包括：

在所述预设神经网络模型的联合时序分类层基于所有所述语音片段的第一概率向量及预设概率计算公式，计算所述语音序列的发音音素概率向量；所述发音音素概率向量中的每个元素的值用于标识所述语音序列对应的发音音素序列为该元素对应的预设发音音素序列的概率，所述预设概率计算公式如下：

基于所述语音序列的发音音素概率向量，确定所述语音序列的文本序列概率向量；所述文本序列概率向量中的每个元素的值用于标识所述语音序列对应的文本序列为该元素对应的预设文本序列的概率，所述预设文本序列通过对所述预设发音音素序列进行压缩处理得到；所述预设文本序列由对所述预设发音音素序列进行压缩处理得到的所有不同的文本序列构成；

将所述文本序列概率向量中值最大的元素对应的所述预设文本序列确定为所述语音序列对应的文本序列。

2.根据权利要求1所述的基于神经网络的语音识别方法，其特征在于，所述获取待识别的语音序列，将所述语音序列分为至少两帧语音片段，包括：

3.根据权利要求1所述的基于神经网络的语音识别方法，其特征在于，所述在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量，包括：

在所述概率计算层基于预先学习到的各个预设语音片段的特征向量相对于各个预设音素的概率，分别确定所述至少两帧语音片段的特征向量相对于各个所述预设音素的概率；

基于所述语音片段的特征向量相对于各个所述预设音素的概率确定所述语音片段的第一概率向量。

4.根据权利要求1至3任一项所述的基于神经网络的语音识别方法，其特征在于，所述获取待识别的语音序列，将所述语音序列分为至少两帧语音片段之前，还包括：

获取预设的样本数据集，并将所述样本数据集划分为训练集和测试集；所述样本数据集中的每条样本数据均由对一语音序列进行分帧操作得到的所有语音片段的特征向量及该语音序列对应的文本序列构成；

基于所述训练集对预先构建的原始神经网络模型进行训练，确定所述原始神经网络模型的特征提取层及联合时序分类层所包含的各个预设参数的值；

基于所述测试集对已完成训练的所述原始神经网络模型进行验证；

若验证通过，则将已完成训练的所述原始神经网络模型确定为所述预设神经网络模型。

5.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

6.根据权利要求5所述的终端设备，其特征在于，所述获取待识别的语音序列，将所述语音序列分为至少两帧语音片段，包括：

7.根据权利要求5所述的终端设备，其特征在于，所述在预设神经网络模型的概率计算层基于所述语音片段的特征向量，确定所述语音片段的第一概率向量，包括：

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。