CN109523995A

CN109523995A - 语音识别方法、语音识别装置、可读存储介质和电子设备

Info

Publication number: CN109523995A
Application number: CN201811601636.6A
Authority: CN
Inventors: 施阳阳; 黄美玉; 雷欣
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-03-26
Anticipated expiration: 2038-12-26
Also published as: CN109523995B

Abstract

本发明实施例公开了一种语音识别方法、语音识别装置、可读存储介质和电子设备。本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量，根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量，并根据所述多个第二向量获取对应的所述声学特征向量的第三向量，进而根据所述第三向量确定所述输入序列对应的概率分布序列，从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此，通过多个投影矩阵能够使得标签识别的准确率提升，从而在后续提升语音识别的准确率。

Description

语音识别方法、语音识别装置、可读存储介质和电子设备

技术领域

本发明公开涉及信息处理技术领域，具体涉及一种语音识别方法、语音识别装置、可读存储介质和电子设备。

背景技术

随着信息技术的不断发展，语音识别技术也在迅速地发展。现有的语音识别技术通常使用HMM(Hidden Markov Model，隐马尔科夫模型)混合语音识别系统获取语音识别信息。由于HMM混合语音识别系统需要根据现有的声学模型(例如，高斯混合模型)来对语音训练数据的状态进行校准，并根据从状态对齐产生的声学特征和训练目标，训练神经网络获取状态后验概率，这种分离的方式会导致HMM混合语音识别系统的语音识别准确率较低。

发明内容

有鉴于此,本发明实施例提出了一种语音识别方法、语音识别装置、可读存储介质和电子设备，能够提高语音识别的准确率。

第一方面，本发明实施例提供了一种语音识别方法，所述方法包括：

将输入序列输入预定的神经网络模型获取多个第一向量，其中，所述输入序列为声学特征向量的序列，所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量，每个隐藏特征向量对应于一个声学特征向量；

根据所述第一向量和多个投影矩阵获取一个所述声学特征向量对应的多个第二向量；

根据所述多个第二向量获取对应的所述声学特征向量的第三向量；

根据所述第三向量确定所述输入序列对应的概率分布序列；

根据所述概率分布序列确定每个声学特征向量对应的标签。

优选地，所述第二向量通过如下公式计算：

(l_i,1,…,l_i,n)＝tanh([M₁,…,M_n]^Th_i)

其中，l_i,j为所述第二向量，(l_i,1,…,l_i,n)为所述第二向量的序列，tanh为第一激活函数，M_j为所述投影矩阵，j＝1…n为所述投影矩阵的数量，h_i为所述第一向量，i＝1…t为所述第一向量的数量，所述投影矩阵通过预先训练获得。

优选地，所述根据所述多个第二向量获取对应的所述声学特征向量的第三向量包括：

根据所述第一向量和权重矩阵获取对应的多个第四向量；

根据所述多个第四向量和所述多个第二向量获取对应的所述第三向量。

优选地，所述根据所述第一向量和权重矩阵获取对应的多个第四向量包括：

根据所述第一向量和所述权重矩阵获取第五向量；

根据所述第五向量和第二激活函数获取对应的所述第四向量。

优选地，所述第五向量通过如下公式计算：

其中，为所述第五向量，W为所述权重矩阵，h_i为所述第一向量，i＝1…t为所述第一向量的数量，所述权重矩阵通过预先训练获得。

优选地，所述第四向量通过如下公式计算：

其中，w_i,j为所述第四向量，和为所述第五向量中的元素，k＝1…n为所述元素的数量。

优选地，所述第三向量通过如下公式计算：

其中，l_i为所述第三向量，λ为预定的比例因子，w_i,j为所述第四向量，l_i,j为所述第二向量。

第二方面，本发明实施例提供了一种语音识别装置，所述装置包括：

第一获取单元，用于将输入序列输入预定的神经网络模型获取多个第一向量，其中，所述输入序列为声学特征向量的序列，所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量，每个隐藏特征向量对应于一个声学特征向量；

第二获取单元，用于根据所述第一向量和多个投影矩阵获取一个所述声学特征向量对应的多个第二向量；

第三获取单元，用于根据所述多个第二向量获取对应的所述声学特征向量的第三向量；

第一确定单元，用于根据所述第三向量确定所述输入序列对应的概率分布序列；

第二确定单元，用于根据所述概率分布序列确定每个声学特征向量对应的标签。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例通过将输入序列输入预定的神经网络模型获取多个第一向量，根据所述多个第一向量和多个投影矩阵获取一个所述声学特征向量的多个第二向量，并根据所述多个第二向量获取对应的所述声学特征向量的第三向量，进而根据所述第三向量确定所述输入序列对应的概率分布序列，从而根据所述概率分布序列确定每个声学特征向量对应的标签。由此，通过多个投影矩阵能够使得标签识别的准确率提升，从而在后续提升语音识别的准确率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的语音识别方法的流程图；

图2是本发明第一实施例的方法获取第三向量的流程图；

图3是本发明第一实施例的方法获取第三向量的数据流向图；

图4是本发明第二实施例的语音识别装置的示意图；

图5是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

现有的语音识别技术通常使用HMM混合语音识别系统获取语音识别信息。由于HMM混合语音识别系统需要根据现有的声学模型来对语音训练数据的状态进行校准，并根据从状态对齐产生的声学特征和训练目标，训练神经网络获取状态后验概率，这种多次迭代以对齐的方式会导致HMM混合语音识别系统的语音识别准确率较低。

图1是本发明第一实施例的语音识别方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S100，将输入序列输入预定的神经网络模型获取多个第一向量。

其中，输入序列为声学特征向量的序列，第一向量为神经网络模型的最后一个隐层输出的隐藏特征向量，每个隐藏特征向量对应于一个声学特征向量。具体地，输入序列的长度与采集周期有关，每个声学特征向量对应于一个采集时刻(也即，时刻)。可选地，可以根据语音的波形图获得声学特征向量。

在本实施例中，预定的神经网络模型为E2E(end to end，端到端)模型。具体地，为LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification，长短期记忆网络-联结时间分类模型)。其中，LSTM为RNN(Recurrent Neural Network，循环神经网络)的一种，但与RNN不同的是，LSTM中包括用于判断信息是否有用的“处理器”，也即cell。一个cell中包括三扇门，分别为输入门、输出门和遗忘门。一个信息输入LSTM后，可以根据上下文等判断信息是否有用(具体地，用[0,1]之间的数来表示，0为完全遗忘，1为完全保留)，被模型判定为有用的信息会通过输出门保留，而无用的信息会通过遗忘门被遗忘。且LSTM的适应性较高，能够适应多种可能变化，因此，LSTM是解决长(时)序问题的有效技术。在本实施例中，LSTM模型可以为多层LSTM，也可以为双向LSTM。

将声学特征向量的输入序列输入到LSTM-CTC模型后，LSTM可以获取每个声学特征对应的第一向量。具体地，第一向量为LSTM模型的最后一个隐层输出的隐藏特征向量。CTC模型可以根据第一向量和投影层获得标签序列Y。Y的长度通常小于输入序列的长度，而CTC中引入了空标签ε，同时允许出现重复标签，并且，CTC会将ε插在连续的重复标签之间，由此可以将Y扩展为Ω(Y)。其中，空标签可以对应于输入序列中信息较少的声学特征向量。例如，“hello”对应的扩展后的标签序列Ω(Y)可以为hheεεlllεllo。Ω(Y)的长度与输入序列的长度相同，较好地解决了对齐的问题。因此LSTM-CTC语音识别的准确率较高。

步骤S200，根据第一向量和多个投影矩阵获取一个声学特征向量对应的多个第二向量。

将第一向量输入CTC后，CTC会根据投影层获得每个声学特征向量对应的多个第二向量。在现有技术中，投影层为单个投影矩阵，通过单个投影矩阵获得的第二向量的维数通常小于第一向量的维数，因此会对语音识别的准确率产生一定影响。在本实施例中，使用多个投影矩阵代替单个投影矩阵，能够提升第二向量的维数，因此能够提升语音识别的准确率。具体地，第二向量可以通过如下公式计算获得：

(l_i,1,…,l_i,n)＝tanh([M₁,…,M_n]^Th_i)

其中，l_i,j为第二向量，(l_i,1,…,l_i,n)为第二向量的序列，tanh为第一激活函数，M_j为投影矩阵，j＝1…n为投影矩阵的数量，h_i为第一向量，i＝1…t为第一向量的数量。也即，h_i为i时刻对应的第一向量。其中，每个hi的维数为H，每个投影矩阵的维数为H×N。应理解，每个投影矩阵均通过预先训练获得，也就是说，投影矩阵中的每个元素已知。

步骤S300，根据多个第二向量获取对应的声学特征向量的第三向量。

在本实施例中，由于第二向量l_i,j通过多个投影矩阵获得，因此，为了在后续获得多个第二向量l_i,j对应的第一向量hi的概率分布向量，需要获得每个第二向量l_i,j对应的权重向量w_i,j。

图2是本发明第一实施例的方法获取第三向量的流程图。如图2所示，在本实施例中，步骤S300可以包括如下步骤：

步骤S310，根据第一向量和权重矩阵获取对应的多个第四向量。

应理解，权重矩阵均通过预先训练获得，也就是说，权重矩阵中的每个元素已知。具体地，权重矩阵可以和投影矩阵共同训练获得。

可选地，步骤S310包括如下步骤：

步骤S311，根据第一向量和权重矩阵获取多个第五向量。

具体地，第五向量可以通过如下公式计算获得：

其中，为第五向量，W为权重矩阵，h_i为第一向量，i＝1…t为第一向量的数量。

步骤S312，根据第五向量和第二激活函数获取对应的第四向量。

在本步骤中，可以通过softmax函数(也即，第二激活函数)获得第五向量对应的第四向量。softmax函数用于将有限项离散概率分布的梯度对数归一化，使得归一化后的向量中的每个元素的范围在(0,1)之间，且所有元素的总和为1。也就是说，将第五向量通过对数归一化得到对应的第四向量(也即，上述权重向量)。具体地，第四向量可以通过如下公式计算获得：

其中，w_i,j为第四向量，为第五向量中的元素，k＝1…n为第五向量中的元素的数量。

步骤S320，根据多个第四向量和多个第二向量获取对应的第三向量。

具体地，第三向量通过如下公式计算获得：

其中，l_i为第三向量，λ为预定的比例因子，w_i,j为第四向量，l_i,j为第二向量。优选地，在本实施例中，λ的取值范围为[10,20]。

图3是本发明第一实施例的方法获取第三向量的数据流向图。如图3所示，第三向量通过如下步骤获取：

步骤S1000，根据第一向量h_i和权重矩阵W获得多个第四向量w_i,j。

具体地，根据第一向量h_i和权重矩阵W获得多个第五向量然后将每个第五向量对数归一化(也即，通过softmax函数计算)获得对应的第四向量w_i,j。

步骤S2000，根据第一向量h_i和多个投影矩阵M_j获得多个第二向量l_i,j。

具体地，根据第一向量h_i和多个投影矩阵M_j以及激活函数tanh获得多个第二向量。

应理解，步骤S1000和步骤S2000可以同时执行，也可以先后执行，不必区分执行顺序。

步骤S3000，根据多个第二向量l_i,j和对应的多个第四向量w_i,j获得第三向量l_i。

步骤S400，根据第三向量确定输入序列对应的概率分布序列。

具体地，CTC可以通过softmax函数将每个第三向量l_i对数归一化获取对应的概率分布向量p(y_i|X)，从而根据每个p(y_i|X)确定输入队列对应的概率分布序列p(Y|X)。优选地，在模型的训练过程中，可以通过最小化损失函数的方式使得模型提升每个第三向量对应正确标签的概率。具体地，损失函数的公式如下：

其中，π_i为每个第一向量对应的多个输出路径，p(π_i|X)为输入第一向量且输出路径为π_i的概率。

步骤S500，根据概率分布序列确定每个声学特征向量对应的标签。

在本实施例中，标签包括音素和空标签。可选地，音素可以被替换为字符。具体地，在本步骤中，可以根据概率分布序列中每个概率分布向量中概率最大的值确定每个声学特征向量对应的标签。例如，声学特征向量1对应的概率分布向量为(0.04,0.01,0.85,0.07,0.03)，CTC中包括的标签为(a,b,c,d,ε)，则声学特征向量对应的标签为c。

后续，在获取每个声学特征向量对应的标签后，CTC还可以将连续且相同的标签进行合并，并去除空标签，由此，可以输出输入序列对应的语音识别信息。例如，标签序列为hheεεlllεllo，CTC会获取不含连续且相同的标签的标签序列heεεlεlo，然后去除ε，由此可以获得语音识别信息为hello。

现有技术的语音识别方法中LSTM-CTC与本实施例的语音识别方法中LSTM-CTC的WER(word error rate，字错误率)对比如下表所示：

模型	Dev93	Eval92
			LSTM-CTC 1	11.3％	7.4％
LSTM-CTC 2	11.3％	7.5％
			LSTM-CTC 3	10.2％	7.2％

其中，LSTM-CTC 1为现有技术的LSTM-CTC模型，LSTM-CTC 2为去除本实施例的投影层中的softmax激活函数以及预定的比例因子λ的LSTM-CTC模型，LSTM-CTC 3是本实施例的的LSTM-CTC模型。Dev93和Eval92均为华尔街日报的语料库。通过上表可以看出，LSTM-CTC 3在两个语料库中的WER均为最低，也就是说，本实施例的语音识别方法对于语音识别的准确率最高。

图4是本发明第二实施例的语音识别装置的示意图。如图4所示，本实施例的语音识别装置包括第一获取单元41、第二获取单元42、第三获取单元43、第一确定单元44和第二确定单元45。

其中，第一获取单元41用于将输入序列输入预定的神经网络模型获取多个第一向量，其中，所述输入序列为声学特征向量的序列，所述第一向量为所述神经网络模型的最后一个隐层输出的隐藏特征向量，每个隐藏特征向量对应于一个声学特征向量。第二获取单元42用于根据所述第一向量和多个投影矩阵获取一个声学特征向量对应的多个第二向量。第三获取单元43用于根据所述多个第二向量获取对应的所述声学特征向量的第三向量。第一确定单元44用于根据所述第三向量确定所述输入序列对应的概率分布序列。第二确定单元45用于根据所述概率分布序列确定每个声学特征向量对应的标签。

图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器51通过执行存储器52所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起，同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与系统相连。

其中，存储器52可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

根据所述第三向量确定所述输入序列对应的概率分布序列；

根据所述概率分布序列确定每个声学特征向量对应的标签。

2.根据权利要求1所述的方法，其特征在于，所述第二向量通过如下公式计算：

(l_i,1,…,l_i,n)＝tanh([M₁,…,M_n]^Th_i)

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个第二向量获取对应的所述声学特征向量的第三向量包括：

根据所述第一向量和权重矩阵获取对应的多个第四向量；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一向量和权重矩阵获取对应的多个第四向量包括：

根据所述第一向量和所述权重矩阵获取第五向量；

5.根据权利要求4所述的方法，其特征在于，所述第五向量通过如下公式计算：

6.根据权利要求4所述的方法，其特征在于，所述第四向量通过如下公式计算：

7.根据权利要求3所述的方法，其特征在于，所述第三向量通过如下公式计算：

8.一种语音识别装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。