CN110534092A

CN110534092A - 语音音素识别方法和装置、存储介质及电子装置

Info

Publication number: CN110534092A
Application number: CN201910775838.0A
Authority: CN
Inventors: 苏丹; 陈杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2019-12-03
Anticipated expiration: 2039-06-28
Also published as: CN110364142B; CN110473518A; CN110428809A; CN110473518B; CN110534092B; CN110364142A; CN110428809B

Abstract

本发明公开了一种语音音素识别方法和装置、存储介质及电子装置。其中，该方法包括：使用CNN从按照时间顺序进行排序的多个语音帧中提取与多个语音帧一一对应的多个第一语音特征；使用CTC模型从多个第一语音特征中确定多个关键语音特征，每个关键语音特征对应于CTC模型输出的多个语音帧中的一个尖峰位置；确定与每个关键语音特征对应的语音特征集合，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；使用自注意力网络分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征；使用目标注意力模型的解码器在音素集合中分别识别与每个融合语音特征对应的音素。

Description

语音音素识别方法和装置、存储介质及电子装置

本申请是对申请号为：2019105787247，申请日为：2019年06月28日，发明名称为《语音音素识别方法和装置、存储介质及电子装置》的原申请的分案申请。

技术领域

本发明涉及计算机领域，具体而言，涉及一种语音音素识别方法和装置、存储介质及电子装置。

背景技术

目前，在声学模型建模中，主要应用的端到端建模方法为帧级别特征编码方式，例如，CTC(Connectionist Temporal Classification，连接时序分类)模型。该方式具有一个条件无关假设(即当前输出只与输入特征相关，与历史输出无关)。

然而，由于语音数据之间具有关联性，因此，上述条件无关假设虽然使得建模得到的声学模型虽然具有简洁稳定的优势，但是识别结果准确率低，识别效果差。也就是说，相关技术中的语音音素识别方法存在识别结果准确率低的问题。

发明内容

本发明实施例提供一种语音音素识别方法和装置、存储介质及电子装置，以至少解决相关技术中的语音音素识别方法存在识别结果准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种语音音素识别方法，包括：使用卷积神经网络从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征；使用连接时序分类CTC模型从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于CTC模型输出的多个语音帧中的一个尖峰位置；确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；使用自注意力网络分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征；使用目标注意力模型的解码器在音素集合中分别识别出与每个融合语音特征对应的音素。

根据本发明实施例的另一方面，还提供了一种语音音素识别装置，包括：提取单元，用于使用卷积神经网络从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征；第一确定单元，用于使用连接时序分类CTC模型从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于CTC模型输出的多个语音帧中的一个尖峰位置；第二确定单元，用于确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；融合单元，用于使用自注意力网络分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征；识别单元，用于使用目标注意力模型的解码器在音素集合中分别识别出与每个融合语音特征对应的音素。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的方法。

在本发明实施例中，通过CTC模型根据语音帧的语音特征确定出关键语音特征；确定与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；使用自注意力网络对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征；并使用目标注意力模型的解码器在音素集合中分别识别出与每个融合语音特征对应的音素，在基于帧级别特征编码确定出关键语音特征的基础上，利用关键语音特征确定语音特征段(语音特征集合)，从而可以提取出更精准的段(单元)级别的特征，进而可以提高识别结果的准确率，解决相关技术中的语音音素识别方法存在识别结果准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种语音音素识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的语音音素识别方法的流程示意图；

图3是根据本发明实施例的一种可选的语音音素识别方法的示意图；

图4是根据本发明实施例的另一种可选的语音音素识别方法的示意图；

图5是根据本发明实施例的一种可选的CTC模型的示意图；

图6是根据本发明实施例的又一种可选的语音音素识别方法的示意图；

图7是根据本发明实施例的又一种可选的语音音素识别方法的示意图；

图8是根据本发明实施例的一种可选的注意力模型的示意图；

图9是根据本发明实施例的又一种可选的语音音素识别方法的示意图；

图10是根据本发明实施例的一种语音数据的示意图；

图11是根据本发明实施例的又一种可选的语音音素识别方法的示意图；

图12是根据本发明实施例的又一种可选的语音音素识别方法的示意图；

图13是根据本发明实施例的又一种可选的语音音素识别方法的示意图；

图14是根据本发明实施例的一种可选的语音音素识别装置的结构示意图；

图15是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种语音音素识别方法。可选地，上述语音音素识别方法可以但不限于应用于如图1所示的应用环境中。如图1所示，上述语音音素识别方法涉及终端设备102通过网络104与服务器106之间的交互。

终端设备102可以采集或者从其他设备获取按照时间顺序进行排序的多个语音帧，并多个语音帧通过网络104发送给服务器106。终端设备102还可以采集或者从其他设备获取目标语音数据，并将目标语音数据通过网络104发送给服务器106，由服务器106从目标语音数据中获取多个语音帧。

服务器106在获取到多个语音帧之后，可以从多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征；从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于音素集合中的一个音素的概率大于或者等于目标概率阈值；确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征；在音素集合中分别识别出与每个融合语音特征对应的音素。

可选地，在本实施例中，上述终端设备可以包括但不限于以下至少之一：手机、平板电脑、台式机等。上述网络可以包括但不限于以下至少之一：无线网络，有线网络，其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，该有线网络可以包括：局域网、城域网、广域网等。上述服务器可以包括但不限于以下至少之一：用于使用目标神经网络模型对目标序列模型进行处理的设备。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，如图2所示，上述语音音素识别方法的流程可以包括以下步骤：

S202，从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征；

S204，从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于音素集合中的一个音素的概率大于或者等于目标概率阈值；

S206，确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；

S208，分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征；

S210，在音素集合中分别识别出与每个融合语音特征对应的音素。

可选地，上述语音音素识别方法可以是由目标服务器执行的，可以但不限于应用于语音识别、语言翻译等任务中。

例如，以语言翻译为例，多个语音帧为从对应于第一语言(例如，中文)的待翻译语音数据中获取到的语音帧。如图3所示，可以由模块一从多个语音帧中提取出多个第一语音特征，由模块二从多个第一语音特征中确定出多个关键语音特征，并向模块三输出关键语音特征标识，由模块三确定出与每个关键语音特征对应的语音特征集合，并分别对每个语音特征集合中的语音特征进行特征融合，由模块四在音素集合中分别识别出与每个融合语音特征对应的音素。在识别出各音素之后，由识别出的音素确定待翻译语音数据中包含的词语(或句子)，将包含的词语(或句子)翻译为第二语言的词语(或句子)。

通过本实施例，在基于帧级别特征编码确定出关键语音特征的基础上，利用关键语音特征确定语音特征段(语音特征集合)，以提取出更精准的段(单元)级别的特征，确定与各语音特征段对应的音素，解决了相关技术中的语音音素识别方法存在识别结果准确率低的技术问题，提高了识别结果的准确率。

下面结合图2对上述语音识别方式进行解释说明。

在步骤S202中，从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征。

多个语音帧可以是从目标语音数据中获取到的语音帧。上述目标语音数据可以是目标时长的一段语音，例如，一段2s的语音。

在从目标语音数据中获取的多个语音帧前，目标服务器可以获取该目标语音数据。上述目标语音数据可以是由终端通过网络发送给目标服务器，也可以是由保存有目标语音数据的服务器发送给目标服务器。其中，上述终端可以是录制目标语音数据的终端，也可以是保存有目标语音数据的终端，还可以是请求对目标语音数据进行处理的其他终端。

可选地，在本实施例中，在从多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征之前，可以按照预定时长对目标语音数据进行划分，得到多个单元帧；按照目标周期，从多个单元帧中确定出多个语音帧，其中，每个语音帧包括一个或多个单元帧。

在获取到目标语音数据之后，可以采用多种方式从目标语音数据中获取上述多个语音帧：将目标语音数据划分为多个单元帧；从多个单元帧中采样出多个语音帧，或者，将多个单元帧进行组合，得到多个语音帧。

将目标语音数据划分为多个单元帧的方式可以是：按照预定时长对目标语音数据进行划分，得到多个单元帧。上述预定时长可以满足以下划分条件：能够识别出特定的语音特征。上述预定时长还可以满足以下划分条件：包含的语音特征的数量小于或者等于1。上述预定时长可以根据需要进行设定，例如，可以是10ms。通过设定预定时长，可以保证能够识别出语音特征，又不会由于时长过长导致漏识别或错误识别。

例如，对于长度为2s的语音数据，可以按照10ms为预定时长对该语音数据进行划分，得到200个单元帧。

在得到多个单元帧，可以按照目标周期，从多个单元帧中确定出多个语音帧，其中，每个语音帧包括一个或多个单元帧。

为了减少计算的复杂度，提高语音音素识别的效率，可以对多个单元帧进行采样，或者，对多个单元帧进行组合。例如，可以按照每N个单元帧(目标周期为N个单元帧)抽取一个或者多个单元帧的方式进行采样，得到多个语音帧。又例如，可以按照每M个单元帧为一组的方式进行单元帧组合，得到多个语音帧。

例如，对于将2s的语音数据按照10ms为预定时长进行划分得到的200个单元帧，可以按照每2个单元帧抽取一个单元帧的方式，得到100个语音帧，也可以按照每4个单元帧抽取一个单元帧的方式，得到50个语音帧，还可以按照每4个单元帧为一组的方式进行单元帧组合的方式，得到50个语音帧。

通过本实施例，通过对语音数据进行划分得到单元帧，并对单元帧进行采样的方式得到语音帧，可以减少语音音素识别的计算复杂度，提高语音音素识别的效率。

在得到多个语音帧之后，目标服务器可以从多个语音帧中提取出多个第一语音特征，其中，多个语音帧与多个第一语音特征之间一一对应。

从语音帧中识别语音特征的方式可以有多种，对于已有的语音特征提取方式，只要提取出的语音特征可以用于进行语音音素识别，均可用于本实施例中的语音音素识别方法。

为了提高提取出的语音特征的有效性，可以采用目标神经网络模型进行语音特征的提取。

可选地，在本实施例中，从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征可以包括：依次将多个语音帧中的每个语音帧输入到目标神经网络模型，其中，目标神经网络模型用于提取与每个语音帧对应的第一语音特征；获取目标神经网络模型输出的多个第一语音特征。

上述目标神经网络模型可以为帧级别编码器模型(即，Encoder部分)，可以是各类深层神经网络的模型，可以包括但不限于以下至少之一：多层LSTM(Long Short-TermMemory，长短期记忆网络)，例如，BiLSTM(双向LSTM)，UniLSTM(衍生LSTM)；多层卷积网络；FSMN(Feedforward Sequential Memory Networks，前馈型序列记忆网络)，TDNN(TimeDelay Neural Network，时延神经网络)。

例如，如图4所示，可以依次将多个语音帧中的每个语音帧输入到CNN(Convolution Neural Networks，卷积神经网络)中，由CNN提取并输出与每个语音帧对应的第一语音特征。

通过本实施例，通过使用神经网络模型进行语音特征提取，可以根据需要进行网络模型训练，提高语音特征提取的准确性和有效性。

在步骤S204中，从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于音素集合中的一个音素的概率大于或者等于目标概率阈值。

对于提取出的每个第一语音特征，可以根据提取出的第一语音特征确定该第一语音特征对应与音素集合中的各音素的概率。

上述音素(phone)可以是组成各个语音的元素，是根据语言的自然属性划分出来的最小语言单元。可以依据音节的发音动作来分析，一个动作构成一个音素。对于汉语，音素可以分为元音和辅音，如，汉语音节有一个音素，有两个音素，有三个音素。在进行音素识别时，可以识别出音节中的声调(例如，阴平、阳平、上声、去声)，也可以不识别音节中的声调。

对于每个第一语音特征，其对应于音素集合中的各音素的概率的和可以为1(归一化处理)。在全部第一语音特征中，部分第一语音特征由于包含的信息有限，可能并不能确定其对应于音素集合中的各音素的概率，这些第一语音特征可以忽略；部分第一语音特征所表示的信息不明确，其对应于音素集合中的各音素的概率均未超过目标概率阈值(例如，80％)，这些第一语音特征不属于关键语音特征；部分第一语音特征所表示的信息明确，其对应于音素集合中的某一音素的概率超过目标概率阈值(确定为某一音素的概率大于80％)，将这些第一语音特征确定为关键语音特征。

可以采用多种方式进行关键语音特征的确定。只要能够根据语音特征确定该语音特征对应于音素集合中的各音素概率的方式，均可用于关键语音特征的确定。

可选地，在本实施例中，从多个第一语音特征中确定出多个关键语音特征可以包括：使用CTC模型从多个第一语音特征中确定出多个尖峰位置，其中，每个尖峰位置对应一个关键语音特征。

CTC模型可以如图5所示，CTC模型包含一个encoder(编码器)，将x₁…x_T依次输入到encoder中，并使用Softmax函数(归一化指数函数)对encoder的输出(h^enc)进行处理，得到每个输入x(x₁…x_T)为每个y(y₁…y_T)的概率(P(y₁|x)…P(y_T|x))。

CTC主要解决传统的RNN(Recurrent Neural Network，循环神经网络，是一类用于处理序列数据的神经网络)模型中，标注序列和输入的序列的对应问题。通过在标注符号集中加一个空白符号blank，然后利用RNN进行标注，在无法判定某个有效输出时则输出blank符号；在足够判定某个有效单元的时候则输出一个有效符号，因此，CTC中能得到label(标签)中有效符号的尖峰位置。

例如，如图6所示，CNN在识别出多个第一语音特征之后，可以采用CTC准则，输出多个尖峰位置，每个尖峰位置对应于一个关键语音特征，尖峰位置为关键语音特征的标识。

通过本实施例，采用CTC模型进行关键语音特征的定位，在训练模型时不需要标记各音素的边界，可以提高模型训练和模型使用的便捷性。

在步骤S206中，确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征。

对于确定出的每个关键语音特征，可以确定与每个关键语音特征对应的语音特征集合。对于当前关键语音特征，与其对应的语音特征集合包括：当前关键语音特征以及多个第一语音特征中与当前关键语音特征相邻的一个或多个语音特征。

可以采用多种方式确定与每个关键语音特征对应的语音特征集合。例如，可以将当前关键语音特征、多个第一语音特征中当前语音特征之前和之后的一个或多个语音特征确定为与当前关键语音特征对应的语音特征集合。又例如，可以将当前关键语音特征、多个第一语音特征中当前语音特征之前的一个或多个语音特征确定为与当前关键语音特征对应的语音特征集合。再例如，可以将当前关键语音特征、多个第一语音特征中当前语音特征之后的一个或多个语音特征确定为与当前关键语音特征对应的语音特征集合。

可选地，在本实施例中，确定出与每个关键语音特征对应的语音特征集合可以包括：确定出与多个关键语音特征中的当前关键语音特征对应的第二语音特征和第三语音特征，其中，第二语音特征为多个第一语音特征中在当前关键语音特征之前、且与当前关键语音特征不相邻的第一个关键语音特征，第三语音特征为多个第一语音特征中在当前关键语音特征之后、且与当前关键语音特征不相邻的第一个关键语音特征；确定出与当前关键语音特征对应的当前语音特征集合，其中，当前语音特征集合为目标语音特征集合的子集合，目标语音特征集合包括第二语音特征、第三语音特征、以及第二语音特征与第三语音特征之间的第一语音特征。

对于多个关键语音特征中的当前语音特征，可以首先确定当前语音特征之前、且与当前关键语音特征不相邻的第一个关键语音特征(第二语音特征)，以及当前语音特征之后、且与当前关键语音特征不相邻的第一个关键语音特征(第三语音特征)，然后将第二语音特征、第三语音特征以及第二语音特征与第三语音特征之间的第一语音特征确定为目标语音特征集合，再从目标语音特征集合中选取出一个或多个语音特征作为与当前关键语音特征对应的语音特征集合。

需要说明的是，对于第一个关键语音特征，其对应的第二语音特征为第一个第一语音特征，对于最后一个关键语音特征，其对应的第三语音特征为最后一个第一语音特征。

例如，对于与12个语音帧对应的12个第一语音特征，其中，关键语音特征为：第3、6、7和10个第一语音特征。对于第1个关键语音特征，其对应的目标语音特征集合为：第1-6个第一语音特征。对于第2个关键语音特征，其对应的目标语音特征集合为：第3-10个第一语音特征。对于第3个关键语音特征，其对应的目标语音特征集合为：第3-10个第一语音特征。对于第4个关键语音特征，其对应的目标语音特征集合为：第7-12个第一语音特征。

通过本实施例，通过确定与当前关键语音特征对应的第二语音特征和第三语音特征，由第二语音特征和第三语音特征确定与当前关键语音特征对应的目标语音特征集合，从而可以由目标语音特征集合确定与当前关键语音特征对应的语音特征集合，可以避免不同关键语音特征之间的影响，保证音素识别的准确性。

在步骤S208中，分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征。

对于多个语音特征集合中的当前语音特征集合，可以将当前语音特征集合中的语音特征进行特征融合，得到与当前语音特征集合对应的融合语音特征。

可以采用多种方式进行特征融合，例如，可以采用对当前语音特征集合的各语音特征进行加权求和。每个语音特征的权重可以相同，也可以不同。例如，可以根据当前语音特征集合的各语音特征与当前关键语音特征之间的距离，为不同的语音特征赋予不同的权重，与当前关键语音特征的距离越近，权重越大。

需要说明的是，两个语音特征之间的距离可以根据与各语音特征对应的语音帧之间的距离进行表示，两个语音帧之间的距离可以为两个语音帧起始位置、终点位置、或者任意相同位置之间的时间差。

可选地，在本实施例中，分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征可以包括：分别将每个语音特征集合中的语音特征输入到目标自注意力层中，得到多个融合语音特征，其中，目标自注意力层用于对每个语音特征集合中的语音特征进行加权求和，得到与每个语音特征集合对应的融合语音特征。

可以使用自注意力(Self-Attention)层对每个语音特征集合中的语音特征进行特征融合，提取单元长度级别的特征，得到融合语音特征。

自注意力模型是一种采用自注意力机制的模型。与标准的attention机制不同的是：在标准的attention中，其Query向量与输出label相关，通过输出的label返回到RNN中获得；在self-attention中，其Query向量由encoder本身通过变换产生。

例如，如图7所示，对于自注意力层，根据CTC输出的多个尖峰位置和CNN输出的多个第一语音特征，确定与各尖峰位置对应的语音特征段，并输出各语音特征段对应的融合语音特征。例如，与第1个关键语音特征对应的语音特征集合为：第1-6个第一语音特征。第1-6个第一语音特征输入到自注意力层中，自注意力层的输出为与第1个关键语音特征对应的融合语音特征。

通过本实施例，使用自注意力层提取段级别特征，可以保证语音特征融合的准确性，进而提高语音音素识别的准确率。

在步骤S210中，在音素集合中分别识别出与每个融合语音特征对应的音素。

在得到多个融合语音特征之后，可以根据得到的多个融合语音特征，得到与每个融合语音特征对应的音素。

对于多个融合语音特征中的当前融合语音特征，可以根据当前融合语音特征得到该当前融合语音特征对应于音素集合中的各音素的概率，并根据当前融合语音特征对应于音素集合中的各音素的概率，确定与每个融合语音特征对应的音素。

可选地，在本实施例中，在音素集合中分别识别出与每个融合语音特征对应的音素可以包括：将每个融合语音特征依次输入到目标注意力模型的解码器，得到与每个融合语音特征对应的音素，其中，上述解码器用于至少根据当前输入的当前融合语音特征和使用解码器对当前融合语音特征的前一个语音特征进行处理得到的前一个音素，得到与当前融合语音特征对应的当前音素。

Attention是一种用于提升基于RNN的Encoder+Decoder模型的效果的机制(Mechanism)，一般称为Attention Mechanism。Attention Mechanism可以应用于机器翻译、语音识别、图像标注(Image Caption)等很多领域。Attention给模型赋予了区分辨别的能力，例如，在机器翻译、语音识别应用中，为句子中的每个词赋予不同的权重，使神经网络模型的学习变得更加灵活(soft)，同时Attention本身可以作为一种对齐关系，解释翻译输入/输出句子之间的对齐关系，解释模型到底学到了什么知识。

注意力模型的结构可以如图8所示。其中，x₁…x_T为encoder的输入，h^enc为encoder的输出；为attention层的上一个输出(注意力模型的上一个输入为x_u-1)，c_u为注意力层本次的状态输出(注意力模型的本次输入为x_u)，y_u-1为注意力模型上一个输出，为解码器本次的输出，P(y_u|y_u-1,…,y₀,x)为注意力模型本次的输出。

可以使用目标注意力(Attention)模型中的Decoder(解码器)网络确定与每个融合语音特征对应的音素。上述目标注意力模型可以是标准Attention模型，也可以是改进的Attention模型，只要可以根据输入的多个融合语音特征得到与各融合语音特征对应的音素的网络模型，均可用于与每个融合语音特征对应的音素的确定流程。

例如，如图9所示，可以将自注意力层输出的多个融合语音特征输入到注意力模型的解码器中，由该解码器根据输入的当前融合语音特征和与之前的融合语音特征对应的音素，确定与当前融合语音特征对应的音素。

通过本实施例，使用注意力模型的解码器进行与各融合语音特征对应的音素的识别，可以提高语音音素识别的准确率。

在音素集合中分别识别出与每个融合语音特征对应的音素之后，可以根据识别出的多个音素，得到与多个语音帧对应的音素组合。

由于同一个音素可能对应于多个语音帧，因此，识别出的多个关键语音特征中可能存在至少两个关键语音特征对应于同一个音素的情况。

例如，如图10所示，对于“你好”，包含了5个音素“n”、“i”、“h”、“a”、“o”，对应于12个语音帧，其中，“n”对应于第1-4个语音帧，“i”对应于第5-7个语音帧，“h”对应于第8-9个语音帧，“a”对应于第10-11个语音帧，“h”对应于第12个语音帧。对于“n”，识别出的关键语音特征为与第3、4个语音帧对应的第一语音特征，对于其他的音素，识别出的关键语音特征仅有一个，那么，最终输出的与每个融合语音特征对应的音素的组合为“nnihao”。

可选地，在本实施例中，在音素集合中分别识别出与每个融合语音特征对应的音素之后，可以根据音素集合所属的语言类型，对与每个融合语音特征对应的音素进行组合，得到目标显示信息，其中，目标显示信息为与多个语音帧对应的一个或多个音节，或者，与多个语音帧对应的一个或多个字；将目标显示信息输出到显示设备进行显示。

在识别出的多个音素的同时，可以确定出各个音节。根据不同语言类型的规则，可以将对应于相同音素的音素识别结果进行合并，得到一个或多个音节，并根据不同语言类型的规则，确定与得到的一个或多个音节对应的一个或多个字。

在得到与多个语音帧对应的一个或多个音节，或者，一个或多个字之后，可以以目标显示信息的方式输出给显示设备(例如，终端设备)进行显示。

通过本实施例，根据音素集合所属的语言类型将识别出的多个音素确定为一个或多个音节，或者，一个或多个字，并通过显示设备进行显示，可以清楚的显示出音素识别结果，提高用户体验。

下面结合可选示例对上述语音音素识别方法进行说明。在本示例中，提取第一语音特征使用的是深层卷积神经网络模型，进行特征融合使用的是自注意力层，识别与融合语音特征对应的音素使用的是标准注意力模型的解码器。

在声学模型建模中可以应用两种端到端建模方法：一种是CTC；另一种是Attention。CTC模型中主要只包含一个encoder(编码器)，即帧级别特征编码模块，具有简洁稳定的优势，不足之处是存在一个条件无关假设，即当前输出只与输入特征相关，与历史输出无关。Attention模型具有encoder和decoder(解码器)两个主要模块，其输出不仅与输入特征有关还与历史输出相关，在概率模型上比CTC更完善。同时，Attention能够捕获更长范围的特征，不受前后帧限制。

两种建模方式的结合可以通过多任务训练框架将两种方法结合，如图11所示，encoder模块共享，在训练中优化一个插值的损失函数，损失函数如公式(1)所示：

L_MTL＝λL_CTC+(1-λ)L_Attention (1)

其中，L_MTL为结合后的损失函数，L_CTC为CTC的损失函数，L_Attention为Attention模型的损失函数。

然而，通过多任务训练框架将两种方法结合的方式，CTC与Attention输出单元集合必须相同，Attention无法利用CTC给出的单元范围信息，且CTC与Attention由于一个在帧级别输出一个在单元级别输出，需要特殊处理融合策略。

本示例中的语音音素识别方法是一种声学建模方法，结合现有CTC、ATTENTION、Self-Attention端到端建模技术，在CTC模型给出的尖峰位置基础上，有效利用前后若干单元的边界范围，先采用Self-attention层提取更精确的单元级别长度特征，进而使用标准的Attention的Decoder层，能够在CTC基础上进一步修复错误，达到更优的识别准确率。

如图12所示，本示例中的语音音素识别方法所对应的建模系统可划分为以下四个模块：模块一，帧级别编码器模型；模块二，发音单元边界及位置判别模块；模块三，段(单元)级别特征编码器模块；模块四，解码器(输出单元判别)模块。

对于帧级别编码器模型，可以采用各类深层神经网络模型，例如，多层LSTM，多层卷积网络，FSMN或TDNN网络。对于发音单元边界及位置判别模块，可以采用CTC准则，可以输出发音单元尖峰位置。对于段(单元)级别特征编码器模块，可以采用Self-attention层，在覆盖左右各N个单元的范围内使用self-attention网络提取单元长度级别的特征。对于发音单元判别输出模块，可以采用标准Attention模型中的Decoder网络。

模块二的发音单元集合与模块四的输出单元集合可不同，如发音单元集合采用上下文相关音素(context-dependent phoneme)，输出单元集合采用音节(syllable)。

如图13所示，encoder output层为帧级别编码器模型输出，其中深色圆圈代表CTC准则下有效label的尖峰；self-attention层通过无监督自注意力机制提取左右一定单元边界范围内的更高级特征(如图中是左右各一个单元范围)；在self-attention层提取的段(单元)级别特征基础上，进一步采用标准attention的decoder来进行最终输出单元的判别。

通过本示例，通过self-attention层，利用CTC给出的单元范围信息提取段(单元)级别特征，通过在CTC和attention中间引入self-attention层，使得attention的输出不依赖与原有的CTC的输出，使模型在有能力修复CTC模型中引入的插入删除错误，且最终统一由Attention的Decoder层输出，不需要考虑与CTC的融合策略，提高了处理的便捷性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述语音音素识别方法的语音音素识别装置，如图14所示，该装置包括：

(1)提取单元1402，用于从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征；

(2)第一确定单元1404，用于从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于音素集合中的一个音素的概率大于或者等于目标概率阈值；

(3)第二确定单元1406，用于确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；

(4)融合单元1408，用于分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征；

(5)识别单元1410，用于在音素集合中分别识别出与每个融合语音特征对应的音素。

可选地，上述语音音素识别装置可以是由目标服务器执行的，可以但不限于应用于语音识别、语言翻译等任务中。

可选地，提取单元1402可以用于执行上述步骤S202，第一确定单元1404可以用于执行上述步骤S204，第二确定单元1406可以用于执行上述步骤S206，融合单元1408可以用于执行上述步骤S208，识别单元1410可以用于执行上述步骤S210。

作为一种可选的实施方案，上述装置还包括：

(1)划分单元，用于在从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征之前，按照预定时长对目标语音数据进行划分，得到多个单元帧；

(2)确定单元，用于按照目标周期，从多个单元帧中确定出多个语音帧，其中，每个语音帧包括一个或多个单元帧。

作为一种可选的实施方案，提取单元1402包括：

(1)第一输入模块，用于依次将多个语音帧中的每个语音帧输入到目标神经网络模型，其中，目标神经网络模型用于提取与每个语音帧对应的第一语音特征；

(2)获取模块，用于获取目标神经网络模型输出的多个第一语音特征。

作为一种可选的实施方案，第一确定单元1404包括：

第一确定模块，用于使用连接时序分类CTC模型从多个第一语音特征中确定出多个尖峰位置，其中，每个尖峰位置对应一个关键语音特征。

作为一种可选的实施方案，第二确定单元1406包括：

(1)第二确定模块，用于确定出与多个关键语音特征中的当前关键语音特征对应的第二语音特征和第三语音特征，其中，第二语音特征为多个第一语音特征中在当前关键语音特征之前、且与当前关键语音特征不相邻的第一个关键语音特征，第三语音特征为多个第一语音特征中在当前关键语音特征之后、且与当前关键语音特征不相邻的第一个关键语音特征；

(2)第三确定模块，用于确定出与当前关键语音特征对应的当前语音特征集合，其中，当前语音特征集合为目标语音特征集合的子集合，目标语音特征集合包括第二语音特征、第三语音特征、以及第二语音特征与第三语音特征之间的第一语音特征。

作为一种可选的实施方案，融合单元1408包括：

(1)输入模块，用于分别将每个语音特征集合中的语音特征输入到目标自注意力层中，得到多个融合语音特征，其中，目标自注意力层用于对每个语音特征集合中的语音特征进行加权求和，得到与每个语音特征集合对应的融合语音特征。

作为一种可选的实施方案，识别单元1410包括：

(1)第二输入模块，用于将每个融合语音特征依次输入到目标注意力模型的解码器，得到与每个融合语音特征对应的音素，其中，解码器用于至少根据当前输入的当前融合语音特征和使用解码器对当前融合语音特征的前一个语音特征进行处理得到的前一个音素，得到与当前融合语音特征对应的当前音素。

作为一种可选的实施方案，上述装置还包括：

(1)组合单元，用于在音素集合中分别识别出与每个融合语音特征对应的音素之后，根据音素集合所属的语言类型，对与每个融合语音特征对应的音素进行组合，得到目标显示信息，其中，目标显示信息为与多个语音帧对应的一个或多个音节，或者，与多个语音帧对应的一个或多个字；

(2)输出单元，用于将目标显示信息输出到显示设备进行显示。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，从按照时间顺序进行排序的多个语音帧中提取出与多个语音帧一一对应的多个第一语音特征；

S2，从多个第一语音特征中确定出多个关键语音特征，其中，每个关键语音特征对应于音素集合中的一个音素的概率大于或者等于目标概率阈值；

S3，确定出与每个关键语音特征对应的语音特征集合，其中，每个语音特征集合包括对应的关键语音特征以及多个第一语音特征中与对应的关键语音特征相邻的一个或多个语音特征；

S4，分别对每个语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个语音特征集合对应一个融合语音特征；

S5，在音素集合中分别识别出与每个融合语音特征对应的音素。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述语音音素识别方法的电子装置，如图15所示，该电子装置包括：处理器1502、存储器1504、传输装置1506等。该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本领域普通技术人员可以理解，图15所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图15其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图15中所示更多或者更少的组件(如网络接口等)，或者具有与图15所示不同的配置。

其中，存储器1504可用于存储软件程序以及模块，如本发明实施例中的语音音素识别方法和装置对应的程序指令/模块，处理器1502通过运行存储在存储器1504内的软件程序以及模块，从而执行各种功能应用以及语音音素识别，即实现上述语音音素识别方法。存储器1504可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1504可进一步包括相对于处理器1502远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1506包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1506为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音音素识别方法，其特征在于，包括：

使用卷积神经网络从按照时间顺序进行排序的多个语音帧中提取出与所述多个语音帧一一对应的多个第一语音特征；

使用连接时序分类CTC模型从所述多个第一语音特征中确定出多个关键语音特征，其中，每个所述关键语音特征对应于所述CTC模型输出的所述多个语音帧中的一个尖峰位置；

确定出与每个所述关键语音特征对应的语音特征集合，其中，每个所述语音特征集合包括对应的所述关键语音特征以及所述多个第一语音特征中与对应的所述关键语音特征相邻的一个或多个语音特征；

使用自注意力网络分别对每个所述语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个所述语音特征集合对应一个所述融合语音特征；

使用目标注意力模型的解码器在音素集合中分别识别出与每个所述融合语音特征对应的音素。

2.根据权利要求1所述的方法，其特征在于，在使用所述卷积神经网络从按照时间顺序进行排序的所述多个语音帧中提取出与所述多个语音帧一一对应的所述多个第一语音特征之前，所述方法还包括：

按照预定时长对目标语音数据进行划分，得到多个单元帧；

按照目标周期，从所述多个单元帧中确定出所述多个语音帧，其中，每个所述语音帧包括一个或所述多个单元帧。

3.根据权利要求1所述的方法，其特征在于，使用所述卷积神经网络从按照时间顺序进行排序的所述多个语音帧中提取出与所述多个语音帧一一对应的所述多个第一语音特征包括：

依次将所述多个语音帧中的每个语音帧输入到目标神经网络模型，其中，所述目标神经网络模型用于提取与所述每个语音帧对应的所述第一语音特征，所述目标神经网络模型包括所述卷积神经网络；

获取所述目标神经网络模型输出的所述多个第一语音特征。

4.根据权利要求1所述的方法，其特征在于，使用所述CTC模型从所述多个第一语音特征中确定出多个所述关键语音特征包括：

使用所述CTC模型从所述多个第一语音特征中确定出多个所述尖峰位置，其中，每个所述尖峰位置对应一个所述关键语音特征；

确定与多个所述尖峰位置对应的多个所述关键语音特征，其中，所述多个所述尖峰位置与多个所述关键语音特征一一对应。

5.根据权利要求1所述的方法，其特征在于，确定出与每个所述关键语音特征对应的所述语音特征集合包括：

确定出与所述多个关键语音特征中的当前关键语音特征对应的第二语音特征和第三语音特征，其中，所述第二语音特征为所述多个第一语音特征中在所述当前关键语音特征之前、且与所述当前关键语音特征不相邻的第一个关键语音特征，所述第三语音特征为所述多个第一语音特征中在所述当前关键语音特征之后、且与所述当前关键语音特征不相邻的第一个关键语音特征；

确定出与所述当前关键语音特征对应的当前语音特征集合，其中，所述当前语音特征集合为目标语音特征集合的子集合，所述目标语音特征集合包括所述第二语音特征、所述第三语音特征、以及所述第二语音特征与所述第三语音特征之间的所述第一语音特征。

6.根据权利要求1所述的方法，其特征在于，使用所述自注意力网络分别对每个所述语音特征集合中的语音特征进行特征融合，得到所述多个融合语音特征包括：

分别将每个所述语音特征集合中的语音特征输入到所述自注意力网络中，得到所述多个融合语音特征，其中，所述自注意力网络用于对每个所述语音特征集合中的语音特征进行加权求和，得到与每个所述语音特征集合对应的融合语音特征。

7.根据权利要求1所述的方法，其特征在于，使用所述目标注意力模型的所述解码器在所述音素集合中分别识别出与每个所述融合语音特征对应的音素包括：

将所述每个所述融合语音特征依次输入到所述解码器中，得到与每个所述融合语音特征对应的音素，其中，所述解码器用于根据当前输入的当前融合语音特征，以及使用所述解码器对所述当前融合语音特征的前一个语音特征进行处理得到的前一个音素，得到与当前融合语音特征对应的当前音素。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在使用所述目标注意力模型的所述解码器所述音素集合中分别识别出与每个所述融合语音特征对应的音素之后，所述方法还包括：

根据所述音素集合所属的语言类型，对与每个所述融合语音特征对应的音素进行组合，得到目标显示信息，其中，所述目标显示信息为与所述多个语音帧对应的一个或多个音节，或者，与所述多个语音帧对应的一个或多个字；

将所述目标显示信息输出到显示设备进行显示。

9.一种语音音素识别装置，其特征在于，包括：

提取单元，用于使用卷积神经网络从按照时间顺序进行排序的多个语音帧中提取出与所述多个语音帧一一对应的多个第一语音特征；

第一确定单元，用于使用连接时序分类CTC模型从所述多个第一语音特征中确定出多个关键语音特征，其中，每个所述关键语音特征对应于所述CTC模型输出的所述多个语音帧中的一个尖峰位置；

第二确定单元，用于确定出与每个所述关键语音特征对应的语音特征集合，其中，每个所述语音特征集合包括对应的所述关键语音特征以及所述多个第一语音特征中与对应的所述关键语音特征相邻的一个或多个语音特征；

融合单元，用于使用自注意力网络分别对每个所述语音特征集合中的语音特征进行特征融合，得到多个融合语音特征，其中，每个所述语音特征集合对应一个所述融合语音特征；

识别单元，用于使用所述目标注意力模型的解码器在音素集合中分别识别出与每个所述融合语音特征对应的音素。

10.根据权利要求9所述的装置，其特征在于，所述第一确定单元包括：

第一确定模块，用于使用所述CTC模型从所述多个第一语音特征中确定出多个所述尖峰位置，其中，每个所述尖峰位置对应一个所述关键语音特征；确定与多个所述尖峰位置对应的多个所述关键语音特征，其中，所述多个所述尖峰位置与多个所述关键语音特征一一对应。

11.根据权利要求9所述的装置，其特征在于，所述第二确定单元包括：

第二确定模块，用于确定出与所述多个关键语音特征中的当前关键语音特征对应的第二语音特征和第三语音特征，其中，所述第二语音特征为所述多个第一语音特征中在所述当前关键语音特征之前、且与所述当前关键语音特征不相邻的第一个关键语音特征，所述第三语音特征为所述多个第一语音特征中在所述当前关键语音特征之后、且与所述当前关键语音特征不相邻的第一个关键语音特征；

第三确定模块，用于确定出与所述当前关键语音特征对应的当前语音特征集合，其中，所述当前语音特征集合为目标语音特征集合的子集合，所述目标语音特征集合包括所述第二语音特征、所述第三语音特征、以及所述第二语音特征与所述第三语音特征之间的所述第一语音特征。

12.根据权利要求9所述的装置，其特征在于，所述融合单元包括：

输入模块，用于分别将每个所述语音特征集合中的语音特征输入到所述自注意力网络中，得到所述多个融合语音特征，其中，所述自注意力网络用于对每个所述语音特征集合中的语音特征进行加权求和，得到与每个所述语音特征集合对应的融合语音特征。

13.根据权利要求9至12中任一项所述的装置，其特征在于，所述装置还包括：

组合单元，用于在所述音素集合中分别识别出与每个所述融合语音特征对应的音素之后，根据所述音素集合所属的语言类型，对与每个所述融合语音特征对应的音素进行组合，得到目标显示信息，其中，所述目标显示信息为与所述多个语音帧对应的一个或多个音节，或者，与所述多个语音帧对应的一个或多个字；

输出单元，用于将所述目标显示信息输出到显示设备进行显示。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。