CN113889087B

CN113889087B - 语音识别及模型建立方法、装置、设备和存储介质

Info

Publication number: CN113889087B
Application number: CN202111122263.6A
Authority: CN
Inventors: 梁鸣心; 付晓寅; 贾磊; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2023-04-28
Anticipated expiration: 2041-09-24
Also published as: CN113889087A

Abstract

本公开提供了一种语音识别及模型建立方法、装置、设备和存储介质，涉及计算机技术领域，具体涉及语音识别、深度学习、自然语言处理等人工智能领域。语音识别方法包括：对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；对所述上下文特征进行非自回归处理，以获得最终序列单元；基于所述最终序列单元，获得语音识别结果。本公开可以实现高并行高精度的语音识别。

Description

语音识别及模型建立方法、装置、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及语音识别、深度学习、自然语言处理等人工智能领域，尤其涉及一种语音识别及模型建立方法、装置、设备和存储介质。

背景技术

语音识别是指通过计算机把声音信号转换为对应文本的过程，作为语音交互的入口，其准确率和响应速度对系统的性能和延迟都至关重要，直接影响用户体验。

相关技术中，存在一些语音识别建模方法，然而缺乏高并行高精度的解决方案。

发明内容

本公开提供了一种语音识别及模型建立方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种语音识别方法，包括：对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；对所述上下文特征进行非自回归处理，以获得最终序列单元；基于所述最终序列单元，获得语音识别结果。

根据本公开的另一方面，提供了一种语音识别模型的建立方法，包括：对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；对所述上下文特征进行非自回归处理，以获得最终建模单元；基于所述最终建模单元，建立语音识别模型。

根据本公开的另一方面，提供了一种语音识别装置，包括：第一处理模块，用于对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；第二处理模块，用于对所述上下文特征进行非自回归处理，以获得最终序列单元；获取模块，用于基于所述最终序列单元，获得语音识别结果。

根据本公开的另一方面，提供了一种语音识别模型的建立装置，包括：第一处理模块，用于对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；第二处理模块，用于对所述上下文特征进行非自回归处理，以获得最终建模单元；建立模块，用于基于所述最终建模单元，建立语音识别模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的技术方案，可以实现高并行高精度的语音识别。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开第八实施例的示意图；

图9是用来实现本公开实施例的语音识别方法或语音识别模型的建立方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开第一实施例的示意图，本实施例提供一种语音识别方法，所述方法包括：

101、对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征。

102、对所述上下文特征进行非自回归处理，以获得最终序列单元。

103、基于所述最终序列单元，获得语音识别结果。

本实施例的执行主体可以为语音识别装置，该装置可以位于电子设备内，该电子设备可以为云端设备、本地服务端设备、客户端设备等，该装置的具体形式不限定，可以为硬件、软件，或者软硬结合。对于软件形式，可以包括网页应用(webAPP)、移动应用(APP)、系统应用(OSAPP)等。对于客户端设备，还可以称为终端设备，可以包括移动设备(如手机、平板电脑)、可穿戴式设备(如智能手表、智能手环)、智能家居设备(如智能电视、智能音箱)等。

其中，语音信号还可以称为语音、音频、音频信号等。

流式处理是相当于非流式处理来讲，在语音识别场景下，语音识别系统等待一个完整的句子后再进行识别，为非流式处理；以语音信号为用户说出的语音为例，流式处理是指用户说话时同步进行语音识别。流式处理具有延时低的优势。

初始序列单元和最终序列单元是两种不同的序列单元。一般来讲，语音识别可以采用语音识别模型执行，语音识别模型为序列(sequence)到序列模型，可以输出不同的序列。序列单元是指组成序列的基本单元。

基于语音识别模型的不同，初始序列单元和最终序列单元可以适应性调整。比如，语音识别模型为声学模型时，初始序列单元和最终序列单元可以为粒度不同的发音单元，具体如，初始序列单元为声韵母，最终序列单元为音节。又比如，语音识别模型为端到端语音识别模型，初始序列单元可以为音节、最终序列单元可以为字等。

上下文特征为用于表征语音信号的上下文信息的特征，可以基于初始序列单元获得。

非自回归处理相当于自回归处理来讲，自回归处理是指当前时刻的输出，依赖于之前的输出，序列依次产生。非自回归建模，是指不同时刻的输出之间并没有相互依赖。非自回归建模具有并行度更高的优势。

获得最终序列单元后，可以基于最终序列单元获得语音识别结果。比如，最终序列单元为字后，可以将字作为语音识别结果，最终序列单元为音节后，还可以结合语言模型获得语音识别结果，即获得音节对应的字等。

以服务端进行语音识别为例，客户端(如手机上安装的APP)接收到用户的语音信号后，客户端可以将语音信号发送给服务端(本地服务器或者云端)，由服务端对语音信号进行语音识别，获得语音识别结果，语音识别结果为语音信号对应的文本，之后，服务端还可以基于语音识别结果进行相应操作，比如，语音信号为查天气的相关内容，则服务端可以基于语音识别结果执行查询天气的操作。

服务端进行语音识别时，可以采用语音识别模型，对语音信号进行处理。语音识别模型可以为声学模型或者端到端语音识别模型。

如图2所示，语音识别模型可以为声学模型，声学模型是指将语音信号转换为发音单元，之后，还可以基于语言模型将发音单元转换为语音信号对应的文本。

其中，对应声学模型，初始序列单元和最终序列单元可以为不同粒度的发音单元，比如，初始序列单元为声韵母、最终序列单元为音节(syllable)；或者，初始序列单元为音素(phone或cd-phone)，最终序列单元为音节等；或者，初始序列单元和最终序列单元均为音素或者均为音节等。

如图3所示，语音识别模型可以为端到端语音识别模型，端到端语音识别模型是指直接将语音信号识别为对应的文本，在端到端语音识别模型中，最终序列单元为文本单元，对于中文，文本单元可以为字(word)；对于英文，文本单元可以为词(subword)。以中文为例，初始序列单元可以为发音单元，比如为音节、音素等，最终序列单元为字；或者，初始序列单元和最终序列单元可以都为字。

本实施例中，通过对语音信号进行流式处理，以获得上下文特征，可以在后续结合上下文信息进行处理，提高语音识别的精度，通过对上下文特征进行非自回归处理，由于非自回归处理具有高并行度，因此可以提高语音识别的并行度，从而可以实现高精度高并行的语音识别。

一些实施例中，所述对语音信号进行流式处理，以获得所述流式处理的输出结果，包括：将所述语音信号分帧为至少一帧的语音帧；对所述语音帧进行编码处理，以获得编码向量；对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。

本实施例中，以非自回归处理部分采用Transformer模型为例，语音识别模型可以称为并行Transformer模型(ParallelTransformerModel，PTM)，该模型可以包括流式处理部分和非自回归处理部分。

非自回归建模语音识别当前存在的主要问题是：

1)如何确定输出长度，主要影响插入删除错误；

2)如何建模序列相对顺序，主要影响替换错误；

具体地，如果输出长度不准确，比如，“今天天气很好”为6个字，若长度确定错误，比如确定为5个字或7个字等，就会存在插入删除错误。对于序列相对顺序，如果相对顺序确定不准确，可能存在“今”、“今天”这种错误，而正确的应该是“今”、“天”等字。

针对以上问题，本实施例采用如下方式：

在流式处理部分，完成先验知识构建，包含输出长度确定和上下文特征提取。在非自回归处理部分，由于会采用上下文特征，因此也可以称为整句计算部分，系统基于流式计算部分提取的上下文特征进行处理(或建模)，输出序列y¹，...，y^m-1，y^m，...，y^M，其中，m为[2，M-1]之间的正整数，M为输出序列中序列单元的总个数。

由于语音识别阶段和语音识别模型的建立阶段，均具有流式处理部分和非自回归处理部分，因此，下面的流式处理部分和非自回归处理部分适用于语音识别阶段和模型建立阶段。相应地，一些术语，比如，“处理”对应在建模阶段，可以称为“建模”，“序列单元”对应在建模阶段，可以称为“建模单元”。

流式处理时，可以将语音信号按设定窗长进行切分，流式进行编码，依次输出初始序列单元及其对应的上下文特征。

如图4所示，编码处理可以采用编码器(encoder)执行，语音帧可以用x_t-1，x_t，x_t+1...表示，其中，t为大于1的正整数，随着语音信号的不断流入，t不断增加，直至初始序列单元为终止符(<eos>)后保持不变。经过编码器的编码处理后，各个语音帧可以被编码为编码向量。

如图4所示，自回归处理时，可以采用解码器(decoder)执行，各个解码器之间采用自回归处理方式，即，当前时刻的输出依赖前一个时刻的输出。

流式处理的输出结果，即解码器的输出包括：初始序列单元及其对应的上下文特征。

其中，初始序列单元可以用S表示，上下文特征可以用C表示。

S＝{S₁，...，S_n，...S_N}，C＝{C₁，...，C_n，...C_N}。

其中，n为[2，N-1]之间的正整数，N为初始序列单元的总个数。

另外，为了确定输出长度，对于初始序列单元部分，还输出终止符，终止符可以用<eos>表示。

即，在流式处理(或称为流式计算)部分，会输出两部分，一部分为任意粒度的序列单元，比如，音素(phone、cd-phone)、音节(syllable)、字(word)等，以及终止符(<eos>)。序列单元刻画的是先验知识中上下文特征对音频建模的粒度，<eos>刻画的是句子长度。

另一部分为构建的上下文特征，即图4中序列C＝{C₁，...，C_n，...，C_N}，C由S对encoder的输出基于attention机制抽象而成，即

C^j _n＝attention(f_j(S_n-1，C_n-1)，E)其中E为encoder的输出，f表示某种映射函数，每个S_n可以抽象任意个上下文特征向量C，每个C对应唯一个S_n。

表示S_n抽取的第j个特征向量，

具体流程如图5所示，图中表示有J个Decoder block。

其中，n为[2，N-1]之间的正整数，N为初始序列单元的总个数。j为[1，J]之间的正整数，J为解码块的总个数。

通过对语音信号进行流式处理，可以确定输出序列长度以及上下文特征，序列长度可以保证后续非自回归处理时确定准确的输出序列长度，避免插入删除错误；对于上下文特征，可以为后续的非自回归处理提供更多信息，提高处理精度。

一些实施例中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始序列单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始序列单元包括：上一时刻的初始序列单元和当前时刻的初始序列单元，所述对所述编码向量进行自回归处理，以获得所述流式处理的输出结果，包括：

基于所述编码向量、所述上一时刻的初始序列单元、所述上一时刻的上下文特征，获得所述当前时刻的初始序列单元以及所述当前时刻的上下文特征。

其中，如图5所示，编码向量用E表示，上一时刻的初始序列单元用S_n-1表示，上一时刻的上下文特征用C^j _n-1表示，则可以基于E、S_n-1、C^j _n-1，获得当前时刻的初始序列单元S_n和当前时刻的上下文特征C^j _n。

通过依赖前一时刻的信息确定当前时刻的信息，可以以自回归处理的方式，提高识别准确度。

一些实施例中，所述基于所述编码向量、所述上一时刻的初始序列单元、所述上一时刻的上下文特征，获得所述当前时刻的初始序列单元以及所述当前时刻的上下文特征，包括：

对所述上一时刻的初始序列单元和所述上一时刻的上下文特征进行拼接处理，以获得拼接向量；

对所述拼接向量进行映射处理，以获得映射向量；

对所述编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；

对所述当前时刻的上下文特征进行分类处理，以获得所述当前时刻的初始序列单元。

其中，如图5所示，S_n-1和C^j _n-1可以拼接后，作为f_j的输入，拼接是指向量拼接，比如，A＝{0，1}，B＝{1，1}，则A和B拼接后的向量＝{0，1，1，1}。

f_j是用于将其输入的向量的维度转换为与编码向量E的维度一致，比如，f_j为全连接(full connection，FC)层。

注意力处理时，可以包括多个注意力层(attention_j)，图5中以包括J个注意力层为例。注意力层对E和f_j的输出进行注意力处理，以获得当前时刻的第j个上下文特征C^j _n。J个C^j _n可以组成当前时刻的上下文特征C_n。

C^j _n经过分类层可以获得当前时刻的初始序列单元S_n。分类层可以包括：全连接层和归一化层(Full&softmax)。

在建模阶段，流式计算过程的建模可以由公式P(S_n，C_n|S_1：n-1，C_1：n-1，E_1：t-1)，这个过程是自回归过程，能够比较好的建立序列内部的相对顺序。基于C与S的对应关系，将这种序列内部的相对顺序传给非自回归模型。虽然为自回归过程，但是由于该过程流式进行，延迟低。

通过对上下文特征C和初始序列单元S的上述处理，可以构建序列内部的相对顺序，避免语音识别的替换错误。

一些实施例中，所述对所述上下文特征进行非自回归处理，包括：

采用非时序依赖的深度学习模型，对所述上下文特征进行非自回归处理。

其中，非时序依赖的深度学习模型可以为Transformer模型。

通过采用非时序依赖的深度学习模型，由于非时序依赖的深度学习模型的模型结果为非时序依赖的，可以进一步提高并行度。

一些实施例中，所述初始序列单元的长度为第一长度，所述最终序列单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述对所述上下文特征进行非自回归处理，包括：

采用所述深度学习模型的第一部分，对所述第一长度的上下文特征进行非自回归处理，以获得第一长度的输出向量；

采用所述深度学习模型的长度转换层，对所述第一长度的输出向量进行长度转换处理，以获得第二长度的输出向量；

采用所述深度学习模型的第二部分，对所述第二长度的输出向量进行非自回归处理，以获得所述第二长度的最终序列单元。

所述第一部分和所述第二部分的层数相同或不同。

进一步地，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

通过采用长度转换层，可以适用于初始序列单元的长度与最终序列单元的长度不同的场景。

进一步地，通过池化层或拼接层可以将长度较长的初始序列单元转换为长度较短的最终序列单元。

具体地，非自回归处理的建模可以用公式P(y₁，...，y_m，...，y_M|C₁，...，C_n，...，C_N)表示，其中Y表示最终的建模单元，C为系统流式部分抽取出的上下文特征，M和N存在固定对应关系，即M＝F(N)，F为一个确定的函数，通常

a为[1，N]之间的正整数，当a＞1时，采用拼接(concat)或者池化(pooling)等方式压缩长度。非流式建模采用基于self-attention的模型结构(如transformer，conformer等)，完成输入到输出的映射。每层模型中没有时序依赖，每一层计算并行进行，每个token都可以与任一token进行计算，即每个token都基于完整上下文进行建模。若采用L层transformer结构进行建模，上述整句建模过程时间复杂度为O(L)，相比于自回归建模(O(L*M))显著降低。

以S采用声韵母建模，Y采用音节建模(每个音节由一个声母加韵母组成，即N/M＝2为例，非流式建模采用L层transformer，则该系统的输入输出流如下：

E_1：t＝encoder(X_1：t) (1)

(C_1：n，S_1：n)＝decoder(C_1：n-1，S_1：n-1，E_1：t) (2)

(3)中pooling为相邻两个输入的最大值，

即C`_i＝element_max(C_2i-1，C_2i)，即，C`_i选择为C_2i-1与C_2i中的最大值；

对于拼接，可以是C`_i＝contact(C_2i-1，C_2i)，即，C`_i为C_2i-1与C_2i拼接后的向量。

其中，上述的l可以任选，比如选择为L的一半。

其中，i为[1，N/2]之间的正整数，N为初始序列单元的总个数。t为大于1的正整数，随着语音信号的不断流入，t不断增加，直至初始序列单元为终止符(<eos>)后保持不变。

一些实施例中，所述基于所述最终序列单元，获得语音识别结果，包括：

若所述最终序列单元为发音单元，基于所述发音单元和语言模型，获得语音识别结果；或者，

若所述最终序列单元为文本单元，将所述文本单元作为语音识别结果。

其中，最终序列单元为发音单元，比如为音节，则可以基于音节和语言模型获得音节对应字，将字作为语音识别结果。或者，

最终序列单元为文本单元，比如字，则可以直接将字作为语音识别结果。

通过最终序列单元的不同，可以采用相应方式获得语音识别结果，从而可以实现基于声学模型和语言模型的语音识别，或者端到端语音识别。

本公开实施例中，结合了自回归处理和非自回归处理，具体地，通过流式计算和自回归处理，完成上下文特征提取和内部相对顺序的确定，这部分顺序特征一直保留到非自回归处理部分，有效的解决了非自回归处理中相对顺序建模弱的问题，相对当前非自回归模型精度大幅提升。同时非自回归模型能够利用整句信息，相对于当前流式处理系统，精度也有较大提升。

结合流式与非流式计算方式，自回归过程使用流式计算方式，计算时间上分散，延迟低。非自回归处理采用基于self-attention处理，并行度高，延迟低。整体系统延迟相对与流式系统持平，相对于当前整句系统，延迟大幅下降。

系统在精度上可以与非流式整句自回归处理相当，延迟上与流式系统相当，兼具当前流式系统与非流式系统的优点。

上述描述了基于语音识别模型的语音识别过程，下面描述语音识别模型的建立过程。

图6是根据本公开第六实施例的示意图，本实施例提供一种语音识别模型的建立方法，该方法包括：

601、对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征。

602、对所述上下文特征进行非自回归处理，以获得最终建模单元。

603、基于所述最终建模单元，建立语音识别模型。

其中，为了与模型应用阶段进行区分，训练阶段采用的语音信号可以称为语音信号样本，语音信号样本可以通过收集等方式获得。

序列单元可以称为建模单元。

其中，模型应用与模型建立的大部分过程一致，比如，均包括流式处理和非自回归处理。

在模型应用阶段，获得最终序列单元后，可以基于最终序列单元获得语音识别结果，即语音信号对应的文本。

在模型建立阶段，非自回归处理后的得到的最终建模单元可以具体为最终建模单元的预测值，在收集样本时，除了上述的语音信号样本之外，还可以采用人工标注等方式获得语音信号样本对应的标签数据，标签数据为语音信号样本对应的最终建模单元的真实值。

因此，语音信号样本经过语音识别模型处理后，输出为最终建模单元的预测值，再依据最终建模单元的预测值和预先获取的最终建模单元的真实值，可以构建损失函数，基于损失函数调整语音识别模型的参数，直至达到预设的结束条件，预设的结束条件比如为损失函数收敛或者达到预设的迭代次数；将达到预设的结束条件时的模型作为最终的模型，即用于语音识别阶段的模型。

本实施例的执行主体可以为语音识别模型的训练装置，该装置可以位于电子设备内，一般来讲，该电子设备位于服务端，即可以为云端设备，或者为本地服务器。

本实施例中，通过对语音信号样本进行流式处理，以获得上下文特征，可以在后续结合上下文信息进行处理，提高语音识别模型的精度，通过对上下文特征进行非自回归处理，由于非自回归处理具有高并行度，因此可以提高语音识别模型的并行度，从而可以实现高精度高并行的语音识别模型。

本实施例的模型建立过程，与上述实施例的模型应用过程中的流式处理和非自回归处理过程是原理一致的，因此，可以提供如下实施例。

所述对语音信号样本进行流式处理，以获得所述流式处理的输出结果，包括：

将所述语音信号样本分帧为至少一帧的语音帧；

对所述语音帧进行编码处理，以获得编码向量；

对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。

所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始建模单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始建模单元包括：上一时刻的初始建模单元和当前时刻的初始建模单元，所述对所述编码向量进行自回归处理，以获得所述流式处理的输出结果，包括：

基于所述编码向量、所述上一时刻的初始建模单元、所述上一时刻的上下文特征，获得所述当前时刻的初始建模单元以及所述当前时刻的上下文特征。

所述基于所述编码向量、所述上一时刻的初始建模单元、所述上一时刻的上下文特征，获得所述当前时刻的初始建模单元以及所述当前时刻的上下文特征，包括：

对所述上一时刻的初始建模单元和所述上一时刻的上下文特征进行拼接处理，以获得拼接向量；

对所述拼接向量进行映射处理，以获得映射向量；

对所述当前时刻的上下文特征进行分类处理，以获得所述当前时刻的初始建模单元。

所述对所述上下文特征进行非自回归处理，包括：

所述初始建模单元的长度为第一长度，所述最终建模单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述对所述上下文特征进行非自回归处理，包括：

采用所述深度学习模型的第二部分，对所述第二长度的输出向量进行非自回归处理，以获得所述第二长度的最终建模单元。

所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

若所述语音识别模型为声学模型，所述初始序列单元和所述最终序列单元均为发音单元；或者，

若所述语音识别模型为端到端语音识别模型，所述初始序列单元和所述最终序列单元均为文本单元，或者，所述初始序列单元为发音单元，所述最终序列单元为文本单元。

相关内容可以参见上述实施例，在此不再详述。

本公开实施例中，结合了自回归建模和非自回归建模，具体地，通过流式计算和自回归建模，完成上下文特征提取和内部相对顺序的建模，这部分顺序特征一直保留到非自回归建模部分，有效的解决了非自回归建模中相对顺序建模弱的问题，相对当前非自回归模型精度大幅提升。同时非自回归模型能够利用整句信息，相对于当前流式建模系统，精度也有较大提升。

结合流式与非流式计算方式，自回归过程使用流式计算方式，计算时间上分散，延迟低。非自回归建模采用基于self-attention建模，并行度高，延迟低。整体系统延迟相对与流式系统持平，相对于当前整句系统，延迟大幅下降。

系统在精度上可以与非流式整句自回归建模相当，延迟上与流式系统相当，兼具当前流式系统与非流式系统的优点。

图7是根据本公开第七实施例的示意图，本实施例提供一种语音识别装置。如图7所示，该装置700包括：第一处理模块701、第二处理模块702和获取模块703。

第一处理模块701用于对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；第二处理模块702用于对所述上下文特征进行非自回归处理，以获得最终序列单元；获取模块703用于基于所述最终序列单元，获得语音识别结果。

一些实施例中，所述第一处理模块701包括：

分帧单元，用于将所述语音信号分帧为至少一帧的语音帧；

编码单元，用于对所述语音帧进行编码处理，以获得编码向量；

解码单元，用于对所述编码向量进行自回归处理，以获得所述流式处理的输出结果。

一些实施例中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始序列单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始序列单元包括：上一时刻的初始序列单元和当前时刻的初始序列单元，所述解码单元具体用于：

一些实施例中，所述解码单元进一步具体用于：

对所述拼接向量进行映射处理，以获得映射向量；

一些实施例中，所述第二处理模块702具体用于：

所述初始序列单元的长度为第一长度，所述最终序列单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述第二处理模块具体用于：

一些实施例中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

一些实施例中，所述获取模块703具体用于：

本公开实施例中，通过对语音信号进行流式处理，以获得上下文特征，可以在后续结合上下文信息进行处理，提高语音识别的精度，通过对上下文特征进行非自回归处理，由于非自回归处理具有高并行度，因此可以提高语音识别的并行度，从而可以实现高精度高并行的语音识别。

图8是根据本公开第八实施例的示意图，本实施例提供一种语音识别模型的建立装置，所述装置800包括：第一处理模块801、第二处理模块802和建立模块803。

第一处理模块801用于对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；第二处理模块802用于对所述上下文特征进行非自回归处理，以获得最终建模单元；建立模块803用于基于所述最终建模单元，建立语音识别模型。

一些实施例中，所述第一处理模块包括：

分帧单元，用于将所述语音信号样本分帧为至少一帧的语音帧；

一些实施例中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始建模单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始建模单元包括：上一时刻的初始建模单元和当前时刻的初始建模单元，所述解码单元具体用于：

一些实施例中，所述解码单元进一步具体用于：

对所述拼接向量进行映射处理，以获得映射向量；

一些实施例中，所述第二处理模块802具体用于：

所述初始建模单元的长度为第一长度，所述最终建模单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述第二处理模块具体用于：

本公开实施例中，通过对语音信号样本进行流式处理，以获得上下文特征，可以在后续结合上下文信息进行处理，提高语音识别模型的精度，通过对上下文特征进行非自回归处理，由于非自回归处理具有高并行度，因此可以提高语音识别模型的并行度，从而可以实现高精度高并行的语音识别模型。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元909加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM903中，还可存储电子设备900操作所需的各种程序和数据。计算单元901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如语音识别方法或语音识别模型的建立方法。例如，在一些实施例中，语音识别方法或语音识别模型的建立方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到电子设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的语音识别方法或语音识别模型的建立方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音识别方法或语音识别模型的建立方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音识别方法，包括：

对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；

对所述上下文特征进行非自回归处理，以获得最终序列单元；

基于所述最终序列单元，获得语音识别结果；

其中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始序列单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始序列单元包括：上一时刻的初始序列单元和当前时刻的初始序列单元；

所述对语音信号进行流式处理，以获得所述流式处理的输出结果，包括：

对所述拼接向量进行映射处理，以获得映射向量；

对所述语音信号对应的编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；

2.根据权利要求1所述的方法，其中，所述对语音信号进行流式处理，以获得所述流式处理的输出结果，还包括：

将所述语音信号分帧为至少一帧的语音帧；

对所述语音帧进行编码处理，以获得所述编码向量。

3.根据权利要求1所述的方法，其中，所述对所述上下文特征进行非自回归处理，包括：

4.根据权利要求1所述的方法，其中，所述初始序列单元的长度为第一长度，所述最终序列单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述对所述上下文特征进行非自回归处理，包括：

5.根据权利要求4所述的方法，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

6.根据权利要求1-5任一项所述的方法，其中，所述基于所述最终序列单元，获得语音识别结果，包括：

7.一种语音识别模型的建立方法，包括：

对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；

对所述上下文特征进行非自回归处理，以获得最终建模单元；

基于所述最终建模单元，建立语音识别模型；

其中，所述上下文特征包括至少一个时刻的上下文特征，所述输出结果还包括：至少一个时刻的初始建模单元，所述至少一个时刻的上下文特征包括：上一时刻的上下文特征和当前时刻的上下文特征、所述至少一个时刻的初始建模单元包括：上一时刻的初始建模单元和当前时刻的初始建模单元；

对所述拼接向量进行映射处理，以获得映射向量；

对所述语音信号样本对应的编码向量和所述映射向量进行注意力处理，以获得所述当前时刻的上下文特征；

8.根据权利要求7所述的方法，其中，所述对语音信号样本进行流式处理，以获得所述流式处理的输出结果，还包括：

将所述语音信号样本分帧为至少一帧的语音帧；

对所述语音帧进行编码处理，以获得所述编码向量。

9.根据权利要求7所述的方法，其中，所述对所述上下文特征进行非自回归处理，包括：

10.根据权利要求7所述的方法，其中，所述初始建模单元的长度为第一长度，所述最终建模单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述对所述上下文特征进行非自回归处理，包括：

11.根据权利要求10所述的方法，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

12.根据权利要求7-11任一项所述的方法，其中，

13.一种语音识别装置，包括：

第一处理模块，用于对语音信号进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号的初始序列单元对应的上下文特征；

第二处理模块，用于对所述上下文特征进行非自回归处理，以获得最终序列单元；

获取模块，用于基于所述最终序列单元，获得语音识别结果；

所述第一处理模块包括解码单元，所述解码单元用于：

对所述拼接向量进行映射处理，以获得映射向量；

14.根据权利要求13所述的装置，其中，所述第一处理模块还包括：

分帧单元，用于将所述语音信号分帧为至少一帧的语音帧；

编码单元，用于对所述语音帧进行编码处理，以获得所述编码向量。

15.根据权利要求13所述的装置，其中，所述第二处理模块具体用于：

16.根据权利要求13所述的装置，其中，所述初始序列单元的长度为第一长度，所述最终序列单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述第二处理模块具体用于：

17.根据权利要求16所述的装置，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

18.根据权利要求13-17任一项所述的装置，其中，所述获取模块具体用于：

19.一种语音识别模型的建立装置，包括：

第一处理模块，用于对语音信号样本进行流式处理，以获得所述流式处理的输出结果，所述输出结果包括：所述语音信号样本的初始建模单元对应的上下文特征；

第二处理模块，用于对所述上下文特征进行非自回归处理，以获得最终建模单元；

建立模块，用于基于所述最终建模单元，建立语音识别模型；

所述第一处理模块包括解码单元，所述解码单元用于：

对所述拼接向量进行映射处理，以获得映射向量；

20.根据权利要求19所述的装置，其中，所述第一处理模块还包括：

编码单元，用于对所述语音帧进行编码处理，以获得编码向量。

21.根据权利要求19所述的装置，其中，所述第二处理模块具体用于：

22.根据权利要求19所述的装置，其中，所述初始建模单元的长度为第一长度，所述最终建模单元的长度为第二长度，所述第一长度与所述第二长度不同，所述上下文特征的长度为所述第一长度，所述非自回归处理采用深度学习模型进行处理，所述第二处理模块具体用于：

23.根据权利要求22所述的装置，其中，所述第一长度大于所述第二长度，所述长度转换层包括：池化层，或者，拼接层。

24.根据权利要求19-23任一项所述的装置，其中，

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。