CN110782882B

CN110782882B - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN110782882B
Application number: CN201911066268.4A
Authority: CN
Inventors: 吴思远; 潘嘉; 刘聪; 胡国平; 胡郁
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2022-05-17
Anticipated expiration: 2039-11-04
Also published as: CN110782882A

Abstract

本发明实施例提供一种语音识别方法、装置、电子设备和存储介质，其中方法包括：实时获取待识别的语音数据流；将语音数据流输入至层次式语音识别模型中，得到层次式语音识别模型实时输出的流式识别结果，以及层次式语音识别模型在语音数据流结束时输出的最终识别结果；其中，层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。本发明实施例提供的方法、装置、电子设备和存储介质，通过层次式语音识别模型实现了流式识别结果的产生和最终识别结果的输出，仅需一个模型即可在满足交互过程中及时响应的需求的同时，保证最终输出的语音识别结果的准确性，有效节约了云端资源，降低了语音识别成本。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的不断突破，用户对于交互过程中语音识别的及时响应提出了更高的要求，流式语音识别应运而生。

流式语音识别是指对音频进行流式识别，识别完成即返回语音对应的文本，简单来说就是在用户语音输入的过程中也有识别结果的展示。目前主流的技术就是用两个模型来分别实现流式识别结果的产生和最终识别结果的输出。为了实现用户请求的快速响应，必须将这两个模型都放在云端的GPU服务器上进行计算，成本极其高昂。

发明内容

本发明实施例提供一种语音识别方法、装置、电子设备和存储介质，用以解决现有的语音识别需要两个模型分别实现流式识别结果和最终识别结果的输出，导致成本高昂的问题。

第一方面，本发明实施例提供一种语音识别方法，包括：

实时获取待识别的语音数据流；

将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。

优选地，所述层次式语音识别模型包括层次式识别层、流式结果输出层和最终结果输出层；

对应地，所述将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果，具体包括：

将所述语音数据流输入至所述层次式识别层，得到所述层次式识别层输出的流式状态后验概率，以及词序列；

将所述流式状态后验概率输入至所述流式结果输出层，得到所述流式结果输出层输出的所述流式识别结果；

将所述词序列输入至所述最终结果输出层，得到所述最终结果输出层在判断获知所述语音数据流结束时输出的所述最终识别结果。

优选地，所述层次式识别层包括编码层、浅层特征输出层和深层结果输出层；

对应地，所述将所述语音数据流输入至层次式识别层中，得到所述层次式识别层输出的流式状态后验概率，以及词序列，具体包括：

将所述语音数据流中当前时刻相对应的多个连续的语音帧的声学特征输入至所述编码层，得到所述编码层输出的每一语音帧的隐层向量；

将所述每一语音帧的隐层向量输入至所述浅层特征输出层，得到所述浅层特征输出层输出的当前时刻的状态后验概率；

将所述每一语音帧的隐层向量输入至所述深层结果输出层，得到所述深层结果输出层输出的当前时刻的输出词结果。

优选地，所述深层结果输出层包括注意力层、解码层和结果输出层；

对应地，所述将所述每一语音帧的隐层向量输入至所述深层结果输出层，得到所述深层结果输出层输出的当前时刻的输出词结果，具体包括：

将所述每一语音帧的隐层向量与上一时刻的分词特征向量输入至所述注意力层，得到所述注意力层输出的每一语音帧的重要度权重；

将所述每一语音帧的隐层向量和重要度权重输入至所述解码层，得到所述解码层输出的当前时刻的分词特征向量；

将所述当前时刻的分词特征向量输入至所述结果输出层，得到所述结果输出层输出的当前时刻的输出词结果。

优选地，所述将所述每一语音帧的隐层向量输入至所述注意力层，得到所述注意力层输出的每一语音帧的重要度权重，具体包括：

基于任一语音帧的隐层向量与上一时刻的分词特征向量，确定所述任一语音帧的注意力值；

基于每一语音帧的注意力值，确定每一语音帧的重要度权重。

优选地，所述词序列中任一时刻的输出词结果包括多个候选输出词；

对应地，所述将所述词序列输入至所述最终结果输出层，得到所述最终结果输出层在判断获知所述语音数据流结束时输出的所述最终识别结果，之前还包括：

确定所述词序列中当前时刻的输出词结果中，包含语音结束符号的候选输出词占比；

确定当前时刻的语音端点检测模型基于所述语音数据流输出的端点检测结果；

基于所述包含语音结束符号的候选输出词占比，以及所述端点检测结果，判断所述语音数据流是否结束。

优选地，所述基于所述包含语音结束符号的候选输出词占比，以及所述端点检测结果，判断所述语音数据流是否结束，具体包括：

若所述包含语音结束符号的候选输出词占比大于预设占比阈值，且所述端点检测结果为音频结束，则确定所述语音数据流结束；

否则，确定所述语音数据流未结束。

优选地，所述将所述流式状态后验概率输入至所述流式结果输出层，得到所述流式结果输出层输出的所述流式识别结果，之后还包括：

将所述流式识别结果同步至所述词序列。

优选地，所述流式识别结果包括多个候选流式识别结果，每一候选流式识别结果对应一个浅层解码分数；

对应地，所述将所述流式识别结果同步至所述词序列，具体包括：

基于每一候选流式识别结果在所述流式识别结果中的排序以及浅层解码分数，确定每一候选流式识别结果的同步解码分数；

将每一候选流式识别结果及其同步解码分数同步至所述词序列。第二方面，本发明实施例提供一种语音识别装置，包括：

语音获取单元，用于实时获取待识别的语音数据流；

语音识别单元，用于将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。

对应地，所述语音识别单元包括：

层次识别子单元，用于将所述语音数据流输入至所述层次式识别层，得到所述层次式识别层输出的流式状态后验概率，以及词序列；

流式识别子单元，用于将所述流式状态后验概率输入至所述流式结果输出层，得到所述流式结果输出层输出的所述流式识别结果；

最终识别子单元，用于将所述词序列输入至所述最终结果输出层，得到所述最终结果输出层在判断获知所述语音数据流结束时输出的所述最终识别结果。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种语音识别方法、装置、电子设备和存储介质，通过层次式语音识别模型实现了流式识别结果的产生和最终识别结果的输出，仅需一个模型即可在满足交互过程中及时响应的需求的同时，保证最终输出的语音识别结果的准确性，有效节约了云端资源，降低了语音识别成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别方法的流程示意图；

图2为本发明实施例提供的层次式语音识别模型的运行方法的流程示意图；

图3为本发明实施例提供的层次式识别层的运行方法的流程示意图；

图4为本发明实施例提供的深层结果输出层的运行方法的流程示意图；

图5为本发明实施例提供的语音数据流结束判断方法的流程示意图；

图6为本发明实施例提供的语音端点检测的示意图；

图7为本发明实施例提供的层次式识别层的结构示意图；

图8为本发明实施例提供的语音识别装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人工智能的持续火热，语音识别技术也进入到千家万户。从简单的语音输入法，再到会议的实时转写系统，乃至智能机器人，都是建立在语音识别的基础之上。当前，各种智能设备都具备显示功能，用户在交互时希望能够得到语音识别的及时响应，即说完一个字就希望该字能够显示在屏幕上，因此流式识别应运而生。

语音识别的用户不仅要求输入的语音能够正确转换为相应的文字，同时也要求在语音输入的过程中也有识别结果的展示。目前主流的技术就是用两个模型来分别实现流式识别结果的产生和最终识别结果的产生，两个模型独立构建且没有任何交集。现在的模型都是部署在云端服务器上，为了针对用户请求进行快速响应，必须将这两个模型都放在GPU上进行计算。而GPU本身成本极高，显存越大，价格越贵。当在云端部署成千上万台服务器时，GPU增加的费用将变得难以接受。

图1为本发明实施例提供的语音识别方法的流程示意图，如图1所示，该方法包括：

步骤110，实时获取待识别的语音数据流。

具体地，可以通过收音设备例如麦克风实时采集语音数据，此处收音设备可以装设在手机、电脑、平板电脑等具备电子显示设备上，语音数据的采集频率可以是预先设定的，例如每秒40词。基于语音数据采集的时间顺序可以将语音数据编码形成语音数据流，语音数据流中包含有每一时刻的语音数据，

步骤120，将语音数据流输入至层次式语音识别模型中，得到层次式语音识别模型实时输出的流式识别结果，以及层次式语音识别模型在语音数据流结束时输出的最终识别结果；其中，层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。

具体地，层次式语音识别模型用于对输入的语音数据流进行实时分析，以支持流式识别结果和最终识别结果的输出。此处，流式识别结果是基于语音数据流中当前输入的语音数据，不断进行解码后实时输出的识别结果，能够用于快速上屏，以满足用户在交互过程中针对语音识别提出的及时响应的要求。最终识别结果是基于语音结束前输入的语音数据流整体，结合上下文信息进行语音识别得到的识别结果，能够保证语音识别的准确性。

在执行步骤120之前，还可以预先训练得到层次式语音识别模型，具体可以通过如下方式训练得到层次式语音识别模型：首先，收集大量样本语音数据流，并标注样本语音数据流对应的样本流式识别结果和样本最终识别结果。随即，基于样本语音数据流，以及样本语音数据流对应的流式识别结果和样本最终识别结果对初始模型进行训练，从而得到层次式语音识别模型。此处，初始模型可以是基于Encoder-Decoder(编码-解码)框架构建的。

本发明实施例提供的方法，通过层次式语音识别模型实现了流式识别结果的产生和最终识别结果的输出，仅需一个模型即可在满足交互过程中及时响应的需求的同时，保证最终输出的语音识别结果的准确性，有效节约了云端资源，降低了语音识别成本。

基于上述任一实施例，图2为本发明实施例提供的层次式语音识别模型的运行方法的流程示意图，如图2所示，层次式语音识别模型包括层次式识别层、流式结果输出层和最终结果输出层；对应地，步骤120具体包括：

步骤121，将语音数据流输入至层次式识别层，得到层次式识别层输出的流式状态后验概率，以及词序列。

具体地，流式状态后验概率对应于语音数据流，用于表征语音数据流中每一时刻的语音数据对应于每一个状态的后验概率。流式状态后验概率可作为后续流式识别所需的声学特征，以便于流式识别结果的确定。词序列对应于语音数据流，用于表征语音数据流中每一时刻的语音数据对应的分词。

层次式识别层用于对输入的语音数据流进行实时分析，得到语音数据流对应的流式状态后验概率以及词序列并输出，以同时支持流式识别结果和最终识别结果的产生。进一步地，层次式识别层用于基于语音数据流中当前时刻的语音数据，确定当前时刻的语音数据对应于每一个状态的后验概率，以及当前时刻的语音数据对应的分词。此处，层次式识别层输出的当前时刻的语音数据对应于每一个状态的后验概率，与当前时刻之前的语音数据对应于每一状态的后验概率形成流式状态后验概率；层次式识别层输出的当前时刻的语音数据对应的分词，与当前时刻之前的语音数据对应的分词形成词序列。

步骤122，将流式状态后验概率输入至流式结果输出层，得到流式结果输出层输出的流式识别结果。

具体地，流式结果输出层中，流式状态后验概率可以作为流式语音识别的声学特征，结合预先构建的例如WFST(Weighted Finite State Transducer，加权有限状态转换机)解码模型实现流式识别解码，得到流式识别结果。此处，流式识别结果即对流式状态后验概率进行识别解码得到的语音数据流的实时识别结果。

步骤123，将词序列输入至最终结果输出层，得到最终结果输出层在判断获知语音数据流结束时输出的最终识别结果。

具体地，语音数据流的结束的判断可以通过语音端点检测(Voice ActivityDetection，VAD)模型实现。语音端点检测模型通常为简单的能量模型或者神经网络模型，能够快速检测语音的起始点和结束点。最终结果输出层中，若判断获知语音数据流结束，则可以基于层次式识别层输出的词序列，确定最终识别结果。此处，最终识别结果即在语音数据流结束后针对语音数据流整体进行语音识别得到的识别结果。

本发明实施例提供的方法，通过层次式识别层输出流式状态后验概率以及词序列，进而得到流式识别结果和最终识别结果，能够有效节约云端资源，降低语音识别成本。

基于上述实施例，图3为本发明实施例提供的层次式识别层的运行方法的流程示意图，如图3所示，层次式识别层包括编码层、浅层特征输出层和深层结果输出层；对应地，步骤121包括：

步骤1211，将语音数据流中当前时刻相对应的多个连续的语音帧的声学特征输入至编码层，得到编码层输出的每一语音帧的隐层向量。

具体地，语音数据流中，针对任一时刻对应有多个语音帧，此处的多个语音帧可以是该时刻的语音帧以及该时刻之前和/或该时刻之后相邻的语音帧。例如，针对时刻t，时刻i的语音帧为语音帧t，时刻t相对应的语音帧为语音帧t，以及语音帧t之前的语音帧t-3、t-2、t-1，和语音帧t后的语音帧t+1、t+2、t+3。

语音帧的声学特征为语音帧的频谱特征，例如梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)特征、感知线性预测(Perceptual Linear Predictive，PLP)特征或FilterBank特征等，本发明实施例对此不作具体限定。

编码层用于对当前时刻相对应的多个语音帧的声学特征进行编码，并输出上述多个语音帧分别对应的隐层向量。此处，任一语音帧的隐层向量中结合了语音帧的上下文表示。

作为优选，编码层可以是长短时记忆网络LSTM，任一语音帧的隐层向量为h_t＝LSTM(w_t,h_t-1)，其中h_t和w_t分别为时刻t的语音帧的隐层向量和声学特征，h_t-1为时刻t-1的语音帧的隐层向量。

步骤1212，将每一语音帧的隐层向量输入至浅层特征输出层，得到浅层特征输出层输出的当前时刻的状态后验概率。

具体地，浅层特征输出层用于基于输入的当前时刻相对应的每一语音帧的隐层向量，分析当前时刻的语音帧相对于每一状态的后验概率，并输出当前时刻的状态后验概率。此处，状态后验概率包含每一状态的后验概率，后验概率的值在0-1之间。作为优选，浅层特征输出层可以包括两层DNN(Deep Neural Networks，深度神经网络)和一个SoftMax输出层。

步骤1213，将每一语音帧的隐层向量输入至深层结果输出层，得到深层结果输出层输出的当前时刻的输出词结果。

具体地，深层结果输出层用于基于输入的当前时刻相对应的每一语音帧的隐层向量，预测当前时刻的语音帧可能对应的分词，并输出当前时刻的输出词结果。此处，输出词结果可以包括具体的分词，也可以包含当前时刻的语音帧对于各个分词的概率，本发明实施例对此不做具体限定。

本发明实施例提供的方法，浅层特征输出层和深层结果输出层共用编码层输出的隐层向量，有效节约了语音识别的计算成本。

基于上述任一实施例，图4为本发明实施例提供的深层结果输出层的运行方法的流程示意图，如图4所示，深层结果输出层包括注意力层、解码层和结果输出层；对应地，步骤1213具体包括：

步骤1213-1，将每一语音帧的隐层向量与上一时刻的分词特征向量输入至注意力层，得到注意力层输出的每一语音帧的重要度权重。

此处，每一语音帧是指当前时刻对应的每一语音帧，上一时刻的分词特征向量是上一时刻解码层的输出。注意力层用于对当前时刻的每一语音帧的隐层向量和上一时刻的分词特征向量进行注意力计算，基于注意力计算结果确定当前时刻相对应的每一语音帧的重要度权重。此处，重要度权重用于衡量是否在对应语音帧输出识别结果，即输出词。

步骤1213-2，将每一语音帧的隐层向量和重要度权重输入至解码层，得到解码层输出的当前时刻的分词特征向量。

具体地，解码层可以基于每一语音帧的重要度权重，对每一语音帧的隐层向量进行加权求和，并将加权求和结果作为当前时刻的分词特征向量。此处，分词特征向量即当前时刻的输出词的特征向量表示。

当前时刻的分词特征向量

α_p和h_p分别为当前时刻相对应的第p个语音帧的重要度权重和隐层向量，P为当前时刻相对应的语音帧的数量。此处的加权方式，联合上下文，对于连续语音帧中包含的语言模型信息进行加权，使得模型具有更好的区分性。

步骤1213-3，将当前时刻的分词特征向量输入至结果输出层，得到结果输出层输出的当前时刻的输出词结果。

具体地，结果输出层用于基于当前时刻的分词特征向量，对当前时刻的输出词进行预测，并输出当前时刻的输出词结果。此处，结果输出层可以通过SoftMax函数实现，例如O＝softmax(W×S_i+B)，其中O为当前时刻的输出词结果，W和B为模型参数，S_i为当前时刻的分词特征向量。

基于上述任一实施例，该方法中，步骤1213-1具体包括：基于任一语音帧的隐层向量与上一时刻的分词特征向量，确定该语音帧的注意力值；基于每一语音帧的注意力值，确定每一语音帧的重要度权重。

具体地，针对当前时刻相对应的每一语音帧，每一语音帧的注意力值的计算方法包括：

e_i＝tanh(W_hh_i+W_ss_i-1+b)

式中，e_i表示当前时刻i相对应的每一语音帧的注意力值，h_i为当前时刻相对应的每一语音帧的隐层向量构成的编码器特征，s_i-1为上一时刻的分词特征向量，W_h、W_s和b均为模型参数。

基于如下公式，计算当前时刻相对应的每一语音帧的重要度权重

现有的语音识别过程中，通常采用语音端点检测VAD模型判断语音数据流是否结束。在大多数情况下，VAD模型都能较好地工作，但是对于用户有停顿时，VAD模型可能出现错误截断，从而导致语音识别准确度的下降。比如用户在导航时，在说“我想去万象城”，这时可能在“我想去”和“万象城”之间思考停顿了一下。如果仅应用VAD模型进行检测，用户的语音会被切分成两个句子，可能导致识别错误。

基于上述任一实施例，图5为本发明实施例提供的语音数据流结束判断方法的流程示意图，如图5所示，步骤121与步骤123之间还包括：

步骤101，确定词序列中当前时刻的输出词结果中，包含语音结束符号的候选输出词占比。

具体地，词序列中任一时刻的输出词结果包括多个候选输出词。候选输出词中可以包含语音结束符号</s>，语音结束符号表征语音数据流在对应时刻结束。针对当前时刻，确定当时时刻的输出词结果中，包含语音结束符号的候选输出词的数量与候选输出词的总数量的比值，即包含语音结束符号的候选输出词占比。

例如，针对语音数据流“我想去万象城”，“我想去”对应的输出词结果和“我想去万象城”对应的输出词结果如下表所示：

“我想去”对应的输出词结果中，10个候选输出词中有3个标记了语音结束符号，包含语音结束符号的候选输出词占比为30％，“我想去万象城”对应的输出词结果中，10个候选输出词中有7个标记了语音结束符号，包含语音结束符号的候选输出词占比为70％。

步骤102，确定当前时刻的语音端点检测模型基于语音数据流输出的端点检测结果。

图6为本发明实施例提供的语音端点检测的示意图，如图6所示，端点检测中，0表示非静音帧，1表示静音帧，图6中，语音数据流的前后以及“我想去”和“万象城”之间都为静音帧，且静音帧持续时间都较长，超过设置的门限(一般为500ms)，因此语音端点检测模型会将语音数据流切分为“我想去”和“万象城”两个句子。

步骤103，基于包含语音结束符号的候选输出词占比，以及端点检测结果，判断语音数据流是否结束。

具体地，在判断当前时刻语音数据流是否结束时，不仅依赖于语音端点检测模型输出的端点检测结果，还需要参考层次式识别层输出的当前时刻的输出词结果中，包含语音结束符号的候选输出词占比，从而避免语音端点检测模型错误截断，导致语音识别准确度的下降的问题，提高语音识别的准确性。

基于上述任一实施例，该方法中，步骤103具体包括：若包含语音结束符号的候选输出词占比大于预设占比阈值，且端点检测结果为音频结束，则确定语音数据流结束；否则，确定语音数据流未结束。

具体地，预设占比阈值为预先设定的语音数据流结束时，包含语音结束符号的候选输出词占比的最小值。假设预设占比阈值为50％，“我想去”对应的包含语音结束符号的候选输出词占比为30％，小于50％，端点检测结果为音频结束，故确定此时语音数据流未结束。“我想去万象城”对应的包含语音结束符号的候选输出词占比为70％，大于50％，且端点检测结果为音频结束，故确定此时语音数据流结束。

Encoder-Decoder模型作为新的语音识别模型，其优异的表现引得很多语音识别系统的青睐。其本身为端到端的模型，所以需要增大建模单元的尺度，往往很多系统采用的是单字建模。单字建模就会带来数据稀疏的问题，专有名词在训练集中出现的较少，所以会导致专有名词识别较差。为了解决层次式识别层端对端输出词序列时存在的稀疏词问题，基于上述任一实施例，该方法中，步骤122和步骤123之间还包括：将流式识别结果同步至词序列。

具体地，层次式识别层中，浅层输出和深层输出共享参数，因此浅层特征输出层输出的流式状态后验概率和深层结果输出层输出的词序列是同步的，解码进度也是同步的，因此在基于流式状态后验概率确定流式识别结果的同时，还可以将流式识别结果同步至词序列，并去重，基于同步后的词序列确定最终识别结果。

例如，用户输入的语音数据流为“我想看琅琊榜第三集”，其中“琅琊榜”是一个比较新的影视剧名称，通过对层次式识别层输出的流式状态后验概率进行解码可以得到流式识别结果“我想看琅琊榜”，在层次式识别层的深层结果输出层解码至“我想看狼牙棒”时，通过将流式识别结果“我想看琅琊榜”同步至深层结果输出层输出的词序列，并去重，即可将“我想看琅琊榜”加入至深层结果输出层输出的词序列。

基于上述任一实施例，该方法中，流式识别结果包括多个候选流式识别结果，每一候选流式识别结果对应一个浅层解码分数；对应地，所述将流式识别结果同步至词序列，具体包括：基于每一候选流式识别结果在流式识别结果中的排序以及浅层解码分数，确定每一候选流式识别结果的同步解码分数；将每一候选流式识别结果及其同步解码分数同步至词序列。

具体地，通过对流式状态后验概率进行解码得到的是NBest类型的流式识别结果，即流式识别结果中包括多个候选流式识别结果，每一候选流式识别结果对应一个浅层解码分数，且流式识别结果中的每一候选流式识别结果按照对应的浅层解码分数的高低顺序排列。同样地，端对端解码得到的是NBest类型的词序列，包括多组候选词序列，每组候选词序列对应一个深层解码分数。

在同步过程中，浅层解码分数和深层解码分数不可比，因此，需要确定候选流式识别结果的同步解码分数，也就是将候选流式识别结果同步到词序列时，候选流式结果对应的解码分数。本发明实施例中，同步解码分数是基于候选流式识别结果在流式识别结果中的排序和浅层解码分数确定的，例如在流式识别结果中排第一的候选流式识别结果，其同步解码分数是在其浅层解码分数上额外加1分，排第二的候选流式识别结果，其同步解码分数是在其浅层解码分数上额外加0.9分，后面的以此类推，得到各个候选流式识别结果的同步解码分数，并进行同步和去重，以便于更容易通过同步后的词序列解码得到正确的最终语音识别结果。

基于上述任一实施例，该方法中，在将流式识别结果同步至词序列之后，同步后的词序列中，包括多组候选词序列，每组候选词序列对应一个深层解码分数，还包括多个候选流式识别结果，每一候选流式识别结果对应一个同步解码分数。将每一候选流式识别结果作为一组候选词序列，将同步解码分数作为对应的深层解码分数，按照解码分数从高到低的顺序对每一候选词序列进行排序，并根据排序结果确定最终识别结果。

例如，将排序第一的候选词序列作为最终识别结果，又例如将排序前三位的候选词序列均作为最终识别结果，按照顺序推送给用户。

基于上述任一实施例，层次式语音识别模型的构建方法包括如下步骤：

首先，收集大量真实的语音数据作为样本语音数据流。

此处的语音数据包含语音的音频数据流和语音的文字标注，可以通过网络收集得到。通过网络的收集的音频数据流，可以通过音频数据流所在的页面相关信息的得到对应的文字标注；如果是用户真实使用的音频数据流，可以在收集到音频后，通过人工标注得到相应的文字标注，进而形成一一对应的关系，作为训练集。

然后，确定层次式语音识别模型的拓扑结构。层次式语音识别模型包括层次式识别层、流式结果输出层和最终结果输出层，其中图7为本发明实施例提供的层次式识别层的结构示意图，如图7所示，层次式识别层包括声学特征输入层、编码层、浅层特征输出层、注意力层、解码层和结果输出层。其中，声学特征输入层用于输入语音数据流中每一语音帧的声学特征。编码层用于对当前时刻相对应的多个连续的语音帧的声学特征进行编码，并输出每一语音帧的隐层向量。浅层特征输出层用于基于当前时刻相对应的每一语音帧的隐层向量，分析当前时刻的语音帧相对于每一状态的后验概率，并输出当前时刻的状态后验概率。注意力层用于对当前时刻的每一语音帧的隐层向量和上一时刻的分词特征向量进行注意力计算，并输出当前时刻相对应的每一语音帧的重要度权重。解码层用于基于每一语音帧的重要度权重，对每一语音帧的隐层向量进行加权求和，并输出当前时刻的分词特征向量。结果输出层用于基于当前时刻的分词特征向量，对当前时刻的输出词进行预测，并输出当前时刻的输出词结果。

接着，基于样本语音数据流，并标注样本语音数据流对应的样本状态后验概率以及样本词序列对上述层次式识别层的参数进行训练。具体训练时，使用cross entropyloss作为损失函数，通过反向梯度传播对模型参数进行更新。

损失函数如下式所示：

式中，∑_statep(state)*logq(state)为流式状态后验概率的损失，∑_wordp(word)*logq(word)为词序列的损失。其中，p(state)和q(word)分别为流式状态后验概率的真实分布和非真实分布，p(word)和q(word)分别为词序列的真实分布和非真实分布。

基于上述任一实施例，图8为本发明实施例提供的语音识别装置的结构示意图，如图8所示，该装置包括语音获取单元810和语音识别单元820；

其中，语音获取单元810用于实时获取待识别的语音数据流；

语音识别单元820用于将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。

本发明实施例提供的装置，通过层次式语音识别模型实现了流式识别结果的产生和最终识别结果的输出，仅需一个模型即可在满足交互过程中及时响应的需求的同时，保证最终输出的语音识别结果的准确性，有效节约了云端资源，降低了语音识别成本。

基于上述任一实施例，该装置中，所述层次式语音识别模型包括层次式识别层、流式结果输出层和最终结果输出层；

对应地，所述语音识别单元820包括：

基于上述任一实施例，该装置中，所述层次式识别层包括编码层、浅层特征输出层和深层结果输出层；

对应地，所述层次识别子单元具体包括：

编码子单元，用于将所述语音数据流中当前时刻相对应的多个连续的语音帧的声学特征输入至所述编码层，得到所述编码层输出的每一语音帧的隐层向量；

浅层输出子单元，用于将所述每一语音帧的隐层向量输入至所述浅层特征输出层，得到所述浅层特征输出层输出的当前时刻的状态后验概率；

深层输出子单元，用于将所述每一语音帧的隐层向量输入至所述深层结果输出层，得到所述深层结果输出层输出的当前时刻的输出词结果。

基于上述任一实施例，所述深层结果输出层包括注意力层、解码层和结果输出层；

对应地，所述深层输出子单元具体包括：

注意力模块，用于将所述每一语音帧的隐层向量与上一时刻的分词特征向量输入至所述注意力层，得到所述注意力层输出的每一语音帧的重要度权重；

解码模块，用于将所述每一语音帧的隐层向量和重要度权重输入至所述解码层，得到所述解码层输出的当前时刻的分词特征向量；

结果输出模块，用于将所述当前时刻的分词特征向量输入至所述结果输出层，得到所述结果输出层输出的当前时刻的输出词结果。

基于上述任一实施例，注意力模块具体用于：

基于上述任一实施例，所述词序列中任一时刻的输出词结果包括多个候选输出词；

对应地，语音识别单元820还包括：

占比确定子单元，用于确定所述词序列中当前时刻的输出词结果中，包含语音结束符号的候选输出词占比；

端点检测子单元，用于确定当前时刻的语音端点检测模型基于所述语音数据流输出的端点检测结果；

语音流结束判断子单元，用于基于所述包含语音结束符号的候选输出词占比，以及所述端点检测结果，判断所述语音数据流是否结束。

基于上述任一实施例，所述语音流结束判断子单元具体用于：

否则，确定所述语音数据流未结束。

基于上述任一实施例，语音识别单元820还包括：

同步子单元，用于将所述流式识别结果同步至所述词序列。

基于上述任一实施例，所述流式识别结果包括多个候选流式识别结果，每一候选流式识别结果对应一个浅层解码分数；

对应地，所述同步子单元具体用于：

将每一候选流式识别结果及其同步解码分数同步至所述词序列。

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行如下方法：实时获取待识别的语音数据流；将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：实时获取待识别的语音数据流；将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

实时获取待识别的语音数据流；

将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的；

其中，所述层次式语音识别模型包括层次式识别层、流式结果输出层和最终结果输出层；

在判断当前时刻的语音数据流是否结束时，依赖于语音端点检测模型输出的端点检测结果，以及所述层次式识别层输出的当前时刻的输出词结果中，包含语音结束符号的候选输出词占比。

2.根据权利要求1所述的语音识别方法，其特征在于，所述将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果，具体包括：

将所述语音数据流输入至所述层次式识别层，得到所述层次式识别层输出的流式状态后验概率，以及词序列，所述词序列中任一时刻的输出词结果包括多个候选输出词；

3.根据权利要求2所述的语音识别方法，其特征在于，所述层次式识别层包括编码层、浅层特征输出层和深层结果输出层；

4.根据权利要求3所述的语音识别方法，其特征在于，所述深层结果输出层包括注意力层、解码层和结果输出层；

5.根据权利要求4所述的语音识别方法，其特征在于，所述将所述每一语音帧的隐层向量输入至所述注意力层，得到所述注意力层输出的每一语音帧的重要度权重，具体包括：

6.根据权利要求1所述的语音识别方法，其特征在于，所述判断当前时刻的语音数据流是否结束，具体包括：

否则，确定所述语音数据流未结束。

7.根据权利要求2所述的语音识别方法，其特征在于，所述将所述流式状态后验概率输入至所述流式结果输出层，得到所述流式结果输出层输出的所述流式识别结果，之后还包括：

将所述流式识别结果同步至所述词序列。

8.根据权利要求7所述的语音识别方法，其特征在于，所述流式识别结果包括多个候选流式识别结果，每一候选流式识别结果对应一个浅层解码分数；

9.一种语音识别装置，其特征在于，包括：

语音获取单元，用于实时获取待识别的语音数据流；

语音识别单元，用于将所述语音数据流输入至层次式语音识别模型中，得到所述层次式语音识别模型实时输出的流式识别结果，以及所述层次式语音识别模型在所述语音数据流结束时输出的最终识别结果；其中，所述层次式语音识别模型是基于样本语音数据流，及其样本流式识别结果和样本最终识别结果训练得到的；

10.根据权利要求9所述的语音识别装置，其特征在于，所述语音识别单元包括：

层次识别子单元，用于将所述语音数据流输入至所述层次式识别层，得到所述层次式识别层输出的流式状态后验概率，以及词序列，所述词序列中任一时刻的输出词结果包括多个候选输出词；

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的语音识别方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音识别方法的步骤。