CN110111775B

CN110111775B - 一种流式语音识别方法、装置、设备及存储介质

Info

Publication number: CN110111775B
Application number: CN201910414688.0A
Authority: CN
Inventors: 朱绍明; 唐立亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-06-22
Anticipated expiration: 2039-05-17
Also published as: CN110111775A

Abstract

本申请公开了一种流式语音识别方法，包括：获取待识别的语音信号；对所述语音信号进行特征提取，获得语音特征；通过解码器基于声学模型和语言模型，对所述语音特征进行解码得到N个候选识别结果以及各自对应的解码得分；根据所述N个候选识别结果各自对应的置信度确定置信度阈值，所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种；从所述N个候选识别结果中，筛选置信度大于所述置信度阈值的候选识别结果，生成目标候选识别结果集；根据所述目标候选识别结果集，确定所述语音信号的识别结果。如此，实现自适应输出最优实时结果，满足实时识别的业务需求，提高识别精度。本申请还公开了对应的装置、设备及介质。

Description

一种流式语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种流式语音识别方法、装置、设备及存储介质。

背景技术

流式语音识别是指对音频进行流式识别，识别完成后就返回语音的文字内容，简单来说就是用户一边说话一边返回识别结果；如今，流式语音识别技术已经开始在同声传译、语音输入法等多种场景中得以应用发展。

在相关技术中，通过固定延迟的方式，将当前第一时刻实时识别结果暂不输出，而是通过固定的延迟时间后，再结合该延迟时间段内输入的语音确定上述第一时刻最终识别结果进行输出。

上述相关技术在实际应用中，由于输出识别结果总是在输入语音的时间基础上延迟固定的延迟时间，导致流式识别效果不能满足实时识别的业务需求，而且由于在识别过程中采用固定的延迟时间，导致识别精度不高。

发明内容

本申请提供了一种流式语音识别方法，其基于置信度阈值筛选后候选识别结果生成目标候选识别结果集，并基于该结果集确定识别结果，降低了识别结果的不确定性，提高了识别精度。本申请还提供了对应的装置、设备、介质及计算机程序产品。

有鉴于此，本申请第一方面提供了一种流式语音识别方法，所述方法包括：

获取待识别的语音信号；

对所述语音信号进行特征提取，获得语音特征；

通过解码器基于声学模型和语言模型，对所述语音特征进行解码得到N个候选识别结果以及所述N个候选识别结果各自对应的解码得分，所述N为大于1的整数；

根据所述N个候选识别结果各自对应的置信度确定置信度阈值，所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种；

从所述N个候选识别结果中，筛选置信度大于所述置信度阈值的候选识别结果，生成目标候选识别结果集；

根据所述目标候选识别结果集，确定所述语音信号的识别结果。

本申请第二方面提供一种流式语音识别装置，所述装置包括：

获取单元，用于获取待识别的语音信号；

特征提取单元，用于对所述语音信号进行特征提取，获得语音特征；

解码单元，用于通过解码器基于声学模型和语言模型，对所述语音特征进行解码得到N个候选识别结果以及所述N个候选识别结果各自对应的解码得分，所述N为大于1的整数；

置信度阈值确定单元，用于根据所述N个候选识别结果各自对应的置信度确定置信度阈值，所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种；

筛选单元，用于从所述N个候选识别结果中，筛选置信度大于所述置信度阈值的候选识别结果，生成目标候选识别结果集；

识别单元，用于根据所述目标候选识别结果集，确定所述语音信号的识别结果。

本申请第三方面提供一种服务器，所述服务器包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序，执行如上述第一方面所述的流式语音识别方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面所述的流式语音识别方法。

本申请第五方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面所述的流式语音识别方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种流式语音识别方法，通过对待识别的语音信号进行特征提取，再利用解码器基于声学模型和语言模型对语音特征进行解码得到N个候选识别结果，基于N个候选识别结果各自的置信度可以确定置信度阈值，从N个候选识别结果中筛选出置信度大于置信度阈值的候选识别结果生成目标候选识别结果集，基于该目标候选识别结果集，确定所述语音信号的识别结果。该方法通过候选识别结果的置信度自适应输出最优实时结果，解决了固定延迟的流式语音识别结果确定化方法中自适应能力差的问题，避免了输出结果固定延迟于输入语音，满足实时识别的业务需求。此外，与固定延迟方式相比，通过自适应变化的置信度阈值筛选最优识别结果，能够提高识别精度，有效降低流式语音识别结果的不确定性，进而提高了用户体验。

附图说明

图1为本申请实施例中流式语音识别方法的场景架构图；

图2为本申请实施例中流式语音识别方法的流程图；

图3为本申请实施例中流式语音识别方法的流程图；

图4为本申请实施例中同声传译场景的效果示意图；

图5为本申请实施例中语音输入法场景的效果示意图；

图6为本申请实施例中在线语音交互场景的效果示意图；

图7为本申请实施例中语音助手场景的效果示意图；

图8为本申请实施例中流式语音识别方法的应用场景示意图；

图9为本申请实施例中流式语音识别装置的一个结构示意图；

图10为本申请实施例中流式语音识别装置的一个结构示意图；

图11为本申请实施例中流式语音识别装置的一个结构示意图；

图12为本申请实施例中流式语音识别装置的一个结构示意图；

图13为本申请实施例中流式语音识别装置的一个结构示意图；

图14为本申请实施例中流式语音识别装置的一个结构示意图；

图15为本申请实施例中流式语音识别装置的一个结构示意图；

图16为本申请实施例中流式语音识别装置的一个结构示意图；

图17为本申请实施例中服务器的一个结构示意图；

图18为本申请实施例中服务器的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对固定延迟方式的识别效果不能满足实时识别的业务需求，而且由于在识别过程中采用固定的延迟时间导致识别精度不高的问题，本申请提供了一种流式语音识别方法，该方法是基于语音信号各候选识别结果的置信度确定置信度阈值，然后基于置信度阈值筛选候选识别结果，从而自适应输出最优识时结果。

其中，置信度阈值是基于各候选识别结果的置信度确定的，也即置信度阈值并非固定不变的，针对不同应用场景，置信度阈值能够基于当前候选识别结果的置信度实时变化，如此可以达到自适应筛选最优识别结果的目的，解决了固定延迟方式中自适应能力差的问题，避免了输出结果固定延迟于输入语音，满足实时识别的业务需求。而且，与固定延迟相比，通过自适应变化的置信度阈值筛选最优识别结果提高了识别精度，有效降低了流式语音识别结果的不确定性，提高了用户体验。

可以理解，本申请提供的流式语音识别方法可以应用于任意具有语音处理能力的处理设备，该处理设备可以是服务器，也可以是终端，其中，终端包括桌面终端、便携式移动终端、车载终端、增强现实(Augmented Reality，AR)终端或虚拟现实(Virtual Reality，VR)终端等。

本申请提供的流式语音识别方法可以以计算机程序的形式存储于上述处理设备中，处理设备通过执行上述应用程序实现流式语音识别。为了便于理解，后文主要以服务器作为示例对本申请的流式语音识别方法进行介绍。

为了便于理解本申请的技术方案，首先结合具体场景对上述流式语音识别方法进行介绍。参见图1所示的流式语音识别方法的场景架构图，该场景中包括终端10和服务器20，其中，终端10采集语音信号，服务器20对终端10采集的语音信号进行识别。

具体地，服务器20从终端10获取待识别的语音信号，然后对所述语音信号进行特征提取，获得语音特征，通过解码器基于声学模型和语言模型，所述语音特征进行解码得到N个候选识别结果，根据所述N个候选识别结果各自对应的置信度确定置信度阈值，从所述N个候选识别结果中，筛选置信度大于所述置信度阈值的候选识别结果，生成目标候选识别结果集，根据所述目标候选识别结果集，确定所述语音信号的识别结果。

接下来，将从服务器的角度对本申请实施例提供的流式语音识别方法的各个步骤进行详细说明。参见图2所示的流式语音识别方法的流程图，该方法包括：

S201：获取待识别的语音信号。

在具体实现时，服务器可以从终端获取语音信号，以便对该语音信号进行识别，并将其转换为文字的形式，方便用户从上述文字中获知相关信息。其中，语音信号由终端传输到服务器时是采用音频流的形式，如此，服务器支持对语音信号进行流式识别，也即服务器同时进行语音信号接收任务和语信号识别任务，而无需等待一段语音接收完毕再执行语音信号识别任务。

在一些可能的实现方式中，终端提供有语音控件，用户可以通过该语音控件触发语音操作或者停止触发语音操作，作为一个示例，用户可以触摸语音控件触发语音输入操作，松开语音控件停止语音输入操作。当用户触发语音输入操作时，终端开始采集语音信号，当用户停止语音输入操作时，终端停止采集语音信号，如此，终端可以采集一段时间的语音信号。

S202：对所述语音信号进行特征提取，获得语音特征。

语音中的最小基本单位是音素，音素是人类能够区别一个单词和另一个单词的基础，音素构成音节，音节又构成不同的词和短语，从而表达出语义。

在本实施例中，语音特征具体是指语音信号中提取的能够区分音素的有效信息。较好的语音特征一般具有良好的时域分辨率和频域分辨率，能够分离基频F0及其谐波成分，对不同说话人具有鲁棒性，对噪音或信道失真具有鲁棒性，并且具有良好的模式识别特性。

服务器以语音信号为输入，通过消除噪音、信道失真进行语音增强，然后将语音信号才能够时域转换为频域，从而提取到语音特征进行语音识别。作为本申请的一个示例，服务器可以将梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)或者线性感知预测(Perceptual Linear Prediction,PLP)作为语音特征。

以提取MFCC为例，服务器首先将语音信号通过高通滤波器进行预加重处理，消除发生过程中声带和嘴唇的效应，补偿语音信号受到发音系统所抑制的高频部分，并突出高频的共振峰，然后对处理后的语音信号分帧，并对每一帧进行加窗处理，以增加帧左端和右端的连续性，接着进行快速傅里叶变换，将信号转换到频域，频谱上的能量分布能够表征不同语音的特性，将频谱通过一组Mel尺度的三角形滤波器组对频谱进行平滑化，消除谐波作用，突显语音的共振峰，接着计算每个滤波器组输出的对数能量，再进行离散余弦变化可以得到MFCC系数。

其中，标准的倒谱参数MFCC反映了语音参数的静态特征，语音的动态特征可以采用这些静态特征的差分谱进行描述，通过将静态特征和动态特征结合可以提供识别性能。

需要说明的是，在本申请其他可能的实现方式中，语音特征还可以包括音高、过零率以及共振峰等，服务器还可以提取上述特征中的任意一种或多种用于语音识别，提高识别率。

S203：通过解码器基于声学模型和语言模型，对所述语音特征进行解码得到N个候选识别结果以及所述N个候选识别结果各自对应的解码得分。

声学模型将声学和发音学的知识进行整合，以从语音信号中提取的语音特征为输入，生成声学模型得分。具体到本实施例，声学模型可以是混合高斯模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)，也可以是基于深度神经网络(Deep Neural Network，DNN)的声学模型，例如上下文相关的深度神经网络-隐马尔科夫模型(Context Dependent-Deep Neural Network-Hidden Markov Model，CD-DNN-HMM)，其中DNN是一种判别模型，自身即具有区分性，能够更好地区分标注类别，其次，DNN在大数据上具有非常优异的表现，而且，DNN对环境噪声具有更强的鲁棒性，在复杂环境下仍具有较好的性能。

语言模型通过重训练语料学习词与词之间的相互概率，来估计假设词序列的可能性，也即语言模型得分。其中，在获得与识别任务相关的先验知识的情况下，语言模型得分通常可以估计得更准确。在实际应用时，常常采用统计语言模型(Statistical LanguageModel，SLM)估计语言模型得分。

其中，SLM的建模方法包括n-1阶马尔科夫(n-gram)模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法或神经网络方法。用户可以根据需求采用合适的建模方法建立SLM，以便确定词序列构成句子的概率。

解码器是一种对语音特征进行解码的工具。其是基于发音词典实现的，发音词典包含语音识别系统所能处理的单词的集合及其发音，其建立了声学模型和语言模型之间的映射关系，将二者连接组成一个搜索的状态空间用于解码工作。基于此，解码器在读取语音信号的特征序列后，根据声学模型、语言模型以及发音词典，确定各个词序列的解码得分，该解码得分是解码器输出的针对所述语音特征对应的词序列的评分，其能够表征各个词序列的概率，基于该概率可以确定针对该语音信号的N个候选识别结果。如此，解码器通过对语音特征解码输出N个候选识别结果及其各自对应的解码得分。其中，N为大于1的整数，用户可以在模型初始化或者语音识别系统初始化时，根据需要设置N的取值。作为本申请的一个示例，N可以设置为5。

S204：根据所述N个候选识别结果各自对应的置信度确定置信度阈值。

在具体实现时，服务器可以采用声学模型得分、语言模型得分和解码得分中任一种作为所述候选识别结果对应的置信度。针对不同应用场景，各个候选识别结果的置信度可以是不同的，服务器根据N个候选识别结果各自的置信度确定置信度阈值，使得置信度阈值能够自适应当前应用场景，如此有利于提高识别精度。

本申请实施例还提供了确定置信度阈值的实现方式。具体地，服务器可以确定所述N个候选识别结果对应的置信度的均值以及方差，然后根据所述均值和所述方差，确定所述置信度阈值。例如，服务器可以将均值和方差的和值作为置信度阈值。在此种情形下，由于方差大于0，置信度阈值将大于置信度的均值。

在有些情况下，置信度阈值也可以设置为小于置信度的均值，为了设置一个合理的置信度阈值，还可以增加预设参数确定置信度阈值，服务器可以确定N个候选识别结果对应的置信度的均值、方差以及预设参数三者和值，作为置信度阈值，其中，预设参数可以是固定常数，该固定常数可以为正，也可以为负，当然也可以为零。

在本申请的一个示例中，服务器可以参见如下公式确定置信度阈值：

其中，C_T表征置信度阈值，c_i表征第i个候选识别结果的置信度，μ表征N个候选识别结果的置信度的均值，k为预设参数，该预设参数为固定常数。

需要说明的是，以上公式仅为确定置信度阈值的一个示例，在其他可能的实现方式中，服务器还可以采用任意能够根据当前识别结果的置信度实时变化的置信度阈值更新公式，以达到自适应筛选最优识别结果的目的。

S205：从所述N个候选识别结果中，筛选置信度大于所述置信度阈值的候选识别结果，生成目标候选识别结果集。

在具体实现时，服务器可以将N个候选识别结果的置信度，分别与所述置信度阈值进行比较，确定置信度大于置信度阈值的候选识别结果，并将其添加至目标候选识别结果集。

在一些可能的实现方式中，服务器也可以按照置信度大小对所述N个候选识别结果排序，然后按照置信度由大至小的顺序，依次比较候选识别结果的置信度与置信度阈值，当首次出现置信度小于或等于置信度阈值时，则停止比较，将当前候选识别结果之前的候选识别结果作为目标候选识别结果，根据该目标候选识别结果生成目标候选识别结果集。

当然，服务器也可以按照置信度由小到大的顺序依次比较候选识别结果的置信度与置信度阈值，当首次出现置信度大于置信度阈值时，则将当前候选识别结果及位于其后的候选识别结果作为目标候选识别结果，根据该目标候选识别结果生成目标候选识别结果集。

S206：根据所述目标候选识别结果集，确定所述语音信号的识别结果。

具体地，当所述目标候选识别结果集的元素个数为1时，则表明识别结果是确定的，服务器可以直接将所述目标候选识别结果集中的候选识别结果作为所述语音信号的识别结果；当所述目标候选识别结果集的元素个数大于1时，则表明识别结果具有不确定性，此种情形下，服务器可以根据所述目标候选识别结果集的元素排序结果，确定所述语音信号的识别结果，以降低识别结果的不确定性。

针对根据目标候选识别结果集的元素排序结果确定所述语音信号的识别结果，本申请实施例提供了几种实现方式，下面将对其进行详细说明。

一种实现方式为，服务器基于降序排序选择所述目标候选识别结果集中排序靠前的M个候选识别结果，其中，所述M为大于1的整数，然后，服务器再确定所述M个候选识别结果的前向最大匹配部分，作为所述语音信号的识别结果。

其中，M个候选识别结果的前向最大匹配部分是指M个候选识别结果由左至右的最大匹配部分，其可以与前向最大匹配算法，也即正向最大匹配算法(Forward MaximumMatching，FMM)相同的机制而确定。

需要说明的是，在确定M个候选识别结果的前向最大匹配部分时，还可以进行交集歧义检测，若存在交集歧义，则服务器还可以针对出现歧义的部分进行处理，以获得合理的匹配结果。

为了便于理解，下面结合具体示例进行说明。在该示例中，服务器基于降序排序选择目标候选识别结果集中排序靠前的3个候选识别结果，分别为“我们”、“外面”以及“我妈”，服务器确定这3个候选识别结果的前向最大匹配部分为“我”，将“我”作为语音信号的识别结果。

另一种实现方式为，服务器基于降序排序选择所述目标候选识别结果集中排序第一的候选识别结果，并将该候选识别结果作为所述语音信号的识别结果。

由于排序第一的候选识别结果是目标候选识别结果集中置信度最高的候选识别结果，因此，服务器可以将其作为语音信号的识别结果，该识别结果具有较高的准确率，降低了识别结果的不确定性。

下面仍结合具体示例进行说明。在该示例中，目标候选识别结果集中包括元素如下，“学院”“学员”和“学业”，其中，“学院”为排序第一的候选识别结果，服务器可以将“学院”作为语音信号的识别结果。

由上可知，本申请实施例提供了一种流式语音识别方法，通过对待识别的语音信号进行特征提取，再利用解码器基于声学模型和语言模型对语音特征进行解码得到N个候选识别结果，基于N个候选识别结果各自的置信度可以确定置信度阈值，从N个候选识别结果中筛选出置信度大于置信度阈值的候选识别结果生成目标候选识别结果集，基于该目标候选识别结果集，确定所述语音信号的识别结果。该方法通过候选识别结果的置信度自适应输出最优实时结果，解决了固定延迟的流式语音识别结果确定化方法中自适应能力差的问题，避免了输出结果固定延迟于输入语音，满足实时识别的业务需求。此外，与固定延迟方式相比，通过自适应变化的置信度阈值筛选最优识别结果，能够提高识别精度，有效降低流式语音识别结果的不确定性，进而提高了用户体验。

可以理解，服务器在对语音信号进行解码时，可以按照固定长度进行解码，换言之，服务器每次从语音信号中提取固定长度的帧进行解码实现语音识别。为了使得本申请的技术方案更加清楚，本申请还提供了一具体实施例对流式语音识别过程进行说明。

参见图3所示的流式语音识别方法的流程图，该方法包括：

S301：初始化语音帧开始下标I、置信度阈值C_T、每次解码的固定语音长度L_M帧以及解码过程中得到的最优结果个数N。

其中，C_T初始化可以参见上述公式1，L_M和N可以根据实际需求而设置。

S302：从语音信号中获取L_F帧音频数据D以及语音结束标志End。

其中，

d_i表示第i帧语音。

在具体实现时，若当前待处理帧数N_wait＞L_M，则设置L_F＝L_M,将语音结束标志End置0，表征语音信号未结束；若N_wait≤L_M，则设置L_F＝N_wait，将语音结束标志End置1，表征语音信号结束。

S303：对L_F帧音频数据D进行特征提取得到特征数据F_D。

其中，特征数据F_D即为从语音信号中提取的语音特征，该特征数据F_D具体可以是MFCC系数，本实施例对此不作限定。

S304：将特征数据F_D通过声学模型M_A进行打分得到似然数据S_D。

其中，似然数据S_D即为声学模型得分。

S305：结合语言模型M_L，将似然数据S_D通过语音识别解码器，解码得到N个候选识别结果R_N，以及对应的解码得分，即置信度C_N。

其中，R_N＝{r₁,r₂,...,r_N}，C_N＝{c₁,c₂,...,c_N}。

S306：根据N个候选识别结果R_N的置信度更新置信度阈值C_T。

S307：从N个候选识别结果中筛选出置信度大于置信度阈值C_T的候选识别结果，生成目标候选识别结果集。

该目标候选识别结果集可以用R_ca表征，其中，R_ca＝{r_i|c_i＞C_T}，i＝1,2,…L_ca，L_ca表征满足要求的候选识别结果的个数，也即目标候选识别结果集的长度。

S308：根据目标候选识别结果集确定语音信号中L_F帧音频数据D的识别结果，并输出该识别结果。

S309：基于语音结束标志判断是否结束语音识别过程，若语音结束标志End等于1，则结束语音识别过程，若语音结束标志End等于0，则返回步骤S302。

由此可见，本申请实施例提供了一种流式语音识别方法，其根据输入语音识别得到的多个实时结果各自的置信度，自适应选择输出合适的结果，从而有效提高流式语音识别结果的确定性，降低不确定性流式识别结果对用户的干扰。

可以理解，本申请实施例提供的流式语音识别方法可以应用许多领域。例如，其可以应用于人工智能(Artificial Intelligence，AI)领域的多种场景，包括但不限于同声传译、语音输入法、在线语音交互或者智能语音助手。下面将对上述场景进行详细说明。

在同声传译场景中，服务器可以接收终端发送的同声传译请求，该同声传译请求用于请求将输入的语音翻译为目标语言的语音，该同声传译请求中可以携带待识别的语音信号，服务器可以先对所述待识别的语音信号进行识别得到识别结果，然后通过翻译模型将所述语音信号的识别结果翻译成目标语言的文字，再将所述目标语言的文字转换成音频，如此，服务器可以响应于所述同声传译请求，向所述终端发送所述音频。

需要说明的是，上述同声传译请求可以是交互方中的发送方通过其终端发送的，具体地，发送方在向接收方发送语音时，即触发同声传译请求，也可以是交互方中的接收方通过其终端发送的，具体地，接收方在接收语音信号的过程中触发同声传译请求。其中，目标语言是指交互方中接收方所能理解的语言。该目标语言可以预先设置，也可以由同声传译请求的发起者根据需求而指定，本实施例对此不作限定。

图4示出了同声传译的效果示意图，如图4所示，其展示了用户A和用户B的聊天界面40，该聊天界面具体为用户A的终端所展示的界面，发送方即用户A向接收方即用户B发送一段长度为4秒的语音41，在该语音发送过程中，用户A触发同声传译请求，服务器响应于该同声传译请求识别语音得到识别结果，并将识别结果翻译为目标语言，然后将翻译后结果转换为音频42，接着服务器向用户A的终端返回这段长度为17秒的音频42，如此，用户A还向用户B发送经同声传译后得到的音频42。

当用户B回复用户A时，此时用户B作为发送方，用户A作为接收方，针对用户B回复的语音进行同声传译。需要说明的是，这两个过程中的目标语言是不同的，用户A向用户B发送语音时，目标语言是用户B能理解的语言，用户B回复用户A时，目标语言是用户A能理解的语言。

针对上述示例，也可以由接收方触发同声传译请求，使得服务器针对接收的语音进行同声传译，并返回同声传译结果。

在语音输入法场景中，服务器接收终端发送的语音输入请求，该语音输入请求用于请求将输入的语音转换为文字，该语音输入请求携带有用户通过终端输入的语音信号，服务器采用本申请的流式语音识别方法对上述语音信号进行识别得到识别结果，如此，服务器可以响应于上述语音输入请求，向所述终端发送所述语音信号的识别结果，以便所述终端在输入框中显示所述语音信号的识别结果。

图5示出了语音输入法的效果示意图，如图5所示，其展示了输入法界面50，该输入法界面50提供有语音输入控件51，用户可以通过触摸等方式触发该控件，开始语音输入，终端采集用户输入的语音，向服务器发送语音输入请，服务器利用本申请的流式语音识别方法识别所述语音得到识别结果52，并向终端返回识别结果，如此，终端在输入框53中显示该识别结果52，实现语音输入。

在该场景下，用户无需手动输入，仅需输入语音，通过本申请的流式语音识别方法识别对语音进行识别得到识别结果，然后在输入框中显示该识别结果即可实现语音输入，其提高了输入效率，并且具有较高的准确度。

在线语音交互场景是指通过语音进行在线交互的场景，如用户与语音聊天机器人交互的场景。在具体实现时，服务器接收终端发送的智能交互请求，该智能交互请求用于请求针对输入的语音进行答复，该智能交互请求携带有输入的语音，服务器首先利用本申请的流式语音识别方法对输入的语音进行识别得到识别结果，确定与所述语音信号的识别结果相匹配的答复内容，然后响应于所述智能交互请求，向所述终端发送所述答复内容。

其中，服务器在确定与语音信号的识别结果相匹配的答复内容时，可以采用预先训练的问答模型实现，该问答模型可以是通过深度学习训练得到的。考虑到交互体验，在确定答复内容后，服务器还提可以通过语音合成的方式将上述答复内容转换为音频，并向终端发送所述答复内容的音频。

图6示出了在线语音交互场景的效果示意图，图6示出了用户A与语音聊天机器人Robot的聊天界面60，用户A向Robot发送一条语音61，Robot能够响应于智能交互请求，利用流式语音识别方法识别该语音61得到识别结果，并确定与该识别结果相匹配的答复内容，将答复内容转换为音频62，返回给用户A的终端，并在聊天界面60中展示答复内容的音频。

通过本申请的流式语音识别方法一方面满足了在线语音交互业务对实时性的需求，另一方面其提高了语音识别的准确度，降低了语音识别结果的不确定新，提高了用户体验。

很多终端如智能手机、智能音箱还提供有智能语音助手。该智能语音助手以计算机程序的形式存储于终端中，终端运行该应用程序，通过与服务器交互识别语音指令，然后执行该语音指令。具体地，服务器接收终端发送的语音控制请求，该语音控制请求用于请求根据输入的语音执行对应的控制操作，服务器利用本申请的流式语音识别方法识别所述语音控制请求携带的语音，得到识别结果，根据该识别结果可以确定与其相匹配的控制指令，服务器可以响应于所述语音控制请求，向所述终端发送所述控制指令，控制所述终端执行所述控制指令。

以智能手机中的语音助手为例，如图7所示，其展示了用户与语音助手的交互界面示意图70，在唤醒语音助手后，用户按压语音控件71，输入语音“播放江南”，终端采集用户输入的语音，向服务器发送语音控制请求，该语音控制请求携带用户输入的语音，用于请求根据输入的语音执行对应的控制操作，服务器利用上述流式语音识别方法识别语音控制请求中携带的语音得到识别结果，根据该识别结果确定相匹配的控制指令，该控制指令具体可以为“播放江南”，如此，服务器向终端发送该控制指令，终端显示用户输入的语音对应的识别结果72，并执行上述控制指令，通过播放器73播放歌曲“江南”。

本申请提供的流式语音识别方法能够满足实时识别的业务需求，而且具有较高的识别精度，因此，在应用到智能语音助手场景中时，能够快速且精准地响应用户指令，为用户带来更好的用户体验。

需要说明的是，上述场景是以终端和服务器交互实现作为示例进行说明的，在有些情况下，上述场景也可以由终端独立实现。例如，由终端独立为用户提供语音识别服务，例如由终端独立实现同声传译、在线语音交互、语音输入、智能语音助手的相应功能，本实施例对此不作限定。

为了使得本申请的技术方案更加清楚、易于理解，下面将结合同声传译的场景对本申请的具体实现方式进行详细说明。

参见图8所示的同声传译应用场景示意图，该场景中包括服务器10、终端20和终端30，终端20和终端30均安装有某即时通信应用，本地用户A和异国用户B属于同一企业的用户，二者基于该即时通信应用提供的同声传译功能进行通信，从而实现协同办公。

具体地，用户A的常用语言为中文，用户B的常用语言为英文。当用户A输入一条语音，终端20采集该语音，然后向服务器10发送同声传译请求，该同声传译请求中携带用户A输入的语音，用于请求将输入的语音翻译英文的语音，以便用户B能够快速理解。

服务器10从同声传译请求中获取用户A输入的语音作为待识别的语音信号，然后从该语音信号中提取语音特征，将该语音特征输入声学模型进行打分得到声学模型得分，再结合语言模型，将声学模型得分通过语音识别解码器，解码得到N个候选识别结果以及对应的解码得分，该解码得分作为各个候选识别结果的置信度，根据N个候选识别结果的置信度计算置信度均值以及方差，然后将均值、方差以及固定常数之和作为置信度阈值，然后从上述N个候选识别结果中筛选出置信度大于置信度阈值的候选识别结果，生成目标候选识别结果集，服务器10对目标候选识别结果集中的元素按照置信度降序进行排序，选择排序靠前的M个识别结果，将该M个候选识别结果的前向最大匹配部分作为该语音信号的识别结果。

接着，服务器10将识别结果翻译为英文，并通过合成语音的方式将英文文字转换成英文音频。如此，服务器10不仅向终端30发送用户A输入的语音，还向终端30发送经过同声传译得到的英文音频。

终端30显示用户A输入的语音和同声传译得到的英文音频，用户B可以播放上述英文音频，从而获知用户A输入的语音所携带的信息。

以上为本申请实施例提供的流式语音识别方法的一些具体实现方式，基于此，本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的上述装置进行介绍。

参见图9所示的流式语音识别装置的结构示意图，该装置包括：

获取单元910，用于获取待识别的语音信号；

特征提取单元920，用于对所述语音信号进行特征提取，获得语音特征；

解码单元930，用于通过解码器基于声学模型和语言模型，对所述语音特征进行解码得到N个候选识别结果以及所述N个候选识别结果各自对应的解码得分，所述N为大于1的整数；

置信度阈值确定单元940，用于根据所述N个候选识别结果各自对应的置信度确定置信度阈值，所述候选识别结果对应的置信度包括声学模型得分、语言模型得分和解码得分中任一种；

筛选单元950，用于从所述N个候选识别结果中，筛选置信度大于所述置信度阈值的候选识别结果，生成目标候选识别结果集；

识别单元960，用于根据所述目标候选识别结果集，确定所述语音信号的识别结果。

可选的，参见图10，图10为本申请实施例提供的流式语音识别装置的一个结构示意图，在图9所示结构的基础上，所述置信度阈值确定单元940包括：

第一确定单元941，用于所述N个候选识别结果对应的置信度的均值以及方差；

第二确定单元942，用于根据所述均值和所述方差，确定所述置信度阈值。

可选的，所述第二确定单元942具体用于：

确定所述均值和所述方差以及预设参数三者和值，作为所述置信度阈值。

可选的，参见图11，图11为本申请实施例提供的流式语音识别装置的一个结构示意图，在图9所示结构的基础上，所述识别单元960包括：

第一识别单元961，用于当所述目标候选识别结果集的元素个数为1时，将所述目标候选识别结果集中的候选识别结果作为所述语音信号的识别结果；

第二识别单元962，用于当所述目标候选识别结果集的元素个数大于1时，根据所述目标候选识别结果集的元素排序结果，确定所述语音信号的识别结果。

可选的，参见图12，图12为本申请实施例提供的流式语音识别装置的一个结构示意图，在图11所示结构的基础上，所述第二识别单元962包括：

选择子单元962a，用于基于降序排序选择所述目标候选识别结果集中排序靠前的M个候选识别结果，所述M为大于1的整数；

匹配子单元962b，用于确定所述M个候选识别结果的前向最大匹配部分，作为所述语音信号的识别结果。

可选的，所述第二识别单元962具体用于：

基于降序排序选择所述目标候选识别结果集中排序第一的候选识别结果，作为所述语音信号的识别结果。

可选的，参见图13，图13为本申请实施例提供的流式语音识别装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

第一接收单元971，用于接收终端发送的同声传译请求，所述同声传译请求用于请求将输入的语音翻译为目标语言的语音；

翻译及转换单元972，用于通过翻译模型将所述语音信号的识别结果翻译成目标语言的文字，将所述目标语言的文字转换成音频；

第一发送单元973，用于响应于所述同声传译请求，向所述终端发送所述音频。

需要说明的是，图13也可以在上述图10至图12的基础上，还包括上述

第一接收单元971、翻译及转换单元972和上述第一发送单元973。

可选的，参见图14，图14为本申请实施例提供的流式语音识别装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

第二接收单元981，用于接收终端发送的语音输入请求，所述语音输入请求用于请求将输入的语音转换为文字；

第二发送单元982，用于响应于所述语音输入请求，向所述终端发送所述语音信号的识别结果，以便所述终端在输入框中显示所述语音信号的识别结果。

其中，图14也可以在上述图10至图12的基础上，还包括上述第二接收单元981和第二发送单元982。

可选的，参见图15，图15为本申请实施例提供的流式语音识别装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

第三接收单元991，用于接收终端发送的智能交互请求，所述智能交互请求用于请求针对输入的语音进行答复；

第三发送单元992，用于响应于所述智能交互请求，确定与所述语音信号的识别结果相匹配的答复内容，向所述终端发送所述答复内容。

其中，图15也可以在上述图10至图12的基础上，还包括上述第三接收单元991和第三发送单元992。

可选的，参见图16，图16为本申请实施例提供的流式语音识别装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

第四接收单元993，用于接收终端发送的语音控制请求，所述语音控制请求用于请求根据输入的语音执行对应的控制操作；

第四发送单元994，用于响应于所述语音控制请求，确定与所述语音信号的识别结果相匹配的控制指令，向所述终端发送所述控制指令，控制所述终端执行所述控制指令。

与图13至图15类似，图16也可以是在上述图10至图12的基础上还包括上述第四接收单元993和第四发送单元994。

基于本申请实施例提供的上述方法和装置的具体实现方式，本申请还提供了一种设备，用于实现流式语音识别。下面将从硬件实体化的角度对本申请实施例提供的设备进行介绍。

图17是本申请实施例提供的一种设备的结构示意图，该设备可以是服务器，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1722(例如，一个或一个以上处理器)和存储器1732，一个或一个以上存储应用程序1742或数据1744的存储介质1730(例如一个或一个以上海量存储设备)。其中，存储器1732和存储介质1730可以是短暂存储或持久存储。存储在存储介质1730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1722可以设置为与存储介质1730通信，在服务器1700上执行存储介质1730中的一系列指令操作。

服务器1700还可以包括一个或一个以上电源1726，一个或一个以上有线或无线网络接口1750，一个或一个以上输入输出接口1758，和/或，一个或一个以上操作系统1741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

其中，CPU 1722用于执行如下步骤：

获取待识别的语音信号；

对所述语音信号进行特征提取，获得语音特征；

可选的，所述CPU 1722还用于执行本申请实施例提供的流式语音识别方法的任意一种实现方式的步骤。

本申请实施例还提供了另一种设备，如图18所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、车载电脑等任意终端设备，以终端为手机为例：

图18示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图18，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1810、存储器1820、输入单元1830、显示单元1840、传感器1850、音频电路1860、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1870、处理器1880、以及电源1890等部件。本领域技术人员可以理解，图18中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1820可用于存储软件程序以及模块，处理器1880通过运行存储在存储器1820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1820内的软件程序和/或模块，以及调用存储在存储器1820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1880可包括一个或多个处理单元；优选的，处理器1880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1880中。

在本申请实施例中，该终端所包括的处理器1880还具有以下功能：

获取待识别的语音信号；

对所述语音信号进行特征提取，获得语音特征；

可选的，处理器1880还可以用于执行本申请实施例中流式语音识别方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种流式语音识别方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种流式语音识别方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种流式语音识别方法，其特征在于，包括：

获取待识别的语音信号；

对所述语音信号进行特征提取，获得语音特征；

根据所述目标候选识别结果集，确定所述语音信号的识别结果；

其中，所述根据所述N个候选识别结果各自对应的置信度确定置信度阈值，包括：

确定所述N个候选识别结果对应的置信度的均值以及方差；

根据所述均值和所述方差，确定所述置信度阈值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述均值和所述方差，确定所述置信度阈值，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述目标候选识别结果集，确定所述语音信号的识别结果，包括：

当所述目标候选识别结果集的元素个数为1时，将所述目标候选识别结果集中的候选识别结果作为所述语音信号的识别结果；

当所述目标候选识别结果集的元素个数大于1时，根据所述目标候选识别结果集的元素排序结果，确定所述语音信号的识别结果。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标候选识别结果集的元素排序结果，确定所述语音信号的识别结果，包括：

基于降序排序选择所述目标候选识别结果集中排序靠前的M个候选识别结果，所述M为大于1的整数；

确定所述M个候选识别结果的前向最大匹配部分，作为所述语音信号的识别结果。

5.根据权利要求3所述的方法，其特征在于，所述根据所述目标候选识别结果集的元素排序结果，确定所述语音信号的识别结果，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

接收终端发送的同声传译请求，所述同声传译请求用于请求将输入的语音翻译为目标语言的语音；

通过翻译模型将所述语音信号的识别结果翻译成目标语言的文字，将所述目标语言的文字转换成音频；

响应于所述同声传译请求，向所述终端发送所述音频。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

接收终端发送的语音输入请求，所述语音输入请求用于请求将输入的语音转换为文字；

响应于所述语音输入请求，向所述终端发送所述语音信号的识别结果，以便所述终端在输入框中显示所述语音信号的识别结果。

8.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括:

接收终端发送的智能交互请求，所述智能交互请求用于请求针对输入的语音进行答复；

响应于所述智能交互请求，确定与所述语音信号的识别结果相匹配的答复内容，向所述终端发送所述答复内容。

9.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

接收终端发送的语音控制请求，所述语音控制请求用于请求根据输入的语音执行对应的控制操作；

响应于所述语音控制请求，确定与所述语音信号的识别结果相匹配的控制指令，向所述终端发送所述控制指令，控制所述终端执行所述控制指令。

10.一种流式语音识别装置，其特征在于，包括：

获取单元，用于获取待识别的语音信号；

识别单元，用于根据所述目标候选识别结果集，确定所述语音信号的识别结果；

其中，所述置信度阈值确定单元，具体用于：

确定所述N个候选识别结果对应的置信度的均值以及方差；

根据所述均值和所述方差，确定所述置信度阈值。

11.根据权利要求10所述的装置，其特征在于，所述识别单元，具体用于：

12.一种服务器，其特征在于，所述服务器包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1至9任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1至9任一项所述的方法。