WO2021051564A1

WO2021051564A1 - 语音识别方法、装置、计算设备和存储介质

Info

Publication number: WO2021051564A1
Application number: PCT/CN2019/117675
Authority: WO
Inventors: 王健宗; 彭俊清; 瞿晓阳
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-17
Filing date: 2019-11-12
Publication date: 2021-03-25
Also published as: CN110503956A; CN110503956B

Abstract

一种语音识别方法、装置、计算设备和计算机非易失性可读存储介质，涉及自然语言处理领域。该方法包括：将音频数据输入语音识别模型，得到输出的初步识别结果（210）；确定初步识别结果中文本单位对应的音频数据中的音频片段（220）；针对每一文本单位，若该文本单位对应音频片段的声压满足预定条件，则将初步识别结果中该文本单位替换为占位符，得到中间结果（230）；确定中间结果与预设标准文本库中各标准文本序列的匹配度（240）；基于匹配度，在标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果（250）。此方法降低了由于对应的音频片段的声压不符合一定要求的文本单位的存在所导致的语音识别不准确的可能性，提高了语音识别的准确率。

Description

语音识别方法、装置、计算设备和存储介质

技术领域

本申请基于并要求2019年9月17日申请的、申请号为CN 201910877191.2、名称为“语音识别方法、装置、介质及电子设备”的中国专利申请的优先权，其全部内容在此并入作为参考。

本申请涉及自然语言处理技术领域，特别是涉及一种语音识别方法、装置、计算设备和计算机非易失性可读存储介质。

背景技术

随着移动互联网的发展，包括语音识别在内的与自然语言处理相关技术获得了蓬勃发展。目前，为了实现语音识别，人们常构建语音识别模型，然后将用户输入的语音数据输入至语音识别模型，语音识别模型会输出相应的文本信息，从而完成语音识别。

发明概述

技术问题

然而，本申请发明人意识到，一般人说话时不可能像播音那样说话，导致句子中的某些词的音量无法满足语音识别的特定需求。这样，单纯使用语音识别模型就无法准确识别出正确的内容，从而降低了语音识别的准确率。

问题的解决方案

技术解决方案

在自然语言处理技术领域，为了解决上述技术问题，本申请的目的在于提供一种语音识别方法、装置、计算设备和计算机非易失性可读存储介质。

第一方面，提供了一种语音识别方法，包括：

将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果；

确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段；

针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果；

确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度；

基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。

第二方面，提供了一种语音识别装置，包括：

输入模块，被配置为将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果；

第一确定模块，被配置为确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段；

替换模块，被配置为针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果；

第二确定模块，被配置为确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度；

识别模块，被配置为基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。

第三方面，提供了一种计算设备，包括存储器和处理器，所述存储器用于存储所述处理器的语音识别的程序，所述处理器配置为经由执行所述语音识别的程序来实现上述语音识别方法。

第四方面，提供了一种存储有计算机可读指令的计算机非易失性可读存储介质，其上存储有语音识别的程序，所述语音识别的程序被处理器执行时实现上述语音识别方法。

上述语音识别方法、装置、计算设备和计算机非易失性可读存储介质，在将音频数据输入至语音识别模型得到语音识别模型的初步识别结果的基础上，通过将初步识别结果中对应的音频片段的声压满足预定条件的文本单位替换为占位符，得到中间结果，并利用中间结果进行最终识别，降低了在进一步确定最终识别结果时由于声压不符合一定要求的文本单位的存在导致的最终识别结果不准确的可能性，从而提高了语音识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

发明的有益效果

对附图的简要说明

附图说明

图1是根据一示例性实施例示出的一种语音识别方法的应用场景示意图；

图2是根据一示例性实施例示出的一种语音识别方法的流程图；

图3是根据图2对应实施例示出的一实施例的步骤250之后步骤的流程图；

图4是根据图2对应实施例示出的一实施例的步骤240的细节流程图；

图5是根据一示例性实施例示出的一种语音识别装置的框图；

图6是根据一示例性实施例示出的一种实现上述语音识别方法的计算设备的示例框图；

图7是根据一示例性实施例示出的一种实现上述语音识别方法的计算机非易失性可读存储介质。

发明实施例

本发明的实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本申请首先提供了一种语音识别方法。语音识别是指将人类语音中的词汇转换为计算机可读的输入的一种技术，比如将人类语音转换为由文字、符号等组成的字符序列就是语音识别。语音和语音中的内容完全是两个不同维度的信息，一直以来只有人类能够提取语音中的信息，并进行加工处理，随着语音识别等自然语言处理技术的发展，通过利用计算机设备等机器来实现语言识别已经成为可能，而本申请提供的语音识别方法就是在现有语音识别技术的基础上进一步改进的方案，并能够产生提高语音识别的准确率等一系列有益效果。

本申请的实施终端可以是任何具有运算、处理以及通信功能的设备，该设备可与外部设备相连，用于接收或者发出信息，可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如服务器集群或者云计算的物理基础设施等。

可选地，本申请的实施终端可以为服务器、服务器集群或者云计算的物理基础设施。

图1是根据一示例性实施例示出的一种语音识别方法的应用场景示意图。如图1所示，包括服务器100、第一用户终端110以及第二用户终端120，其中，每一用户终端分别通过通信链路与服务器100，通信链路可以用于发送和接收数据，在本实施例中，服务器100为本申请的实施终端。当用户终端的用户需要录入语音并转换为对应的文本信息时，可以通过用户终端内嵌的或者与用户终端连接的语音录入装置(如麦克风等)向用户终端录入语音数据，用户终端在接收到语音数据后，可以将该语音数据向服务器100发送，由服务器100来执行语音识别任务，待任务完成后，服务器100可以向发送语音数据的用户终端返回语音识别结果，即与用户录入的语音数据对应的文本信息。具体地，服务器100可以内嵌有训练好的语音识别模型，当服务器100接收到用户通过用户终端发来的语音数据后，可以将该语音数据输入至语音识别模型中，语音识别模型可以输出初步识别结果，然后服务器100可以在该初步识别结果的基础上进行进一步的识别，得到最终识别结果。另外，图1中的省略号表示与服务器100建立通信链路的连接并可以向服务器100发送语音数据的用户终端的数量是不固定的，可以是任意更多或者更少的数量。

值得一提的是，图1仅为本申请的一个实施例。虽然在图1实施例中，本申请的实施终端为服务器，并且语音数据的直接获取和语音识别两个过程是在两个不同的终端上进行的，但在其他实施例或者具体应用中，可以根据需要选择前述的任意一种类型的终端作为本申请的实施终端，并且语音数据的直接获取和语音识别两个任务还可以是在同一终端上执行，本申请对此不作任何限定，本申请的保护范围也不应因此而受到任何限制。

图2是根据一示例性实施例示出的一种语音识别方法的流程图。本实施例可以由图1实施例中的服务器来执行。如图2所示，包括以下步骤：

步骤210，将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果。

音频数据的获取可以是用音频流的方式获取的，也可以是用音频文件的方式获取的，音频文件的格式可以是任意的，包括但不限于.WAV、.MP3等。音频数据可以是由本端直接接收并加工生成的数据，也可以是由本端外的其他终端生成的数据。

在一个实施例中，在步骤210之前，还可以包括：接收从目标终端发送来的音频数据，以获取音频数据。

在一个实施例中，调用已设置的语音识别接口会调用预先建立的语音识别模型，通过调用已设置的语音识别接口将获取的音频数据输入至预先建立的语音识别模型，并得到接口返回的识别结果，作为所述语音识别模型输出的文本形式的初步识别结果。

预先建立的语音识别模型可以是任何类型的已训练好的语音识别模型，可以包括多个子模型或者组件，亦可以称为一个语音识别系统。比如，语音识别模型可以是包含了声学模型、语言模型和解码器等部分的传统的语音识别模型，也可以是端到端(end-to-end)的语音识别模型。传统的语音识别模型中的声学模型包括但不限于：GMM-HMM(Gaussian Mixed Model-Hidden Markov Model，高斯混合模型-隐马尔可夫模型)模型、DNN-HMM(Deep Neural Networks-Hidden Markov Model，深度神经网络-隐马尔可夫模型)、DFSMN(Deep feedforward sequential memory networks，深层前馈序列记忆神经网络)模型等，语言模型包括但不限于n-gram、Transformer模型等；而端到端的语音识别模型包括但不限于w av2letter++框架模型、LSTM-CTC(Long Short-Term Memory-Connectionist temporal classification，长短期记忆网络-联结主义时间分类)模型等。

在一个实施例中，基于GMM-HMM模型这一语音识别模型的语音识别过程是这样的：对语音数据进行语音端点检测(Voice Activity Detection，VAD)，切除语音数据首尾端的静音部分；对语音数据进行预加重以提升语音数据中的高频部分；对语音数据加窗处理以减少语音端边缘的影响；对语音数据进行分帧；提取每一帧的特征，得到声学特征维数*N的特征矩阵，其中，N为总帧数，特征的类型包括但不限于LPC(inear predictive coding，线性预测编码)、MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)等；将特征矩阵输入GMM-HMM声学模型，使GMM-HMM声学模型可以根据帧的音素和状态的条件概率来计算音素序列的声学模型分数，其中，GMM用于对语音特征的分布进行建模，HMM用于对序列的时序进行建模；利用语言模型获取各音素序列对应文字组合的语言模型分数；综合音素序列的声学模型分数和语言模型分数，确定输出音素序列，并利用词典获取与输出音素序列对应的文字，最终得到语音识别结果。

初步识别结果包括但不限于文字、数字等符号，其中，文字对应的语言可以是任意的，文字的类型包括但不限于中文的汉字、英文的单词等。对于中文，音素可以为声母、韵母等，对于英文，音素可以为卡内基梅隆大学提供的由39个音素组成的音素集中的一个或多个。

语音识别模型输出的初步识别结果为文本形式是指语音识别模型输出的初步识别结果以文本的形式输出并以文本的形式被记录，通常以文本文件的形式存在。文本文件的格式包括但不限于.doc、.txt、JSON格式、XML格式、HTML格式等。

步骤220，确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段。

文本单位是预先设置的文字级别的基本语言单位。比如对于中文，文本单位可以是单字或者词语，对于英文，文本单位可以是单词。在音频数据中确定与初步识别结果中文本单位对应的音频片段可以利用语音识别模型本身来实现。比如，对于GMM-HMM模型，每一帧语音数据与状态对应，而状态又与音素对应，音素与文字对应，根据这条对应关系链，可以在音频数据中确定出与初步识别结果中文本单位对应的语音数据帧，进而得到对应的音频片段。

步骤230，针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果。

在一个实施例中，所述预定条件用于指示与文本单位对应的音频片段的声压低。

占位符可以是任何类型的符号或者符号的组合，比如可以为&、％、#等符号。声压即音频片段对应的声音信号在波形图中纵坐标的值，可以用于衡量音频信号的响度大小，而音频的响度一般与音量呈正相关的关系，因此，一个文本单位对应的音频片段的声压低，意味着该文本单位是由较低音量的音频数据识别出来的。

在一个实施例中，所述预定条件为：与文本单位对应的音频片段的声压的最大值低于预设声压平均值阈值。音频片段的声压的最大值即音频片段内声压的幅值。本实施例的好处在于，通过将与文本单位对应的音频片段的声压的最大值低于预设声压平均值阈值作为预定条件，提高了将文本单位替换为占位符的标准，降低了所述初步识别结果中被替换为占位符的文本单位的数量，使得所述初步识别结果能够保留更多的原始识别信息。

在一个实施例中，所述预定条件为：与文本单位对应的音频片段的声压的最小值低于预设声压平均值阈值。本实施例的好处在于，与文本单位对应的音频片段的声压的最小值一般是很小的值，只要一个文本单位对应的音频片段的声压的最小值低于预设声压平均值阈值，该文本单位就会被替换为占位符，这样就降低了将文本单位替换为占位符的标准，提高了所述初步识别结果中被替换为占位符的文本单位的数量，使得所述初步识别结果中保留的文本单位对应的音频片段的声压都是足够大的，能够在一定程度上提高语音识别的精度。

在一个实施例中，所述预定条件为：与文本单位对应的音频片段的声压的平均值低于预设声压平均值阈值。一个音频片段的声压的平均值反映了该音频片段内声压的集中趋势，本实施例的好处在于，通过音频片段的声压的平均值这一指标作为确定是否将对应的文本单位替换为占位符的标准，实现了初步识别结果中保留的文本单位的数量和初步识别结果中保留的文本单位对应的音频片段的声压大小之间的平衡。

在一个实施例中，通过计算与文本单位对应的音频片段的声压的积分，然后确定积分值与积分区间长度的比值，作为与文本单位对应的音频片段的声压的平均值，然后将该平均值与预设声压平均值阈值进行比较，即可判断与文本单位对应的音频片段的声压是否满足预定条件。

在一个实施例中，所述预定条件为：在与文本单位对应的音频片段中任取预定数目帧；若获取的各帧的声压的平均值低于预设声压平均值阈值，则将所述初步识别结果中的该文本单位替换为占位符。本实施例的好处在于，抽样能够间接地反映整个音频片段的声压分布情况，通过在音频片段中抽取一定帧数来进行对应的文本单位是否需要被替换为占位符的判断，在一定程度上能够降低计算量。

在一个实施例中，在步骤230之后，所述方法还可以包括：将所述初步识别结果中的连续多个占位符合并为一个占位符。

在一个实施例中，合并成的占位符为被合并的占位符中的一个。

在一个实施例中，各被合并的占位符与合并成的占位符均不相同。

在一个实施例中，所述将所述初步识别结果中的连续多个占位符合并为一个占位符，包括：从所述初步识别结果中的第一个占位符开始，针对每一占位符，判断该占位符后的字符是否为占位符；如果是，则将该占位符与该占位符后的占位符合并为一个占位符。

步骤240，确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度。

标准文本序列中的基本组成元素可以为文字、数字等符号，一个标准文本序列可以为一个短语、一个句子或者一个段落。

在一个实施例中，步骤240可以包括：针对每一标准文本序列，获取该标准文本序列与所述中间结果中共同包含的文本单位的数目与所述中间结果中包含的所有文本单位的数目的比值，作为所述中间结果与该标准文本序列的匹配度。

一个标准文本序列与所述中间结果中共同包含的文本单位的数目越多，说明该标准文本序列与所述中间结果越相似，所以可以将标准文本序列与所述中间结果中共同包含的文本单位的数目与所述中间结果中包含的所有文本单位的数目的比值作为中间结果与标准文本序列的匹配度。

在一个实施例中，步骤240可以包括：利用预设的词典分别为所述中间结果与预设的标准文本库中的每一标准文本序列建立向量；针对每一标准文本序列，将该标准文本序列的向量与所述中间结果的向量之间的欧式距离作为该标准文本序列与所述中间结果的匹配度。词典中记录了每一词对应的向量元素值，语义相似的词对应的向量元素值相近。比如，所述中间结果为“我&爱&你”，为该中间结果生成的向量可以为(35，450，37)，标准文本库中的一个标准文本序列为“我喜欢你”，为该标准文本序列生成的向量可以为(35，452，37)，则可以通过计算两个向量的欧式距离，得到所述中间结果与该标准文本序列的相似度。

步骤250，基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。

目标标准文本序列即所述标准文本库的各标准文本序列中被选为最终识别结果的标准文本序列，从这个意义上来说，目标标准文本序列与最终识别结果是相同的。

在一个实施例中，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：从所述标准文本库中获取对应的所述匹配度最大的标准文本序列作为目标标准文本序列，并将所述目标标准文本序列作为最终识别结果。

在一个实施例中，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：从所述标准文本库中获取对应的所述匹配度大于预定匹配度阈值的标准文本序列，作为候选标准文本序列；在各候选标准文本序列中任取一个作为目标标准文本序列，并将所述目标标准文本序列作为最终识别结果。

由于匹配度在某些情况下不能完全客观地衡量是否应当将一个标准文本序列选择作为目标标准文本序列，即最终识别结果，特别是当多个标准文本序列与所述中间结果的匹配度都足够大时，多个标准文本序列中匹配度较小的标准文本序列可能更适合作为最终识别结果。所以本实施例的好处在于，使与所述中间结果的匹配度足够大的标准文本序列都有相同的被选择为最终识别结果的可能性，提高了识别的公平性。

在一个实施例中，所述音频数据为问句音频数据，所述标准文本库为标准问题库，所述标准文本序列为标准问题，所述标准问题与标准解答对应，参考图3所示，在步骤250之后，所述方法还可以包括：步骤260，获取与所述最终识别结果对应的标准解答。

在一个实施例中，标准问题和对应的标准解答在所述标准问题库中对应存储，通过查询所述标准问题库，在所述标准问题库中获取与所述最终识别结果(即选出的标准问题)对应存储的标准解答作为与所述最终识别结果对应的标准解答。

在一个实施例中，预先设有标准问题与标准解答对应关系数据库，所述标准问题与标准解答对应关系数据库中对应存储了标准问题的标识和对应的标准解答，所述标准文本库还包括与每一标准问题对应的标识，所述获取与所述最终识别结果对应的标准解答，包括：从所述标准文本库中获取与所述最终识别结果对应的标识；在所述标准问题与标准解答对应关系数据库中获取与所述标识对应存储的标准解答作为与所述最终识别结果对应的标准解答。

步骤270，将所述标准解答输出。

本端输出标准解答的方式可以是任意的。

在一个实施例中，获取的音频数据为本端从目标终端接收到的音频数据，所述将所述标准解答输出，包括：将所述标准解答发送至目标终端，以使目标终端能够显示所述标准解答。

在一个实施例中，本端具有显示屏幕，所述将所述标准解答输出，包括：将所述标准解答打印至本端的显示屏幕上。

在一个实施例中，本端具有显示单元，所述将所述标准解答输出，包括：将包含所述标准解答的弹窗推送至本端的显示单元。

在一个实施例中，所述将所述标准解答输出，包括：根据预设的电子邮箱地址将所述标准解答通过邮件的方式发送至预设的电子邮箱。

在一个实施例中，对于图3所示实施例，所述匹配度为第一匹配度，所述标准问题库还包括与每一标准问题对应的标准音频数据，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：基于所述第一匹配度，在所述标准问题库的各标准问题中选出候选标准问题；在所述标准文本库中获取与每一候选标准问题对应的标准音频数据；确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度；根据各候选标准问题对应的标准音频数据的第二匹配度，在各候选标准问题中选出目标标准问题作为最终识别结果。

本实施例的好处在于，在根据第一匹配度选出若干候选标准问题的基础上，进一步通过根据标准音频数据和问句音频数据的第二匹配度来选出目标标准问题作为最终识别结果，使得最终识别结果的确定同时依赖于第一匹配度和第二匹配度两个要素，提高了获取的最终识别结果的准确率。

在一个实施例中，所述基于所述第一匹配度，在所述标准问题库的各标准问题中选出候选标准问题，包括：在所述标准问题库中选出对应的所述第一匹配度大于预设第一匹配度阈值的标准问题作为候选标准问题；所述根据各候选标准问题对应的标准音频数据的第二匹配度，在各候选标准问题中选出目标标准问题作为最终识别结果，包括：将对应的标准音频数据的第二匹配度最大的候选标准问题作为目标标准问题，并将所述目标标准问题作为最终识别结果。

在一个实施例中，所述确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度，包括：分别将所述标准音频数据和所述问句音频数据分成帧；提取每一帧音频数据的特征向量；根据所述标准音频数据和所述问句音频数据各帧音频数据的特征向量，分别构建所述问句音频数据和每一所述标准音频数据的特征矩阵；针对每一标准音频数据，确定该标准音频数据的特征矩阵与所述问句音频数据的特征矩阵的相似度，作为该标准音频数据与所述问句音频数据的匹配度。

在一个实施例中，在分别将所述标准音频数据和所述问句音频数据分成帧之前，所述方法还包括：在时间维度将所述标准音频数据伸缩至与所述问句音频数据相同的长度；所述分别将所述标准音频数据和所述问句音频数据分成帧，包括：分别将所述问句音频数据和伸缩后的所述标准音频数据分成帧。

本实施例的好处在于，通过对所述标准音频数据进行时间维度上的伸缩，使伸缩后的所述标准音频数据和所述问句音频数据具有相同的长度，从而使得最终获得的标准音频数据和所述问句音频数据的特征矩阵的大小是相同的，从而易于计算特征矩阵的相似度。

在一个实施例中，提取的每一帧音频数据的特征向量为由MFCC特征组成的向量。

在一个实施例中，由于在获得初步识别结果之前已经将所述问句音频数据分成帧，所以可以直接获取问句音频数据被分成的帧。

在一个实施例中，所述根据所述标准音频数据和所述问句音频数据各帧音频数据的特征向量，分别构建所述问句音频数据和每一所述标准音频数据的特征矩阵，包括：针对所述问句音频数据或每一所述标准音频数据，将该音频数据中各帧音频数据的特征向量按照各帧音频数据的先后顺序排列，以得到该音频数据的特征矩阵；所述针对每一标准音频数据，确定该标准音频数据的特征矩阵与所述问句音频数据的特征矩阵的相似度，作为该标准音频数据与所述问句音频数据的匹配度，包括：分别将每一标准音频数据的特征矩阵和所述问句音频数据的特征矩阵展平为一维向量；针对每一标准音频数据，确定该标准音频数据的特征矩阵对应的一维向量与所述问句音频数据的特征矩阵的一维向量之间的欧式距离，作为该标准音频数据的特征矩阵与所述问句音频数据的特征矩阵的相似度，并将所述相似度作为该标准音频数据与所述问句音频数据的匹配度。

在一个实施例中，所述确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度，包括：在时间维度将每一所述标准音频数据伸缩至与所述问句音频数据相同的长度；在所述时间长度内选取预定数目个等距的时间点；分别获取每一标准音频数据与所述问句音频数据在选取的时间点上的声压值，并针对每一标准音频数据或所述问句音频数据，将该音频数据在各时间点上的声压值组成向量；针对每一标准音频数据，获取该标准音频数据的向量与所述问句音频数据的向量的欧式距离，作为该标准音频数据与所述问句音频数据的第二匹配度。

比如，若所述时间长度为200ms，而所述预定数目为9，那么在所述时间长度内的9个等距的时间点是这样确定的：首先确定在所述时间长度内选取的时间点的间距为：200ms/(9+1)＝20ms；然后，从所述时间长度的首端开始，每隔20ms选取一个时间点，直至选取的时间点为所述时间长度的尾端；将在所述时间长度的首端和尾端之间的所有时间点作为在所述时间长度内选取的预定数目个等距的时间点。

综上所述，根据图2实施例提供的语音识别方法，在将音频数据输入至语音识别模型得到语音识别模型的初步识别结果的基础上，通过将初步识别结果中对应的音频片段的声压满足预定条件的文本单位替换为占位符，得到中间结果，并利用中间结果进行最终识别，降低了在进一步确定最终识别结果时由于声压不符合一定要求的文本单位的存在导致的最终识别结果不准确的可能性，从而提高了语音识别的准确率。

图4是根据图2对应实施例示出的一实施例的步骤240的细节流程图。如图4所示，包括以下步骤：

步骤241，针对每一标准文本序列，获取该标准文本序列与所述中间结果中共同包含的文本单位的数目与所述中间结果中包含的所有文本单位的数目的比值，作为第一比值。

若一个标准文本序列中的一个文本单位存在于所述中间结果中，则该文本单位为该标准文本序列与所述中间结果共同包含的文本单位。

步骤242，针对每一标准文本序列，在所述中间结果中确定出该标准文本序列与所述中间结果中共同包含的各文本单位之间的占位符，作为目标占位符。

中间结果中对应的音频片段的声压满足预定条件的文本单位已经被替换为占位符，所以在所述中间结果中，标准文本序列与所述中间结果中共同包含的各文本单位彼此之间也可能存在占位符。

步骤243，针对每一标准文本序列，针对每一目标占位符，在所述中间结果中获取该目标占位符的前后两个文本单位并确定该标准文本序列中与该前后两个文本单位相同的前后两个文本单位之间是否存在占位符。

目标占位符是基于中间结果和标准文本序列共同包含的文本单位来确定的，所以所述中间结果中目标占位符的前后两个文本单位在对应的标准文本序列中也存在相同的文本单位，并且对应相同的文本单位之间可能存在占位符。

步骤244，如果是，将所述占位符标记为对应占位符。

步骤245，针对每一标准文本序列，获取针对该标准文本序列确定的对应占位符的数目与目标占位符的数目的比值，作为第二比值。

对应占位符根据目标占位符对应选择出来的，所以对应占位符的数目一般小于标占位符的数目。

步骤246，基于针对每一标准文本序列获取的所述第一比值和所述第二比值，确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度。

在一个实施例中，针对每一标准文本序列，确定针对该标准文本序列获取的所述第一比值和所述第二比值的加权和，作为所述中间结果与该标准文本序列的匹配度。

综上所述，图4所示实施例的好处在于，通过综合文本单位数目的比值和对应占位符数目的比值两个维度的指标来共同确定中间结果与标准文本序列的匹配度，在一定程度上提高了确定出的匹配度的准确性。

本申请还提供了一种语音识别装置，以下是本申请的装置实施例。

图5是根据一示例性实施例示出的一种语音识别装置的框图。如图5所示，装置500包括：

输入模块510，被配置为将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果；

第一确定模块520，被配置为确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段；

替换模块530，被配置为针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果；

第二确定模块540，被配置为确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度；

识别模块550，被配置为基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。

根据本申请的第三方面，还提供了一种计算设备，执行上述任一所示的语音识别方法的全部或者部分步骤。该计算设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一个示例性实施例所示出的语音识别方法。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本申请的这种实施方式的计算设备600。图6显示的计算设备600仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算设备600以通用计算设备的形式表现。计算设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(ROM)623。

存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

计算设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该计算设备600交互的设备通信，和/或与使得该计算设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，计算设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与计算设备600的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请的第四方面，还提供了一种计算机非易失性可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图7所示，描述了根据本申请的实施方式的用于实现上述方法的计算机非易失性可读存储介质700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，计算机非易失性可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种语音识别方法，包括：

将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果；

确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段；

针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果；

确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度；

基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。
根据权利要求1所述的方法，其中，所述音频数据为问句音频数据，所述标准文本库为标准问题库，所述标准文本序列为标准问题，所述标准问题与标准解答对应，在基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果之后，所述方法还包括：

获取与所述最终识别结果对应的标准解答；

将所述标准解答输出。
根据权利要求2所述的方法，其中，所述匹配度为第一匹配度，所述标准问题库还包括与每一标准问题对应的标准音频数据，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：

基于所述第一匹配度，在所述标准问题库的各标准问题中选出候选标准问题；

在所述标准文本库中获取与每一候选标准问题对应的标准音频数据；

确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度；

根据各候选标准问题对应的标准音频数据的第二匹配度，在各候选标准问题中选出目标标准问题作为最终识别结果。
根据权利要求2所述的方法，其中，所述匹配度为第一匹配度，所述标准问题库还包括与每一标准问题对应的标准音频数据，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：

基于所述第一匹配度，在所述标准问题库的各标准问题中选出候选标准问题；

在所述标准文本库中获取与每一候选标准问题对应的标准音频数据；

确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度；

根据各候选标准问题对应的标准音频数据的第二匹配度，在各候选标准问题中选出目标标准问题作为最终识别结果。
根据权利要求1所述的方法，其中，所述预定条件为：与文本单位对应的音频片段的声压的平均值低于预设声压平均值阈值。
根据权利要求1所述的方法，其中，所述确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度，包括：

针对每一标准文本序列，获取该标准文本序列与所述中间结果中共同包含的文本单位的数目与所述中间结果中包含的所有文本单位的数目的比值，作为第一比值；

针对每一标准文本序列，在所述中间结果中确定出该标准文本序列与所述中间结果中共同包含的各文本单位之间的占位符，作为目标占位符；

针对每一标准文本序列，针对每一目标占位符，在所述中间结果中获取该目标占位符的前后两个文本单位并确定该标准文本序列中与该前后两个文本单位相同的前后两个文本单位之间是否存在占位符；

如果是，将所述占位符标记为对应占位符；

针对每一标准文本序列，获取针对该标准文本序列确定的对应占位符的数目与目标占位符的数目的比值，作为第二比值；

基于针对每一标准文本序列获取的所述第一比值和所述第二比值，确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度。
根据权利要求1所述的方法，其中，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：

从所述标准文本库中获取对应的所述匹配度最大的标准文本序列作为目标标准文本序列，并将所述目标标准文本序列作为最终识别结果。
一种语音识别装置，包括：

输入模块，被配置为将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果；

第一确定模块，被配置为确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段；

替换模块，被配置为针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果；

第二确定模块，被配置为确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度；

识别模块，被配置为基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。
根据权利要求8所述的装置，其中，所述音频数据为问句音频数据，所述标准文本库为标准问题库，所述标准文本序列为标准问题，所述标准问题与标准解答对应，所述识别模块还被配置为在基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果之后：

获取与所述最终识别结果对应的标准解答；

将所述标准解答输出。
根据权利要求9所述的装置，其中，所述匹配度为第一匹配度，所述标准问题库还包括与每一标准问题对应的标准音频数据，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：

基于所述第一匹配度，在所述标准问题库的各标准问题中选出候选标准问题；

在所述标准文本库中获取与每一候选标准问题对应的标准音频数据；

确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度；

根据各候选标准问题对应的标准音频数据的第二匹配度，在各候选标准问题中选出目标标准问题作为最终识别结果。
根据权利要求10所述的装置，其中，所述确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度，包括：

分别将所述标准音频数据和所述问句音频数据分成帧；

提取每一帧音频数据的特征向量；

根据所述标准音频数据和所述问句音频数据各帧音频数据的特征向量，分别构建所述问句音频数据和每一所述标准音频数据的特征矩阵；

针对每一标准音频数据，确定该标准音频数据的特征矩阵与所述问句音频数据的特征矩阵的相似度，作为该标准音频数据与所述问句音频数据的匹配度。
根据权利要求8所述的装置，其中，所述预定条件为：与文本单位对应的音频片段的声压的平均值低于预设声压平均值阈值。
根据权利要求8所述的装置，其中，所述确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度，包括：

针对每一标准文本序列，获取该标准文本序列与所述中间结果中共同包含的文本单位的数目与所述中间结果中包含的所有文本单位的数目的比值，作为第一比值；

针对每一标准文本序列，在所述中间结果中确定出该标准文本序列与所述中间结果中共同包含的各文本单位之间的占位符，作为目标占位符；

针对每一标准文本序列，针对每一目标占位符，在所述中间结果中获取该目标占位符的前后两个文本单位并确定该标准文本序列中与该前后两个文本单位相同的前后两个文本单位之间是否存在占位符；

如果是，将所述占位符标记为对应占位符；

针对每一标准文本序列，获取针对该标准文本序列确定的对应占位符的数目与目标占位符的数目的比值，作为第二比值；

基于针对每一标准文本序列获取的所述第一比值和所述第二比值，确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度。
根据权利要求8所述的装置，其中，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：

从所述标准文本库中获取对应的所述匹配度最大的标准文本序列作为目标标准文本序列，并将所述目标标准文本序列作为最终识别结果。
一种计算设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行：

将获取的音频数据输入至预先建立的语音识别模型，得到所述语音识别模型输出的文本形式的初步识别结果；

确定所述初步识别结果中每一文本单位对应的所述音频数据中的音频片段；

针对所述初步识别结果中每一文本单位，若该文本单位对应的音频片段的声压满足预定条件，则将所述初步识别结果中的该文本单位替换为占位符，得到与所述初步识别结果对应的中间结果；

确定所述中间结果与预设的标准文本库中的每一标准文本序列的匹配度；

基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果。
根据权利要求15所述的计算设备，其中，所述音频数据为问句音频数据，所述标准文本库为标准问题库，所述标准文本序列为标准问题，所述标准问题与标准解答对应，在基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果之后，所述计算机可读指令被所述处理器执行时，使得所述处理器还执行：

获取与所述最终识别结果对应的标准解答；

将所述标准解答输出。
根据权利要求16所述的计算设备，其中，所述匹配度为第一匹配度，所述标准问题库还包括与每一标准问题对应的标准音频数据，所述基于所述匹配度，在所述标准文本库的各标准文本序列中选出目标标准文本序列作为最终识别结果，包括：

基于所述第一匹配度，在所述标准问题库的各标准问题中选出候选标准问题；

在所述标准文本库中获取与每一候选标准问题对应的标准音频数据；

确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度；

根据各候选标准问题对应的标准音频数据的第二匹配度，在各候选标准问题中选出目标标准问题作为最终识别结果。
根据权利要求17所述的计算设备，其中，所述确定每一标准音频数据与所述问句音频数据的匹配度，作为第二匹配度，包括：

分别将所述标准音频数据和所述问句音频数据分成帧；

提取每一帧音频数据的特征向量；

根据所述标准音频数据和所述问句音频数据各帧音频数据的特征向量，分别构建所述问句音频数据和每一所述标准音频数据的特征矩阵；

针对每一标准音频数据，确定该标准音频数据的特征矩阵与所述问句音频数据的特征矩阵的相似度，作为该标准音频数据与所述问句音频数据的匹配度。
根据权利要求15所述的计算设备，其中，所述预定条件为：与文本单位对应的音频片段的声压的平均值低于预设声压平均值阈值。
一种存储有计算机可读指令的计算机非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行权利要求1至7任一项所述的方法。