CN115691503A

CN115691503A - 语音识别方法、装置、电子设备和存储介质

Info

Publication number: CN115691503A
Application number: CN202211339042.9A
Authority: CN
Inventors: 张博洋
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-02-03

Abstract

本申请实施例公开了一种语音识别方法、装置、电子设备和存储介质。获取待识别语音；通过语音识别模型，将待识别语音转换成待校正文本；根据预设校正模板对待校正文本进行校正，得到目标文本。本申请实施例提高了语音识别结果的准确率。

Description

语音识别方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及智能信息处理技术，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

在一些基础业务的办理过程中，对于不同的用户，业务人员可能需要进行相同的基础信息录入，会耗费大量的人工，且错误率高。随着语音识别技术的发展，越来越多的基础业务录入已经被语音识别技术所代替。

现有技术中，通常通过隐式马尔可夫模型进行语音识别。但是，隐式马尔可夫模型无法准确表征语音内部的复杂结构，识别结果准确率低。

发明内容

本申请提供一种语音识别方法、装置、电子设备和存储介质，以提高语音识别结果的准确率。

第一方面，本申请实施例提供了一种语音识别方法，该语音识别方法包括：

获取待识别语音；

通过语音识别模型，将待识别语音转换成待校正文本；

根据预设校正模板对待校正文本进行校正，得到目标文本。

第二方面，本申请实施例还提供了一种语音识别装置，该语音识别装置包括：

语音获取模块，用于获取待识别语音；

语音转换模块，用于通过语音识别模型，将待识别语音转换成待校正文本；

文本校正模块，用于根据预设校正模板对待校正文本进行校正，得到目标文本。

第三方面，本申请实施例还提供了电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本申请实施例提供的任意一种语音识别方法。

第四方面，本申请实施例还提供了一种包括计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例提供的任意一种语音识别方法。

本申请通过获取待识别语音；通过语音识别模型，将待识别语音转换成待校正文本，将信息从语音的形式自动转换成文本的形式，降低人工成本，提高语音识别效率和准确率；根据预设校正模板对待校正文本进行校正，得到目标文本，可以根据预设校正模板对待校正文本进行进一步的校正，克服特定场景中的错误，进一步提高目标文本的准确性。因此通过本申请的技术方案，解决了隐式马尔可夫模型无法准确表征语音内部的复杂结构，识别结果准确率低的问题，达到了提高语音识别结果准确率的效果。

附图说明

图1是本申请实施例一中的一种语音识别方法的流程图；

图2是本申请实施例二中的一种语音识别方法的流程图；

图3是本申请实施例三中的一种语音识别方法的流程图；

图4是本申请实施例四中的一种语音识别装置的结构示意图；

图5是本申请实施例五中的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本申请实施例一提供的一种语音识别方法的流程图，本实施例可适用于将语音自动转换成文本的情况，该方法可以由语音识别装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中，例如，手机。

参见图1所示的语音识别方法，具体包括如下步骤：

S110、获取待识别语音。

待识别语音可以是通过具有语音采集功能的电子设备采集的语音。示例性的，电子设备可以是手机、移动终端或平板等。通过采集语音输入，获得待识别语音。获取待识别语音可以发生的多种场景中，例如，在一些电子设备中输入信息，人工录入表格信息或进行会议记录等，通过获取待识别语音，以及后续的语音识别，可以提高文本录入效率和准确率，降低人工成本。

S120、通过语音识别模型，将待识别语音转换成待校正文本。

语音识别模型可以为训练好的智能识别模型，用于将输入语音转换成文本。示例性的，语音识别模型可以为隐马尔可夫模型，神经网络模型或LAS(Listen，Attend，andSpell，一种语音识别模型)。待校正文本为通过语音识别模型识别后的文本，用于确定目标文本。具体的，将带识别语音输入到语音识别模型后，语音识别模型会输出对应的文本，也即待校正文本。

S130、根据预设校正模板对待校正文本进行校正，得到目标文本。

预设校正模板为预先设置的对待校正文本进行校正的模板，用于对特定场景下的待校正文本进行校正，以得到目标文本。具体的，预设校正模板可以由专业人员根据经验或试验进行设定，预设校正模板可以包括多个维度以满足多种不同的特定场景需求，提高目标文本的准确性。例如，特定场景可以是某种业务办理场景中，专业名词的录入。由于待识别语音的产生者专业知识的不足，可能会存在一些专业名词经常被说错的情况，因此可以预设相应的专业名词维度的模板，对该类错误进行校正。目标文本可以为对待校正文本进行校正后的文本。

示例性的，可以将待校正文本与预设校正模板进行逐个匹配，当匹配成功时，用预设校正模板中的文本替换待校正文本中匹配成功的文本，得到目标文本。校正过程可以对待校正文本先进行分词再匹配，还可以是逐个单词进行匹配，本申请对此不做具体限定。

由于待识别语音的产生者可能会存在发音不准确、用词不准确或者使用方言的情况，以及由于语音内部的复杂结构，文本可能会存在同音不同义的情况，都会导致通过语音识别模型对待识别语音进行识别后的输出不准确，也即待校正文本与待识别语音的含义存在差异，所以需要对待校正文本进行校正，以保证目标文本的含义与待识别语音相同。

本实施例的技术方案，通过获取待识别语音；通过语音识别模型，将待识别语音转换成待校正文本，将信息从语音的形式自动转换成文本的形式，降低人工成本，提高语音识别效率和准确率；根据预设校正模板对待校正文本进行校正，得到目标文本，可以根据预设校正模板对待校正文本进行进一步的校正，克服特定场景中的错误，进一步提高目标文本的准确性。因此通过本申请的技术方案，解决了隐式马尔可夫模型无法准确表征语音内部的复杂结构，识别结果准确率的问题，达到了提高语音识别结果准确率的效果。

实施例二

图2为本申请实施例二提供的一种语音识别方法的流程图方法的流程图，本实施例的技术方案在上述技术方案的基础上进一步细化。

进一步地，将“根据预设校正模板对待校正文本进行校正，得到目标文本”，细化为：“将待校正文本与预设校正模板中的候选短语进行匹配；将匹配成功的候选短语替换待校正文本中相匹配的原始短语，得到目标文本”，以提高目标文本的准确性。

参见图2所示的一种语音识别方法，包括：

S210、获取待识别语音。

S220、通过语音识别模型，将待识别语音转换成待校正文本。

S230、将待校正文本与预设校正模板中的候选短语进行匹配。

预设校正模板可以是预先构建的一种发音词典搜索图，可以用于根据音素对待校正文本进行校正。发音词典搜索图中包括音素与候选短语的映射关系。候选短语可以是预设校正模板中的短语，用于对待校正文本中的短语进行校正。具体的，可以对待校正文本进行分词，将分词得到的待匹配短语与预设校正模板中的候选短语进行匹配。更具体的，匹配可以是根据待匹配短语的音素，与预设校正模板中的音素进行匹配。

示例性的，预设校正模板中的音素与候选短语的映射关系可以是一对多，也可以是多对一。示例性的，若预设校正模板为方言校正模板，则在预设校正模板中的候选短语与音素的映射关系可以是一对多，也即多种方言的音素映射为同一候选短语。示例性的，若预设校正模板为同音词模板，则在预设校正模板中的候选短语与音素的映射关系可以是多对一，也即一种音素映射为多种候选短语。

在一个可选实施例中，预设校正模板中包括不同预设维度的候选短语。

不同预设维度的候选短语可以是基于不同的角度考虑，设置的预设校正模板。在不同的场景中存在不同语音识别难点，而且这种识别难点一般都是多方面的，因此需要从多个维度设置预设校正文本，以从不同的考虑角度对待校正文本进行校正。

通过预设校正模板中包括不同预设维度的候选短语，可以从不同的维度对待校正文本进行校正，提高校正维度的多样性。

在一个可选实施例中，预设维度包括方言维度、业务维度、专用词维度和同音词维度中的至少一种。

方言维度可以是根据待识别语音所采集的地理位置设置的预设维度。业务维度可以是根据待识别语音所采集的业务场景设置的预设维度。专用词维度可以是根据所采集的待识别语音中常出现的专业词设置的预设维度。同音词维度可以是根据所采集的待识别语音中的常见同音词设置的预设维度。具体的，对于多个同音词可以预设权重分配，以提高同音词匹配的准确性。

通过预设维度包括方言维度、业务维度、专用词维度和同音词维度中的至少一种，可以在方言维度、业务维度、专用词维度和同音词维度等常见的识别错误维度进行校正，提高校正的全面性，提高语音识别准确率。

S240、将匹配成功的候选短语替换待校正文本中相匹配的原始短语，得到目标文本。

匹配成功的候选短可以为对待校正文本进行分词后的待匹配短语的音素与候选短语的音素相同。若存在匹配成功的候选短语，则用匹配成功的候选短语替换待匹配短语，也即将匹配成功的候选短语替换待校正文本中相匹配的原始短语。将用匹配成功的候选短语替换后的文本作为目标文本。

本实施例的技术方案，通过将待校正文本与预设校正模板中的候选短语进行匹配；将匹配成功的候选短语替换待校正文本中相匹配的原始短语，得到目标文本，通过用匹配成功的候选短语对待校正文本中相匹配的原始短语进行替换，通过预设校正模板对待校正文本进行校正，提高目标文本的准确性。

实施例三

图3为本申请实施例三提供的一种语音识别方法的流程图方法的流程图，本实施例的技术方案在上述技术方案的基础上进一步细化。

进一步地，将“通过语音识别模型，将待识别语音转换成待校正文本”，细化为：“提取待识别语音的语音特征；将语音特征输入至语音识别模型，得到待校正文本”，以提高待校正文本的转换效率和准确性。

参见图3所示的一种语音识别方法，包括：

S310、获取待识别语音。

S320、提取待识别语音的语音特征。

语音特征可以用于表征音素的有效信息，用于对语音进行识别。通过提取待识别语音的语音特征可以降低语音识别模型的计算量，提高语音识别模型的准确率。示例性的，语音特征可以包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征和滤波器组(Filter bank，Fbank)特征等中的至少一种。

S330、将语音特征输入至语音识别模型，得到待校正文本。

将语音特征输入至语音识别模型中，语音识别模型输出待校正文本。示例性的，可以采用kaldi(专业名词，一种开源语音识别工具)的神经网络-隐式马尔可夫模型作为语音识别模型，根据输入的语音特征，得到待校正文本。kaldi作为目前使用最为广泛的开源语音识别工具之一，实现了语音识别和声纹识别等许多常用算法。kaldi拥有庞大的使用者基数，它的开源社区提供了大量的第三方功能模块，其可扩展和模块化的特性非常适合针对不同应用场景进行个性化定制，可以提高语音识别模型的准确率，降低语音识别模型的训练成本。

在一个可选实施例中，语音识别模型，通过以下方式训练得到：确定语音训练样本的音素标签；根据语音训练样本和相应音素标签，对预先构建的神经网络模型进行训练；将训练好的神经网络模型，作为语音识别模型。

语音训练样本可以是对待识别语音进行特征提取得到的Fbank特征。MFCC特征考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上滤波器组特征。Fbank特征提取方法相当于MFCC提取过程去掉最后的离散余弦变换(有损变换)。跟MFCC特征相比，Fbank特征保留了更多的原始语音数据，可以提高后续确定的语音识别模型的准确率。

音素标签是为语音训练样本的音素标记的标签。示例性的，可以通过维特比对齐得到音素标签。具体的，维特比对齐可以通过训练得到隐式马尔可夫的参数，即得到隐式马尔可夫的转移矩阵和发射概率。将语音训练样本和相应音素标签作为输入，对预先构建的神经网络模型进行有监督的训练。示例性的，预先构建的神经网络模型可以为神经网络-隐式马尔可夫模型。预先构建的神经网络模型的训练过程包括正向传播和反向传播两个过程。当将语音训练样本和相应音素标签输入预先构建的神经网络模型后，通过逻辑回归把输入分类到某一个状态中，就产生一个输出，与音素标签对比得到误差，进而进行反向传播，以训练预先构建的神经网络模型的权重参数，通过海量语音训练样本和相应的因素标签对预先构建的神经网络模型的训练，得到训练好的神经网络模型，并作为语音识别模型。

通过确定语音训练样本的音素标签，为模型的有监督训练做好准备；根据语音训练样本和相应音素标签，对预先构建的神经网络模型进行训练；将训练好的神经网络模型，作为语音识别模型，通过有监督的训练，提高得到的语音识别模型的准确率。

在一个可选实施例中，确定语音训练样本的音素标签，包括：提取语音训练样本的梅尔频率倒谱系数特征；根据梅尔频率倒谱系数特征，确定语音训练样本的音素标签。

MFCC特征提取方法相当于Fbank特征提取过程增加离散余弦变换，可以提高后续音素标签的效率和准确率。

将MFCC特征通过高斯混合-隐式马尔可夫模型进行训练后，使用维特比算法进行解码，最终可以使得语音训练样本中每一段的语音片段与该片段的状态做到一一应，获得最优路径的同时，确定语音训练样本的音素标签。

通过提取语音训练样本的梅尔频率倒谱系数特征，提高后续音素标签的确的效率和准确率；根据滤波器组特征，确定语音训练样本的音素标签，提高音素标签的准确性。

S340、根据预设校正模板对待校正文本进行校正，得到目标文本。

本实施例的技术方案，通过提取待识别语音的语音特征，降低后续语音识别模型的输入数据的维度，可以提高后续语音识别的效率；将语音特征输入至语音识别模型，得到待校正文本，语音特征更能表征待识别语音的音素特征，可以去除干扰因素，与输出的相关性更高，可以提高待校正文本的准确性。

实施例四

图4所示为本申请实施例四提供的一种语音识别装置的结构示意图，本实施例可适用于将语音自动转换成文本的情况，配置于电子设备中，该语音识别装置的具体结构如下：

语音获取模块410，用于获取待识别语音；

语音转换模块420，用于通过语音识别模型，将待识别语音转换成待校正文本；

文本校正模块430，用于根据预设校正模板对待校正文本进行校正，得到目标文本。

本实施例的技术方案，通过语音获取模块获取待识别语音；通过语音转换模块通过语音识别模型，将待识别语音转换成待校正文本，将信息从语音的形式自动转换成文本的形式，降低人工成本，提高语音识别效率和准确率；通过文本校正模块根据预设校正模板对待校正文本进行校正，得到目标文本，可以根据预设校正模板对待校正文本进行进一步的校正，克服特定场景中的错误，进一步提高目标文本的准确性。因此通过本申请的技术方案，解决了隐式马尔可夫模型无法准确表征语音内部的复杂结构，识别结果准确率低的问题，达到了提高语音识别结果准确率的效果。

可选的，文本校正模块430，包括：

候选短语匹配单元，用于将待校正文本与预设校正模板中的候选短语进行匹配；

目标文本确定单元，用于将匹配成功的候选短语替换待校正文本中相匹配的原始短语，得到目标文本。

可选的，预设校正模板中包括不同预设维度的候选短语。

可选的，预设维度包括方言维度、业务维度、专用词维度和同音词维度中的至少一种。

可选的，语音转换模块420，包括：

特征提取单元，用于提取待识别语音的语音特征；

待校正文本获取单元，用于将语音特征输入至语音识别模型，得到待校正文本。

可选的，语音识别装置，还包括模型训练模块，模型训练模块包括：

标签确定单元，用于确定语音训练样本的音素标签；

模型训练单元，用于根据语音训练样本和相应音素标签，对预先构建的神经网络模型进行训练；

模型确定单元，用于将训练好的神经网络模型，作为语音识别模型。

可选的，标签确定单元，包括：

音素特征提取子单元，用于提取语音训练样本的梅尔频率倒谱系数特征；

音素标签确定子单元，用于根据梅尔频率倒谱系数特征，确定语音训练样本的音素标签。

本申请实施例所提供的语音识别装置可执行本申请任意实施例所提供的语音识别方法，具备执行语音识别方法相应的功能模块和有益效果。

实施例五

图5为本申请实施例五提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器510、存储器520、输入装置530和输出装置540；电子设备中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块(例如，语音获取模块410、语音转换模块420和文本校正模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的语音识别方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例六

本申请实施例六还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种语音识别方法，该方法包括：获取待识别语音；通过语音识别模型，将待识别语音转换成待校正文本；根据预设校正模板对待校正文本进行校正，得到目标文本。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的语音识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，包括：

获取待识别语音；

通过语音识别模型，将所述待识别语音转换成待校正文本；

根据预设校正模板对所述待校正文本进行校正，得到目标文本。

2.根据权利要求1所述的方法，其特征在于，所述根据预设校正模板对所述待校正文本进行校正，得到目标文本，包括：

将所述待校正文本与所述预设校正模板中的候选短语进行匹配；

将匹配成功的候选短语替换所述待校正文本中相匹配的原始短语，得到所述目标文本。

3.根据权利要求2所述的方法，其特征在于，所述预设校正模板中包括不同预设维度的候选短语。

4.根据权利要求3所述的方法，其特征在于，所述预设维度包括方言维度、业务维度、专用词维度和同音词维度中的至少一种。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述通过语音识别模型，将待识别语音转换成待校正文本，包括：

提取所述待识别语音的语音特征；

将所述语音特征输入至所述语音识别模型，得到所述待校正文本。

6.根据权利要求5所述的方法，其特征在于，所述语音识别模型，通过以下方式训练得到：

确定所述语音训练样本的音素标签；

根据所述语音训练样本和相应所述音素标签，对预先构建的神经网络模型进行训练；

将训练好的神经网络模型，作为所述语音识别模型。

7.根据权利要求6所述的方法，其特征在于，所述确定所述语音训练样本的音素标签，包括：

提取所述语音训练样本的梅尔频率倒谱系数特征；

根据所述梅尔频率倒谱系数特征，确定所述语音训练样本的音素标签。

8.一种语音识别装置，其特征在于，包括：

语音获取模块，用于获取待识别语音；

语音转换模块，用于通过语音识别模型，将所述待识别语音转换成待校正文本；

文本校正模块，用于根据预设校正模板对所述待校正文本进行校正，得到目标文本。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种语音识别方法。