CN113593574A

CN113593574A - 一种语音识别方法、计算机程序产品及电子设备

Info

Publication number: CN113593574A
Application number: CN202110982677.XA
Authority: CN
Inventors: 吴振宗; 徐易楠; 康世胤; 许佳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-02
Anticipated expiration: 2041-08-25
Also published as: CN113593574B

Abstract

本申请提供一种语音识别方法、计算机程序产品及电子设备，所述方法应用于端到端语音识别模型，所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法通过将经过解码子模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽，并利用语言子模型根据编码子模型输出的特征序列对掩蔽序列解码得到识别文本。在端到端语音识别模型中引入语言子模型，可以有效减少多音字对识别结果的影响，从而提升了语音识别准确率。

Description

一种语音识别方法、计算机程序产品及电子设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、计算机程序产品及电子设备。

背景技术

自动语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术。相关技术中，端到端语音识别模型的建模过程较简单，语音信号通过该语音识别模型后可以直接映射到文本序列。其中一种较主流的端到端语音识别模型为基于CTC(Connectionist Temporal Classification)以及预测掩码的非自回归端到端语音识别模型，然而该模型输出识别结果准确率受限。

发明内容

本申请提供了一种语音识别方法、计算机程序产品及电子设备，可有效提高语音识别准确率。

根据本申请实施例的第一方面，提供一种语音识别方法，所述方法应用于端到端语音识别模型，所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法包括：

获取语音特征通过所述编码子模型进行编码后输出的特征序列，所述语音特征为语音信号进行特征提取后的特征；

获取所述特征序列通过所述解码子模型进行解码后输出的文本序列，所述文本序列包括至少一个文本单元；

至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元，得到掩蔽序列；

将所述掩蔽序列和所述特征序列输入所述语言子模型，以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码；

获取所述语言子模型输出的识别文本。

在一些例子中，所述语言子模型为经过利用口语化文本优化后的模型，所述口语化文本包括至少一个文本单元，所述所述语言子模型的优化过程包括：

针对所述口语化文本，按照预设的选中概率选定至少一个文本单元进行掩蔽处理；

将掩蔽处理后的口语化文本输入待优化的语言子模型；

根据损失函数更新所述待优化的语言子模型的参数。

在一些例子中，所述目标文本单元的数量不超过预设的数量阈值。

在一些例子中，所述语言子模型的训练过程包括：

将用于训练的文本进行分词处理；

按照预设的选中概率选定所述文本中的至少一个词语进行掩蔽处理；

将掩蔽处理后的文本输入待训练的语言子模型；

根据损失函数更新所述待训练的语言子模型的参数。

在一些例子中，所述掩蔽序列至少包括如下三类序列：

掩蔽所述目标文本单元的序列；

掩蔽所述目标文本单元以及其中一个与其相邻的文本单元的序列；

掩蔽所述目标文本单元以及另外一个与其相邻的文本单元的序列。

在一些例子中，所述语言子模型的解码过程包括：

所述语言子模型根据所述特征序列分别对所述三类序列解码，并确定各解码后的序列中置信度最高的为所述识别文本。

在一些例子中，所述语言子模型的解码过程包括不超过次数阈值的循环，所述解码过程的终止条件为：

所述循环的次数达到所述次数阈值；或

所述循环输出的文本序列中各文本单元的置信度均大于预设阈值。

在一些例子中，所述预设的选中概率根据所述解码子模型的解码准确率确定。

根据本申请实施例的第二方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

根据本申请实施例的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取语音特征通过编码子模型进行编码后输出的特征序列，所述语音特征为语音信号进行特征提取后的特征；

获取所述特征序列通过解码子模型进行解码后输出的文本序列，所述文本序列包括至少一个文本单元；

将所述掩蔽序列和所述特征序列输入语言子模型，以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码；

获取所述语言子模型输出的识别文本。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请提供了一种语音识别方法、计算机程序产品及电子设备，将经过解码子模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽，并利用语言子模型解码掩蔽序列得到识别文本。在端到端语音识别模型中引入语言子模型，可以有效减少多音字对识别结果的影响，从而提升了语音识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本申请的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一实施例示出的一种端到端语音识别模型的示意图。

图2是本申请根据一实施例示出的一种语音识别方法的流程图。

图3是本申请根据一实施例示出的文本序列和掩蔽序列示意图。

图4是本申请根据另一实施例示出的一种语音识别方法的流程图。

图5(a)是本申请根据一实施例示出的BERT语言模型解码过程的示意图。

图5(b)是本申请根据另一实施例示出的BERT语言模型解码过程的示意图。

图6(a)是本申请根据另一实施例示出的一种语音识别方法的流程图。

图6(b)是本申请根据另一实施例示出的BERT语言模型解码过程的示意图。

图7是本申请根据另一实施例示出的一种语音识别方法的流程图。

图8是本申请根据一实施例示出的一种电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

自动语音识别技术(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术。相关技术中，端到端语音识别模型的建模过程较简单，语音信号通过该语音识别模型后可以直接映射到文本序列。其中一种较主流的端到端语音识别模型为基于CTC算法以及预测掩码(mask)的非自回归端到端语音识别模型(以下简称mask-CTC模型)。Mask-CTC模型是一个基于编码器-解码器模型、预测掩码以及CTC训练结合的模型结构，然而该模型输出识别结果准确率受限。发明人发现，该模型输出的识别结果易受多音字影响，这也是其识别结果准确率受限的原因之一。语言模型可以用于解决确定哪个词序列的可能性更大的问题，或者解决给定若干个词，预测下一个最可能出现的词语的问题。在ASR领域中使用语言模型可以限制词的搜索范围，通过剔除不可能的词来极大地限制了匹配的过程，从而可以解决多音字带来识别准确率受限的问题。因此，本申请提出了一种语音识别方法，应用于如图1所示的端到端语音识别模型100中，端到端语音识别模型100包括编码子模型110、解码子模型120以及语言子模型130。所述方法包括如图2所示的步骤：

步骤210：获取语音特征通过所述编码子模型进行编码后输出的特征序列，所述语音特征为语音信号进行特征提取后的特征；

步骤220：获取所述特征序列通过所述解码子模型进行解码后输出的文本序列，所述文本序列包括至少一个文本单元；

步骤230：至少掩蔽所述文本序列中置信度低于预设阈值的目标文本单元，得到掩蔽序列；

步骤240：将所述掩蔽序列和所述特征序列输入所述语言子模型，以使所述语言子模型根据所述特征序列对所述掩蔽序列进行解码；

步骤250：获取所述语言子模型输出的识别文本。

本申请提供了一种语音识别方法，将经过解码子模型解码后的文本序列序列中置信度低于阈值的目标文本单元掩蔽，并利用语言子模型解码掩蔽序列得到识别文本。在端到端语音识别模型中引入语言子模型，可以有效减少多音字对识别结果的影响，从而提升了语音识别准确率。

在一些实施例中，端到端语音识别模型100可以是以mask-CTC模型为架构的语音识别模型，编码子模型110可以是mask-CTC模型中的编码器，解码子模型120可以是CTC模型，语言子模型130可以是BERT(Bidirectional Encoder Representation fromTransformers)语言模型。通过将mask-CTC模型中的解码器替代为BERT语言模型，使得mask-CTC模型中融合了语言模型，可以解决多音字带来的识别准确率受限的问题。

语音信号经过特征提取后可以得到语音特征，语音特征可以包括fbank(filterbank，滤波器组)、MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)或LPC(Linear Prediction Coefficient，线性预测系数)等，本申请在此不做限制。语音特征经过编码子模型110编码后可以得到特征序列，特征序列经过解码子模型120解码后可以得到文本序列。文本序列包括至少一个文本单元，文本单元是文本序列中最小的组成单元，若文本序列为中文句子，那么文本单元可以是单个汉字。如图3所示，为本申请一个实施例的文本序列的示意图，文本序列A包括T1-T5共5个文本单元，每个文本单元都有对应的置信度。将置信度小于预设阈值的目标文本单元掩蔽后可以获得掩蔽序列B。本领域技术人员可以根据实际需要设置阈值，例如，阈值可以是0.90，那么在上述例子中，可以掩蔽目标文本单元T3，获得掩蔽序列B。

掩蔽目标文本单元可以是将目标文本单元进行标记，如本实施例中以将目标文本单元T3标记为mask为例。在一些实施例中，若文本序列中有一个以上的文本单元的置信度小于置信度阈值，那么可以设置目标文本单元数量不超过预设的数量阈值。该数量阈值可以是固定值，并由本领域技术人员根据实际需要设定。也可以根据文本序列的长度动态调整，例如数量阈值可以是文本序列所包括的文本单元总数的20％，即目标文本单元的数量不超过文本单元总数量的20％。

掩蔽序列输入语言子模型后，语言子模型会根据特征序列对掩蔽序列进行解码。在一些实施例中，解码过程包括若干次的循环，每次循环都会输出一个输出序列，每次输出序列中各文本单元都有对应的置信度。解码过程的终止条件可以是循环的次数达到次数阈值，也可以是循环的输出序列中各文本单元的置信度均大于阈值。如在上述例子中，掩蔽序列B输入语言子模型后会经过若干次的循环，当循环次数到达预设的次数阈值，例如10次时，便会终止解码，并以最后一次循环的输出序列作为识别文本。又或者当某次循环的输出序列中各文本单元的置信度均大于阈值，如在上述例子中阈值可以是0.9，那么可以提前终止循环，并以当前循环的输出序列作为识别文本。如此，通过语言子模型解码输出的识别文本，其准确率高于文本序列的准确率。

在一些实施例中，本申请提供的一种语音识别方法可以应用在直播场景，并由直播服务器执行，语音信号可以从主播端接收。通过语音识别技术，可以将主播直播时的说话内容转化为文字，并实时生成字幕，提高用户体验。然而直播中通常包括大量口语化表达。由此，为了让语言子模型更好地适应直播场景，在一些实施例中，可以利用口语化文本来优化语言子模型，口语化文本包括至少一个文本单元，语言子模型的优化过程包括如图4所示的步骤：

步骤410：针对所述口语化文本，按照预设的选中概率选定至少一个文本单元进行掩蔽处理；

步骤420：将掩蔽处理后的口语化文本输入待优化的语言子模型；

步骤430：根据损失函数更新所述待优化的语言子模型的参数。

以语言子模型为BERT语言模型为例，选定至少一个文本单元进行的掩蔽处理可以按照BERT语言模型的默认mask机制进行，即一个句子中每个字或词的选中概率为15％，对于被选中的字或词，有80％的概率被掩蔽，即替换成[mask]，有10％的概率不做替换，有10％的概率随机替换为任意一个字或词。经过掩蔽处理后的口语化文本可以优化BERT语言模型，更新模型参数，使得BERT语言模型适用于口语化的直播场景。

此外，在一些实施例中，上述选中概率可以根据解码子模型的解码准确率确定。以解码子模型为CTC模型为例，CTC模型的解码准确率通常大于80％，那么选中概率可以上调至20％，即BERT语言模型在优化过程中，口语化文本中句子的每个词或字的选中概率为20％。

在模型的使用过程中，语言子模型如BERT语言模型，可以根据特征序列对掩蔽序列进行解码。在一些实施例中，当掩蔽序列出现连续两个以上的错误时，BERT语言模型难以更正，大大影响了输出结果的准确率。如图5(a)所示，为本申请一个实施例的BERT语言模型解码过程的示意图。CTC模型(图中未标出)解码后的文本序列为“今天天起真不错”，在该序列中文本单元为单个汉字。根据各文本单元的置信度，可以将“起”掩蔽，得到掩蔽序列“今天天mask真不错”。掩蔽序列输入BERT语言模型后，BERT语言模型可以根据上下文预测mask最可能出现的字为“气”，从而得到识别文本“今天天气真不错”。BERT语言模型能够准确地纠正文本序列中出现的单个错误。但对于连续两个以上的错误，如图5(b)所示，为本申请一个实施例的BERT语言模型解码过程的示意图。CTC模型(图中未标出)解码后的文本序列为“今天田契真不错”，在该序列中文本单元为单个汉字。根据各文本单元的置信度，可以将“契”掩蔽，得到掩蔽序列“今天田mask真不错”。这里需要说明的是，由于模型是根据文本单元的置信度确定出目标文本单元，目标文本单元可能是“田”，也可能是“契”，本实施例以目标文本单元为“契”作为例子。掩蔽序列输入BERT语言模型后，BERT语言模型可以根据上下文预测mask最可能出现的字为“七”，从而得到识别文本为“今天田七真不错”。显然，BERT语言模型难以更正文本序列出现的连续两个以上的错误。对此，在一些实施例中，可以对BERT语言模型的训练过程进行改进，BERT语言模型的训练过程包括如图6(a)所示的步骤：

步骤610：将用于训练的文本进行分词处理；

步骤620：按照预设的选中概率选定所述文本中的至少一个词语进行掩蔽处理；

步骤630：将掩蔽处理后的文本输入待训练的语言子模型；

步骤640：根据损失函数更新所述待训练的语言子模型的参数。

在本实施例中，BERT语言模型在训练时，首先将用于训练的文本进行分词处理，然后按照预设的选中概率选定文本中至少一个词语进行掩蔽处理。即文本中每个词的选中概率为15％，对于被选中的词，有80％的概率被掩蔽，即替换成[mask]，有10％的概率不做替换，有10％的概率随机替换为任意一个词。

此外，在一些实施例中，上述选中概率可以根据解码子模型的解码准确率确定。以解码子模型为CTC模型为例，CTC模型的解码准确率通常大于80％，那么选中概率可以上调至20％，即BERT语言模型在训练过程中，用于训练的文本中每个词的选中概率为20％。

相应地，在一些实施例中，掩蔽序列至少包括如下三类序列：掩蔽目标文本单元的序列；掩蔽目标文本单元以及其中一个与其相邻的文本单元的序列；掩蔽目标文本单元以及另外一个与其相邻的文本单元的序列。那么在BERT语言模型对掩蔽序列进行解码的过程中，BERT语言模型可以根据特征序列分别对上述三类序列进行解码，并确定各解码后的序列中置信度最高的为识别文本。其中，解码后的序列的置信度是指解码前的序列中被掩蔽的所有文本单元在解码后的平均置信度。

如图6(b)所示，为本申请一个实施例的BERT语言模型解码过程的示意图。CTC模型(图中未标出)解码后的文本序列为“今天田契真不错”，在该序列中文本单元为单个汉字。掩蔽序列包括如下三类序列：掩蔽目标文本单元的序列，即掩蔽“契”的序列；掩蔽目标文本单元以及其中一个与其相邻的文本单元的序列，即掩蔽“田”和”契”的序列；掩蔽目标文本单元以及另外一个与其相邻的文本单元的序列，即掩蔽“契”和“真”的序列。将上述三类序列输入BERT语言模型后，BERT语言模型可以根据上下文预测掩蔽“契”的序列中的mask最可能出现的字为“七”；掩蔽“田”和”契”的序列中两个mask最可能出现的词为“天气”；掩蔽“契”和“真”的序列中两个mask最可能出现的词为“奇珍”。每个被掩蔽的文本单元在经过BERT语言模型解码后都有相应的置信度，通过比较解码后的“契”的置信度、“天”与“气”的置信度的平均值、以及“奇”与“珍”的置信度的平均值，将置信度或置信度的平均值最高的对应的序列作为识别文本。

通过上述改进，BERT语言模型能有效地纠正文本序列出现的连续两个以上的错误。在一些实施例中，BERT语言模型可以并行地对上述三类序列进行解码，因此虽然BERT语言模型要解码的序列增多，但并不会影响解码效率，同时还提高了解码准确率。

本申请提供的语音识别方法，可以在端到端语言识别模型中融合了语言模型，有效减少了多音字对识别结果的影响，解码准确率有效提高了5％，使文本更加通顺。

此外，本申请还提供了一种语音识别方法，应用于直播服务器，所述直播服务器存储有端到端语音识别模型，所述端到端语音识别模型包括编码子模型、CTC模型以及BERT语言模型，所述方法包括如图7所示的步骤：

步骤710：接收主播端发送的语音信号，并对所述语言信号进行特征提取，获得语音特征；

步骤720：获取语音特征通过所述编码子模型进行编码后输出的特征序列；

步骤730：获取所述特征序列通过所述CTC模型进行解码后输出的文本序列，所述文本序列包括至少一个文本单元；

步骤740：确定所述文本序列中置信度低于预设阈值的目标文本单元，并获得以下三类掩蔽序列：掩蔽所述目标文本单元的序列；掩蔽所述目标文本单元以及其中一个与其相邻的文本单元的序列；掩蔽所述目标文本单元以及另外一个与其相邻的文本单元的序列；

步骤750：将所述三类掩蔽序列和所述特征序列输入所述BERT语言模型，以使所述BERT语言模型根据所述特征序列分别对所述三类掩蔽序列解码；

其中，解码过程包括不超过次数阈值的循环，解码过程的终止条件为所述循环的次数达到所述次数阈值；或所述循环的输出序列中各文本单元的置信度均大于预设阈值。

步骤760：确定各解码后的序列中置信度最高的为所述识别文本。

上述BERT语言模型为经过口语化文本优化的模型，且用于训练的文本进行了分词处理。具体实现方式参见上文实施例，本申请在此不再赘述。

本申请提供的一种语音识别方法，将经过CTC模型解码后的文本序列中置信度低于阈值的目标文本单元掩蔽，并利用BERT语言模型解码掩蔽序列得到识别文本。在端到端语音识别模型中引入BERT语言模型，可以有效减少多音字对识别结果的影响，从而提升了语音识别准确率。同时由于BERT模型经过了口语化文本优化，以及训练的句子进行了分词处理，因此模型可以适应直播场景，且更准确更正初次解码序列出现的连续两个以上的错误，进一步提高了模型的适用性和识别准确率。

基于上述任意实施例所述的语音识别方法，本申请还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可用于执行上述任意实施例所述的语音识别方法。

基于上述任意实施例所述的语音识别方法，本申请还提供了如图8所示的一种电子设备的结构示意图。如图8，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，处理器被配置为：

获取所述语言子模型输出的识别文本。

将掩蔽处理后的口语化文本输入待优化的语言子模型；

根据损失函数更新所述待优化的语言子模型的参数。

在一些例子中，所述语言子模型的训练过程包括：

将用于训练的文本进行分词处理；

将掩蔽处理后的文本输入待训练的语言子模型；

根据损失函数更新所述待训练的语言子模型的参数。

在一些例子中，所述掩蔽序列至少包括如下三类序列：

掩蔽所述目标文本单元的序列；

在一些例子中，所述处理器被配置为：

所述循环的次数达到所述次数阈值；或

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

Claims

1.一种语音识别方法，其特征在于，所述方法应用于端到端语音识别模型，所述端到端语音识别模型包括编码子模型、解码子模型以及语言子模型；所述方法包括：

获取所述语言子模型输出的识别文本。

2.根据权利要求1所述的方法，其特征在于，所述语言子模型为经过利用口语化文本优化后的模型，所述口语化文本包括至少一个文本单元，所述所述语言子模型的优化过程包括：

将掩蔽处理后的口语化文本输入待优化的语言子模型；

根据损失函数更新所述待优化的语言子模型的参数。

3.根据权利要求1所述的方法，其特征在于，所述目标文本单元的数量不超过预设的数量阈值。

4.根据权利要求1所述的方法，其特征在于，所述语言子模型的训练过程包括：

将用于训练的文本进行分词处理；

将掩蔽处理后的文本输入待训练的语言子模型；

根据损失函数更新所述待训练的语言子模型的参数。

5.根据权利要求4所述的方法，其特征在于，所述掩蔽序列至少包括如下三类序列：

掩蔽所述目标文本单元的序列；

6.根据权利要求5所述的方法，其特征在于，所述语言子模型的解码过程包括：

7.根据权利要求1所述的方法，其特征在于，所述语言子模型的解码过程包括不超过次数阈值的循环，所述解码过程的终止条件为：

所述循环的次数达到所述次数阈值；或

8.根据权利要求2或4所述的方法，其特征在于，所述预设的选中概率根据所述解码子模型的解码准确率确定。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取所述语言子模型输出的识别文本。