CN115881104A

CN115881104A - 基于热词编码的语音识别方法、装置和存储介质

Info

Publication number: CN115881104A
Application number: CN202211467357.1A
Authority: CN
Inventors: 方昕; 李永超
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-31

Abstract

一种基于热词编码的语音识别方法、装置和存储介质，方法包括：获取待识别语音和热词文本；针对待识别语音提取语音特征，并对语音特征进行编码，得到语音向量；针对热词文本提取文本特征，并对文本特征进行编码，得到热词文本向量；获取热词文本的发音音素，针对发音音素提取音素特征，并对音素特征进行编码，得到热词音素向量；计算语音向量的注意力权重，并基于语音向量的注意力权重计算语音上下文信息向量；将热词文本向量和热词音素向量进行融合，得到融合后的向量，计算融合后的向量的注意力权重，并基于融合后的向量的注意力权重计算热词上下文信息向量；对语音上下文信息向量和热词上下文信息向量进行解码，得到待识别语音的语音识别结果。

Description

基于热词编码的语音识别方法、装置和存储介质

技术领域

本申请涉及语音识别技术领域，更具体地涉及一种基于热词编码的语音识别方法、装置和存储介质。

背景技术

在语音识别任务中，端到端建模方法具有声学和语言联合建模的优点，结合互联网时代累计的海量语音数据，在大数据的加持下，声学语言联合建模的端到端语音识别已经超越了声学和语言分开建模的传统语音识别，成为现阶段最优的语音识别系统。

编码器-解码器(Encoder-Decoder)语音识别模型在通用场景下的准确率已经达到可用水平，但在一些领域垂类上的识别效果依然存在较大差距。例如在翻译机、语音助手等涉及到海量热词识别的场景，这些热词一般是指命名实体类单词，包括人名、地名、机构名、音乐名等。由于热词本身具有稀疏性和个异性，在模型训练数据里面出现的样本数量要明显低于其他常见单词，因此识别模型对于热词的拟合能力不足，导致通用热词的识别效果比较差。

在自动语音识别技术(Automatic Speech Recognition，简称为ASR)中，一个用户说话的内容取决于他所处的上下文，通常这种上下文可以由一系列的单词所代表，一种主流的做法是将上下文信息建模到Encoder-Decoder模型里面，通过提供一系列上下文热词来提升识别效果，这种方案称为基于上下文的听、注意力、拼写(Contextual Listen,Attend and Spell，简称为CLAS)框架。

基于CLAS框架的热词识别算法主要存在以下问题：偏置解码器(bias encoder)是直接对热词的文字进行建模，与音频发音单元的建模颗粒度不一致，模型学习这种端到端映射关系非常困难，导致模型对于不同热词的区分性较差；CLAS模型训练时只包括正例热词(bias)和无热词(nobias)两种场景，没有考虑到实际应用场景中相似热词对当前热词的干扰，容易造成热词误触发问题；CLAS模型采用端到端训练方式，偏置解码器同样也只能使用等量的平行数据训练，当热词在训练语料里边比较稀疏的情况下，偏置解码器也不能得到充分的训练，泛化能力比较差，对于热词编码不够准确，对于比较稀疏的热词难以解码出来。

发明内容

为了解决上述问题中的至少一个而提出的了本申请。根据本申请一方面，提供了一种基于热词编码的语音识别方法，所述方法包括：获取待识别语音和热词文本；针对所述待识别语音提取语音特征，并对所述语音特征进行编码，得到语音向量；针对所述热词文本提取文本特征，并对所述文本特征进行编码，得到热词文本向量；获取所述热词文本的发音音素，针对所述发音音素提取音素特征，并对所述音素特征进行编码，得到热词音素向量；计算所述语音向量的注意力权重，并基于所述语音向量的注意力权重计算语音上下文信息向量；将所述热词文本向量和所述热词音素向量进行融合，得到融合后的向量，计算所述融合后的向量的注意力权重，并基于所述融合后的向量的注意力权重计算热词上下文信息向量；对所述语音上下文信息向量和所述热词上下文信息向量进行解码，得到所述待识别语音的语音识别结果。

在本申请的一个实施例中，所述对所述文本特征进行编码和对所述音素特征进行编码是由热词编码器实现的，所述热词编码器是基于额外的文本数据通过预训练而得到的。

在本申请的一个实施例中，所述热词编码器包括热词文本编码器和热词音素编码器，其中：所述热词文本编码器用于对所述文本特征进行编码，所述热词文本编码器的初始化参数是基于第一BERT预训练模型得到的，所述第一BERT预训练模型是基于单语文本数据训练得到的；所述热词音素编码器用于对所述音素特征进行编码，所述热词音素编码器是基于第二BERT预训练模型得到的，所述第二BERT预训练模型是基于所述单语文本数据对应的音素数据训练得到的。

在本申请的一个实施例中，所述热词音素编码器包括长短时记忆网络或者变换器网络。

在本申请的一个实施例中，所述热词音素编码器针对所述音素特征输出向量序列；当所述热词音素编码器包括长短时记忆网络时，所述热词音素向量为所述向量序列中的最后一个向量；当所述热词音素编码器包括变换器网络时，所述热词音素向量为所述向量序列中的第一个向量。

在本申请的一个实施例中，所述对所述文本特征进行编码和对所述音素特征进行编码是由热词编码器实现的，训练所述热词编码器的热词训练样本包括正例热词样本、反例热词样本和无热词样本。

在本申请的一个实施例中，所述反例热词样本包括与所述正例热词样本拼写相近的样本、发音相近的样本或者解码串扰的样本。

在本申请的一个实施例中，所述正例热词样本、所述反例热词样本和所述无热词样本各自的训练权重不同。

在本申请的一个实施例中，所述热词文本包括命名实体文本。

在本申请的一个实施例中，所述热词文本的发音音素是通过查询发音词典来获取的。

根据本申请另一方面，提供了一种基于热词编码的语音识别装置，所述装置包括：特征提取模块，用于获取待识别语音和热词文本，针对所述待识别语音提取语音特征，针对所述热词文本提取文本特征，获取所述热词文本的发音音素，针对所述发音音素提取音素特征；音频编码器，用于对所述语音特征进行编码，得到语音向量；热词编码器，用于对所述文本特征进行编码，得到热词文本向量，并所述音素特征进行编码，得到热词音素向量；第一注意力模块，用于计算所述语音向量的注意力权重，并基于所述语音向量的注意力权重计算语音上下文信息向量；融合模块，用于将所述热词文本向量和所述热词音素向量进行融合，得到融合后的向量；第二注意力模块，用于计算所述融合后的向量的注意力权重，并基于所述融合后的向量的注意力权重计算热词上下文信息向量；解码器，用于对所述语音上下文信息向量和所述热词上下文信息向量进行解码，得到所述待识别语音的语音识别结果。

在本申请的一个实施例中，所述热词编码器是基于额外的文本数据通过预训练而得到的。

在本申请的一个实施例中，训练所述热词编码器的热词训练样本包括正例热词样本、反例热词样本和无热词样本。

根据本申请再一方面，提供了一种基于热词编码的语音识别装置，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行上述基于热词编码的语音识别方法。

根据本申请又一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时，执行上述基于热词编码的语音识别方法。

根据本申请实施例的基于热词编码的语音识别方法和装置通过对热词及其发音信息进行联合编码，能够提高对稀疏实体的热词识别准确率。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出CLAS框架模型结构的示意图。

图2示出根据本申请实施例的基于热词编码的语音识别方法的示意性流程图。

图3示出根据本申请实施例的基于热词编码的语音识别方法所采用的框架模型结构的示意图。

图4示出根据本申请一个实施例的基于热词编码的语音识别装置的示意性结构框图。

图5示出根据本申请另一个实施例的基于热词编码的语音识别装置的示意性结构框图。

具体实施方式

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其他实施例都应落入本申请的保护范围之内。

首先，参照图1描述CLAS框架模型结构的示意图。如图1所示，CLAS框架的模型结构100包括音频编码器110、偏置编码器120、注意力模块130、偏置注意力模块140、解码器150和分类网络160。CLAS框架的模型结构100是在标准的Encoder-Decoder模型上引入了偏置编码器120，对热词上下文信息进行编码，得到每个热词文本的向量表示，然后通过增加的偏置注意力模块140的计算来选择相关的热词进行解码，在解码器150输出预测的每一步去动态选择相关的热词上下文信息，并用来修改解码器150的目标单词输出分布和解码路径，从而让音频中相关热词解码出来，输出到识别结果里面，能够提高热词识别效果。

基于上述CLAS框架的热词识别算法主要存在以下问题：第一，偏置注意力模块是直接对热词的文字进行建模，与音频发音单元的建模颗粒度不一致，模型学习这种端到端映射关系非常困难，导致模型对于不同热词的区分性较差；第二，CLAS模型训练时只包括正例热词样本(bias)和无热词样本(nobias)两种场景，没有考虑到实际应用场景中相似热词对当前热词的干扰，容易造成热词误触发问题；第三，CLAS模型采用端到端训练方式，偏置编码器同样也只能使用等量的平行数据训练，当热词在训练语料里边比较稀疏的情况下，偏置编码器也不能得到充分的训练，泛化能力比较差，对于热词编码不够准确，对于比较稀疏的热词难以解码出来。

基于此，本申请提供了一种基于热词编码的语音识别方案，能够解决上述问题中的至少一个。下面结合图2到图5来描述。

图2示出了根据本申请实施例的基于热词编码的语音识别方法200的示意性流程图。如图2所示，基于热词编码的语音识别方法200可以包括如下步骤：

在步骤S210，获取待识别语音和热词文本。

在步骤S220，针对待识别语音提取语音特征，并对语音特征进行编码，得到语音向量。

在步骤S230，针对热词文本提取文本特征，并对文本特征进行编码，得到热词文本向量。

在步骤S240，获取热词文本的发音音素，针对发音音素提取音素特征，并对音素特征进行编码，得到热词音素向量。

在步骤S250，计算语音向量的注意力权重，并基于语音向量的注意力权重计算语音上下文信息向量。

在步骤S260，将热词文本向量和热词音素向量进行融合，得到融合后的向量，计算融合后的向量的注意力权重，并基于融合后的向量的注意力权重计算热词上下文信息向量。

在步骤S270，对语音上下文信息向量和热词上下文信息向量进行解码，得到待识别语音的语音识别结果。

在本申请的实施例中，基于用户输入获取待识别语音和热词文本。其中，热词文本可以是用户通讯录人名、音乐名、地名等用户相关的字词文本。用户输入的热词文本可以包括一个或多个热词。在对待识别语音进行识别时，不仅对热词文本的特征进行编码得到热词文本向量，还对热词对应的发音音素进行编码得到热词音素向量，然后基于热词文本向量和热词音素向量这两者融合后得到的向量计算注意力权重以计算热词上下文信息向量。由于是联合热词文本和热词发音信息进行联合编码，因此相对于仅依赖热词文本的编码，能够提高语音识别中对热词识别的准确率。

在本申请的实施例中，步骤S220中针对待识别语音提取的语音特征可以包括感知线性预测(Perceptual Linear Predictive，简称为PLP)特征、梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，简称为MFCC)特征、滤波器组(Filter bank)特征等。

在一个示例中，步骤S220中针对待识别语音提取的语音特征为滤波器组特征。例如，某句语音数据的语音特征序列可表示为X＝{x₁,…,x_k,…,x_K}。其中，x_k表示语音特征序列X中第k帧语音特征向量(在本文中可简称为语音向量)，在一个示例中可包括40维的滤波器组特征，K为总语音帧数目。

在本申请的实施例中，步骤S220中对语音特征进行编码可以由音频编码器来执行。示例性地，音频编码器可以包括长短时记忆网络(Long Short-Term Memory，简称为LSTM)、卷积神经网络(Convolutional Neural Network，简称为CNN)、自注意力(Self-Attention)网络等等。

在对该音频编码器进行训练时，可以收集大量带文本标注的语音数据，并提取其语音特征，例如前文所述的感知线性预测特征、梅尔倒谱系数特征、滤波器组特征。以滤波器组特征为例，其对应的语音特征序列为上述的X＝{x₁,…,x_K,…,x_K}，其对应的文本标注序列为Y＝{y₀,…,y_t,…,y_T}。其中，y_t表示文本标注序列Y中第t个字符，T+1为该总文本标注的总字符数目。其中y₀为句子开始符“<s>”，y_T为句子结束符“</s>”。根据训练好的音频编码器，输入语音特征序列X＝{x₁,…,x_k,…,x_K}进行编码，得到一组表示音频信息的特征向量序列

即语音向量。

在本申请的实施例中，步骤S230中对热词的文本特征进行编码可以由热词文本编码器来执行。其中，热词文本编码器可以包括LSTM网络、变换器(Transformer)网络等。以中文语音识别为例，并用单个汉字作为建模单元，假设热词的内容是“语音识别”，其文本特征序列表示为Z＝{z₁,…,z_n,…,z_N}，通过热词文本编码器编码得到热词文本向量的表示序列

可以从序列里面抽取一个向量来表示当前热词文本的编码信息。例如，如果热词文本编码器是LSTM结构，则一般可以取最后一个向量/>

作为该热词文本的向量表示，如果是Transformer结构，一般取第一个向量/>

作为该热词文本的向量表示。如果有M个热词，则可以表示为/>

在本申请的实施例中，步骤S240中对热词的音素特征进行编码可以由热词音素编码器来执行。热词音素编码器是对热词的发音音素序列进行编码。其中，热词的发音音素可以是基于热词文本通过查询发音词典获取的。对于端到端识别模型，热词主要包括命名实体类单词，在平行训练数据中出现的频率比较低，如果采用发音音素进行建模，训练语料里面会存在同音的单词，提高稀疏热词的覆盖度，提高模型训练的泛化能力。热词音素编码器的网络结构与热词编码器的网络结构基本一致。也即，热词音素编码器可以包括LSTM网络、变换器(Transformer)网络等。热词音素编码器的输入序列可以为音素特征序列{g₁,…,g_n,…,g_N}，通过热词音素编码器编码得到热词音素向量的表示序列

可以从序列里面抽取一个向量来表示当前热词音素的编码信息。例如，如果热词音素编码器是LSTM结构，则一般可以取最后一个向量/>

作为该热词音素的向量表示，如果是Transformer结构，一般取第一个向量/>

作为该热词音素的向量表示。如果有M个热词，则可以表示为/>

在本申请的实施例中，步骤S250可以由注意力模块来执行，注意力模块可以用来计算解码器对于语音向量的注意力权重。示例性地，可以通过如下公式来计算语音向量的注意力权重

和语音上下文信息向量/>

在本申请的实施例中，步骤S260可以由偏置注意力模块来执行。偏置注意力模块对热词编码信息计算注意力权重分布，解码器根据注意力权重来判断热词的相关程度，权重越高热词的相关程度越大。具体地，偏置注意力模块将热词文本向量和热词音素向量进行融合后再计算注意力权重，得到热词上下文信息向量。示例性地，可以通过如下公式来计算融合后的向量的注意力权重

和热词上下文信息向量/>

h^b＝W^b[h^z,h^g]+b

其中，[h^z,h^g]是将热词文本向量和热词音素向量合并到一起，并且通过一个全连接层变换到h^b，将热词信息及其对应的音素信息编码融合到一起。偏置注意力模块通过上述公式计算得到每个热词的注意力权重

然后对每个热词的融合后的向量h^b进行加权求和得到热词上下文信息表示/>

最后/>

和/>

传递给解码器进行解码，如步骤S270所述的。

在本申请的实施例中，步骤S270可以由解码器来执行。示例性地，解码器可以包括LSTM网络、CNN网络、Self-Attention等。接着上述的示例，

和/>

传递给解码器，解码器可以解码，得到语音识别结果。示例性地，解码器的计算方式可以与通用encoder-decoder框架相同。例如，可通过如下公式得到解码结果：

以上示例性地示出了根据本申请实施例的基于热词编码的语音识别方法200的详细过程。可以结合图3更全面地理解上述过程。

图3示出了根据本申请实施例的基于热词编码的语音识别方法200可以采用的框架模型结构300的示意图。如图3所示，模型结构300可以包括音频编码器310、偏置编码器320、注意力模块330、偏置注意力模块340、解码器350、分类网络360、音素编码器370和全连接层380。其中，音频编码器310获取待识别语音的语音特征{x₁,…,x_k,…,x_K}，输出语音向量

语音向量/>

输入注意力模块330，得到语音上下文信息向量/>

偏置编码器320获取热词文本特征{z₁,…,z_n,…,z_N}，输出热词文本向量

音素编码器370获取热词音素特征{g₁,…,g_n,…,g_N}，输出热词音素向量/>

热词文本向量和热词音素向量通过全连接层380融合得到融合后的向量h^b，该向量输入偏置注意力模块340，得到热词上下文信息向量/>

语音上下文信息向量/>

和热词上下文信息向量/>

通过解码器350和分类网络360，得到语音识别结果。

在本申请的实施例中，前文所述的热词文本编码器(如前文所述的偏置编码器320)和热词音素编码器(如前文所述的音频编码器370)统称为热词编码器，热词编码器的训练流程可以包括如下步骤：

在步骤一，生成热词训练数据。首先可以从平行训练数据的标注文本里面抽取热词。原始CLAS框架采用随机抽取连续的ngram词组的方式作为训练热词。在本申请的实施例中，可以在此基础上采用一种抽取命名实体作为该句的热词，可以采用中文命名实体识别(Named Entity Recognition，简称为NER)工具将训练数据每一句话的实体(包括人名、地名、机构名)识别出来即可以得到对应的热词。这里存在一对多的情况，例如一句话可能包括多个热词，这时可以从中随机选取一个作为训练热词。同时在标注序列中的热词后面增加一个<bias>标签用于标识该热词，例如“语音识别<bias>”；然后将热词文本通过查询发音词典得到对应发音音素序列，最后可以得到用于模型训练的平行数据{语音，标注序列，热词序列，发音序列}。

在步骤二，构建热词训练样本，包括正例热词样本、反例热词样本和无热词样本。在本申请的实施例中，提出了一种反例热词训练算法，将发音相近、解码串扰的单词作为反例热词训练提升模型编码的区分能力。训练过程中一个批次(batch)里面包含n个训练样本，每个训练样本包含的热词有三种类型，正例热词、反例热词和无热词。其中，正例热词是指从当前训练样本中选取的一个集内热词；反例热词是指选取当前样本中发音相近的单词，或者解码结果串扰的单词；无热词是指当前训练样本不加热词。因此一个训练batch里面的热词列表包括{正例热词1，正例热词2，…，反例热词1，反例热词2，…，nobias}，其中nobias表示无热词标签。在实际解码过程中有可能存在所有的热词都与当前的语音无关，因此额外设置了一个可学习的标签nobias，这个标签对应不使用热词，即在解码时不使用任何热词信息。训练时针对每个热词类型都设置了不同的训练权重，其中a+b+c＝100％，如下表所示。

例如一个batch训练样本的热词列表包含60％正例热词、30％反例热词和10％无热词。传统CLAS框架训练方案只包含正例热词和无热词两种热词类型，模型训练时容易过拟合正例热词的训练模式，解码时有较大的概率选择热词列表里面拼写相近或者发音相近的热词，造成误触发问题，本申请提出反例热词训练方案，让模型训练时区分开正例样本和反例样本，偏置注意力模块对于不同热词权重计算更加准确，训练测试更加匹配，减少实际场景中不相关热词对于解码的误触发问题。

在步骤三，热词编码器预训练。在本申请的实施例中，热词文本编码器和热词音素编码器对于热词的编码能力非常重要，由于训练数据里面的热词是比较稀疏的，热词文本编码器和热词音素编码器训练过程中存在欠拟合问题，导致对相近热词信息编码区分性降低，影响偏置注意力模块权重计算的准确性，模型对稀疏热词的泛化性能不足。本申请采用的热词编码器预训练算法，类似于基于Transformer的双向编码器表征(BidirectionEcoder Representations from Transformers，简称为BERT)的预训练方法。一般情况下可以得到海量的单语文本数据，训练一个BERT预训练模型(称为第一BERT预训练模型)，作为热词文本编码器的初始化参数；同时将单语文本数据通过查询发音词典得到对应的音素序列，通过BERT预训练方案得到一个音素预训练模型(称为第二BERT预训练模型)，作为热词音素编码器的初始化参数。本申请提出的热词编码器预训练算法，使用额外的文本数据去预训练热词编码器，基于预训练模型强大的语义先验知识和上下文信息来提升模型对于热词及其音素序列编码的准确性，提高对稀疏热词的泛化性能，提升热词的识别效果。

在步骤四，使用步骤一和步骤二得到的平行训练数据，构建生成mini batch，然后热词文本编码器和热词音素编码器的参数分别使用步骤三预训练好的第一BERT预训练模型和第二BERT预训练模型进行初始化，最后通过梯度反向传播算法更新模型参数，训练收敛后得到模型。

在训练完成后，应用时，流程可以如下所述：首先，用户上传热词列表，这里的热词可以是用户通讯录人名、音乐名、地名等用户相关的字词，需要额外增加一个<nobias>标签来表示没有热词，通过偏置编码器编码得到每个热词的热词文本向量，查询热词发音后通过音素编码器编码得到每个热词的热词音素向量；然后，用户输入语音，通过音频编码器对语音特征进行编码，偏置注意力模块通过计算权重选择与语音内容相关的热词，并将热词信息向量表示输入到解码器模块进行解码；最后，解码器根据注意力模块得到的语音信息和偏置注意力模块得到的热词信息进行融合并解码，采用诸如集束搜索(Beam Search)解码算法(Beam Search解码与标准的基于注意力机制的端到端语音识别解码完全相同)，最后得到识别结果。

以上示例性地示出了根据本申请实施例的基于热词编码的语音识别方法200及其使用模型的训练和应用。基于上面的描述，根据本申请实施例的语音识别方法200通过对热词及其发音信息进行联合编码，能够提高对稀疏实体的热词识别准确率。此外，根据本申请实施例的语音识别方法200中使用的热词编码器可以使用额外的文本数据去预训练，基于预训练模型强大的语义先验知识和上下文信息来提升模型对于热词编码的准确性，提高对稀疏热词的泛化性能。此外，根据本申请实施例的语音识别方法200中使用的热词编码器可以采用反例热词训练算法，将发音相近、解码串扰的单词作为反例热词训练提升模型编码的区分能力，通过调整正例和反例训练权重，达到正向测试集效果和反向测试集效果的平衡，减少热词误触发问题。

下面结合图4和图5描述根据本申请另一方面提供的基于热词编码的语音识别装置，它们均可以用于执行前文的根据本申请实施例的基于热词编码的语音识别方法。下面逐一简要描述。

图4示出根据本申请一个实施例的基于热词编码的语音识别装置400的示意性结构框图。如图4所示，基于热词编码的语音识别装置400包括特征提取模块410、音频编码器420、热词编码器430、第一注意力模块440、融合模块450、第二注意力模块460和解码器470。其中，特征提取模块410用于获取待识别语音和热词文本，针对待识别语音提取语音特征，针对热词文本提取文本特征，获取热词文本的发音音素，针对发音音素提取音素特征；音频编码器420用于对语音特征进行编码，得到语音向量；热词编码器430用于对文本特征进行编码，得到热词文本向量，并音素特征进行编码，得到热词音素向量；第一注意力模块440用于计算语音向量的注意力权重，并基于语音向量的注意力权重计算语音上下文信息向量；融合模块450用于将热词文本向量和热词音素向量进行融合，得到融合后的向量；第二注意力模块460用于计算融合后的向量的注意力权重，并基于融合后的向量的注意力权重计算热词上下文信息向量；解码器470用于对语音上下文信息向量和热词上下文信息向量进行解码，得到待识别语音的语音识别结果。根据本申请实施例的基于热词编码的语音识别装置400可以用于执行前文的基于热词编码的语音识别方法200，本领域技术人员可以结合前文理解其结构和操作，为了简洁，此处不再赘述细节，仅描述一些主要操作。

在本申请的实施例中，热词编码器430是基于额外的文本数据通过预训练而得到的。

在本申请的实施例中，热词编码器430包括热词文本编码器和热词音素编码器(未在图4中示出)，其中：热词文本编码器用于对文本特征进行编码，热词文本编码器的初始化参数是基于第一BERT预训练模型得到的，第一BERT预训练模型是基于单语文本数据训练得到的；热词音素编码器用于对音素特征进行编码，热词音素编码器是基于第二BERT预训练模型得到的，第二BERT预训练模型是基于单语文本数据对应的音素数据训练得到的。

在本申请的实施例中，热词音素编码器包括长短时记忆网络或者变换器网络。

在本申请的实施例中，热词音素编码器针对音素特征输出向量序列；当热词音素编码器包括长短时记忆网络时，热词音素向量为向量序列中的最后一个向量；当热词音素编码器包括变换器网络时，热词音素向量为向量序列中的第一个向量。

在本申请的实施例中，训练热词编码器430的热词训练样本包括正例热词样本、反例热词样本和无热词样本。

在本申请的实施例中，反例热词样本包括与正例热词样本拼写相近的样本、发音相近的样本或者解码串扰的样本。

在本申请的实施例中，正例热词样本、反例热词样本和无热词样本各自的训练权重不同。

在本申请的实施例中，热词文本包括命名实体文本。

在本申请的实施例中，热词文本的发音音素是通过查询发音词典来获取的。

基于上面的描述，根据本申请实施例的语音识别装置400通过热词编码器对热词及其发音信息进行联合编码，能够提高对稀疏实体的热词识别准确率。此外，根据本申请实施例的语音识别装置400中使用的热词编码器可以使用额外的文本数据去预训练，基于预训练模型强大的语义先验知识和上下文信息来提升模型对于热词编码的准确性，提高对稀疏热词的泛化性能。此外，根据本申请实施例的语音识别装置400中使用的热词编码器可以采用反例热词训练算法，将发音相近、解码串扰的单词作为反例热词训练提升模型编码的区分能力，通过调整正例和反例训练权重，达到正向测试集效果和反向测试集效果的平衡，减少热词误触发问题。

图5示出根据本申请另一个实施例的基于热词编码的语音识别装置500的示意性结构框图。如图5所示，基于热词编码的语音识别装置500可以包括存储器510和处理器520，存储器510存储有由处理器520运行的计算机程序，计算机程序在被处理器520运行时，使得处理器520执行前文的根据本申请实施例的基于热词编码的语音识别方法200。本领域技术人员可以结合前文的内容理解根据本申请实施例的基于热词编码的语音识别装置500的具体操作，为了简洁，此处不再赘述具体的细节。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的基于热词编码的语音识别方法的相应步骤。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

基于上面的描述，根据本申请实施例的基于热词编码的语音识别方法和装置通过对热词及其发音信息进行联合编码，能够提高对稀疏实体的热词识别准确率。此外，根据本申请实施例的语音识别方法和装置中使用的热词编码器可以使用额外的文本数据去预训练，基于预训练模型强大的语义先验知识和上下文信息来提升模型对于热词编码的准确性，提高对稀疏热词的泛化性能。此外，根据本申请实施例的语音识别方法和装置中使用的热词编码器可以采用反例热词训练算法，将发音相近、解码串扰的单词作为反例热词训练提升模型编码的区分能力，通过调整正例和反例训练权重，达到正向测试集效果和反向测试集效果的平衡，减少热词误触发问题。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其他的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其他实施例中所包括的某些特征而不是其他特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于热词编码的语音识别方法，其特征在于，所述方法包括：

获取待识别语音和热词文本；

针对所述待识别语音提取语音特征，并对所述语音特征进行编码，得到语音向量；

针对所述热词文本提取文本特征，并对所述文本特征进行编码，得到热词文本向量；

获取所述热词文本的发音音素，针对所述发音音素提取音素特征，并对所述音素特征进行编码，得到热词音素向量；

计算所述语音向量的注意力权重，并基于所述语音向量的注意力权重计算语音上下文信息向量；

将所述热词文本向量和所述热词音素向量进行融合，得到融合后的向量，计算所述融合后的向量的注意力权重，并基于所述融合后的向量的注意力权重计算热词上下文信息向量；

对所述语音上下文信息向量和所述热词上下文信息向量进行解码，得到所述待识别语音的语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本特征进行编码和对所述音素特征进行编码是由热词编码器实现的，所述热词编码器是基于额外的文本数据通过预训练而得到的。

3.根据权利要求2所述的方法，其特征在于，所述热词编码器包括热词文本编码器和热词音素编码器，其中：

所述热词文本编码器用于对所述文本特征进行编码，所述热词文本编码器的初始化参数是基于第一BERT预训练模型得到的，所述第一BERT预训练模型是基于单语文本数据训练得到的；

所述热词音素编码器用于对所述音素特征进行编码，所述热词音素编码器是基于第二BERT预训练模型得到的，所述第二BERT预训练模型是基于所述单语文本数据对应的音素数据训练得到的。

4.根据权利要求3所述的方法，其特征在于，所述热词音素编码器包括长短时记忆网络或者变换器网络。

5.根据权利要求4所述的方法，其特征在于，所述热词音素编码器针对所述音素特征输出向量序列；

当所述热词音素编码器包括长短时记忆网络时，所述热词音素向量为所述向量序列中的最后一个向量；

当所述热词音素编码器包括变换器网络时，所述热词音素向量为所述向量序列中的第一个向量。

6.根据权利要求1-5中的任一项所述的方法，其特征在于，所述对所述文本特征进行编码和对所述音素特征进行编码是由热词编码器实现的，训练所述热词编码器的热词训练样本包括正例热词样本、反例热词样本和无热词样本。

7.根据权利要求1所述的方法，其特征在于，所述热词文本包括命名实体文本。

8.一种基于热词编码的语音识别装置，其特征在于，所述装置包括：

特征提取模块，用于获取待识别语音和热词文本，针对所述待识别语音提取语音特征，针对所述热词文本提取文本特征，获取所述热词文本的发音音素，针对所述发音音素提取音素特征；

音频编码器，用于对所述语音特征进行编码，得到语音向量；

热词编码器，用于对所述文本特征进行编码，得到热词文本向量，并所述音素特征进行编码，得到热词音素向量；

第一注意力模块，用于计算所述语音向量的注意力权重，并基于所述语音向量的注意力权重计算语音上下文信息向量；

融合模块，用于将所述热词文本向量和所述热词音素向量进行融合，得到融合后的向量；

第二注意力模块，用于计算所述融合后的向量的注意力权重，并基于所述融合后的向量的注意力权重计算热词上下文信息向量；

解码器，用于对所述语音上下文信息向量和所述热词上下文信息向量进行解码，得到所述待识别语音的语音识别结果。

9.一种基于热词编码的语音识别装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时，使得所述处理器执行如权利要求1-7中的任一项所述的基于热词编码的语音识别方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时，执行如权利要求1-7中的任一项所述的基于热词编码的语音识别方法。