CN116206596A

CN116206596A - 一种垂类领域端到端语音识别方法与装置

Info

Publication number: CN116206596A
Application number: CN202310201243.0A
Authority: CN
Inventors: 余兰林; 莫远秋; 余涛; 熊军林; 都海波; 李晨
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-02

Abstract

本发明提供了一种垂类领域端到端语音识别方法与装置，涉及智能语音技术领域，包括如下步骤：接收待识别语音信号，提取待识别语音信号的声学特征；将声学特征输入训练好的端到端语音识别模型中获取识别结果；通过编码器提取语音信号的高级声学表征，并通过与上下文感知矩阵融合得到上下文声学表征；通过上下文编码器将上下文短语映射成固定维度的字嵌入表征；通过编码器结合解码器提取音频对应文本的最终词嵌入表征并与所述上下文声学表征通过注意力机制进行融合，输出解码结果。本发明考虑上下文编码器同时考虑了上下文短语的字序列及发音序列，有利于提取更加具有区分性的词嵌入表征，缓解上下文短语量级的提升而导致的相似短语之间的串扰。

Description

一种垂类领域端到端语音识别方法与装置

技术领域

本发明涉及智能语音技术领域，尤其涉及一种垂类领域端到端语音识别方法与装置。

背景技术

作为人机交互的重要手段之一，语音识别(auto speechrecognition,ASR)技术已广泛应用于手机、音箱、大屏、车机等智能终端设备上。目前，语音识别方案可分为传统方案及端到端方案，传统方案由声学模型(acoustic model)、语言模型(language model)、发音词典(lexicon)及解码器(decoder)等相互独立的模块组成，端到端方案则是将传统方案中各个独立的模块融合到一个由编码器及解码器组成的神经网络模型中进行联合优化，直接将输入的声音信号转换成对应的文本序列。近年来，随着端到端语音识别技术的发展及相对于传统方案的优越性，端到端的语音识别方案已经成为业界使用的主流方案。在通用领域，端到端语音识别已经能够达到较好的识别效果，但是，在一些垂类领域(医学领域、金融领域等)，由于存在大量的专有名词且在训练集中出现的频率较低，这些专有名词通常被识别成发音相近的通用词汇，导致ASR模型对于这类专有名词识别效果较差。

为了提升端到端语音识别模型对垂类领域中专有名词的识别效果，现有端到端识别方案一般是在识别过程中动态融入上下文信息(contextual information)，增加模型对上下文的感知能力，进而根据提供的垂类上下文短语(如医学领域的药品名，金融领域的专有名词等)去提升识别效果。具体做法是首先在模型训练过程中随机抽取当前批次(batch)文本数据中的若干连续不定长文本作为当前batch数据的上下文短语，通过一个上下文编码器(context encoder)将每个短语映射成固定维度的词嵌入，然后采用attention注意力机制对词嵌入计算注意力得分，在模型输出预测的每一步根据attention计算得到的注意力得分对提供的上下文短语列表进行加权平均，去聚焦可用的上下文信息，对目标文本进行定向增强。而在推理阶段，根据提供的垂类领域上下文短语列表，对识别结果进行纠偏增强。

针对端到端语音识别方案在垂类领域识别效果较差的问题，现有方案一般是在端到端语音识别模型中增加一个上下文编码器，将提供的上下文短语映射成固定维度的词嵌入特征，在模型解码过程中通过注意力机制计算当前音频对于各个上下文短语的注意力得分并根据注意力得分将上下文短语对应的词嵌入特征进行加权和，并将加权和后的词嵌入特征融合到模型的解码过程中，进而使得模型根据当前的上下文信息输出正确的解码结果。然而，一方面，现有方案一般仅在解码器中与上下文编码器输出的上下文信息进行融合，未充分利用编码器提取的音频声学表征，导致上下文短语召回率较低，此外，现有方案中上下文编码器仅对上下文短语对应的字序列进行建模，对于含有多音字的上下文短语，无法生成具有区分性的词嵌入表征，进而导致该类上下文短语召回率较低；另一方面，当垂类领域的上下文短语量级较大(1000)时，通过注意力机制计算得到的端到端语音识别模型对于上下文短语列表的注意力得分分布趋于平滑，模型对于目标上下文短语与其他不相关上下文短语之间的区分性减弱，导致模型不能解码出正确的上下文短语，进而导致上下文短语召回率下降。

发明内容

本发明提供了一种垂类领域端到端语音识别方法与装置，目的是解决现有技术中存在的缺点。

为了实现上述目的，本发明提供如下技术方案：一种垂类领域端到端语音识别方法，包括如下步骤：

接收待识别语音信号，提取所述待识别语音信号的声学特征；

构建端到端语音识别模型；

获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果；

所述端到端语音识别模型由编码器、上下文编码器及解码器构成，且获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤：

通过编码器提取语音信号的声学表征，并获取声学特征对应的标注文本表征和上下文短语；

计算声学表征、标注文本表征与上下文短语的相似性矩阵，并对相似性矩阵进行多维度排序，选取值最大的topk值进行softmax归一化处理，其他位置元素置零；

通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵；

通过与上下文感知矩阵融合得到上下文声学表征X_context；

通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征，并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征；

通过解码器提取音频对应文本的最终词嵌入表征，并与所述上下文声学表征X_context通过注意力机制进行融合，输出识别结果。

优选的，将所述通过编码器提取语音信号的声学表征，并通过与上下文感知矩阵融合得到上下文声学表征X_context，具体包括如下步骤：

通过声学编码模块及第一上下文注意力模块构建所述编码器；

将所述声学特征送入到声学编码模块中计算，得到语音信号的声学表征；

利用第一上下文注意力模块将声学表征作为查询向量Q、将上下文短语的词嵌入表征作为键向量K及值向量V，进行声学表征与上下文短语的词嵌入表征之间的相关性计算；

根据查询向量Q、键向量K与值向量V计算得到上下文感知矩阵H与声学表征X；

将上下文感知矩阵H与声学表征X进行融合得到上下文声学表征X_context。

优选的，所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下：

Q₁＝σ(X^TW_q+1(b_q)^T)

K₁＝σ(C^TW_k+1(b_k)^T)

V₁＝σ(C^TW_v+1(b_v)^T)

H＝a₁V₁

X_context＝X+H或X_context＝[X,H]

其中，X＝[h₁,...,h_T]∈R^dxT为声学编码模块的输出且T为音频经过声学编码模块提取的帧数，d为每一帧声学表征的维度；C＝[c₁,...,c_n]∈R^k×n为上下文编码器生成的词嵌入表征，n为上下文短语的个数，k为上下文短语的词嵌入维度；σ(·)为激活函数，W_q、W_k、W_v、b_q、b_k、b_v为相关权重及偏置参数；a∈R^T×n为声学表征与上下文短语之间的相似性矩阵。

优选的，所述通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征，并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征，具体包括如下步骤：

通过字编码模块与音素编码模块构成所述上下文编码器；

将上下文短语分割为子词或字；

将子词或字输入字编码模块生成固定维度的表征向量；

将上下文短语转换成对应的发音序列；

将所述发音序列输入到音素编码模块中生成固定维度的音素表征向量；

将字编码模块及音素编码模块分别输出的表征向量进行拼接组成上下文短语的最终词嵌入表征。

优选的，所述通过解码器提取音频对应文本的最终词嵌入表征，并与所述上下文声学表征X_context通过注意力机制进行融合，输出识别结果，具体包括如下步骤：

通过解码模块及第二上下文注意力模块构成解码器；

解码器通过注意力机制计算当前标注文本与上下文声学表征之间的相关性；

根据相关性系数将上下文声学表征与当前标注文本的嵌入表征进行融合，最终输出解码结果；

通过第二上下文注意力模块计算音频当前文本的嵌入表征与上下文短语的词嵌入表征之间的相关性。

优选的，所述构建端到端语音识别模型，并对端到端语音识别模型进行训练，包括如下步骤：

构建训练时的上下文短语列表；

计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵，通过相似性矩阵对端到端语音识别模型进行训练。

优选的，所述构建训练时的上下文短语列表，包括如下步骤：

对当前批次的训练数据，将其对应的文本标注进行分词并进行词性标注；

针对每一条音频对应的标注文本，以概率p1确定是否从当前标注文本中选择连续字符作为上下文短语；

判断随机生成的概率是否大于p1；

在大于P1时从当前标注文本中选择连续字符作为上下文短语，针对当前标注文本中的多个词组，以概率p2确定选择哪个词组作为上下文短语，遍历当前标注文本中的所有词组；

在随机生成的概率大于p2，则选择当前词组加入到上下文短语列表中；

如果当前词组为名词，则随机生成的概率大于p2/2时就将当前名词加入到上下文短语列表中；

将无偏置短语no-bias加入到上下文短语列表中，以适配当前音频无对应上下文短语的情况。

优选的，所述计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵，包括如下步骤：

将声学表征及标注文本表征作为查询向量，上下文短语列表对应的词嵌入表征作为键向量及值向量；

通过注意力机制分别计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵。

一种语音识别装置，包括：

第一获得模块，用于接收待识别语音信号，并获得所述待识别语音信号的声学特征；

第二获得模块，与所述第一获得模块连接，用于将所述声学特征输入至训练后的端到端语音识别模型中以获得识别结果。

本发明与现有技术相比具有以下有益效果：

本发明考虑上下文编码器同时考虑了上下文短语的字序列及发音序列，有利于提取更加具有区分性的词嵌入表征，同时本发明在计算声学表征及文本表征与上下文短语的相关性时，通过先取topk再进行softmax归一化，并将其他位置置零的操作，不仅消除了无关上下文短语对解码过程的干扰，而且增加了相似上下文短语之间的区分性，有利于缓解因上下文短语量级的提升而导致的相似短语之间的串扰。

附图说明

图1为本发明端到端语音识别模型的流程图；

图2为本发明端到端语音识别模型训练流程图；

图3为本发明语音识别装置图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1-3所示，本申请提供一种垂类领域端到端语音识别方法、模型的训练方法及相关装置，以提升现有端到端语音识别模型对关键词的召回率并降低关键词之间的串扰率。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种垂类领域端到端语音识别方法，包括：

S1：通过第一获得模块接收待识别语音信号，并提取待检测语音信号的声学特征。

S3：构建端到端语音识别模型。

S3：获取声学特征并输入至训练好的端到端语音识别模型中以获取识别结果。

其中，端到端语音识别模型由编码器、上下文编码器及解码器构成，且获取声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤：

S31：通过编码器提取声学特征的声学表征，并获取声学特征对应的标注文本表征和上下文短语。

S32：计算声学表征、标注文本表征与上下文短语的相似性矩阵，并对相似性矩阵进行多维度排序，选取值最大的topk值进行softmax归一化处理，其他位置元素置零。

S33：通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵。

S34：将上下文感知矩阵通过与声学表征融合得到上下文声学表征X_context。

S35：通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征，并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征。

S36：通过解码器提取音频对应文本的最终词嵌入表征，并与上下文声学表征X_context通过注意力机制进行融合，输出识别结果。

如图1所示，编码器由声学编码模块及第一上下文注意力模块组成。声学编码模块用于提取语音信号的高级声学表征，可采用堆叠多层卷据神经网络(ConvolutionalNeural Network，CNN)、长短期记忆网络(Long short-termmemory,LSTM)、自注意力层(self-attention transformer layer)等神经网络结构组成，将声学特征送入到声学编码模块中进行计算，得到语音信号的高级声学表征。第一上下文注意力模块用于计算音频声学表征与上下文短语的词嵌入表征之间的相关性，将声学表征作为查询向量(Q)，上下文短语的词嵌入表征作为键向量(K)及值向量(V)，具体计算过程如下：

Q₁＝σ(X^TW_q+1(b_q)^T)

K₁＝σ(C^TW_k+1(b_k)^T)

V₁＝σ(C^TW_v+1(b_v)^T)

H＝a₁V₁

X_context＝X+H或X_context＝[X,H]

其中，X＝[h₁,...,h_T]∈R^dxT为声学编码模块的输出且T为音频经过声学编码模块提取的帧数，d为每一帧声学表征的维度；C＝[c₁,...,c_n]∈R^k×n为上下文编码器生成的词嵌入表征，n为上下文短语的个数，k为上下文短语的词嵌入维度；σ(·)为激活函数，W_q、W_k、W_v、b_q、b_k、b_v为相关权重及偏置参数；a∈R^T×n为声学表征与上下文短语之间的相似性矩阵，进行softmax归一化处理之前需要对相似性矩阵沿n维度进行排序，只对值较大的前topk的值进行softmax归一化处理，其他位置置零，再根据相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵，最后将上下文感知矩阵H与声学表征X进行融合，具体融合方式可通过矩阵加或拼接方式实现，最终得到经过上下文感知融合的声学表征X_context。

上下文编码器由字编码模块及音素编码模块组成。其中字编码模块用于将上下文短语映射成固定维度的字嵌入表征，首先将上下文短语分割为子词或字，然后输入字编码模块生成固定维度的表征向量，字编码模块可采用堆叠单向长短期记忆网络、双向长短期记忆网络、自注意力层等神经网络结构组成。音素编码模块用于将上下文短语映射成固定维度的音素嵌入表征，首先将上下文短语转换成对应的发音序列(中文可以为声韵母，英文可以为音素)，然后输入到音素编码模块中生成固定维度的音素表征向量，音素编码模块可采用堆叠单向长短期记忆网络、双向长短期记忆网络、自注意力层等神经网络结构组成，最后将字编码模块及音素编码模块分别输出的表征向量进行拼接组成上下文短语的最终词嵌入表征。

解码器包括解码模块及第二上下文注意力模块组成，解码模块用于提取音频对应文本的词嵌入表征并与上下文声学表征X_context通过注意力机制进行融合，可采用堆叠多层卷据神经网络(ConvolutionalNeuralNetwork，CNN)、长短期记忆网络(Long short-termmemory,LSTM)、自注意力层(self-attention transformer layer)等神经网络结构组成，具体做法将是标注文本的词嵌入表征作为查询向量，上下文声学表征X_context作为键向量及值向量，通过注意力机制计算当前标注文本与上下文声学表征之间的相关性并根据相关性系数将上下文声学表征与当前标注文本的嵌入表征进行融合，最终输出解码结果；第二上下文注意力模块用于计算音频当前文本的嵌入表征与上下文短语的词嵌入表征之间的相关性，将当前标注文本的嵌入表征作为查询向量(Q)，上下文短语的词嵌入表征作为键向量(K)及值向量(V)，具体计算过程与第一上下文注意力模块相同。

为解决上述技术问题，本申请采用的另一个技术方案是：如图2所示，提供一种模型的训练方法，包括：

1、构建训练时的上下文短语列表，具体步骤为：首先，针对当前批次的训练数据，将其对应的文本标注进行分词并进行词性标注，然后，针对每一条音频对应的标注文本，以概率p1确定是否从当前标注文本中选择连续字符作为上下文短语，如果随机生成的概率大于p1，则从当前标注文本中选择连续字符作为上下文短语，针对当前标注文本中的多个词组，以概率p2确定选择哪个词组作为上下文短语，遍历当前标注文本中的所有词组，如果随机生成的概率大于p2，则选择当前词组加入到上下文短语列表中，如果当前词组为名词，则随机生成的概率大于p2/2时就将当前名词加入到上下文短语列表中，这样可以增加名词被选中的概率，与实际使用场景相匹配；最后，将无偏置短语no-bias加入到上下文短语列表中，以适配当前音频无对应上下文短语的情况；2、计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵，具体步骤为：首先，将声学表征及标注文本表征作为查询向量，上下文短语列表对应的词嵌入表征作为键向量及值向量，通过注意力机制分别计算声学表征及标注文本表征与上下文短语列表之间的相似性矩阵，对相似性矩阵进行softmax时只针对值较大的topk个元素进行归一化，将相关性参数归一化到0～1之间，其他位置元素置零，这样一方面可以减少不相关上下文短语的干扰，另一方面，增加了相似上下文短语之间的区分性，有利于正确的召回对应的上下文短语。

为解决上述技术问题，本申请采用的另一个技术方案是：如图3所示，提供一种语音识别装置，包括：第一获得模块，用于接收待识别语音信号，并获得待识别语音信号的声学特征；第二获得模块，与第一获得模块连接，用于将声学特征输入至训练后的端到端语音识别模型中以获得识别结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述任一实施例中的方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述任一实施例中的方法。

以上所述实施例仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换，均属于本发明的保护范围。

Claims

1.一种垂类领域端到端语音识别方法，其特征在于，包括如下步骤：

构建端到端语音识别模型；

获取所述声学特征并输入至端到端语音识别模型中获取识别结果；

通过编码器提取声学特征的声学表征，并获取声学特征对应的标注文本表征和上下文短语；

将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征X_context；

2.如权利要求1所述的一种垂类领域端到端语音识别方法，其特征在于，将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征X_context，具体包括如下步骤：

3.如权利要求2所述的一种垂类领域端到端语音识别方法，其特征在于，所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下：

Q₁＝σ(X^TW_q+1(b_q)^T)

K₁＝σ(C^TW_k+1(b_k)^T)

V₁＝σ(C^TW_v+1(b_v)^T)

H＝a₁V₁

X_context＝X+H或X_context＝[X,H]

4.如权利要求1所述的一种垂类领域端到端语音识别方法，其特征在于，所述通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征，并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征，具体包括如下步骤：

通过字编码模块与音素编码模块构成所述上下文编码器；

将上下文短语分割为子词或字；

将子词或字输入字编码模块生成固定维度的表征向量；

将上下文短语转换成对应的发音序列；

5.如权利要求1所述的一种垂类领域端到端语音识别方法，其特征在于，所述通过解码器提取音频对应文本的最终词嵌入表征，并与所述上下文声学表征X_context通过注意力机制进行融合，输出识别结果，具体包括如下步骤：

通过解码模块及第二上下文注意力模块构成解码器；

根据相关性的系数将上下文声学表征与当前标注文本的嵌入表征进行融合，最终输出解码结果；

6.如权利要求2所述的一种垂类领域端到端语音识别方法，其特征在于，其特征在于，所述构建端到端语音识别模型，对端到端语音识别模型进行训练，包括如下步骤：

构建训练时的上下文短语列表；

7.如权利要求6所述的一种垂类领域端到端语音识别方法，其特征在于，所述构建训练时的上下文短语列表，包括如下步骤：

针对每一条音频对应的标注文本，以概率p1确定是否从当前标注文本中选择连续字符作为上下文短语，构建上下文短语列表；

判断随机生成的概率是否大于概率p1；

在大于概率p1时从当前标注文本中选择连续字符作为上下文短语，针对当前标注文本中的多个词组，以概率p2确定选择哪个词组作为上下文短语，遍历当前标注文本中的所有词组；

在随机生成的概率大于p2时，则选择当前词组加入到上下文短语列表中；

8.如权利要求6所述的一种垂类领域端到端语音识别方法，其特征在于，所述计算声学表征、标注文本表征与上下文短语列表之间的相似性矩阵，包括如下步骤：

9.一种语音识别装置，其特征在于，包括：