CN114464182A

CN114464182A - 一种音频场景分类辅助的语音识别快速自适应方法

Info

Publication number: CN114464182A
Application number: CN202210204440.3A
Authority: CN
Inventors: 潘立馨; 宋彤彤; 关昊天; 王宇光
Original assignee: Huiyan Technology Tianjin Co ltd
Current assignee: Huiyan Technology Tianjin Co ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-05-10
Anticipated expiration: 2042-03-03
Also published as: CN114464182B

Abstract

本发明公开了一种音频场景分类辅助的语音识别快速自适应方法，包括以下步骤：S1、训练得到一个音频场景分类模型，通过所述音频场景分类模型准确地提取输入音频的场景相关特征；S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合，由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性，将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容，得到识别准确率更高的融合模型，使得所述语音识别模型在目标域数据上得以快速自适应，提高语音识别模型的自适应能力。

Description

一种音频场景分类辅助的语音识别快速自适应方法

技术领域

本发明涉及语音识别技术领域，具体是涉及一种音频场景分类辅助的语音识别快速自适应方法。

背景技术

语音识别(Automatic Speech Recognition，ASR)，是将语音转写为文字的技术。语音识别起始于1952年，当时贝尔实验室发明世界上第一个能识别10个英文数字语音的系统，到现在经历了70多年的发展，语音识别由实验室走向大众。特别是近20年来，得益于大数据、算力以及算法这三驾马车的驱动，语音识别开始得以广泛应用，如语音输入法、字幕生成、语音助手等功能等，给人们生活带来了极大便利。

随着语音识别应用场景的增多，在特定场景下快速上线语音识别系统越来越迫切。基于大规模数据训练的通用语音识别模型，一般可能由于训练数据不够全面，未能覆盖某特定场景的训练数据而导致在该特定场景下通用的语音识别模型识别效果不佳，因此不能直接将该通用模型在该场景下进行上线和应用。此时需要收集该场景下的语音数据，并进行模型的定制化工作，以提高该场景下模型的识别准确率。

一般的模型定制化工作大致可分为以下几个步骤：1)收集特定场景下的语音数据，并对音频进行人工标注。2)使用这些标注好的数据对已经在大规模数据集上训练好的通用的语言识别模型继续进行训练，这个过程被称为微调(fine-tune)。3)对微调后的模型在该特定场景下进行上线及应用。

使用这种模型定制化的方法可以提高语音识别模型在该场景下的识别率，但同时该方法也存在如下问题：1)由于收集语音数据以及对收集到的语音数据进行人工标注会带来巨大的时间和人力成本，这对一些需要单纯提升自己领域内识别效果的非语音类公司来说往往是难以接受的。2)某些特定场景下的数据往往因为涉及业务机密或者说数据本身就比较稀缺等情况而难以获得，这意味着在微调阶段，可能因为无法获得足够多的数据而难以将模型的识别效果调整到一个适合应用的程度。3)训练通用语音识别模型的数据集音频和文本特征所在的空间称为源域(Source Domain)，特定场景下的数据集音频和文本特征所在的空间称为目标域(Target Domain)。在进行微调时，如果只使用目标域的数据进行训练，模型很容易对目标域的数据过拟合，这导致模型在源域数据的测试集上的表现下降严重，也就是说只有特定领域的识别效果变好，但通用模型本身的识别效果却大打折扣，这使得整个定制化工作像是一个跷跷板，一边好了，另一边又差了；而当将一定比例的源域的数据和所有目标域的数据混合在一起共同参与微调时，虽能有效缓解模型在目标域过拟合问题，但又会增加模型微调的时间，无法快速完成整个模型的定制化工作。

发明内容

针对上述背景技术指出的问题，本发明提供了一种音频场景分类辅助的语音识别快速自适应的方法。

为解决上述技术问题，本发明的技术方案如下：

一种音频场景分类辅助的语音识别快速自适应方法，包括以下步骤：

S1、训练得到一个音频场景分类模型，通过所述音频场景分类模型准确地提取输入音频的场景相关特征；

S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合，由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性，将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容，得到识别准确率更高的融合模型，使得所述语音识别模型在目标域数据上得以快速自适应，提高语音识别模型的自适应能力。

说明：将音频场景分类模型与语音识别模型融合，融合后的模型对场景的定制化工作有非常大的帮助，能够仅仅利用少量的目标域训练数据，快速完成语音识别模型在特定场景上的微调工作，即在特定场景下快速自适应的任务。

进一步地，在上述方案中，所述步骤S1中，所述音频场景分类模型包括：特征提取器、音频编码模块、映射层；

所述音频编码模块包括卷积降采样层、卷积增强的变压器块(ConformerBlocks)、注意力统计池化层(Attentive Statistic Pooling，ASP)；

所述卷积降采样层是由两层卷积神经网络(Convolutional Neural Network，CNN)模块组成，

所述卷积增强的变压器块(Conformer Blocks)为多层结构，每一层包括前馈神经网络、多头自注意力模块、卷积模块。

进一步地，在上述方案中，所述音频场景分类模型提取输入音频的场景相关特征的方法为：

S1-1、首先通过所述特征提取器提取出80维滤波器组(Filter-bank，Fbank)特征；

S1-2、通过所述音频编码模块对输入特征进行编码，具体为：

S1-2-1、通过所述卷积降采样层的两层卷积神经网络(Convolutional NeuralNetwork，CNN)模块对输入的语音在时间维度降采样为原来的四分之一；

S1-2-2、经过若干层卷积增强的变压器块(Conformer Blocks)搭建编码器用来对输入特征进行编码；

S1-2-3、经过块(Chunk)级别的注意力统计池化层(Attentive StatisticPooling，ASP)，获得块(Chunk)级别的嵌入向量(Embedding)特征；(即每n个帧为一个块(Chunk)，每一个块(Chunk)经过ASP后会得到其对应的向量)

S1-3、所述嵌入向量(Embedding)特征经过映射层获得该块(Chunk)对应的类别，即获得了输出的分类信息。

进一步地，在上述方案中，所述音频场景分类模型提取场景分类特征的计算公式为：

e_ct＝W₂(ReLU(W₁h_ct)) (2)

embedding_c＝[μ_c:σ_c] (6)

式中，h_ct∈R^D为第c个Chunk的第t帧，其中0≤t≤W，其中W₁∈R^D×D，W₂∈R^D×1，D为模型维度，C为Chunk的大小，[:]表示将两个向量按特征维度进行拼接，最后输出的embedding_c为该Chunk的特征向量，用于最后的分类任务及融合模型向量的嵌入；当Chunk大小为1时，对应帧级别分类，即一条音频特征的每一帧都输出类别，当Chunk大小为l_max时对应句子级别分类，即一条音频特征只输出一个类别。

进一步地，在上述方案中，所述语音识别模型采用的是编解码(Encoder-Decoder)结构的变压器模型(Transformer)，其中编码器(Encoder)为卷积增强的变压器(ConformerBlocks)，解码器(Decoder)为一般变压器模型(Transformer)的解码器(Decoder)；

所述音频场景分类模型与语音识别模型在同一批次数据上块(Chunk)大小须保持一致。

进一步地，在上述方案中，所述音频场景分类模型的训练采用的是动态块(Dynamic Chunk)的训练策略，公式如下：

其中l_max代表当前批次数据最长音频降采样后的帧数，U表示均匀分布，有50％的概率取最大帧数为块(Chunk)大小，50％概率块(Chunk)大小符合1到最大25的均匀分布；

音频场景分类模型的训练过程中，根据当前批次数据输出块(Chunk)的个数扩充类别标签与嵌入向量(Embedding)特征的个数相同，相当于每一个块(Chunk)级别的嵌入向量(Embedding)特征都有对应的标签。

说明：基于大规模不同的音频数据集(而不仅仅限于语音，也可以是各种场景噪声、音乐等)来训练得到一个音频场景分类模型，该模型可以准确地对输入音频提取场景类别相关表征。

由于训练音频场景分类模型使用大量数据，因此训练该模型较为耗时，为了满足后续流式识别(实时识别，即不需要一句话说完就开始进行识别)和非流式识别(非实时识别，即要求输入完整的一句话后才识别)的需求，音频场景分类模型采用基于动态块(Dyanmic Chunk)的方法进行训练，该模型在句子级别、帧级别、块(Chunk)级别(一句话有其对应的类别，那么该音频特征的所有帧也对应该类别，若干帧组成的一个块也对应该类别)的分类都有很高的准确率，且一次训练完成后该模型可以直接与流式、非流式或两种模式统一的语音识别模型进行联合，融合后的模型可以分别适应纯流式、纯非流式或两种模式统一的语音识别场景。

进一步地，在上述方案中，音频场景分类模型与语音识别模型的融合方法为：

将音频场景分类模型生成的帧级别的嵌入向量(Embedding)特征与语音识别模型降采样层的输出在特征维度进行相加，并送入到若干层卷积增强的变压器块(ConformerBlocks)中进行编码，再将卷积增强的变压器块(Conformer Blocks)的输出输入到连接时序分类层(Connectionist temporal classification，CTC)和解码器(Decoder)中；

并输入真实文本来计算连接时序分类层(Connectionist temporalclassification，CTC)的损失和解码器(Decoder)的损失。

说明：通过将音频场景分类模型和语音识别模型融合，大大提高了语音识别模型的自适应能力。

进一步地，在上述方案中，对所述融合模型进行预训练，通常使用大量数据训练的阶段称为预训练，预训练阶段为后续任务可以提供更好的初始化模型。

在训练融合模型时，在多种不同数据集上训练的音频场景分类模型参数，即音频嵌入模块的参数，保持固定，训练时语音识别模型对应参数，即除音频嵌入模块外的所有参数，进行更新。融合后的模型在尽可能大的带有文本标注的语音数据集上进行训练，以此保证模型有一个非常好的初始化参数，训练好的模型可以成为后续模型定制化的预训练模型。

进一步地，在上述方案中，对所述融合模型进行微调，由于预训练模型的训练数据和目标使用场景存在较大差距，且目标使用场景下的数据相对来说较少，为了充分利用其他的训练数据，因此往往对预训练模型在目标使用场景上的数据再次进行微调。

融合模型微调时适当降低学习率(比如可以减小为原来的1/10)及训练的轮数(比如可以减小到原来的一半)即可，该方法可以使得模型得在目标域数据集上快速适应，因此使用少量适当的特定场景下的带有文本标注的语音数据就可以达到很好的识别效果。显著降低微调时间及微调时要求目标域数据集的大小，同时即使不加入源域数据集进行微调，微调后的模型在源域数据集上的表现也不会出现太严重的下降。这是由于当没有音频场景分类模型辅助时，由于微调时模型的参数在新数据集上进行更新，而新数据集往往和模型的原训练数据差距较大，因此导致模型对新数据集过拟合，从而遗忘原本训练的数据导致在通用场景下模型表现出现大幅度下降；当加入音频场景分类模型时，该模型提取到的场景相关特征可以使得语音识别模型对原训练数据和新数据学到区分性信息，模型会选择性更新对新数据部分有用的参数，而不是更新全部参数，从而缓解了模型对原训练数据遗忘的情况。

与现有技术相比，本发明的有益效果体现在：本发明的方法通过利用大量多种音频数据集来训练一个音频场景分类模型该模型可以提取输入音频场景相关特征，将该特征和语音特征融合后输入到语音识别模型，使得语音识别模型在目标域数据上得以快速自适应，同时可以在不使用源域数据的情况下模型在源域上的表现不会出现太严重的下降。

附图说明

图1为单个为卷积增强的变压器块(Conformer Blocks)的结构图；

图2是音频场景分类模型的结构图；

图3是原始语音识别模型的框架图，其中，(a)是训练阶段，(b)是测试阶段；

图4是音频场景分类模型和语音识别模型融合后的融合模型的框架图，其中，(a)是训练阶段，(b)是测试阶段。

具体实施方式

实施例

S1、训练得到一个音频场景分类模型，通过音频场景分类模型准确地提取输入音频的场景相关特征；

其中，如图2所示，音频场景分类模型包括：特征提取器、音频编码模块、映射层；

如图1所示，所述卷积增强的变压器块(Conformer Blocks)为多层结构，每一层包括前馈神经网络、多头自注意力模块、卷积模块；

其中，所述音频场景分类模型提取输入音频的场景相关特征的方法为：

S1-2、通过所述音频编码模块对输入特征进行编码，具体为：

S1-3、所述嵌入向量(Embedding)特征经过映射层获得该块(Chunk)对应的类别，即获得了输出的分类信息；

其中，音频场景分类模型提取场景分类特征的计算公式为：

e_ct＝W₂(ReLU(W₁h_ct)) (2)

embedding_c＝[μ_c:σ_c] (6)

语音识别模型的结构如图3所示，语音识别模型采用的是编解码(Encoder-Decoder)结构的变压器模型(Transformer)，其中编码器(Encoder)为卷积增强的变压器(Conformer Blocks)，解码器(Decoder)为一般变压器模型(Transformer)的解码器(Decoder)；

其中，所述音频场景分类模型的训练采用的是动态块(Dynamic Chunk)的训练策略，公式如下：

音频场景分类模型的训练过程中，根据当前批次数据输出块(Chunk)的个数扩充类别标签与嵌入向量(Embedding)特征的个数相同，相当于每一个块(Chunk)级别的嵌入向量(Embedding)特征都有对应的标签；

音频场景分类模型是为了提取到输入语音中的场景相关特征，与语音中的内容无关，因此训练该模型不要求数据集有对应的文本标注信息，可以为不同语种的数据集，且数据集中的音频不一定为语音，因此可以收集到尽可能多的不同种类的音频数据集，同时可以进行加噪加混响等，每一种操作可以产生一个新的数据集，这样我们可以在原有数据集的基础上增加了更多种类的数据集。假设不同数据集属于不同场景，在分类时对应不同类别；

其中，音频场景分类模型与语音识别模型的融合方法为：

如图4所示，将音频场景分类模型生成的帧级别的嵌入向量(Embedding)特征与语音识别模型降采样层的输出在特征维度进行相加，并送入到若干层卷积增强的变压器块(Conformer Blocks)中进行编码，再将卷积增强的变压器块(Conformer Blocks)的输出输入到连接时序分类层(Connectionist temporal classification，CTC)和解码器(Decoder)中；

音频场景分类模型与语音识别模型融合后，对所述融合模型进行预训练，通常使用大量数据训练的阶段称为预训练，预训练阶段为后续任务可以提供更好的初始化模型。

在训练融合模型时，在多种不同数据集上训练的音频场景分类模型参数，即图3中的音频嵌入模块的参数，保持固定，训练时语音识别模型对应参数，即图3中除音频嵌入模块外的所有参数，进行更新。融合后的模型在尽可能大的带有文本标注的语音数据集上进行训练，以此保证模型有一个非常好的初始化参数，训练好的模型可以成为后续模型定制化的预训练模型。

音频场景分类模型与语音识别模型融合后，对所述融合模型进行微调，由于预训练模型的训练数据和目标使用场景存在较大差距，且目标使用场景下的数据相对来说较少，为了充分利用其他的训练数据，因此往往对预训练模型在目标使用场景上的数据再次进行微调。

本实施例的音频场景分类辅助的语音识别快速自适应方法基于Wenet语音识别工具，除专利内特殊说明，其他配置如下：

音频：采样率为16kHz，采样位数为16-bit，格式为wav格式。

特征：采用80维滤波器组(Filter-bank，Fbank)特征，训练时提取特征时语音波形数值的抖动为1.0，测试时为0。

模型的配置：

音频嵌入模型的配置为2层Encoder，模型维度为128。

语音识别模型的配置为12层Encoder，6层Decoder，模型维度为256。

除了以上配置外其余全部相同，采用相对位置编码，替换原始变压器模型(Transformer)中的绝对位置编码；两层2维CNN中的卷积核大小为3，步长为2，激活函数为ReLU，如式(7)；

f(x)＝max(x,0) (7)

前馈神经网络的维度为1024，采用Swish激活函数，如式(8)；

f(x)＝x·σ(x) (8)

其中：

注意力头个数为4；Conformer中的卷积核的大小为15。

训练时学习率可采用0.001，25000个预热步数(Warmup Steps)的策略，训练轮数可根据模型在验证集上的表现来定，一般训练到模型在验证集上收敛后再训练5轮或10轮即可，对最后的5轮或10轮模型参数取平均作为最终的模型用于测试。

Claims

1.一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，包括以下步骤：

S2、将音频场景分类模型所提取得到的相关场景特征和语音识别模型的声学特征进行融合，将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容，得到识别准确率更高的融合模型，使得所述语音识别模型在目标域数据上得以快速自适应，提高语音识别模型的自适应能力。

2.根据权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述步骤S1中，所述音频场景分类模型包括：特征提取器、音频编码模块、映射层；

所述音频编码模块包括卷积降采样层、卷积增强的变压器块、注意力统计池化层；

所述卷积降采样层是由两层卷积神经网络模块组成，

所述卷积增强的变压器块为多层结构，每一层包括前馈神经网络、多头自注意力模块、卷积模块。

3.如权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述音频场景分类模型提取输入音频的场景相关特征的方法为：

S1-1、首先通过所述特征提取器提取出80维滤波器组特征；

S1-2、通过所述音频编码模块对输入特征进行编码，具体为：

S1-2-1、通过所述卷积降采样层的两层卷积神经网络模块对输入的语音在时间维度降采样为原来的四分之一；

S1-2-2、经过若干层卷积增强的变压器块搭建编码器用来对输入特征进行编码；

S1-2-3、经过块级别的注意力统计池化层，获得块级别的嵌入向量特征；

S1-3、所述嵌入向量特征经过映射层获得该块对应的类别，即获得了输出的分类信息。

4.根据权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述音频场景分类模型提取场景分类特征的计算公式为：

e_ct＝W₂(ReLU(W₁h_ct)) (2)

embedding_c＝[μ_c:σ_c] (6)

5.如权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述音频场景分类模型的训练采用的是动态块的训练策略，公式如下：

其中l_max代表当前批次数据最长音频降采样后的帧数，U表示均匀分布，有50％的概率取最大帧数为块大小，50％概率块大小符合1到最大25的均匀分布；

音频场景分类模型的训练过程中，根据当前批次数据输出块的个数扩充类别标签与嵌入向量特征的个数相同，相当于每一个块级别的嵌入向量特征都有对应的标签。

6.如权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，音频场景分类模型与语音识别模型的融合方法为：

将音频场景分类模型生成的帧级别的嵌入向量特征与语音识别模型降采样层的输出在特征维度进行相加，并送入到若干层卷积增强的变压器块中进行编码，再将卷积增强的变压器块的输出输入到连接时序分类层和解码器中；

并输入真实文本来计算连接时序分类层的损失和解码器的损失。

7.如权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述语音识别模型采用的是编解码结构的变压器模型，其中编码器为卷积增强的变压器，解码器为一般变压器模型的解码器；

所述音频场景分类模型与语音识别模型在同一批次数据上块大小须保持一致。

8.如权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，对所述融合模型进行预训练。

9.如权利要求8所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，对所述融合模型进行微调。