CN114464182A - 一种音频场景分类辅助的语音识别快速自适应方法 - Google Patents
一种音频场景分类辅助的语音识别快速自适应方法 Download PDFInfo
- Publication number
- CN114464182A CN114464182A CN202210204440.3A CN202210204440A CN114464182A CN 114464182 A CN114464182 A CN 114464182A CN 202210204440 A CN202210204440 A CN 202210204440A CN 114464182 A CN114464182 A CN 114464182A
- Authority
- CN
- China
- Prior art keywords
- model
- audio
- scene classification
- audio scene
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013145 classification model Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 55
- 230000004927 fusion Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 20
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000009827 uniform distribution Methods 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种音频场景分类辅助的语音识别快速自适应方法,包括以下步骤:S1、训练得到一个音频场景分类模型,通过所述音频场景分类模型准确地提取输入音频的场景相关特征;S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合,由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。
Description
技术领域
本发明涉及语音识别技术领域,具体是涉及一种音频场景分类辅助的语音识别快速自适应方法。
背景技术
语音识别(Automatic Speech Recognition,ASR),是将语音转写为文字的技术。语音识别起始于1952年,当时贝尔实验室发明世界上第一个能识别10个英文数字语音的系统,到现在经历了70多年的发展,语音识别由实验室走向大众。特别是近20年来,得益于大数据、算力以及算法这三驾马车的驱动,语音识别开始得以广泛应用,如语音输入法、字幕生成、语音助手等功能等,给人们生活带来了极大便利。
随着语音识别应用场景的增多,在特定场景下快速上线语音识别系统越来越迫切。基于大规模数据训练的通用语音识别模型,一般可能由于训练数据不够全面,未能覆盖某特定场景的训练数据而导致在该特定场景下通用的语音识别模型识别效果不佳,因此不能直接将该通用模型在该场景下进行上线和应用。此时需要收集该场景下的语音数据,并进行模型的定制化工作,以提高该场景下模型的识别准确率。
一般的模型定制化工作大致可分为以下几个步骤:1)收集特定场景下的语音数据,并对音频进行人工标注。2)使用这些标注好的数据对已经在大规模数据集上训练好的通用的语言识别模型继续进行训练,这个过程被称为微调(fine-tune)。3)对微调后的模型在该特定场景下进行上线及应用。
使用这种模型定制化的方法可以提高语音识别模型在该场景下的识别率,但同时该方法也存在如下问题:1)由于收集语音数据以及对收集到的语音数据进行人工标注会带来巨大的时间和人力成本,这对一些需要单纯提升自己领域内识别效果的非语音类公司来说往往是难以接受的。2)某些特定场景下的数据往往因为涉及业务机密或者说数据本身就比较稀缺等情况而难以获得,这意味着在微调阶段,可能因为无法获得足够多的数据而难以将模型的识别效果调整到一个适合应用的程度。3)训练通用语音识别模型的数据集音频和文本特征所在的空间称为源域(Source Domain),特定场景下的数据集音频和文本特征所在的空间称为目标域(Target Domain)。在进行微调时,如果只使用目标域的数据进行训练,模型很容易对目标域的数据过拟合,这导致模型在源域数据的测试集上的表现下降严重,也就是说只有特定领域的识别效果变好,但通用模型本身的识别效果却大打折扣,这使得整个定制化工作像是一个跷跷板,一边好了,另一边又差了;而当将一定比例的源域的数据和所有目标域的数据混合在一起共同参与微调时,虽能有效缓解模型在目标域过拟合问题,但又会增加模型微调的时间,无法快速完成整个模型的定制化工作。
发明内容
针对上述背景技术指出的问题,本发明提供了一种音频场景分类辅助的语音识别快速自适应的方法。
为解决上述技术问题,本发明的技术方案如下:
一种音频场景分类辅助的语音识别快速自适应方法,包括以下步骤:
S1、训练得到一个音频场景分类模型,通过所述音频场景分类模型准确地提取输入音频的场景相关特征;
S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合,由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。
说明:将音频场景分类模型与语音识别模型融合,融合后的模型对场景的定制化工作有非常大的帮助,能够仅仅利用少量的目标域训练数据,快速完成语音识别模型在特定场景上的微调工作,即在特定场景下快速自适应的任务。
进一步地,在上述方案中,所述步骤S1中,所述音频场景分类模型包括:特征提取器、音频编码模块、映射层;
所述音频编码模块包括卷积降采样层、卷积增强的变压器块(ConformerBlocks)、注意力统计池化层(Attentive Statistic Pooling,ASP);
所述卷积降采样层是由两层卷积神经网络(Convolutional Neural Network,CNN)模块组成,
所述卷积增强的变压器块(Conformer Blocks)为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块。
进一步地,在上述方案中,所述音频场景分类模型提取输入音频的场景相关特征的方法为:
S1-1、首先通过所述特征提取器提取出80维滤波器组(Filter-bank,Fbank)特征;
S1-2、通过所述音频编码模块对输入特征进行编码,具体为:
S1-2-1、通过所述卷积降采样层的两层卷积神经网络(Convolutional NeuralNetwork,CNN)模块对输入的语音在时间维度降采样为原来的四分之一;
S1-2-2、经过若干层卷积增强的变压器块(Conformer Blocks)搭建编码器用来对输入特征进行编码;
S1-2-3、经过块(Chunk)级别的注意力统计池化层(Attentive StatisticPooling,ASP),获得块(Chunk)级别的嵌入向量(Embedding)特征;(即每n个帧为一个块(Chunk),每一个块(Chunk)经过ASP后会得到其对应的向量)
S1-3、所述嵌入向量(Embedding)特征经过映射层获得该块(Chunk)对应的类别,即获得了输出的分类信息。
进一步地,在上述方案中,所述音频场景分类模型提取场景分类特征的计算公式为:
ect=W2(ReLU(W1hct)) (2)
embeddingc=[μc:σc] (6)
式中,hct∈RD为第c个Chunk的第t帧,其中0≤t≤W,其中W1∈RD×D,W2∈RD×1,D为模型维度,C为Chunk的大小,[:]表示将两个向量按特征维度进行拼接,最后输出的embeddingc为该Chunk的特征向量,用于最后的分类任务及融合模型向量的嵌入;当Chunk大小为1时,对应帧级别分类,即一条音频特征的每一帧都输出类别,当Chunk大小为lmax时对应句子级别分类,即一条音频特征只输出一个类别。
进一步地,在上述方案中,所述语音识别模型采用的是编解码(Encoder-Decoder)结构的变压器模型(Transformer),其中编码器(Encoder)为卷积增强的变压器(ConformerBlocks),解码器(Decoder)为一般变压器模型(Transformer)的解码器(Decoder);
所述音频场景分类模型与语音识别模型在同一批次数据上块(Chunk)大小须保持一致。
进一步地,在上述方案中,所述音频场景分类模型的训练采用的是动态块(Dynamic Chunk)的训练策略,公式如下:
其中lmax代表当前批次数据最长音频降采样后的帧数,U表示均匀分布,有50%的概率取最大帧数为块(Chunk)大小,50%概率块(Chunk)大小符合1到最大25的均匀分布;
音频场景分类模型的训练过程中,根据当前批次数据输出块(Chunk)的个数扩充类别标签与嵌入向量(Embedding)特征的个数相同,相当于每一个块(Chunk)级别的嵌入向量(Embedding)特征都有对应的标签。
说明:基于大规模不同的音频数据集(而不仅仅限于语音,也可以是各种场景噪声、音乐等)来训练得到一个音频场景分类模型,该模型可以准确地对输入音频提取场景类别相关表征。
由于训练音频场景分类模型使用大量数据,因此训练该模型较为耗时,为了满足后续流式识别(实时识别,即不需要一句话说完就开始进行识别)和非流式识别(非实时识别,即要求输入完整的一句话后才识别)的需求,音频场景分类模型采用基于动态块(Dyanmic Chunk)的方法进行训练,该模型在句子级别、帧级别、块(Chunk)级别(一句话有其对应的类别,那么该音频特征的所有帧也对应该类别,若干帧组成的一个块也对应该类别)的分类都有很高的准确率,且一次训练完成后该模型可以直接与流式、非流式或两种模式统一的语音识别模型进行联合,融合后的模型可以分别适应纯流式、纯非流式或两种模式统一的语音识别场景。
进一步地,在上述方案中,音频场景分类模型与语音识别模型的融合方法为:
将音频场景分类模型生成的帧级别的嵌入向量(Embedding)特征与语音识别模型降采样层的输出在特征维度进行相加,并送入到若干层卷积增强的变压器块(ConformerBlocks)中进行编码,再将卷积增强的变压器块(Conformer Blocks)的输出输入到连接时序分类层(Connectionist temporal classification,CTC)和解码器(Decoder)中;
并输入真实文本来计算连接时序分类层(Connectionist temporalclassification,CTC)的损失和解码器(Decoder)的损失。
说明:通过将音频场景分类模型和语音识别模型融合,大大提高了语音识别模型的自适应能力。
进一步地,在上述方案中,对所述融合模型进行预训练,通常使用大量数据训练的阶段称为预训练,预训练阶段为后续任务可以提供更好的初始化模型。
在训练融合模型时,在多种不同数据集上训练的音频场景分类模型参数,即音频嵌入模块的参数,保持固定,训练时语音识别模型对应参数,即除音频嵌入模块外的所有参数,进行更新。融合后的模型在尽可能大的带有文本标注的语音数据集上进行训练,以此保证模型有一个非常好的初始化参数,训练好的模型可以成为后续模型定制化的预训练模型。
进一步地,在上述方案中,对所述融合模型进行微调,由于预训练模型的训练数据和目标使用场景存在较大差距,且目标使用场景下的数据相对来说较少,为了充分利用其他的训练数据,因此往往对预训练模型在目标使用场景上的数据再次进行微调。
融合模型微调时适当降低学习率(比如可以减小为原来的1/10)及训练的轮数(比如可以减小到原来的一半)即可,该方法可以使得模型得在目标域数据集上快速适应,因此使用少量适当的特定场景下的带有文本标注的语音数据就可以达到很好的识别效果。显著降低微调时间及微调时要求目标域数据集的大小,同时即使不加入源域数据集进行微调,微调后的模型在源域数据集上的表现也不会出现太严重的下降。这是由于当没有音频场景分类模型辅助时,由于微调时模型的参数在新数据集上进行更新,而新数据集往往和模型的原训练数据差距较大,因此导致模型对新数据集过拟合,从而遗忘原本训练的数据导致在通用场景下模型表现出现大幅度下降;当加入音频场景分类模型时,该模型提取到的场景相关特征可以使得语音识别模型对原训练数据和新数据学到区分性信息,模型会选择性更新对新数据部分有用的参数,而不是更新全部参数,从而缓解了模型对原训练数据遗忘的情况。
与现有技术相比,本发明的有益效果体现在:本发明的方法通过利用大量多种音频数据集来训练一个音频场景分类模型该模型可以提取输入音频场景相关特征,将该特征和语音特征融合后输入到语音识别模型,使得语音识别模型在目标域数据上得以快速自适应,同时可以在不使用源域数据的情况下模型在源域上的表现不会出现太严重的下降。
附图说明
图1为单个为卷积增强的变压器块(Conformer Blocks)的结构图;
图2是音频场景分类模型的结构图;
图3是原始语音识别模型的框架图,其中,(a)是训练阶段,(b)是测试阶段;
图4是音频场景分类模型和语音识别模型融合后的融合模型的框架图,其中,(a)是训练阶段,(b)是测试阶段。
具体实施方式
实施例
一种音频场景分类辅助的语音识别快速自适应方法,包括以下步骤:
S1、训练得到一个音频场景分类模型,通过音频场景分类模型准确地提取输入音频的场景相关特征;
其中,如图2所示,音频场景分类模型包括:特征提取器、音频编码模块、映射层;
所述音频编码模块包括卷积降采样层、卷积增强的变压器块(ConformerBlocks)、注意力统计池化层(Attentive Statistic Pooling,ASP);
所述卷积降采样层是由两层卷积神经网络(Convolutional Neural Network,CNN)模块组成,
如图1所示,所述卷积增强的变压器块(Conformer Blocks)为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块;
其中,所述音频场景分类模型提取输入音频的场景相关特征的方法为:
S1-1、首先通过所述特征提取器提取出80维滤波器组(Filter-bank,Fbank)特征;
S1-2、通过所述音频编码模块对输入特征进行编码,具体为:
S1-2-1、通过所述卷积降采样层的两层卷积神经网络(Convolutional NeuralNetwork,CNN)模块对输入的语音在时间维度降采样为原来的四分之一;
S1-2-2、经过若干层卷积增强的变压器块(Conformer Blocks)搭建编码器用来对输入特征进行编码;
S1-2-3、经过块(Chunk)级别的注意力统计池化层(Attentive StatisticPooling,ASP),获得块(Chunk)级别的嵌入向量(Embedding)特征;(即每n个帧为一个块(Chunk),每一个块(Chunk)经过ASP后会得到其对应的向量)
S1-3、所述嵌入向量(Embedding)特征经过映射层获得该块(Chunk)对应的类别,即获得了输出的分类信息;
其中,音频场景分类模型提取场景分类特征的计算公式为:
ect=W2(ReLU(W1hct)) (2)
embeddingc=[μc:σc] (6)
式中,hct∈RD为第c个Chunk的第t帧,其中0≤t≤W,其中W1∈RD×D,W2∈RD×1,D为模型维度,C为Chunk的大小,[:]表示将两个向量按特征维度进行拼接,最后输出的embeddingc为该Chunk的特征向量,用于最后的分类任务及融合模型向量的嵌入;当Chunk大小为1时,对应帧级别分类,即一条音频特征的每一帧都输出类别,当Chunk大小为lmax时对应句子级别分类,即一条音频特征只输出一个类别。
语音识别模型的结构如图3所示,语音识别模型采用的是编解码(Encoder-Decoder)结构的变压器模型(Transformer),其中编码器(Encoder)为卷积增强的变压器(Conformer Blocks),解码器(Decoder)为一般变压器模型(Transformer)的解码器(Decoder);
所述音频场景分类模型与语音识别模型在同一批次数据上块(Chunk)大小须保持一致。
其中,所述音频场景分类模型的训练采用的是动态块(Dynamic Chunk)的训练策略,公式如下:
其中lmax代表当前批次数据最长音频降采样后的帧数,U表示均匀分布,有50%的概率取最大帧数为块(Chunk)大小,50%概率块(Chunk)大小符合1到最大25的均匀分布;
音频场景分类模型的训练过程中,根据当前批次数据输出块(Chunk)的个数扩充类别标签与嵌入向量(Embedding)特征的个数相同,相当于每一个块(Chunk)级别的嵌入向量(Embedding)特征都有对应的标签;
音频场景分类模型是为了提取到输入语音中的场景相关特征,与语音中的内容无关,因此训练该模型不要求数据集有对应的文本标注信息,可以为不同语种的数据集,且数据集中的音频不一定为语音,因此可以收集到尽可能多的不同种类的音频数据集,同时可以进行加噪加混响等,每一种操作可以产生一个新的数据集,这样我们可以在原有数据集的基础上增加了更多种类的数据集。假设不同数据集属于不同场景,在分类时对应不同类别;
S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合,由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。
其中,音频场景分类模型与语音识别模型的融合方法为:
如图4所示,将音频场景分类模型生成的帧级别的嵌入向量(Embedding)特征与语音识别模型降采样层的输出在特征维度进行相加,并送入到若干层卷积增强的变压器块(Conformer Blocks)中进行编码,再将卷积增强的变压器块(Conformer Blocks)的输出输入到连接时序分类层(Connectionist temporal classification,CTC)和解码器(Decoder)中;
并输入真实文本来计算连接时序分类层(Connectionist temporalclassification,CTC)的损失和解码器(Decoder)的损失。
说明:通过将音频场景分类模型和语音识别模型融合,大大提高了语音识别模型的自适应能力。
音频场景分类模型与语音识别模型融合后,对所述融合模型进行预训练,通常使用大量数据训练的阶段称为预训练,预训练阶段为后续任务可以提供更好的初始化模型。
在训练融合模型时,在多种不同数据集上训练的音频场景分类模型参数,即图3中的音频嵌入模块的参数,保持固定,训练时语音识别模型对应参数,即图3中除音频嵌入模块外的所有参数,进行更新。融合后的模型在尽可能大的带有文本标注的语音数据集上进行训练,以此保证模型有一个非常好的初始化参数,训练好的模型可以成为后续模型定制化的预训练模型。
音频场景分类模型与语音识别模型融合后,对所述融合模型进行微调,由于预训练模型的训练数据和目标使用场景存在较大差距,且目标使用场景下的数据相对来说较少,为了充分利用其他的训练数据,因此往往对预训练模型在目标使用场景上的数据再次进行微调。
融合模型微调时适当降低学习率(比如可以减小为原来的1/10)及训练的轮数(比如可以减小到原来的一半)即可,该方法可以使得模型得在目标域数据集上快速适应,因此使用少量适当的特定场景下的带有文本标注的语音数据就可以达到很好的识别效果。显著降低微调时间及微调时要求目标域数据集的大小,同时即使不加入源域数据集进行微调,微调后的模型在源域数据集上的表现也不会出现太严重的下降。这是由于当没有音频场景分类模型辅助时,由于微调时模型的参数在新数据集上进行更新,而新数据集往往和模型的原训练数据差距较大,因此导致模型对新数据集过拟合,从而遗忘原本训练的数据导致在通用场景下模型表现出现大幅度下降;当加入音频场景分类模型时,该模型提取到的场景相关特征可以使得语音识别模型对原训练数据和新数据学到区分性信息,模型会选择性更新对新数据部分有用的参数,而不是更新全部参数,从而缓解了模型对原训练数据遗忘的情况。
本实施例的音频场景分类辅助的语音识别快速自适应方法基于Wenet语音识别工具,除专利内特殊说明,其他配置如下:
音频:采样率为16kHz,采样位数为16-bit,格式为wav格式。
特征:采用80维滤波器组(Filter-bank,Fbank)特征,训练时提取特征时语音波形数值的抖动为1.0,测试时为0。
模型的配置:
音频嵌入模型的配置为2层Encoder,模型维度为128。
语音识别模型的配置为12层Encoder,6层Decoder,模型维度为256。
除了以上配置外其余全部相同,采用相对位置编码,替换原始变压器模型(Transformer)中的绝对位置编码;两层2维CNN中的卷积核大小为3,步长为2,激活函数为ReLU,如式(7);
f(x)=max(x,0) (7)
前馈神经网络的维度为1024,采用Swish激活函数,如式(8);
f(x)=x·σ(x) (8)
训练时学习率可采用0.001,25000个预热步数(Warmup Steps)的策略,训练轮数可根据模型在验证集上的表现来定,一般训练到模型在验证集上收敛后再训练5轮或10轮即可,对最后的5轮或10轮模型参数取平均作为最终的模型用于测试。
Claims (9)
1.一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,包括以下步骤:
S1、训练得到一个音频场景分类模型,通过所述音频场景分类模型准确地提取输入音频的场景相关特征;
S2、将音频场景分类模型所提取得到的相关场景特征和语音识别模型的声学特征进行融合,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。
2.根据权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述步骤S1中,所述音频场景分类模型包括:特征提取器、音频编码模块、映射层;
所述音频编码模块包括卷积降采样层、卷积增强的变压器块、注意力统计池化层;
所述卷积降采样层是由两层卷积神经网络模块组成,
所述卷积增强的变压器块为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块。
3.如权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述音频场景分类模型提取输入音频的场景相关特征的方法为:
S1-1、首先通过所述特征提取器提取出80维滤波器组特征;
S1-2、通过所述音频编码模块对输入特征进行编码,具体为:
S1-2-1、通过所述卷积降采样层的两层卷积神经网络模块对输入的语音在时间维度降采样为原来的四分之一;
S1-2-2、经过若干层卷积增强的变压器块搭建编码器用来对输入特征进行编码;
S1-2-3、经过块级别的注意力统计池化层,获得块级别的嵌入向量特征;
S1-3、所述嵌入向量特征经过映射层获得该块对应的类别,即获得了输出的分类信息。
4.根据权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述音频场景分类模型提取场景分类特征的计算公式为:
ect=W2(ReLU(W1hct)) (2)
embeddingc=[μc:σc] (6)
式中,hct∈RD为第c个Chunk的第t帧,其中0≤t≤W,其中W1∈RD×D,W2∈RD×1,D为模型维度,C为Chunk的大小,[:]表示将两个向量按特征维度进行拼接,最后输出的embeddingc为该Chunk的特征向量,用于最后的分类任务及融合模型向量的嵌入;当Chunk大小为1时,对应帧级别分类,即一条音频特征的每一帧都输出类别,当Chunk大小为lmax时对应句子级别分类,即一条音频特征只输出一个类别。
6.如权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,音频场景分类模型与语音识别模型的融合方法为:
将音频场景分类模型生成的帧级别的嵌入向量特征与语音识别模型降采样层的输出在特征维度进行相加,并送入到若干层卷积增强的变压器块中进行编码,再将卷积增强的变压器块的输出输入到连接时序分类层和解码器中;
并输入真实文本来计算连接时序分类层的损失和解码器的损失。
7.如权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述语音识别模型采用的是编解码结构的变压器模型,其中编码器为卷积增强的变压器,解码器为一般变压器模型的解码器;
所述音频场景分类模型与语音识别模型在同一批次数据上块大小须保持一致。
8.如权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,对所述融合模型进行预训练。
9.如权利要求8所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,对所述融合模型进行微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210204440.3A CN114464182B (zh) | 2022-03-03 | 2022-03-03 | 一种音频场景分类辅助的语音识别快速自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210204440.3A CN114464182B (zh) | 2022-03-03 | 2022-03-03 | 一种音频场景分类辅助的语音识别快速自适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114464182A true CN114464182A (zh) | 2022-05-10 |
CN114464182B CN114464182B (zh) | 2022-10-21 |
Family
ID=81416409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210204440.3A Active CN114464182B (zh) | 2022-03-03 | 2022-03-03 | 一种音频场景分类辅助的语音识别快速自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114464182B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035896A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车用语音唤醒方法、装置、电子设备及存储介质 |
CN117437909A (zh) * | 2023-12-20 | 2024-01-23 | 慧言科技(天津)有限公司 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
CN117475998A (zh) * | 2023-12-28 | 2024-01-30 | 慧言科技(天津)有限公司 | 基于lora微调辅助的语音唤醒快速自适应方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110224979A1 (en) * | 2010-03-09 | 2011-09-15 | Honda Motor Co., Ltd. | Enhancing Speech Recognition Using Visual Information |
US20160140955A1 (en) * | 2014-11-13 | 2016-05-19 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
US20160203828A1 (en) * | 2015-01-14 | 2016-07-14 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
WO2016173132A1 (zh) * | 2015-04-28 | 2016-11-03 | 中兴通讯股份有限公司 | 语音识别方法、装置及用户设备 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
KR20190059381A (ko) * | 2017-11-23 | 2019-05-31 | 연세대학교 산학협력단 | 자동 음성/제스처 인식 기반 멀티미디어 편집 방법 |
WO2020043040A1 (zh) * | 2018-08-30 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN111128183A (zh) * | 2019-12-19 | 2020-05-08 | 北京搜狗科技发展有限公司 | 语音识别方法、装置和介质 |
CN111613223A (zh) * | 2020-04-03 | 2020-09-01 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
US20200327884A1 (en) * | 2019-04-12 | 2020-10-15 | Adobe Inc. | Customizable speech recognition system |
CN112151030A (zh) * | 2020-09-07 | 2020-12-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态的复杂场景语音识别方法和装置 |
CN112435653A (zh) * | 2020-10-14 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 语音识别方法、装置和电子设备 |
CN112786052A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
WO2021129439A1 (zh) * | 2019-12-28 | 2021-07-01 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN113705079A (zh) * | 2021-07-21 | 2021-11-26 | 江苏苏云信息科技有限公司 | 基于层数采样的模型压缩方法、深度神经网络模型 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
-
2022
- 2022-03-03 CN CN202210204440.3A patent/CN114464182B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110224979A1 (en) * | 2010-03-09 | 2011-09-15 | Honda Motor Co., Ltd. | Enhancing Speech Recognition Using Visual Information |
US20160140955A1 (en) * | 2014-11-13 | 2016-05-19 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
US20160203828A1 (en) * | 2015-01-14 | 2016-07-14 | Honda Motor Co., Ltd. | Speech processing device, speech processing method, and speech processing system |
WO2016173132A1 (zh) * | 2015-04-28 | 2016-11-03 | 中兴通讯股份有限公司 | 语音识别方法、装置及用户设备 |
KR20190059381A (ko) * | 2017-11-23 | 2019-05-31 | 연세대학교 산학협력단 | 자동 음성/제스처 인식 기반 멀티미디어 편집 방법 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
WO2020043040A1 (zh) * | 2018-08-30 | 2020-03-05 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
US20200327884A1 (en) * | 2019-04-12 | 2020-10-15 | Adobe Inc. | Customizable speech recognition system |
WO2021104099A1 (zh) * | 2019-11-29 | 2021-06-03 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111128183A (zh) * | 2019-12-19 | 2020-05-08 | 北京搜狗科技发展有限公司 | 语音识别方法、装置和介质 |
WO2021129439A1 (zh) * | 2019-12-28 | 2021-07-01 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN111613223A (zh) * | 2020-04-03 | 2020-09-01 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
CN112151030A (zh) * | 2020-09-07 | 2020-12-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态的复杂场景语音识别方法和装置 |
CN112435653A (zh) * | 2020-10-14 | 2021-03-02 | 北京地平线机器人技术研发有限公司 | 语音识别方法、装置和电子设备 |
CN112786052A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
CN113705079A (zh) * | 2021-07-21 | 2021-11-26 | 江苏苏云信息科技有限公司 | 基于层数采样的模型压缩方法、深度神经网络模型 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
Non-Patent Citations (4)
Title |
---|
TENG ZHANG ET AL: "Constrained Learned Feature Extraction for Acoustic Scene Classification", 《IEEE/ACM TRANSAC TIONS ON AUDIO, SPEECH, AND LANGUAGE P ROCESSING》 * |
周权等: "基于多特征融合的意图识别算法研究", 《电脑知识与技术》 * |
李超等: "基于视听信息融合的智能监控系统", 《计算机工程与应用》 * |
谭磊等: "基于深度学习的移动端语音识别系统设计", 《单片机与嵌入式系统应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035896A (zh) * | 2022-05-31 | 2022-09-09 | 中国第一汽车股份有限公司 | 车用语音唤醒方法、装置、电子设备及存储介质 |
CN117437909A (zh) * | 2023-12-20 | 2024-01-23 | 慧言科技(天津)有限公司 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
CN117437909B (zh) * | 2023-12-20 | 2024-03-05 | 慧言科技(天津)有限公司 | 基于热词特征向量自注意力机制的语音识别模型构建方法 |
CN117475998A (zh) * | 2023-12-28 | 2024-01-30 | 慧言科技(天津)有限公司 | 基于lora微调辅助的语音唤醒快速自适应方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114464182B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114464182B (zh) | 一种音频场景分类辅助的语音识别快速自适应方法 | |
CN107545903B (zh) | 一种基于深度学习的语音转换方法 | |
CN112331183B (zh) | 基于自回归网络的非平行语料语音转换方法及系统 | |
CN113516968B (zh) | 一种端到端长时语音识别方法 | |
CN113284485B (zh) | 统一中英混合文本生成和语音识别的端到端系统 | |
CN111710326A (zh) | 英文语音的合成方法及系统、电子设备及存储介质 | |
CN113761841B (zh) | 将文本数据转换为声学特征的方法 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN115836300A (zh) | 用于文本到语音的自训练WaveNet | |
Gao et al. | Distilling knowledge from ensembles of acoustic models for joint ctc-attention end-to-end speech recognition | |
CN113505611B (zh) | 在生成对抗中获得更好的语音翻译模型的训练方法和系统 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
Narayanan et al. | Hierarchical sequence to sequence voice conversion with limited data | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN111009236A (zh) | 一种基于dblstm+ctc声学模型的语音识别方法 | |
Gref et al. | Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech Recognition in Real-World Applications--A Case Study on German Oral History Interviews | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
Tanaka et al. | End-to-end rich transcription-style automatic speech recognition with semi-supervised learning | |
Ngoc et al. | Adapt-Tts: High-Quality Zero-Shot Multi-Speaker Text-to-Speech Adaptive-Based for Vietnamese | |
Wang et al. | Few-shot short utterance speaker verification using meta-learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |