CN115359784A - 基于迁移学习的民航陆空语音识别模型训练方法及系统 - Google Patents

基于迁移学习的民航陆空语音识别模型训练方法及系统 Download PDF

Info

Publication number
CN115359784A
CN115359784A CN202211292283.2A CN202211292283A CN115359784A CN 115359784 A CN115359784 A CN 115359784A CN 202211292283 A CN202211292283 A CN 202211292283A CN 115359784 A CN115359784 A CN 115359784A
Authority
CN
China
Prior art keywords
training
civil aviation
data set
model
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211292283.2A
Other languages
English (en)
Other versions
CN115359784B (zh
Inventor
张华勇
王小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aiwei Translation Technology Co ltd
Original Assignee
Chengdu Aiwei Translation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aiwei Translation Technology Co ltd filed Critical Chengdu Aiwei Translation Technology Co ltd
Priority to CN202211292283.2A priority Critical patent/CN115359784B/zh
Publication of CN115359784A publication Critical patent/CN115359784A/zh
Application granted granted Critical
Publication of CN115359784B publication Critical patent/CN115359784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明公开了一种基于迁移学习的民航陆空语音识别模型训练方法及系统,所述方法包括:获取通用领域的数据集并处理得到声学特征;收集民航领域的数据集,再扩充训练文本并处理得到声学特征;初始化基于卷积神经网络的端到端语音识别模型的神经网络;采用通用领域的语音信号声学特征对语音识别模型进行训练得到预训练模型;获取迁移学习训练数据集;将初始化神经网络的语音识别模型的模型参数输入预训练模型中;采用迁移学习训练数据集对预训练模型进行训练,得到民航陆空通话语音识别模型。本发明能使语音识别模型在有限标注样本的数据集上也能显著提升识别率,进而提升飞行安全。

Description

基于迁移学习的民航陆空语音识别模型训练方法及系统
技术领域
本发明涉及民航无线电陆空通话领域,具体是基于迁移学习的民航陆空语音识别模型训练方法及系统。
背景技术
近年来,随着民航事业的高速发展,运输航空的飞行活动量逐年增长,民航业务也日益繁重。民航无线电陆空通话联系着空中和地面,传递着管制员和机组之间的指令信息,其与日常说话方式不同,是根据民航飞机运行特点开创的一种半人工语言。在中国,民航无线电陆空通话使用环境更加复杂,在《空中交通陆空对话用语标准》中,民航局对通话做了很多规定,例如数字的读法,7读为拐,0读为洞等。
为了避免在陆空通话过程中由于通话内容不正确、语言模糊等原因造成陆空通话错误,目前已采用语音识别模型来辅助管制员甚至替代管制员进行陆空通话,以此来减少陆空安全事故。语音识别模型需采用大量的民航陆空通话标注样本进行训练,以适应民航无线电陆空通话的使用环境,提升民航陆空通话语音指令的识别率,进而提升飞行安全性。然而,现有可供语音识别模型训练的民航陆空通话标注样本较少,而采用人为数据标注提供训练样本的方式开销巨大,这严重影响到了语音识别模型在民航陆空通话领域的推广应用。
发明内容
本发明的目的在于解决现有应用于民航陆空通话的语音识别模型因成本或标注样本较少而不能得到有效训练的问题,提供了一种基于迁移学习的民航陆空语音识别模型训练方法,其应用时采用有限的民航陆空通话标注样本训练语音识别模型,且能使语音识别模型在有限标注样本的数据集上也能显著提升识别率。
本发明的目的主要通过以下技术方案实现:基于迁移学习的民航陆空语音识别模型训练方法,包括以下步骤:
获取通用领域数据集,并进行数据处理得到通用领域的语音信号声学特征;
收集民航领域数据集,生成训练文本,再依据民航领域数据集的特点扩充训练文本,并进行数据处理得到民航领域的语音信号声学特征;
初始化基于卷积神经网络的端到端语音识别模型的神经网络,并保存模型参数;
采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练,直至模型的损失达到设定阈值范围内时停止训练,得到预训练模型;
将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合,得到迁移学习训练数据集;
将初始化神经网络的语音识别模型的模型参数输入预训练模型中,作为预训练模型的初始参数;
采用迁移学习训练数据集对预训练模型进行训练,调小模型学习率并微调网络所有层的参数,最终得到民航陆空通话语音识别模型。其中,通用领域数据集为开放域数据集,其数据为源域数据,民航领域数据集的数据作为目标域的数据。
由于民航陆空通话领域现有数据过少,本发明通过收集开放域数据集并做数据处理,初始化神经网络并保存模型参数,采用经初始化神经网络的语音识别模型在开放域进行模型训练,得到预训练模型,再融合源域和目标域的数据,使用一个较小的学习率对模型进行训练,得到民航陆空通话语音识别模型。本发明采用基于迁移学习的方法能有效利用该民航领域外的数据,提升在目标域语音识别的准确度,同时也能确保模型在开放域语音识别具有较高的准确率。采用本发明的方法能够解决无线电陆空通话领域语料不足的问题,提高无线电陆空通话的准确率。
进一步的,将数据集处理得到语音信号声学特征包括以下步骤:
将数据集中的语音格式进行解码得到语料库;
检测语料库中语音活性,并切除语音首尾静音部分,得到语音数据;
将语音数据依次经过预加重、分帧、加窗、离散傅里叶变换后得到语音信号声学特征。
进一步的,所述依据民航领域数据集的特点扩充训练文本包括以下步骤:
根据民航陆空通话特点,设置场景,分析陆空通话的典型指令,再设计为语音识别的语句范式,扩充为训练文本。
进一步的,所述初始化基于卷积神经网络的端到端语音识别模型的神经网络时,采用ReLU激活函数配置神经网络隐层。
进一步的,所述通用领域数据集定义为:
Figure 183132DEST_PATH_IMAGE001
其中,D(S)表示通用领域数据集,为源域,x i 表示输入特征,y i 表示输入特征对应的标签数据,n为通用领域数据集的数据总量,in个数据中的第i个数据;
采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练时,通过预训练确定神经网络权值矩阵,进而得到预训练模型。
进一步的,将通用领域的语音信号声学特征与民航领域的语音信号声学特征进行融合时,融合比例为1:5。
进一步的,所述迁移学习训练数据集定义为:
Figure 59822DEST_PATH_IMAGE002
其中,D(T)表示迁移学习训练数据集,为目标域,x i' x j 表示输入特征,y i' y j 表示输入特征对应的标签数据,m为迁移学习训练数据集中数据总数,i'为迁移学习训练数据集中第i'个通用领域的语音信号声学特征,j'为迁移学习训练数据集中第j'个民航领域的语音信号声学特征。
进一步的,得到民航陆空通话语音识别模型时,通过不断最小化损失函数得到新权值矩阵,进而得到最终模型。
进一步的,所述损失函数采用CTC损失函数,其Loss函数L(S)定义如下:
Figure 741339DEST_PATH_IMAGE003
其中,L(S)表示训练集的损失函数,p(z│x)代表给定输入x,输出序列z的概率,S为训练集。
进一步的,所述通用领域数据集、民航领域数据集均包括中文数据集和英文数据集。
实现上述基于迁移学习的民航陆空语音识别模型训练方法的系统,包括:
通用领域数据收集处理模块,用于获取通用领域数据集,并进行数据处理得到通用领域的语音信号声学特征;
民航领域数据收集处理模块,用于收集民航领域数据集,生成训练文本,再依据民航领域数据集的特点扩充训练文本,并进行数据处理得到民航领域的语音信号声学特征;
语音识别模型初始化模块,用于初始化基于卷积神经网络的端到端语音识别模型的神经网络,并保存模型参数;
预训练模型生成模块,用于采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练,直至模型的损失达到设定阈值范围内时停止训练,得到预训练模型;
迁移学习训练数据生成模块,用于将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合,得到迁移学习训练数据集;
预训练模型参数设置模块,用于将初始化神经网络的语音识别模型的模型参数输入预训练模型中,作为预训练模型的初始参数;
民航陆空通话语音识别模型生成模块,用于采用迁移学习训练数据集对预训练模型进行训练,调小模型学习率并微调网络所有层的参数,最终得到民航陆空通话语音识别模型。
综上所述,本发明与现有技术相比具有以下有益效果:本发明的语音识别模型首先在更容易获取的开放域数据集上进行首次训练,获得一个可以良好识别开放域语音数据的语音识别模型。再利用迁移学习的方式,将该模型迁移至民航领域,相较于只使用目标域的声学建模,基于迁移学习的方案能够有效的提升在目标域语音识别的准确度,同时具备更高的鲁棒性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一个具体实施例的流程图;
图2为本发明一个具体实施例的系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
如图1所示,基于迁移学习的民航陆空语音识别模型训练方法,包括以下步骤:获取通用领域数据集,并进行数据处理得到通用领域的语音信号声学特征;收集民航领域数据集,生成训练文本,再依据民航领域数据集的特点扩充训练文本,并进行数据处理得到民航领域的语音信号声学特征;初始化基于卷积神经网络的端到端语音识别模型的神经网络,并保存模型参数;采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练,直至模型的损失达到设定阈值范围内时停止训练,得到预训练模型;将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合,得到迁移学习训练数据集;将初始化神经网络的语音识别模型的模型参数输入预训练模型中,作为预训练模型的初始参数;采用迁移学习训练数据集对预训练模型进行训练,调小模型学习率并微调网络所有层的参数,最终得到民航陆空通话语音识别模型。本实施例中通用领域数据集、民航领域数据集均包括中文数据集和英文数据集。本实施例通用领域的中文数据集基于现有的AISHEEL数据集得到,通用领域的英文数据集基于LibriSpeech数据集得到。
如图2所示,实现上述基于迁移学习的民航陆空语音识别模型训练方法的系统,包括:
通用领域数据收集处理模块,用于获取通用领域数据集,并进行数据处理得到通用领域的语音信号声学特征;
民航领域数据收集处理模块,用于收集民航领域数据集,生成训练文本,再依据民航领域数据集的特点扩充训练文本,并进行数据处理得到民航领域的语音信号声学特征;
语音识别模型初始化模块,用于初始化基于卷积神经网络的端到端语音识别模型的神经网络,并保存模型参数;
预训练模型生成模块,用于采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练,直至模型的损失达到设定阈值范围内时停止训练,得到预训练模型;
迁移学习训练数据生成模块,用于将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合,得到迁移学习训练数据集;
预训练模型参数设置模块,用于将初始化神经网络的语音识别模型的模型参数输入预训练模型中,作为预训练模型的初始参数;
民航陆空通话语音识别模型生成模块,用于采用迁移学习训练数据集对预训练模型进行训练,调小模型学习率并微调网络所有层的参数,最终得到民航陆空通话语音识别模型。本实施例在具体设置时,模型的损失达到设定阈值范围为0~0.3,在训练过程中,当模型的损失值下降幅度不大于0.3时,可以认为损失基本保持不变。
本实施例将数据集处理得到语音信号声学特征包括以下步骤:将数据集中的语音格式进行解码得到语料库;检测语料库中语音活性,并切除语音首尾静音部分,得到语音数据;将语音数据依次经过预加重、分帧、加窗、离散傅里叶变换后得到语音信号声学特征。其中,解码的过程就是在给定声学特征的情况下,找到最可能对应的词组的过程。本实施例通过语音活性检测,检测语音信号是否存在。本实施例通过预加重以增强该语音数据的高频部分,再通过分帧、加窗进行平滑处理,再通过离散傅里叶变换将时域信号有采样变换为在频域的采样,得到预处理后的语音信号声学特征。
本实施例依据民航领域数据集的特点扩充训练文本包括以下步骤:根据民航陆空通话特点,设置场景,分析陆空通话的典型指令,再设计为语音识别的语句范式,扩充为训练文本。本实施例根据《空中交通无线电通化用语》来理解并分析指令,民航指令根据具体场景可分为不同的阶段,例如起飞阶段,放行阶段,滑行阶段,掉头阶段,推出开车阶段等,每一个阶段的指令不同,但在同一阶段的指令有固定句式;以掉头阶段为例:掉头阶段一般给飞机下发的指令为:_______在______跑道掉头,此时可以根据关键词匹配的方法在空格处填词,例如牧歌3785,在87跑道上掉头;奥凯1385,在35跑道上掉头;通过这种方式可以增加训练预料,从而提高语音识别模型的准确率。
本实施例初始化基于卷积神经网络的端到端语音识别模型的神经网络时,采用ReLU激活函数配置神经网络隐层。ReLU激活函数即为线性整流函数,其给神经元引入非线性因素,神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。ReLU激活函数f(x)的公式定义为:f(x)=max(0,x)。其中x为上一层神经网络的输入向量,f(x)为使用ReLU的神经元输出的max(0,x)
本实施例采用基于卷积神经网络的端到端语音识别模型QuartzNet初始化神经网络,QuartzNet模型从总整体上看,模型主要由一个1D卷积层C 1 和一系列的块组成,其中,深度卷积被应用在了模型的所有卷积过程中。模型中的块与块之间使用残差进行连接,并被重复堆叠多次,每一个块包含基准模块及以下四层模块:1)一个大小为K的深度卷积层,输出通道数为C out ;2)一个深度卷积;3)一个泛化层;4)ReLU激活层。ReLU激活函数即线性整流函数,又称修正线性单元,是人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
本实施例将通过卷积得到的语音信号特征输入三个附加的卷积层(C 2 ,C 3 ,C 4 )中获得了维度为标签字典大小的输出,其中每一个维度代表该时间步语音信号被识别为字典中各个文本标签的概率。其中卷积层C 1 的步长为2,卷积层C 4 的扩张率为2。
深度卷积是对每个通道独立应用的,因此它只占权重总数的一小部分,这可以使用更宽的内核,其中经过实验验证,在归一化、层归一化、实例归一化以及组归一化中,批处理归一化的模型性能更稳定且结果更优,因此选择了批处理归一化作为模型的泛化层。
其中批处理归一化处理方法如下,其中批处理输入为x 1 x m 共m个样本。
1)计算批处理数据均值μ β
Figure 805110DEST_PATH_IMAGE004
2)计算批处理数据方差
Figure 738431DEST_PATH_IMAGE005
Figure 800452DEST_PATH_IMAGE006
3)规范化
Figure 856133DEST_PATH_IMAGE007
,其中ε是为了避免除数为0时所使用的微小正数:
Figure 938358DEST_PATH_IMAGE008
4)尺度变换和偏移后,输出网络特征y k
Figure 737687DEST_PATH_IMAGE009
其中BN表示批处理,γ是尺度因子,β为平移因子,在训练时,γ、β为模型自己学到的参数,最后返回学习的参数γ、βk取值为1至
时间通道可分离卷积块的权重总数为K×C in +C in ×C out 权重,由于K通常比C out 小几倍,因此大多数权重都集中在逐点卷积部分。为了进一步减少参数的数量,本实施例在该层使用组卷积的方法,此外,还可采用组打乱方式以增加数据跨组互换,使用组卷积的方式可以大大减少权重的数量。
本实施例的通用领域数据集定义为:
Figure 323389DEST_PATH_IMAGE001
其中,D(S)表示通用领域数据集,为源域,x i 表示输入特征,y i 表示输入特征对应的标签数据,n为通用领域数据集的数据总量,in个数据中的第i个数据;
采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练时,通过预训练确定神经网络权值矩阵,进而得到预训练模型。
发明人在反复实验总结发现,通用领域的语音信号声学特征与民航领域的语音信号声学特征采用1:5进行融合时,准备度能得到显著提升,因此,本实施例将通用领域的语音信号声学特征与民航领域的语音信号声学特征进行融合时,融合比例优选为1:5。
本实施例迁移学习训练数据集定义为:
Figure 549971DEST_PATH_IMAGE002
其中,D(T)表示迁移学习训练数据集,为目标域,x i' x j 表示输入特征,y i' y j 表示输入特征对应的标签数据,m为迁移学习训练数据集中数据总数,i'为迁移学习训练数据集中第i'个通用领域的语音信号声学特征,j'为迁移学习训练数据集中第j'个民航领域的语音信号声学特征。
本实施例得到民航陆空通话语音识别模型时,通过不断最小化损失函数得到新权值矩阵,进而得到最终模型。其中,损失函数采用CTC损失函数,其Loss函数L(S)定义如下:
Figure 119493DEST_PATH_IMAGE003
其中,L(S) 表示训练集的损失函数,p(z│x)代表给定输入x,输出序列z的概率,S为训练集。
本实施例给出迁移学习训练数据集,其为来自于通用领域数据集和民航领域数据集,将输入特征及对应标签数据在预训练模型上进行迁移训练,设置一个较小的学习率来训练,当民航数据集在400小时以上时,学习率设置为0.0005,模型识别率最好。最后以不断最小化损失函数得到新权值矩阵及最终模型。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,包括以下步骤:
获取通用领域数据集,并进行数据处理得到通用领域的语音信号声学特征;
收集民航领域数据集,生成训练文本,再依据民航领域数据集的特点扩充训练文本,并进行数据处理得到民航领域的语音信号声学特征;
初始化基于卷积神经网络的端到端语音识别模型的神经网络,并保存模型参数;
采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练,直至模型的损失达到设定阈值范围内时停止训练,得到预训练模型;
将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合,得到迁移学习训练数据集;
将初始化神经网络的语音识别模型的模型参数输入预训练模型中,作为预训练模型的初始参数;
采用迁移学习训练数据集对预训练模型进行训练,调小模型学习率并微调网络所有层的参数,最终得到民航陆空通话语音识别模型。
2.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,将数据集处理得到语音信号声学特征包括以下步骤:
将数据集中的语音格式进行解码得到语料库;
检测语料库中语音活性,并切除语音首尾静音部分,得到语音数据;
将语音数据依次经过预加重、分帧、加窗、离散傅里叶变换后得到语音信号声学特征。
3.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,所述依据民航领域数据集的特点扩充训练文本包括以下步骤:
根据民航陆空通话特点,设置场景,分析陆空通话的典型指令,再设计为语音识别的语句范式,扩充为训练文本。
4.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,所述初始化基于卷积神经网络的端到端语音识别模型的神经网络时,采用ReLU激活函数配置神经网络隐层。
5.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,所述通用领域数据集定义为:
Figure 257565DEST_PATH_IMAGE001
其中,D(S)表示通用领域数据集,为源域,x i 表示输入特征,y i 表示输入特征对应的标签数据,n为通用领域数据集的数据总量,in个数据中的第i个数据;
采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练时,通过预训练确定神经网络权值矩阵,进而得到预训练模型。
6.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,所述迁移学习训练数据集定义为:
Figure 237022DEST_PATH_IMAGE002
其中,D(T)表示迁移学习训练数据集,为目标域,x i' x j 表示输入特征,y i' y j 表示输入特征对应的标签数据,m为迁移学习训练数据集中数据总数,i'为迁移学习训练数据集中第i'个通用领域的语音信号声学特征,j'为迁移学习训练数据集中第j'个民航领域的语音信号声学特征。
7.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,得到民航陆空通话语音识别模型时,通过不断最小化损失函数得到新权值矩阵,进而得到最终模型。
8.根据权利要求7所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,所述损失函数采用CTC损失函数,其Loss函数L(S)定义如下:
Figure 79076DEST_PATH_IMAGE003
其中,L(S) 表示训练集的损失函数,p(z│x)代表给定输入x,输出序列z的概率,S为训练集。
9.根据权利要求1~8中任意一项所述的基于迁移学习的民航陆空语音识别模型训练方法,其特征在于,所述通用领域数据集、民航领域数据集均包括中文数据集和英文数据集。
10.实现权利要求1~9中任意一项所述的基于迁移学习的民航陆空语音识别模型训练方法的系统,其特征在于,包括:
通用领域数据收集处理模块,用于获取通用领域数据集,并进行数据处理得到通用领域的语音信号声学特征;
民航领域数据收集处理模块,用于收集民航领域数据集,生成训练文本,再依据民航领域数据集的特点扩充训练文本,并进行数据处理得到民航领域的语音信号声学特征;
语音识别模型初始化模块,用于初始化基于卷积神经网络的端到端语音识别模型的神经网络,并保存模型参数;
预训练模型生成模块,用于采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练,直至模型的损失达到设定阈值范围内时停止训练,得到预训练模型;
迁移学习训练数据生成模块,用于将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合,得到迁移学习训练数据集;
预训练模型参数设置模块,用于将初始化神经网络的语音识别模型的模型参数输入预训练模型中,作为预训练模型的初始参数;
民航陆空通话语音识别模型生成模块,用于采用迁移学习训练数据集对预训练模型进行训练,调小模型学习率并微调网络所有层的参数,最终得到民航陆空通话语音识别模型。
CN202211292283.2A 2022-10-21 2022-10-21 基于迁移学习的民航陆空语音识别模型训练方法及系统 Active CN115359784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211292283.2A CN115359784B (zh) 2022-10-21 2022-10-21 基于迁移学习的民航陆空语音识别模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211292283.2A CN115359784B (zh) 2022-10-21 2022-10-21 基于迁移学习的民航陆空语音识别模型训练方法及系统

Publications (2)

Publication Number Publication Date
CN115359784A true CN115359784A (zh) 2022-11-18
CN115359784B CN115359784B (zh) 2023-01-17

Family

ID=84007771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211292283.2A Active CN115359784B (zh) 2022-10-21 2022-10-21 基于迁移学习的民航陆空语音识别模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN115359784B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662401A (zh) * 2022-12-14 2023-01-31 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN110136689A (zh) * 2019-04-02 2019-08-16 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN110853617A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
CN111755024A (zh) * 2019-03-27 2020-10-09 四川大学 一种基于迁移学习的暴恐音频检测方法
CN112133292A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN112133290A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
CN112216272A (zh) * 2019-06-25 2021-01-12 南京航空航天大学 一种针对民航陆空通话领域的语种识别方法
CN112464816A (zh) * 2020-11-27 2021-03-09 南京特殊教育师范学院 基于二次迁移学习的地方手语识别方法、装置
CN113160798A (zh) * 2021-04-28 2021-07-23 厦门大学 一种中文民航空中交通管制语音识别方法及系统
CN114550703A (zh) * 2020-11-24 2022-05-27 亚信科技(中国)有限公司 语音识别系统的训练方法和装置、语音识别方法和装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109616105A (zh) * 2018-11-30 2019-04-12 江苏网进科技股份有限公司 一种基于迁移学习的带噪语音识别方法
CN111755024A (zh) * 2019-03-27 2020-10-09 四川大学 一种基于迁移学习的暴恐音频检测方法
CN110136689A (zh) * 2019-04-02 2019-08-16 平安科技(深圳)有限公司 基于迁移学习的歌声合成方法、装置及存储介质
CN110111803A (zh) * 2019-05-09 2019-08-09 南京工程学院 基于自注意多核最大均值差异的迁移学习语音增强方法
CN112133292A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的端到端的自动语音识别方法
CN112133290A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
CN112216272A (zh) * 2019-06-25 2021-01-12 南京航空航天大学 一种针对民航陆空通话领域的语种识别方法
CN110853618A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种语种识别的方法、模型训练的方法、装置及设备
CN110853617A (zh) * 2019-11-19 2020-02-28 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
CN114550703A (zh) * 2020-11-24 2022-05-27 亚信科技(中国)有限公司 语音识别系统的训练方法和装置、语音识别方法和装置
CN112464816A (zh) * 2020-11-27 2021-03-09 南京特殊教育师范学院 基于二次迁移学习的地方手语识别方法、装置
CN113160798A (zh) * 2021-04-28 2021-07-23 厦门大学 一种中文民航空中交通管制语音识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662401A (zh) * 2022-12-14 2023-01-31 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法
CN115662401B (zh) * 2022-12-14 2023-03-10 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法

Also Published As

Publication number Publication date
CN115359784B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110517663B (zh) 一种语种识别方法及识别系统
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及系统
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111339750B (zh) 去除停用语并预测句子边界的口语文本处理方法
Santhanavijayan et al. A semantic-aware strategy for automatic speech recognition incorporating deep learning models
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
WO2021147041A1 (zh) 语义分析方法、装置、设备及存储介质
CN115359784B (zh) 基于迁移学习的民航陆空语音识别模型训练方法及系统
CN113160798A (zh) 一种中文民航空中交通管制语音识别方法及系统
CN112992125A (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN112133290A (zh) 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
Wang et al. Cross-modal knowledge distillation method for automatic cued speech recognition
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN110390929A (zh) 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN114999463B (zh) 语音识别方法、装置、设备及介质
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant