CN114648982B - 一种基于对比学习的管制员语音识别方法及装置 - Google Patents
一种基于对比学习的管制员语音识别方法及装置 Download PDFInfo
- Publication number
- CN114648982B CN114648982B CN202210565712.2A CN202210565712A CN114648982B CN 114648982 B CN114648982 B CN 114648982B CN 202210565712 A CN202210565712 A CN 202210565712A CN 114648982 B CN114648982 B CN 114648982B
- Authority
- CN
- China
- Prior art keywords
- voice
- controller
- noise
- module
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 230000000052 comparative effect Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 34
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000126 substance Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 10
- 238000013461 design Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音识别领域和民用航空空中交通管制领域,特别是一种基于对比学习的管制员语音识别方法及装置。本发明基于现有空管内话系统的语音产生和传输机制,设计了一种通过旁路设备采集真实空管场景下的噪声‑清晰语音数据对的方法,并通过预处理和标注形成了可用于空管语音识别的标注语料;且该方法在空管环境采集下具有普适性,其采集的数据不仅可以支撑本发明涉及的模型训练和优化,还可以支撑基于学习的空管语音增强去噪研究。同时本发明还在空管语音识别中加入对比机制,通过学习噪声‑清晰数据的共有文本表示特征,能有效提升不同结构的端到端空管语音识别模型的性能。
Description
技术领域
本发明涉及语音识别领域和民用航空空中交通管制领域,特别是一种基于对比学习的管制员语音识别方法及装置。
背景技术
空中交通管制(空管)通过管制员主观性决策干预航班运行,是保证空中交通安全和提高运行效率的基础和关键。航班运行过程中,地面管制员与飞行员之间通过以语音通话的方式进行实时的沟通和协调,往来语音通过无线电甚高频进行传输。如图1所示,展示了空管语音产生和传输过程,描述如下:
1)管制员语音通过上行传输经过麦克风、通信服务器、接口服务器传输到无线电台并发送到飞行员端;
2)为了使管制员能够确认飞行员是否收到其发送的语音指令,空管内话系统采用了“回传机制”,将发送的语音通过同一无线电频率收回来并通过下行传输到管制员耳机;
3)飞行员发出的复诵语音通过下行传输给管制员,实现双方语音沟通;
4)为确保管制席位具有统一的语音输出接口,空管内话系统将上下行语音信号采用叠加拼接的方式进行合并,输出到下游的语音应用,如记录仪系统、语音识别系统。
图2展示了内话系统各传输线路的语音(与图1对应)。分析可知,上下行语音在叠加过程中会出现时延现象(即图2,从上到下依次为:上行、下行、上下行混合),进而在管制员语音信号上产生一种空管内话系统独有的“管制回声”。上下行语音的时延取决于语音在内话系统与无线电台站之间的传输距离,因此,管制回声在各个席位的内话系统中的信号表现形式不尽相同,极大地影响了语音信号的质量。
此外,空管语音信号的质量还受语音采集设备、内话系统、无线电传输条件(天气、距离、稳定性)、说话人特征及其所处的环境等因素影响,其噪声模型表现为多因素耦合特征,在特征表示过程中多因素噪声会出现耦合现象,影响语音识别相关特征表示甚至出现特征崩塌,进而降低语音识别性能及其下游应用的可靠性。
分析现有语音识别方法可知,存在回声的管制员语音的识别精度明显小于不含回声的飞行员语音,目前方法对语音回声尚无解决方案。此外,管制员语音作为管制沟通协商的发起点,其识别性能对下游应用的影响更大。因此,如今需要一种能够排除回声干扰,减小语音识别误差的管制员语音识别方法及装置。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于对比学习的管制员语音识别方法及装置。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于对比学习的管制员语音识别方法,包括以下步骤:
S1:获取原始噪声-清晰语音数据对,生成原始数据集,并对所述原始数据集进行标注处理,输出标注数据集;
S2:基于神经网络结构搭建管制员语音识别初步模型,所述管制员语音识别初步模型包括TFAtt模块以及多任务损失模块;所述TFAtt模块用于优化并确定时频注意力参数;所述多任务损失模块用于建立多任务损失函数;
S3:所述多任务损失模块基于对比学习以及CTC算法建立所述管制员语音识别初步模型的多任务损失函数;
S4:基于所述多任务损失函数以及所述标注数据集,通过神经网络训练算法更新所述管制员语音识别初步模型的模型参数,并输出为管制员语音识别模型;
S5:将待识别管制员语音输入所述语音识别模型,输出对应的文本结果;所述步骤S1中所述原始噪声-清晰语音数据对的获取方法为:
在现有内话系统的基础上,在每一个空管席位添加一套旁路内话系统,并同时通过所述旁路内话系统以及所述现有内话系统对管制员的语音进行采集,获取所述原始噪声-清晰语音数据对;
其中,所述现有内话系统设置为正常通话工作模式,所述旁路内话系统设置为监听模式,所述旁路内话系统的无线电通信频率与其对应的所述现有内话系统的无线电通信频率一致。本发明基于现有空管内话系统的语音产生和传输机制基础上,设计了一种通过旁路设备采集真实空管场景下的噪声-清晰语音数据对的方法,并通过预处理和标注形成了可用于空管语音识别的标注语料;且该方法在空管采集下具有普适性,其采集的数据不仅可以支撑本发明涉及的模型训练和优化,还可以支撑基于学习的空管语音增强去噪研究。同时本发明还在空管语音识别中加入对比机制,通过学习噪声-清晰数据的共有文本表示特征提升语音识别模型性能,能有效提升不同结构的端到端空管语音识别模型的性能。
作为本发明的优选方案,所述步骤S1包括:
S1-1:搜集真实空管运行场景下的原始噪声-清晰语音数据对,生成原始数据集;
S1-2:对所述原始数据集中的原始噪声-清晰语音数据对进行预处理,并输出预处理后的所述原始噪声-清晰语音数据对;所述预处理包含语音活动检测、说话人身份判别和/或静音-噪音数据筛查;
S1-3:针对预处理后的所述原始噪声-清晰语音数据对进行人工标注,输出为标注数据集;所述人工标注的标注内容包含所述原始噪声-清晰语音数据对应的指令文本。
作为本发明的优选方案,所述管制员语音识别初步模型包括CNN模块、TFAtt模块、BiLSTM模块、TDFC模块以及多任务损失模块;
所述CNN模块采用卷积层在输入的语音特征图上提取抽象语音特征,使用多路径、多尺度的卷积核配置在不同的时空分辨率上学习多样化的语音特征表示;其中,所述CNN模块路径数至少为2,尺度数至少为2;
所述TFAtt模块,搭建时频注意力机制模块,引导模型关注不同语音帧以及频率范围对识别性能的影响,通过学习的方式优化并确定时频注意力参数;
所述BiLSTM模块,采用双向长短时记忆网络挖掘语音信号帧特征之间的时序相关性,主要包含同一文本帧内声学相关性以及不同文本帧的语言相关性;在不同层之间建立残差连接,提高隐藏信息的传导能力,便于识别模型的训练和优化;
所述TDFC模块,采用时序分布机制的全连接网络实现语音序列分类任务,输出提取的序列特征在每一时间步语音帧与文本标签之间的概率对应关系。
作为本发明的优选方案,所述TFAtt模块包括以下运行步骤:
S2-1:根据输入特征图,在时序维度上利用全局平均池化操作生成初始化的时序注意力权重,运算式为:
S2-2:根据输入特征图,在频率维度上利用全局平均池化操作生成初始化的频率注意力权重,运算式为:
S2-3:搭建一维CNN模块分别挖掘时序维度和频率维度的空间相关性,运算式为:
S2-4:通过所述TFAtt模块将所述时序注意力权重以及所述频率注意力权重处理为语音特征图,并将所述语音特征图发送到所述BiLSTM模块;
所述语音特征图运算式为:
其中,为语音特征图,为特征微调网络计算公式,为点乘操作。本发明提供了一种用于语音处理的TFAtt模块,该模块计算特征图在时序和频率两个维度上的权重分布,通过挖掘时序和频率分布相关性优化语音识别特征空间,支撑语音识别声学建模研究,能够有效的增强对语音数据的分析识别效果。
作为本发明的优选方案,所述步骤S3包括:
S3-3:通过加权求和的方式构建所述管制员语音识别模型的多任务损失函数,计算式如下:
作为本发明的优选方案,所述步骤S3-3包括:
作为本发明的优选方案,所述步骤S4包括:
S4-1:将所述标注数据集中的语音数据分为噪声数据集和清晰数据集,并将每个噪声语音数据的文件路径与其对应的清晰语音数据的文件路径组织为键值对;
S4-2:从所述标注数据集中选择B/3个所述语音数据作为锚样本;其中,B为当前批次训练的所述语音数据的数量,B=6n,n为预设的正整数;
S4-3:根据所述步骤4-1的所述键值对,输出所述锚样本对应的B/3条噪声语音数据或清晰语音数据为对比学习的正样本,并记录所述正样本的语音文件和文本文件路径;
S4-4:在所述标注数据集中去掉所述锚样本和所述正样本后,在剩余的所述噪声数据集中随机选择B/6个噪声语音数据作为噪声负样本;在剩余的所述清晰数据集中随机选择B/6个清晰语音数据作为清晰负样本;
S4-5:生成当前批次的训练数据集,输出为:
[锚样本(B/3);正样本(B/3);噪声负样本(B/6);清晰负样本(B/6)];
S4-6:将所述训练数据集输入到所述管制员语音识别初步模型中,通过神经网络训练算法进行参数更新实现模型训练和优化;
S4-7:计算参数更新后所述管制员语音识别初步模型的多任务损失值,判断所述多任务损失值是否稳定,若不稳定,进入步骤S4-2;若稳定,输出当前所述管制员语音识别初步模型为管制员语音识别模型;
其中,所述多任务损失值是否稳定的判断方法为:当连续a个多任务损失值不再下降,则视为稳定,否则为不稳定,a为预设值。本发明通过在语音识别模型中加入对比学习机制,引导其在含有相同文本内容的噪声-清晰语音数据对之间学习相近的特征表示,有效的提升了模型处理噪声语音时的特征表示能力。
一种基于对比学习的管制员语音识别装置,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
1.本发明基于现有空管内话系统的语音产生和传输机制,设计了一种通过旁路设备采集真实空管场景下的噪声-清晰语音数据对的方法,并通过预处理和标注形成了可用于空管语音识别的标注语料;且该方法在空管采集下具有普适性,其采集的数据不仅可以支撑本发明涉及的模型训练和优化,还可以支撑基于学习的空管语音增强去噪研究。同时,本发明还在空管语音识别中加入对比机制,通过学习噪声-清晰数据的共有文本表示特征,能有效提升不同结构的端到端空管语音识别模型的性能。
2.本发明提供了一种用于语音处理的TFAtt模块,该模块计算特征图在时序和频率两个维度上的权重分布,通过挖掘时序和频率分布相关性优化语音识别特征空间,支撑语音识别声学建模研究,能够有效的增强对语音数据的分析识别效果。
3.本发明通过在语音识别模型中加入对比学习机制,引导其在含有相同文本内容的噪声-清晰语音数据对之间学习相近的特征表示,有效的提升了模型处理噪声语音时的特征表示能力。
附图说明
图1为本发明背景技术中现有空管内话系统语音传输示意图。
图2为本发明背景技术中空管内话系统在不同传输线路上采集的语音信号示例。
图3为本发明实施例1所述的一种基于对比学习的管制员语音识别方法的流程示意图。
图4为本发明实施例2所述的一种基于对比学习的管制员语音识别方法中空管场景下真实噪声-清晰数据采集方案。
图5为本发明实施例2所述的一种基于对比学习的管制员语音识别方法中空管语音识别方法模型结构示意图。
图6为本发明实施例3所述的一种基于对比学习的管制员语音识别方法中空管语音识别方法具体实施例实验结果。
图7为本发明实施例4所述的一种利用了实施例1-2任一所述的一种基于对比学习的管制员语音识别方法的一种基于对比学习的管制员语音识别装置的结构示意图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
如图3所示,一种基于对比学习的管制员语音识别方法,包括以下步骤:
S1:获取原始噪声-清晰语音数据对,生成原始数据集,并对所述原始数据集进行标注处理,输出标注数据集;
S2:基于神经网络结构搭建管制员语音识别初步模型;
S3:建立所述管制员语音识别初步模型的多任务损失函数;
S4:基于所述多任务损失函数以及所述标注数据集,通过神经网络训练算法更新所述管制员语音识别初步模型的模型参数,并输出为管制员语音识别模型;
S5:将待识别管制员语音输入所述语音识别模型,输出对应的文本结果;
所述步骤S1中所述原始噪声-清晰语音数据对的获取方法为:
在现有内话系统的基础上,在每一个空管席位添加一套旁路内话系统,并同时通过所述旁路内话系统以及所述现有内话系统对管制员的语音进行采集,获取所述原始噪声-清晰语音数据对;
其中,所述现有内话系统设置为正常通话工作模式,所述旁路内话系统设置为监听模式,所述旁路内话系统的无线电通信频率与其对应的所述现有内话系统的无线电通信频率一致。
实施例2
本实施例为实施例1所述方法的一种具体实施方式,包括以下步骤:
S1:获取原始噪声-清晰语音数据对,生成原始数据集,并对所述原始数据集进行标注处理,输出标注数据集;
S1-1:搜集真实空管运行场景下的原始噪声-清晰语音数据对,形成原始数据集;
S1-1-1:基于空管无线电语音收发产生机制,在现有的内话系统外(现有内话)的基础上,额外为每一个空管席位添加一套旁路内话系统(旁路内话)。添加后的内话系统如图4所示,该系统用于后续采集原始空管语音数据集;
S1-1-2:考虑空管内话系统及其服务器的语音通信机制,将现有内话设置为正常通话工作模式,将添加的旁路内话系统调整为监听模式(仅收不发);
S1-1-3:为每一套旁路内话系统设置监听无线电通信频率,其无线电通信频率为待监听现有内话系统的当前通信频率。为保证监听的连续性,旁路内话系统的无线电通信频率必须与现有内话的无线电通信频率保持完全一致;
S1-1-4:同时运行现有内话系统和旁路内话系统,搜集同一管制席位现有内话系统包含管制回声(噪声)及其对应不包含管制回声的旁路设备语音(清晰)的连续的原始语音数据。
S1-2:针对原始数据集中采集的原始噪声-清晰语音数据对进行预处理,包含语音活动检测、说话人身份判别、静音/噪音数据筛查等,输出预处理后的未标注的噪声-清晰语音数据对;
考虑清晰语音的质量更高,完成预处理任务的性能更好,因此本方案以清晰语音预处理结果作为基准实现噪声语音数据预处理。首先进行的预处理包含以下步骤:
S1-2-1:根据语音活动检测将连续的管制通话语音分割成指令语音段,每段语音仅包含单个说话人的单句指令;
S1-2-2:采用分类模型基于分割后的语音信号进行分类,分为管制员和飞行员语音两类。丢弃飞行员语音数据,本方案仅采用管制员语音作为后续处理的训练样本;
S1-2-3:进行数据粗筛,去掉静音和噪音数据,剩余的数据进入下一步处理流程。
S1-3:针对未标注的噪声-清晰语音数据对进行人工标注,标注内容包含其对应的指令文本,形成最终的空管语音识别标注语料。每对已标注数据包含两条语音文件,其语音信号的表现形式不同,但包含相同的文本内容;
S1-3-1:使用现有的语音识别模型对清晰语音样本进行识别,产生伪标注结果;
S1-3-2:人工检查伪标注结果,形成最终的语音文本标注;
S1-3-3:对比清晰和噪声语音的标注结果,以清晰标注结果为准;
S1-3-4:组织语音和文本标注文件,形成最终的标注语料数据集。
S2:构建基于神经网络结构的管制员语音识别初步模型;
构建以一维CNN(卷积神经网络)模块、TFAtt(时频注意力机制)模块、BiLSTM(双向长短时记忆网络)模块、TDFC(时序分布机制的全连接网络)模块以及多任务损失模块为主体的管制员语音识别初步模型,模型结构如图5所示。其中,所述模型还能采用在现有语音识别模型中增加TFAtt模块以及多任务损失模块来进行构造。
具体为:
CNN模块,用于在输入的语音特征图上抽取更加适合于语音识别的抽象语音特征,使用多路径、多尺度的卷积核配置在不同的时空分辨率上学习多样化的语音特征表示,采用填充模式使得输出的特征图尺寸保持一致,拼接之后输出到TFAtt模块。其中,所述的多路径指的是通过设计多个CNN模块并行地提取特征并进行融合,所述CNN模块的路径数至少为2,所述的融合方式包括但不限于相加、在路径维度拼接等;所述的多尺度指的是通过设计不同的CNN卷积核配置以适应不同的特征分布,尺度数至少为2。
TFAtt模块,搭建时频注意力机制模块,引导模型关注不同语音帧以及频率范围对识别性能的影响,通过学习的方式优化并确定时频注意力参数;模型结构如图5所示。其中,所述TFAtt模块包括以下处理流程:
S2-1:根据输入特征图,在时序维度上利用全局平均池化(AAP)操作生成初始化的时序注意力权重,记为:
S2-2:根据输入特征图,在频率维度上利用全局平均池化(AAP)操作生成初始化的频率注意力权重,记为:
S2-3:搭建一维CNN模块分别挖掘时序维度和频率维度的空间相关性,运算式为:
其中,为时序维度的卷积操作计算公式,为时序注意力权重;为频率维度的卷积操作计算公式,为频率注意力权重,T和F分别指代时序维度和频率维度;和的采用相同的神经网络结构,包含:一维CNN层、批归一化层(BN)、ReLU激活函数、一维CNN层和Sigmoid激活函数。
S2-4:利用学习得到的时序和频率维度注意力权重,生成经过TFAtt处理的语音特征图,并将所述语音特征图发送到所述BiLSTM模块,所述语音特征图的运算式记为:
BiLSTM模块,采用双向长短时记忆网络挖掘所述语音特征图的语音信号帧特征之间的时序相关性,主要包含同一文本帧内声学相关性以及不同文本帧的语言相关性;在不同层之间建立残差连接,提高隐藏信息的传导能力,便于识别模型的训练和优化;本发明方案采用多个BiLSTM等叠加的方式提高信息表示能力;
TDFC模块,采用时序分布机制的全连接网络实现语音序列分类任务,输出提取的序列特征在每一时间步语音帧与文本标签之间的概率对应关系;
多任务损失模块,基于对比学习以及CTC(Connectionist TemporalClassification,基于神经网络的时序类分类)算法构建多任务损失模型;
S3:多任务损失模块基于对比学习以及CTC算法建立所述管制员语音识别初步模型的多任务损失函数;
S3-3:基于上述不同任务的损失函数,采用加权求和的方式构建本方案的管制员语音识别模型多任务损失函数,表示如下:
S4:基于所述多任务损失函数以及所述标注数据集,通过神经网络训练算法更新所述管制员语音识别初步模型的模型参数,并输出为管制员语音识别模型;
S4-1:将所述标注数据集中的语音数据分为噪声数据集和清晰数据集,并将每个噪声语音数据的文件路径与其对应的清晰语音数据的文件路径组织为键值对;
S4-2:从所述标注数据集中选择B/3个所述语音数据作为锚样本;其中,B为当前批次训练的所述语音数据的数量,B=6n,n为预设的正整数;
S4-3:根据所述步骤4-1的所述键值对,输出所述锚样本对应的B/3条噪声语音数据或清晰语音数据为对比学习的正样本,并记录所述正样本的语音文件和文本文件路径;
S4-4:在所述标注数据集中去掉所述锚样本和所述正样本后,在剩余的所述噪声数据集中随机选择B/6个噪声语音数据作为噪声负样本;在剩余的所述清晰数据集中随机选择B/6个清晰语音数据作为清晰负样本;
S4-5:生成当前批次的训练数据集,输出为:
[锚样本(B/3);正样本(B/3);噪声负样本(B/6);清晰负样本(B/6)],其中,锚样本为数据集中随机选择的样本,作为正负样本选择的依据;
正样本是和锚样本具有相同对比属性的样本;
负样本是和锚样本具有相反对比属性的样本;
所述训练批次的数据数量为B条语音文件;其中,B=6n,n为预设的正整数,n的取值根据实验条件调整。
S4-6:将所述训练数据集输入到构建的语音识别模型中,利用神经网络训练算法进行参数更新实现模型训练和优化。计算损失时,使用所有样本计算CTC损失;使用锚样本、正样本和负样本计算三元组对比损失;
S4-7:计算参数更新后所述管制员语音识别初步模型的多任务损失值,判断所述多任务损失值是否稳定,若不稳定,进入步骤S4-2;若稳定,输出当前所述管制员语音识别初步模型为管制员语音识别模型;
其中,所述多任务损失值是否稳定的判断方法为:当连续a个多任务损失值不再下降,则视为稳定,否则为不稳定,a为预设值;本实施例优选为a=10。
S5:将待识别管制员语音输入所述语音识别模型,输出对应的文本结果;
S5-1:将所述语音输入到已优化的语音识别模型中;
S5-2:模型根据输出预测语音帧对应的文本标签概率;
S5-3:根据最大概率解码输出指令文本。
实施例3
本实施例为本发明所述方法在以下数据条件下的实际运行分析,用于验证本发明所述技术方案的可行性和性能,具体如下:
1、数据准备:采用本发明提出的数据采集方案,在某真实管制场景下实施原始数据采集,并根据预处理和标注流程制作本方案语音识别方法所需的训练语料,并以随机选择策略形成训练集、验证集和测试集。数据描述如下:
训练集:总计47253条数据(42.83小时),包含中文数据42189条(37.28小时)、英文数据5064条(5.55小时);
验证集:总计4764条数据(4.31小时),包含中文数据4188条(3.69小时)、英文数据558条(0.62小时);
测试集:总计6514条数据(5.62小时),包含中文数据6012条(5.08小时)、英文数据502条(0.54小时);
上述语料总计包含683个汉字和437个英文单词。训练时,以汉字和英文字母作为词汇表,加上其他特殊字符(空格、未知和“’”)总计712个字符。本实施例的测试结果均为在测试集上进行语音识别获取的结果。
2、基线模型:本实施例以DeepSpeech2模型(DS2)作为基线模型验证本方案的有效性,模型输入为39维MFCC特征。
使用Pytorch框架实现基线模型和本发明技术方案。模型训练的超参数配置描述如下:
1)学习率:初始学习率为0.0001,学习速率衰减速度为0.99;
2)批训练尺寸:36。
实验采用的硬件环境为:CPU为2×Intel Core i3-2-6800K,显卡型号为2×NVIDIA GeForce RTX 2080Ti,显存为2×11GB,内存为64GB,操作系统为Ubuntu Linux16.04。
在上述训练数据和配置情况下,共进行了4组实验分别证明本方案的中英文混合识别与特征学习模型的优点,具体如下:
A1:将基线模型在上述语料上进行训练以完成语音识别任务;
A2:基线模型训练时添加时频注意力模块,在上述语料上进行训练以完成语音识别任务;
A3:基线模型训练时添加对比学习机制,在上述语料上进行训练以完成语音识别任务;
A4:基线模型训练时同时添加时频注意力模块和对比学习机制,在上述语料上进行训练以完成语音识别任务;
实验结果采用基于中文汉字和英文字母的字符错误率(Character Error Rate,CER)衡量,计算方式如下,其中为真实文本标签的长度,分别代表将预测文本标签转换到真实标签所需要的插入、删除和替换操作数。
本发明技术方案验证仅考察声学模型性能,不涉及语言模型处理和优化,最终的结果对比如图6所示。通过实验结果可知,本发明涉及的两个目的均对空管语音识别模型性能提升起到了较大的促进作用,同时亦能提高模型的收敛效率。具体来说:
1、与基线模型相比,本方案提出的时频注意力模块和对比学习机制均能够在本实施例的数据集上提升语音识别模型的性能,不需改变基线模型的原有网络结构。
2、与时频注意力模块相比,引入对比学习机制能够在本实施例的数据集上获得更大的性能提升。这一实验结果表明了在应对包含“管制回声”的数据集上,通过对比噪声-清晰数据集,能够学习到共有的特征表示,最终支撑管制员语音识别研究。
3、同时引入时频注意力模块和对比学习机制,该基线模型在本实施例的数据集上获得了最优的语音识别性能,证明了本发明提出方法的有效性。
实施例4
如图7所示,一种基于对比学习的管制员语音识别装置,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种基于对比学习的管制员语音识别方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源用于为电子设备提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于对比学习的管制员语音识别方法,其特征在于,包括以下步骤:
S1:获取原始噪声-清晰语音数据对,生成原始数据集,并对所述原始数据集进行标注处理,输出标注数据集;
S2:基于神经网络结构搭建管制员语音识别初步模型,所述管制员语音识别初步模型包括TFAtt模块以及多任务损失模块;所述TFAtt模块用于优化并确定时频注意力参数;所述多任务损失模块用于建立多任务损失函数;
S3:所述多任务损失模块基于对比学习以及CTC算法建立所述管制员语音识别初步模型的多任务损失函数;
S4:基于所述多任务损失函数以及所述标注数据集,通过神经网络训练算法更新所述管制员语音识别初步模型的模型参数,并输出为管制员语音识别模型;
S5:将待识别管制员语音输入所述语音识别模型,输出对应的文本结果;
所述步骤S1中所述原始噪声-清晰语音数据对的获取方法为:
在现有内话系统的基础上,在每一个空管席位添加一套旁路内话系统,并同时通过所述旁路内话系统以及所述现有内话系统对管制员的语音进行采集,获取所述原始噪声-清晰语音数据对;
其中,所述现有内话系统设置为正常通话工作模式,所述旁路内话系统设置为监听模式,所述旁路内话系统的无线电通信频率与其对应的所述现有内话系统的无线电通信频率一致;
所述步骤S3包括:
S3-3:通过加权求和的方式构建所述管制员语音识别模型的多任务损失函数,计算式如下:
2.根据权利要求1所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述步骤S1包括:
S1-1:搜集真实空管运行场景下的原始噪声-清晰语音数据对,生成原始数据集;
S1-2:对所述原始数据集中的原始噪声-清晰语音数据对进行预处理,并输出预处理后的所述原始噪声-清晰语音数据对;所述预处理包含语音活动检测、说话人身份判别和/或静音-噪音数据筛查;
S1-3:针对预处理后的所述原始噪声-清晰语音数据对进行人工标注,输出为标注数据集;所述人工标注的标注内容包含所述原始噪声-清晰语音数据对对应的指令文本。
3.根据权利要求1所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述管制员语音识别初步模型包括CNN模块、TFAtt模块、BiLSTM模块、TDFC模块以及多任务损失模块;
所述CNN模块使用多路径、多尺度的卷积核配置在输入的语音特征图上抽取抽象语音特征;所述CNN模块的路径数至少为2,尺度数至少为2;
所述TFAtt模块搭建双路注意力机制微调语音特征,通过并行的时序和频率维度的注意力机制引导所述管制员语音识别初步模型关注不同语音帧以及频率范围对识别性能的影响,并通过学习的方式优化并确定时频注意力参数;
所述TDFC模块为时序分布机制的全连接网络模块。
4.根据权利要求3所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述TFAtt模块包括以下运行步骤:
S2-1:根据输入特征图,在时序维度上利用全局平均池化操作生成初始化的时序注意力权重,运算式为:
S2-2:根据输入特征图,在频率维度上利用全局平均池化操作生成初始化的频率注意力权重,运算式为:
S2-3:搭建一维CNN模块分别挖掘时序维度和频率维度的空间相关性,运算式为:
S2-4:通过所述TFAtt模块将所述时序注意力权重以及所述频率注意力权重处理为语音特征图,并将所述语音特征图发送到所述BiLSTM模块;
所述语音特征图运算式为:
7.根据权利要求1所述的一种基于对比学习的管制员语音识别方法,其特征在于,所述步骤S4包括:
S4-1:将所述标注数据集中的语音数据分为噪声数据集和清晰数据集,并将每个噪声语音数据的文件路径与其对应的清晰语音数据的文件路径组织为键值对;
S4-2:从所述标注数据集中选择B/3个所述语音数据作为锚样本;其中,B为当前批次训练的所述语音数据的数量,B=6n,n为预设的正整数;
S4-3:根据所述步骤4-1的所述键值对,输出所述锚样本对应的B/3条噪声语音数据或清晰语音数据为对比学习的正样本,并记录所述正样本的语音文件和文本文件路径;
S4-4:在所述标注数据集中去掉所述锚样本和所述正样本后,在剩余的所述噪声数据集中随机选择B/6个噪声语音数据作为噪声负样本;在剩余的所述清晰数据集中随机选择B/6个清晰语音数据作为清晰负样本;
S4-5:生成当前批次的训练数据集,输出为:
[锚样本(B/3);正样本(B/3);噪声负样本(B/6);清晰负样本(B/6)];
S4-6:将所述训练数据集输入到所述管制员语音识别初步模型中,通过神经网络训练算法进行参数更新实现模型训练和优化;
S4-7:计算参数更新后所述管制员语音识别初步模型的多任务损失值,判断所述多任务损失值是否稳定,若不稳定,进入步骤S4-2;若稳定,输出当前所述管制员语音识别初步模型为管制员语音识别模型;
其中,所述多任务损失值是否稳定的判断方法为:当连续a个多任务损失值不再下降,则视为稳定,否则为不稳定,a为预设值。
8.一种基于对比学习的管制员语音识别装置,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565712.2A CN114648982B (zh) | 2022-05-24 | 2022-05-24 | 一种基于对比学习的管制员语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210565712.2A CN114648982B (zh) | 2022-05-24 | 2022-05-24 | 一种基于对比学习的管制员语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114648982A CN114648982A (zh) | 2022-06-21 |
CN114648982B true CN114648982B (zh) | 2022-07-26 |
Family
ID=81996932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210565712.2A Active CN114648982B (zh) | 2022-05-24 | 2022-05-24 | 一种基于对比学习的管制员语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648982B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240648B (zh) * | 2022-07-18 | 2023-04-07 | 四川大学 | 一种面向语音识别的管制员语音增强方法及装置 |
CN115206293B (zh) * | 2022-09-15 | 2022-11-29 | 四川大学 | 一种基于预训练的多任务空管语音识别方法及装置 |
CN115294985B (zh) * | 2022-10-08 | 2022-12-09 | 北京信工博特智能科技有限公司 | 一种基于对比学习的多分类语音命令识别方法及识别系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3153356A1 (en) * | 2014-07-01 | 2017-04-12 | Nissan Motor Co., Ltd. | Display device for vehicle and display method for vehicle |
CN111785257A (zh) * | 2020-07-10 | 2020-10-16 | 四川大学 | 一种针对少量标注样本的空管语音识别方法及装置 |
CN111970289A (zh) * | 2020-09-10 | 2020-11-20 | 成都天奥信息科技有限公司 | 一种民航VoIP语音通信交换系统的互联组网方法及系统 |
CN112581980A (zh) * | 2021-02-26 | 2021-03-30 | 中国科学院自动化研究所 | 时频通道注意力权重计算和向量化的方法和网络 |
CN113327607A (zh) * | 2021-05-28 | 2021-08-31 | 北京航空航天大学 | 一种机舱语音指令握手检测系统和装置 |
CN113870840A (zh) * | 2021-09-27 | 2021-12-31 | 京东科技信息技术有限公司 | 语音识别方法、装置及相关设备 |
CN114049893A (zh) * | 2022-01-11 | 2022-02-15 | 四川大学 | 一种基于空管语音识别的管制员违规操作监控与分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11263476B2 (en) * | 2020-03-19 | 2022-03-01 | Salesforce.Com, Inc. | Unsupervised representation learning with contrastive prototypes |
US11381888B2 (en) * | 2020-04-14 | 2022-07-05 | Sony Interactive Entertainment Inc. | AI-assisted sound effect generation for silent video |
-
2022
- 2022-05-24 CN CN202210565712.2A patent/CN114648982B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3153356A1 (en) * | 2014-07-01 | 2017-04-12 | Nissan Motor Co., Ltd. | Display device for vehicle and display method for vehicle |
CN111785257A (zh) * | 2020-07-10 | 2020-10-16 | 四川大学 | 一种针对少量标注样本的空管语音识别方法及装置 |
CN111970289A (zh) * | 2020-09-10 | 2020-11-20 | 成都天奥信息科技有限公司 | 一种民航VoIP语音通信交换系统的互联组网方法及系统 |
CN112581980A (zh) * | 2021-02-26 | 2021-03-30 | 中国科学院自动化研究所 | 时频通道注意力权重计算和向量化的方法和网络 |
CN113327607A (zh) * | 2021-05-28 | 2021-08-31 | 北京航空航天大学 | 一种机舱语音指令握手检测系统和装置 |
CN113870840A (zh) * | 2021-09-27 | 2021-12-31 | 京东科技信息技术有限公司 | 语音识别方法、装置及相关设备 |
CN114049893A (zh) * | 2022-01-11 | 2022-02-15 | 四川大学 | 一种基于空管语音识别的管制员违规操作监控与分析方法 |
Non-Patent Citations (5)
Title |
---|
A Real-Time ATC Safety Monitoring Framework Using a Deep Learning Approach;Yi Lin,et al.;《IEEE Transactions on Intelligent Transportation Systems》;IEEE;20190923;第21卷(第11期);全文 * |
A Sequential Contrastive Learning Framework for Robust Dysarthric Speech Recognition;Lidan Wu,et al.;《ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;IEEE;20210513;全文 * |
Learning of Time-Frequency Attention Mechanism for Automatic Modulation Recognition;Shangao Lin,et al.;《IEEE Wireless Communications Letters 》;IEEE;20220106;第11卷(第4期);全文 * |
基于深度学习的空管语音识别;吴向阳等;《西华大学学报(自然科学版)》;中国知网;20211110;第40卷(第6期);全文 * |
结合深度卷积循环网络和时频注意力机制的单通道语音增强算法;闫昭宇等;《信号处理》;中国知网;20200513;第36卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114648982A (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114648982B (zh) | 一种基于对比学习的管制员语音识别方法及装置 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
Weng et al. | Deep learning enabled semantic communications with speech recognition and synthesis | |
US20220180882A1 (en) | Training method and device for audio separation network, audio separation method and device, and medium | |
US20220129731A1 (en) | Method and apparatus for training image recognition model, and method and apparatus for recognizing image | |
CN103956169B (zh) | 一种语音输入方法、装置和系统 | |
CA3166784A1 (en) | Human-machine interactive speech recognizing method and system for intelligent devices | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN107992596A (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
WO2021103712A1 (zh) | 一种基于神经网络的语音关键词检测方法、装置及系统 | |
EP3940693A1 (en) | Voice interaction-based information verification method and apparatus, and device and computer storage medium | |
CN112420024A (zh) | 一种全端到端的中英文混合空管语音识别方法及装置 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN113434683A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN112116907A (zh) | 语音识别模型建立、语音识别方法、装置、设备和介质 | |
CN103559289A (zh) | 语种无关的关键词检索方法及系统 | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、系统及终端 | |
CN115688868B (zh) | 一种模型训练方法及计算设备 | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN115588227A (zh) | 情绪识别方法、装置、电子设备和存储介质 | |
JP2022133474A (ja) | テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN115116444A (zh) | 一种语音识别文本的处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |