CN113327607B

CN113327607B - 一种机舱语音指令握手检测系统和装置

Info

Publication number: CN113327607B
Application number: CN202110589762.XA
Authority: CN
Inventors: 李建欣; 周号益; 张帅; 肖思炀; 陈天宇; 何铭睿
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-05-06
Anticipated expiration: 2041-05-28
Also published as: CN113327607A

Abstract

本发明通过语音领域的方法，实现了一种机舱语音指令握手检测系统。包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块：机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注，将不同人的声音分离开，并将分离的声音输入机舱语音指令识别模块；机舱语音指令识别模块对分离后的音频识别，对易错的结果进行替换，构建每个角色的语音‑文本语料库；指令握手模块识别角色之间的对话是否是指令，并将机长和塔台，机长和副机长的握手区分开，并将机长和副机长的握手过程和喊话标准流程进行匹配判断有无错漏。这一方案能以较高的速率完成对语音的识别、判定，能够做到实时提醒，并具有良好的适应性。

Description

一种机舱语音指令握手检测系统和装置

技术领域

本发明涉及语音识别和自然语言处理领域，尤其涉及一种机舱语音指令握手检测系统和装置。

背景技术

在飞机驾驶舱中，技术性的交流称之为“标准喊话”，这些喊话一般有着固定的流程和标准化的术语措辞。

实施标准喊话对于飞行机组来说是一项极为重要的程序，特别是在一些重要的阶段如起飞、进近、着陆和非正常情况等，同时用于监控、弥补飞行员的操作动作和程序的部分失误。标准喊话也会更有效地提示飞行机组下一项应完成的程序。

尽管喊话是飞行员每天日常飞行都要用到的程序，但要使用正确，起到实效确又不那么容易。枯燥的飞行进程、日复一日的程序式喊话可能让飞行员开始懈怠，渐渐的可能忽视喊话的技术性要求，出现错喊、漏喊的情况，给飞行的安全埋下隐患。而目前对于喊话过程的检测并没有一种自动的、便利的、准确的检测方法。

发明内容

为此，本发明首先提出一种机舱语音指令握手检测系统，系统包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块：所述机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注，使用标注后的不同角色的语音片段进行对比学习，将不同人的声音分离开，并将分离的声音输入机舱语音指令识别模块；所述机舱语音指令识别模块对分离后的音频进行语音识别，对易错的结果进行替换，构建每个角色的语音-文本语料库；所述指令握手模块基于所述语音-文本语料库识别角色之间的对话是否是指令，并将机长和塔台，机长和副机长的握手区分开，并将机长和副机长的握手过程和喊话标准流程进行匹配，输出带有check(握手)/uncheck(未握手)标记的每条指令。

所述机舱人员角色识别模块的标注方法为使用对比学习将预先标注好的不同人语音片段进行分类，机长、副机长、塔台角色的声音记为，V_cap,V_vcap,V_tow分别进行随机切片，各生成m段对比样本：

而后，将m段声音对比样本进行两两匹配，构造对比学习正负样本，构造方式为：对于每个样本v定义正样本集和负样本集，所述正样本集为其所属角色的其余声音片段，所述负样本集为其所属角色之外的两个角色的样本。

所述机舱人员角色识别模块的对比学习方法为：基于构造好的对比样本集，进行对比学习，具体地，使用WaveNet机舱人员角色识别模型对声音样本进行表征，表征后的结果记为z＝F_wave(v)，使用对比学习损失函数L_con为指导进行无监督的对比学习训练，其中:

对比训练之后，将WaveNet的输出层后加入Softmax层进行有监督的三分类训练：y＝Softmax(z)＝Softmax(F_wave(v))，从而将原始的混合音频按角色分为三个类别的音频。

所述机舱语音指令识别模块的语音-文本语料库构建方法为将分开后的音频V_cap,V_vcap,V_tow转为文字T_cap,T_vcap,T_tow，对转换出来的文本进行标注得到语音-文本对，来构建机舱环境下的通话语料库，使用MASR在通用语料库上的预训练模型，自建语料库上进行fine-tune训练，并用模型的准确率用编辑距离和句子长度的比值来衡量。

所述替换方法为是基于易错结果拼音的相似性得到不同角色的文本。

所述指令握手模块首先通过人工标注文本是否为指令来训练一个文本分类器，采取向量空间模型来表示文本，特征选择方法使用基于文档频率的特征提取法和信息增益法，模型选择了textCNN模型，将机舱语音指令识别模块得到的T_cap,T_vcap,T_tow作为输入，基于文本分类器得到一系列顺序指令{I₁,I₂,...I_n}来和标准喊话流程{F₁,F₂...F_m}进行暴力匹配来检查是否有错喊，漏喊的情况，没有匹配上的指令I就是错喊，两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊，这些指令将会被标记为uncheck(未握手)，其他指令被标记为check(握手)，通过判断呼号的位置来进行区分机长和副机长、机长和塔台之间的握手。

本发明还涉及一种应用机舱语音指令握手检测系统的装置，设置有语音输入单元，语音输入单元录入的语音信号输入至上述机舱语音指令握手检测系统进行运算。

本发明所要实现的技术效果在于：

将飞行员的对话转为文字并提取对话中的关键字来判断飞行过程中喊话是否有错误，是否有遗漏，以减少飞行过程中的安全隐患。

该发明具有以下优势：

1.能以较高的速率完成对语音的识别、判定，能够做到实时提醒。

2.具有良好的适应性，对于不同的航空公司可能会有不同的喊话流程，只需要更换用于训练的数据而不需要改动算法框架。

3.具有良好的应用前景，不仅可以用于检测机舱内语音指令握手，也可以用于呼叫中心录音质检，还可以用于人机语音交互比如语音录入电子病历等。

附图说明

图1系统逻辑架构图；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种机舱语音指令握手检测系统，其整体思路在于：设计逻辑顺序连接的机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块：

机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注，使用标注后的不同角色的语音片段进行对比学习，将不同人的声音分离开，并将分离的声音输入机舱语音指令识别模块；

机舱语音指令识别模块对分离后的音频进行语音识别，对易错的结果进行替换，构建每个角色的语音-文本语料库；

指令握手模块基于语音-文本语料库识别角色之间的对话是否是指令，并将机长和塔台，机长和副机长的握手区分开，并将机长和副机长的握手过程和喊话标准流程进行匹配，输出带有check(握手)/uncheck(未握手)标记的每条指令。

各模块的具体实现方式如下：

机舱人员角色识别模块：

该模块的主要功能是将不同角色的声音区分开。由于我们并不关注声音样本的语义特征，只需要将不同的声音样本区分出来，即学习到声音中的潜在的“音色”特征，故该模块使用了对比学习将预先标注好的不同人语音片段进行分类。

具体来讲，我们将每个角色(机长、副机长、塔台)的声音(V_cap,V_vcap,V_tow)分别进行随机切片，各生成m段对比样本：

而后，我们将m段声音对比样本进行两两匹配，构造对比学习正负样本。构造方式如下：对于每个样本v而言，其正样本集为其所属角色的其余声音片段，其负样本集为其所属角色之外的两个角色的样本，如：对于样本

而言，其正样本集为

其负样本集为

其中任意v⁺∈V⁺称为正样本，任意v⁺∈V⁺称为负样本。

基于构造好的对比样本集，进行对比学习。我们使用机舱人员角色识别模型WaveNet对声音样本进行表征，表征后的结果记为z＝F_wave(v)。使用对比学习损失函数L_con为指导进行无监督的对比学习训练，其中:

机舱语音指令识别模块：

该模块的主要功能是将分开后的音频V_cap,V_vcap,V_tow转为文字T_cap,T_vcap,T_tow。目前的开源的模型都是用通用文本生成的语料库训练的结果，但是在我们这种专用的领域数据上表现欠佳。所以我们先对一些转换出来的文本进行标注得到语音-文本对，来构建机舱环境下的通话语料库。

然后使用开源项目MASR在通用语料库上的预训练模型，在我们自己的语料库上进行fine-tune训练，提升了模型识别的准确率，其中模型的准确率用编辑距离和句子长度的比值来衡量，值越小越好。

最后对识别结果中一些易识别错的地方进行自动化的替换，这里的替换是基于其拼音与机舱指令中常见词之间拼音的相似性，比如“jing yi”替换为“襟翼”，最终得到不同角色的文本。

指令握手模块：

这个模块需要完成的是基于文本的端对端握手验证。首先通过人工标注一些文本是否为指令来训练一个文本分类器。我们采取的是向量空间模型来表示文本。考虑到喊话过程的专业性和标准性，其中特征选择方法主要使用了基于文档频率的特征提取法和信息增益法，模型选择了textCNN模型，喊话文本较为明显的特征保证了分类器的效果。

将机舱语音指令识别模块得到的T_cap,T_vcap,T_tow作为输入，基于文本分类器得到一系列顺序指令{I₁,I₂,...I_n}来和标准喊话流程{F₁,F₂...F_m}进行暴力匹配来检查是否有错喊，漏喊的情况。没有匹配上的指令I就是错喊，两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊，这些指令将会被标记为uncheck(未握手)，其他指令被标记为check(握手)。至于区分机长和副机长、机长和塔台之间的握手，因为飞行员和塔台的交流有很明显的特征就是呼号的位置，所以可以通过判断呼号的位置来进行区分，呼号在前的就是塔台。

Claims

1.一种机舱语音指令握手检测系统，其特征在于：系统包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块：所述机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注，使用标注后的不同角色的语音片段进行对比学习，将不同人的声音分离开，并将分离的声音输入机舱语音指令识别模块；所述机舱语音指令识别模块对分离后的音频进行语音识别，对易错的结果按照近音词的机舱指令进行替换，构建每个角色的语音-文本语料库；所述指令握手模块基于所述语音-文本语料库识别角色之间的对话是否是指令，将机长和塔台，机长和副机长的握手区分开，并将机长和副机长的握手过程和喊话标准流程进行匹配，输出带有check/uncheck标记的每条指令；

而后，将m段声音对比样本进行两两匹配，构造对比学习正负样本，构造方式为：对于每个样本v定义正样本集和负样本集，所述正样本集为其所属角色的其余声音片段，所述负样本集为其所属角色之外的两个角色的样本；所述机舱人员角色识别模块的对比学习方法为：基于构造好的对比样本集，进行对比学习，具体地，使用WaveNet机舱人员角色识别模型对声音样本进行表征，表征后的结果记为z＝F_wave(v)，使用对比学习损失函数L_con为指导进行无监督的对比学习训练，其中:

对比训练之后，将WaveNet的输出层后加入Softmax层进行有监督的三分类训练：y＝Softmax(z)＝Softmax(F_wave(v))，从而将原始的混合音频按角色分为三个类别的音频；

所述指令握手模块首先通过人工标注文本是否为指令来训练一个文本分类器，采取向量空间模型来表示文本，特征选择方法使用基于文档频率的特征提取法和信息增益法，模型选择了textCNN模型，将机舱语音指令识别模块得到的文本作为输入，基于文本分类器得到一系列顺序指令来和标准喊话流程进行暴力匹配来检查是否有错喊，漏喊的情况，没有匹配上的指令I就是错喊，两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊，这些指令将会被标记为uncheck，其他指令被标记为check，通过判断呼号的位置来进行区分机长和副机长、机长和塔台之间的握手。

2.如权利要求1所述的一种机舱语音指令握手检测系统，其特征在于：所述机舱语音指令识别模块的语音-文本语料库构建方法为将分开后的音频V_cap,V_vcap,V_tow转为文字T_cap,T_vcap,T_tow，对转换出来的文本进行标注得到语音-文本对，来构建机舱环境下的通话语料库，使用MASR在通用语料库上的预训练模型，自建语料库上进行fine-tune训练，并用模型的准确率用编辑距离和句子长度的比值来衡量。

3.如权利要求2所述的一种机舱语音指令握手检测系统，其特征在于：替换方法为是基于易错结果拼音的相似性得到不同角色的文本。

4.一种应用机舱语音指令握手检测系统的装置，包括语音输入单元，其特征在于：应用权利要求1-3中任一所述的一种机舱语音指令握手检测系统，所述语音输入单元录入的语音信号输入至机舱语音指令握手检测系统进行运算。