CN113327607B - 一种机舱语音指令握手检测系统和装置 - Google Patents
一种机舱语音指令握手检测系统和装置 Download PDFInfo
- Publication number
- CN113327607B CN113327607B CN202110589762.XA CN202110589762A CN113327607B CN 113327607 B CN113327607 B CN 113327607B CN 202110589762 A CN202110589762 A CN 202110589762A CN 113327607 B CN113327607 B CN 113327607B
- Authority
- CN
- China
- Prior art keywords
- cabin
- voice
- captain
- instruction
- handshake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明通过语音领域的方法,实现了一种机舱语音指令握手检测系统。包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块:机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注,将不同人的声音分离开,并将分离的声音输入机舱语音指令识别模块;机舱语音指令识别模块对分离后的音频识别,对易错的结果进行替换,构建每个角色的语音‑文本语料库;指令握手模块识别角色之间的对话是否是指令,并将机长和塔台,机长和副机长的握手区分开,并将机长和副机长的握手过程和喊话标准流程进行匹配判断有无错漏。这一方案能以较高的速率完成对语音的识别、判定,能够做到实时提醒,并具有良好的适应性。
Description
技术领域
本发明涉及语音识别和自然语言处理领域,尤其涉及一种机舱语音指令握手检测系统和装置。
背景技术
在飞机驾驶舱中,技术性的交流称之为“标准喊话”,这些喊话一般有着固定的流程和标准化的术语措辞。
实施标准喊话对于飞行机组来说是一项极为重要的程序,特别是在一些重要的阶段如起飞、进近、着陆和非正常情况等,同时用于监控、弥补飞行员的操作动作和程序的部分失误。标准喊话也会更有效地提示飞行机组下一项应完成的程序。
尽管喊话是飞行员每天日常飞行都要用到的程序,但要使用正确,起到实效确又不那么容易。枯燥的飞行进程、日复一日的程序式喊话可能让飞行员开始懈怠,渐渐的可能忽视喊话的技术性要求,出现错喊、漏喊的情况,给飞行的安全埋下隐患。而目前对于喊话过程的检测并没有一种自动的、便利的、准确的检测方法。
发明内容
为此,本发明首先提出一种机舱语音指令握手检测系统,系统包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块:所述机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注,使用标注后的不同角色的语音片段进行对比学习,将不同人的声音分离开,并将分离的声音输入机舱语音指令识别模块;所述机舱语音指令识别模块对分离后的音频进行语音识别,对易错的结果进行替换,构建每个角色的语音-文本语料库;所述指令握手模块基于所述语音-文本语料库识别角色之间的对话是否是指令,并将机长和塔台,机长和副机长的握手区分开,并将机长和副机长的握手过程和喊话标准流程进行匹配,输出带有check(握手)/uncheck(未握手)标记的每条指令。
而后,将m段声音对比样本进行两两匹配,构造对比学习正负样本,构造方式为:对于每个样本v定义正样本集和负样本集,所述正样本集为其所属角色的其余声音片段,所述负样本集为其所属角色之外的两个角色的样本。
所述机舱人员角色识别模块的对比学习方法为:基于构造好的对比样本集,进行对比学习,具体地,使用WaveNet机舱人员角色识别模型对声音样本进行表征,表征后的结果记为z=Fwave(v),使用对比学习损失函数Lcon为指导进行无监督的对比学习训练,其中:
对比训练之后,将WaveNet的输出层后加入Softmax层进行有监督的三分类训练:y=Softmax(z)=Softmax(Fwave(v)),从而将原始的混合音频按角色分为三个类别的音频。
所述机舱语音指令识别模块的语音-文本语料库构建方法为将分开后的音频Vcap,Vvcap,Vtow转为文字Tcap,Tvcap,Ttow,对转换出来的文本进行标注得到语音-文本对,来构建机舱环境下的通话语料库,使用MASR在通用语料库上的预训练模型,自建语料库上进行fine-tune训练,并用模型的准确率用编辑距离和句子长度的比值来衡量。
所述替换方法为是基于易错结果拼音的相似性得到不同角色的文本。
所述指令握手模块首先通过人工标注文本是否为指令来训练一个文本分类器,采取向量空间模型来表示文本,特征选择方法使用基于文档频率的特征提取法和信息增益法,模型选择了textCNN模型,将机舱语音指令识别模块得到的Tcap,Tvcap,Ttow作为输入,基于文本分类器得到一系列顺序指令{I1,I2,...In}来和标准喊话流程{F1,F2...Fm}进行暴力匹配来检查是否有错喊,漏喊的情况,没有匹配上的指令I就是错喊,两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊,这些指令将会被标记为uncheck(未握手),其他指令被标记为check(握手),通过判断呼号的位置来进行区分机长和副机长、机长和塔台之间的握手。
本发明还涉及一种应用机舱语音指令握手检测系统的装置,设置有语音输入单元,语音输入单元录入的语音信号输入至上述机舱语音指令握手检测系统进行运算。
本发明所要实现的技术效果在于:
将飞行员的对话转为文字并提取对话中的关键字来判断飞行过程中喊话是否有错误,是否有遗漏,以减少飞行过程中的安全隐患。
该发明具有以下优势:
1.能以较高的速率完成对语音的识别、判定,能够做到实时提醒。
2.具有良好的适应性,对于不同的航空公司可能会有不同的喊话流程,只需要更换用于训练的数据而不需要改动算法框架。
3.具有良好的应用前景,不仅可以用于检测机舱内语音指令握手,也可以用于呼叫中心录音质检,还可以用于人机语音交互比如语音录入电子病历等。
附图说明
图1系统逻辑架构图;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种机舱语音指令握手检测系统,其整体思路在于:设计逻辑顺序连接的机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块:
机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注,使用标注后的不同角色的语音片段进行对比学习,将不同人的声音分离开,并将分离的声音输入机舱语音指令识别模块;
机舱语音指令识别模块对分离后的音频进行语音识别,对易错的结果进行替换,构建每个角色的语音-文本语料库;
指令握手模块基于语音-文本语料库识别角色之间的对话是否是指令,并将机长和塔台,机长和副机长的握手区分开,并将机长和副机长的握手过程和喊话标准流程进行匹配,输出带有check(握手)/uncheck(未握手)标记的每条指令。
各模块的具体实现方式如下:
机舱人员角色识别模块:
该模块的主要功能是将不同角色的声音区分开。由于我们并不关注声音样本的语义特征,只需要将不同的声音样本区分出来,即学习到声音中的潜在的“音色”特征,故该模块使用了对比学习将预先标注好的不同人语音片段进行分类。
而后,我们将m段声音对比样本进行两两匹配,构造对比学习正负样本。构造方式如下:对于每个样本v而言,其正样本集为其所属角色的其余声音片段,其负样本集为其所属角色之外的两个角色的样本,如:对于样本而言,其正样本集为其负样本集为 其中任意v+∈V+称为正样本,任意v+∈V+称为负样本。
基于构造好的对比样本集,进行对比学习。我们使用机舱人员角色识别模型WaveNet对声音样本进行表征,表征后的结果记为z=Fwave(v)。使用对比学习损失函数Lcon为指导进行无监督的对比学习训练,其中:
对比训练之后,将WaveNet的输出层后加入Softmax层进行有监督的三分类训练:y=Softmax(z)=Softmax(Fwave(v)),从而将原始的混合音频按角色分为三个类别的音频。
机舱语音指令识别模块:
该模块的主要功能是将分开后的音频Vcap,Vvcap,Vtow转为文字Tcap,Tvcap,Ttow。目前的开源的模型都是用通用文本生成的语料库训练的结果,但是在我们这种专用的领域数据上表现欠佳。所以我们先对一些转换出来的文本进行标注得到语音-文本对,来构建机舱环境下的通话语料库。
然后使用开源项目MASR在通用语料库上的预训练模型,在我们自己的语料库上进行fine-tune训练,提升了模型识别的准确率,其中模型的准确率用编辑距离和句子长度的比值来衡量,值越小越好。
最后对识别结果中一些易识别错的地方进行自动化的替换,这里的替换是基于其拼音与机舱指令中常见词之间拼音的相似性,比如“jing yi”替换为“襟翼”,最终得到不同角色的文本。
指令握手模块:
这个模块需要完成的是基于文本的端对端握手验证。首先通过人工标注一些文本是否为指令来训练一个文本分类器。我们采取的是向量空间模型来表示文本。考虑到喊话过程的专业性和标准性,其中特征选择方法主要使用了基于文档频率的特征提取法和信息增益法,模型选择了textCNN模型,喊话文本较为明显的特征保证了分类器的效果。
将机舱语音指令识别模块得到的Tcap,Tvcap,Ttow作为输入,基于文本分类器得到一系列顺序指令{I1,I2,...In}来和标准喊话流程{F1,F2...Fm}进行暴力匹配来检查是否有错喊,漏喊的情况。没有匹配上的指令I就是错喊,两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊,这些指令将会被标记为uncheck(未握手),其他指令被标记为check(握手)。至于区分机长和副机长、机长和塔台之间的握手,因为飞行员和塔台的交流有很明显的特征就是呼号的位置,所以可以通过判断呼号的位置来进行区分,呼号在前的就是塔台。
本发明还涉及一种应用机舱语音指令握手检测系统的装置,设置有语音输入单元,语音输入单元录入的语音信号输入至上述机舱语音指令握手检测系统进行运算。
Claims (4)
1.一种机舱语音指令握手检测系统,其特征在于:系统包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块:所述机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注,使用标注后的不同角色的语音片段进行对比学习,将不同人的声音分离开,并将分离的声音输入机舱语音指令识别模块;所述机舱语音指令识别模块对分离后的音频进行语音识别,对易错的结果按照近音词的机舱指令进行替换,构建每个角色的语音-文本语料库;所述指令握手模块基于所述语音-文本语料库识别角色之间的对话是否是指令,将机长和塔台,机长和副机长的握手区分开,并将机长和副机长的握手过程和喊话标准流程进行匹配,输出带有check/uncheck标记的每条指令;
而后,将m段声音对比样本进行两两匹配,构造对比学习正负样本,构造方式为:对于每个样本v定义正样本集和负样本集,所述正样本集为其所属角色的其余声音片段,所述负样本集为其所属角色之外的两个角色的样本;所述机舱人员角色识别模块的对比学习方法为:基于构造好的对比样本集,进行对比学习,具体地,使用WaveNet机舱人员角色识别模型对声音样本进行表征,表征后的结果记为z=Fwave(v),使用对比学习损失函数Lcon为指导进行无监督的对比学习训练,其中:
对比训练之后,将WaveNet的输出层后加入Softmax层进行有监督的三分类训练:y=Softmax(z)=Softmax(Fwave(v)),从而将原始的混合音频按角色分为三个类别的音频;
所述指令握手模块首先通过人工标注文本是否为指令来训练一个文本分类器,采取向量空间模型来表示文本,特征选择方法使用基于文档频率的特征提取法和信息增益法,模型选择了textCNN模型,将机舱语音指令识别模块得到的文本作为输入,基于文本分类器得到一系列顺序指令来和标准喊话流程进行暴力匹配来检查是否有错喊,漏喊的情况,没有匹配上的指令I就是错喊,两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊,这些指令将会被标记为uncheck,其他指令被标记为check,通过判断呼号的位置来进行区分机长和副机长、机长和塔台之间的握手。
2.如权利要求1所述的一种机舱语音指令握手检测系统,其特征在于:所述机舱语音指令识别模块的语音-文本语料库构建方法为将分开后的音频Vcap,Vvcap,Vtow转为文字Tcap,Tvcap,Ttow,对转换出来的文本进行标注得到语音-文本对,来构建机舱环境下的通话语料库,使用MASR在通用语料库上的预训练模型,自建语料库上进行fine-tune训练,并用模型的准确率用编辑距离和句子长度的比值来衡量。
3.如权利要求2所述的一种机舱语音指令握手检测系统,其特征在于:替换方法为是基于易错结果拼音的相似性得到不同角色的文本。
4.一种应用机舱语音指令握手检测系统的装置,包括语音输入单元,其特征在于:应用权利要求1-3中任一所述的一种机舱语音指令握手检测系统,所述语音输入单元录入的语音信号输入至机舱语音指令握手检测系统进行运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589762.XA CN113327607B (zh) | 2021-05-28 | 2021-05-28 | 一种机舱语音指令握手检测系统和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589762.XA CN113327607B (zh) | 2021-05-28 | 2021-05-28 | 一种机舱语音指令握手检测系统和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113327607A CN113327607A (zh) | 2021-08-31 |
CN113327607B true CN113327607B (zh) | 2022-05-06 |
Family
ID=77422096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110589762.XA Active CN113327607B (zh) | 2021-05-28 | 2021-05-28 | 一种机舱语音指令握手检测系统和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327607B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648982B (zh) * | 2022-05-24 | 2022-07-26 | 四川大学 | 一种基于对比学习的管制员语音识别方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8374867B2 (en) * | 2009-11-13 | 2013-02-12 | At&T Intellectual Property I, L.P. | System and method for standardized speech recognition infrastructure |
CN104867367B (zh) * | 2015-06-17 | 2016-03-02 | 中国人民解放军海军工程大学 | 一种基于任务驱动的舰船损管对话式训练仿真系统 |
CN110428830B (zh) * | 2019-07-17 | 2021-09-21 | 上海麦图信息科技有限公司 | 一种基于正则表达式的空管指令意图识别方法 |
US11783810B2 (en) * | 2019-07-19 | 2023-10-10 | The Boeing Company | Voice activity detection and dialogue recognition for air traffic control |
CN111210825A (zh) * | 2019-12-16 | 2020-05-29 | 四川大学 | 一种增强地空通话管制员情景意识感知的方法与装置 |
CN111667830B (zh) * | 2020-06-08 | 2022-04-29 | 中国民航大学 | 基于管制员指令语义识别的机场管制决策支持系统及方法 |
CN112804400B (zh) * | 2020-12-31 | 2023-04-25 | 中国工商银行股份有限公司 | 客服呼叫语音质检方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-28 CN CN202110589762.XA patent/CN113327607B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113327607A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10431203B2 (en) | Machine training for native language and fluency identification | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
Cordero et al. | Automated speech recognition in ATC environment | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN111144102B (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
Song et al. | A gesture-to-emotional speech conversion by combining gesture recognition and facial expression recognition | |
Cordero et al. | Automated speech recognition in controller communications applied to workload measurement | |
CN112133290A (zh) | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 | |
CN113327607B (zh) | 一种机舱语音指令握手检测系统和装置 | |
CN110473571A (zh) | 基于短视频语音的情感识别方法和装置 | |
CN112397054A (zh) | 一种电力调度语音识别方法 | |
CN115240651A (zh) | 一种基于特征融合的陆空通话说话人角色识别方法及装置 | |
KR20190123093A (ko) | 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법 | |
CN114944150A (zh) | 一种基于双任务的Conformer陆空通话声学模型构建方法 | |
Ling | An acoustic model for English speech recognition based on deep learning | |
CN103164397B (zh) | 汉哈电子辞典及其自动转译汉哈语的方法 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN113948091A (zh) | 民航客机陆空通话语音识别引擎及其应用方法 | |
CN115294966A (zh) | 核电厂语音识别训练方法、智能语音控制方法和系统 | |
CN114004227A (zh) | 一种基于机器学习与规则匹配的民航事故报告处理方法 | |
KR101765154B1 (ko) | 음성을 사이버 수화로 제공하는 방법 | |
Feng et al. | Foundation Model Assisted Automatic Speech Emotion Recognition: Transcribing, Annotating, and Augmenting | |
Ezz-Eldin et al. | Bag-of-words from image to speech a multi-classifier emotions recognition system | |
Zuluaga-Gomez et al. | Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |