CN113569545A - 一种基于语音识别纠错模型的管制信息提取方法 - Google Patents
一种基于语音识别纠错模型的管制信息提取方法 Download PDFInfo
- Publication number
- CN113569545A CN113569545A CN202111125476.4A CN202111125476A CN113569545A CN 113569545 A CN113569545 A CN 113569545A CN 202111125476 A CN202111125476 A CN 202111125476A CN 113569545 A CN113569545 A CN 113569545A
- Authority
- CN
- China
- Prior art keywords
- control
- information
- control instruction
- error correction
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 74
- 238000012937 correction Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000001105 regulatory effect Effects 0.000 claims abstract description 33
- 230000008520 organization Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G5/00—Traffic control systems for aircraft, e.g. air-traffic control [ATC]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Aviation & Aerospace Engineering (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语音识别纠错模型的管制信息提取方法,属于空中交通管制自动化系统技术领域,包括构建管制指令带噪训练数据集,构建并训练管制语音识别纠错模型,基于管制语音识别纠错模型构建管制信息抽取模型,从管制指令文本数据中抽取并关联管制信息,生成信息集合;最后验证并纠正错误的管制信息,形成计算机可以理解的结构化形式。该方法包括:1、构建带噪管制指令训练数据集,训练管制语音纠错模型,实现管制语音识别错误检测和纠正;在此基础上,2、构建鲁棒管制信息抽取模型,实现语音识别错误干扰条件下的管制信息精准抽取;3、生成计算机可读结构化管制指令,为管制指令文本的自动化处理提供基础。
Description
技术领域
本发明属于空中交通管制自动化系统技术领域,尤其涉及一种基于语音识别纠错模型的管制信息提取方法。
背景技术
随着近30年中国民航业的蓬勃发展,空中交通管理的需求不断膨胀,导致安全隐患问题日益突出。据统计资料显示,在过去发生的飞行安全事故中,人为因素占比超过75%,而其中因管制员失误而造成的事故占25%。目前解决因管制员失误而造成的冲突的主流方法是加强场面的监控设备,通过借助场面监视雷达、多点定位系统传感器等设备防止冲突发生。同时,一些基于人工智能技术的更先进解决方法也被提出,如利用语音识别技术对管制语音进行识别并转换成管制指令文本,再利用自然语言处理技术进行信息抽取,形成计算机可读的结构化形式,实现管制语义理解。
当前的管制指令信息抽取主流方法分为两类:一是基于陆空通话规则的信息抽取方法,该方法从语言结构角度出发,通过匹配信息模板实现信息提取;二是基于机器学习或深度学习的信息抽取方法,这些方法从语义角度出发,通过学习管制指令的浅层或深层语义实现信息提取。上述方法只考虑对正确的管制指令文本进行处理,未考虑语音识别错误所引起的语言结构变化和语义干扰,及所导致的管制信息抽取精度下降问题,因此需要高精度管制语音识别系统,在实际应用中所需成本较高。
发明内容
发明目的:本发明从管制语音识别纠错的角度对管制信息抽取模型进行改进,构建带噪训练数据集,实现对管制语音识别错误的模拟,训练管制信息抽取模型,提升模型的抗噪鲁棒性,提升在语音识别错误干扰条件下的管制信息抽取精度。
技术方案:本发明提供了一种基于语音识别纠错模型的管制信息提取方法,包括以下步骤。
步骤1,采集管制指令文本数据集,构建相似拼音替换规则库,模拟管制语音识别错误,形成管制指令带噪训练数据集。
步骤2,构建管制语音识别纠错模型,使用管制指令带噪训练数据集对管制语音识别纠错模型进行训练。
步骤3,构建并训练管制信息抽取模型,从实际管制指令文本中抽取管制信息并形成集合。
步骤4,验证已抽取的管制信息是否正确,若正确,输出管制信息;若错误,执行步骤5。
步骤5,纠正错误的管制信息,生成正确的管制信息集合,形成计算机可以理解的结构化管制指令。
在一种实现方式中,步骤1中所述采集管制指令文本数据集指采集场面、塔台、进近和区域运行场景中的管制指令数据;所述管制指令文本数据均匀分布在包括推出开车、滑行、进跑道等待、起飞、管制移交、进近、航班降落、脱离跑道、进停机位和调高调速在内的不同子场景,形成管制指令文本数据集。
在一种实现方式中,步骤1中基于所采集的管制指令文本数据集,构建相似拼音替换规则库,模拟管制语音识别错误,形成管制指令带噪训练数据集,包括以下步骤。
步骤1-1:构建第一拼音表,将管制指令文本数据中的数字和英文字母按照读音替换为对应的同音汉字,例如,数字“1”在管制指令中发音为“幺”,英文字母“D”在管制指令中的发音为“德尔塔”,统计管制指令文本数据集中出现的汉字,生成管制指令字典,对管制指令字典中的汉字标注拼音,形成第一拼音表。
步骤1-2:扩充第一拼音表,面向第一拼音表中的拼音,通过删除、替换或增加单个字母获取相似拼音表,所述相似拼音表和第一拼音表结合,并形成第二拼音表;例如,拼音“san”通过增加字母得到新拼音“shan”。
步骤1-3:构建同音字表,根据第二拼音表扩充同音字个数,形成同音字表,所述同音字表和第二拼音表结合,形成相似拼音替换规则库。
步骤1-4:构建训练数据集,面向管制指令文本数据集中的每一个管制指令句子,以15%的概率随机选择汉字,对于被选择的汉字,以50%的概率替换为同音字表中的同音字,50%的概率替换为相似拼音表中的相似拼音对应汉字。
步骤1-5:基于以上步骤,获得管制指令带噪训练数据集,包括训练数据和标签数据,所述训练数据为带有同音字替换和相似拼音对应汉字替换的文本数据,所述标签数据为对应的正确文本数据。
在一种实现方式中,步骤1-2中所述面向第一拼音表中的拼音,通过删除、替换或增加单个字母获取相似拼音表,采用编辑距离法,定义编辑距离为相似拼音通过删除、替换或增加单个字母的总次数。例如,拼音“san”通过增加字母得到新拼音“shan”,这两个拼音之间的编辑距离为1。
步骤1的重要性在于:1、采集大量实际语音识别错误干扰的带噪管制指令文本数据较为困难,难以构建训练数据集,2、本步骤模拟管制语音识别错误,通过同音字和相似字替换能较好还原真实错误,可以实现大量训练数据集的生成。
在一种实现方式中,步骤2中,所述管制语音识别纠错模型包括语音识别纠错编码层和语音识别纠错输出层,所述语音识别纠错编码层采用BERT模型,所述语音识别纠错输出层采用全连接网络层;使用管制指令带噪训练数据集训练管制语音识别纠错模型,将训练数据作为输入序列,获得输出序列,输出序列与标签数据计算得到误差,根据误差进行反向传播,获得训练后的管制语音识别纠错模型,实现抗语音识别错误干扰能力。
在一种实现方式中,步骤3中所述管制信息抽取模型包括管制信息抽取编码层和管制信息抽取输出层,所述管制信息抽取编码层采用步骤2中训练好的管制语音识别纠错模型的语音识别纠错编码层,对输入序列进行编码表征;所述管制信息抽取输出层采用条件随机场或Softmax模型,对管制信息抽取编码层的输出表征结果进行处理,输出信息标签序列;所述信息标签序列中的信息标签包括BIO中的一个字母和信息类型,所述信息类型为管制指令所属的类型,包括地点、动作、航班呼号、航班高度、航班速度、推出方向、机构名称和天气,所述机构名称包括塔台、地面和进近机构名称;B表示信息类型的开头部分,I表示信息类型的中间部分,O表示无信息类型。
步骤2和3的重要性在于:在实际情况下,管制指令文本数据来源于管制语音识别结果。语音识别错误会造成待处理文本数据产生噪声干扰,干扰后续步骤中的管制信息抽取精度。基于管制语音识别模型的管制信息抽取模型通过训练学习语音识别错误先验知识,提升管制信息抽取模型的抗语音识别错误鲁棒性。
在一种实现方式中,步骤3中训练管制信息抽取模型采用信息抽取训练数据集,所述信息抽取训练数据集的构建包括:将管制指令文本数据集中的每一个管制指令句子中的数字和英文字母转换成相应汉字,使用BIO标注表示转换后的管制指令句子,获得标注结果,BIO标注将转换后的管制指令句子中的每一个汉字表示成BIO中的一个字母和信息类型,所述信息类型为管制指令所属的类型;将标注结果与管制指令文本数据集中的每一个管制指令句子形成信息抽取训练数据集;训练管制信息抽取模型时,将管制指令文本数据集中的每一个管制指令句子作为管制信息抽取模型的输入序列,获得输出序列;计算输出序列与标注结果的误差,根据误差进行反向传播,获得训练后的管制信息抽取模型。
采用“BIO”法的原因在于:管制信息抽取模型采用序列标注结构提取管制信息,需要通过标签判断管制指令中不同汉字所属信息类型和位置。“BIO”法可以标记汉字在所属信息中的位置。
在一种实现方式中,步骤3中从实际管制指令文本中抽取管制信息并形成集合包括:将管制指令文本数据输入管制信息抽取模型,获得输出信息标签序列;根据信息标签序列中的BIO确定管制信息的边界,根据实际管制指令文本和信息标签序列中的信息类型组合汉字,形成结构化管制信息,所述结构化管制信息的格式如下,根据实际管制指令文本和信息标签序列中的信息类型可以追加字段。
{
航班号:东方三九八四;
动作:推出开车;
起始位置:停机位;
…
}。
例如,输入序列为“滑行道”,则其对应的标签序列是:B-LOC, I-LOC, I-LOC,根据标签可知滑行道是一个地点。
在一种实现方式中,步骤4中,需要对从管制指令文本中抽取的实体信息进行验证,判断实体内容是否正确。具体包括:构建管制术语字典,包括起飞、降落、跑道、五边、地面风等术语,塔台、地面和进近等机构名词;从管制自动化系统中引接航班具体信息,包括东方3122、春秋2311等航班呼号,获得航班呼号字符串字典;遍历管制术语字典以及航班呼号字符串字典,与步骤3获得的管制信息进行匹配,判断管制信息是否正确。若正确,输出正确管制信息;若错误,输出错误管制信息,执行步骤5。
在一种实现方式中,步骤5中,由于语音识别错误引入的噪声会破坏管制信息的内容组成,造成管制信息内容错误,针对以上问题,使用编辑距离法计算步骤4输出的错误管制信息与管制术语字典中术语或机构名词以及航班呼号字符串间的相似度,设置相似度阈值,选择高于相似度阈值的管制术语或航班呼号作为正确管制信息,并输出纠正后的管制信息;相似度阈值根据错误管制信息的文本长度,以及管制术语字典或航班呼号字符串中相似字、相同字和相同字符串的数量进行设置。
参考文献1:Dan Jurafsky and James H. Martin(2019). Speech and LanguageProcessing (3rd ed. draft)。
参考文献2:Devlin J, Chang MW, Lee K, Toutanova K (2019) BERT: pre-training of deep bidirectional transformers for language understanding. In:NAACL-HLT。
参考文献3:王煊等(2021).《一种基于知识嵌入的结构化管制指令提取方法》,中国发明专利申请号:202110454084.6。
有益效果:1、构建抗语音识别错误干扰的鲁棒管制信息抽取模型,实现精准管制信息抽取,降低因语音识别错误导致的管制信息抽取能力下降影响,对目标航空器的呼号、机型、状态等信息进行精确提取,实现管制指令信息汇聚。
2、生成计算机可读结构化管制指令,为管制指令自动化处理提供基础。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为基于语音识别纠错的管制信息提取方法流程图。
图2为管制语音识别纠错模型结构。
图3为BERT模型编码层结构。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本申请提供的一种基于语音识别纠错的管制指令信息提取方法,可应用于空中交通管制系统对管制指令的语义理解。本申请能有效处理管制指令重要信息的提取工作。
本申请实施例中提到的甚高频通信系统、管制自动化系统、管制语音识别系统均为本领域技术人员公知的系统。
本申请实施例的实现过程和步骤如下,其流程如图1所示。
步骤1:采集管制指令文本数据集,构建相似拼音替换规则库,模拟管制语音识别错误,构建管制指令带噪训练数据集。从甚高频通信系统中采集场面、塔台、进近和区域运行场景中的管制指令语音数据,通过管制语音识别系统生成管制指令文本数据。所述管制指令文本数据均匀分布在推出开车、滑行、进跑道等待、起飞、管制移交、进近、航班降落、脱离跑道、进停机位和调高调速不同子场景,形成管制指令文本数据集。
基于所采集的管制指令文本数据集,模拟管制语音识别错误,构建管制指令带噪训练数据集,包括步骤1-1:构建第一拼音表,将管制指令文本数据中的数字和英文字母按照读音替换为对应的同音汉字,统计管制指令文本数据集中出现的汉字,生成管制指令字典,对管制指令字典中的汉字标注拼音,形成第一拼音表。
步骤1-2:扩充第一拼音表,面向第一拼音表中的拼音,使用编辑距离法获取相似拼音表,定义编辑距离为相似拼音通过删除、替换或增加单个字母的总次数,具体请参见参考文献1;所述相似拼音表和第一拼音表结合,并形成第二拼音表;例如,拼音“san”通过增加字母得到新拼音“shan”,这两个拼音之间的编辑距离为1。
步骤1-3:构建同音字表,根据第二拼音表扩充同音字个数,形成同音字表,所述同音字表和第二拼音表结合,形成相似拼音替换规则库。
步骤1-4:构建训练数据集,面向管制指令文本数据集中的每一个管制指令句子,以15%的概率随机选择汉字,对于被选择的汉字,以50%的概率替换为同音字表中的同音字,50%的概率替换为相似拼音表中编辑距离为1的相似拼音对应汉字;同音字替换和相似拼音对应汉字替换,分别以平均概率从同音字表和相似拼音表中选择替换汉字。
步骤1-5:基于以上步骤,获得管制指令带噪训练数据集,包括训练数据和标签数据,所述训练数据为带有同音字替换和相似拼音对应汉字替换的文本数据,所述标签数据为对应的正确文本数据。
步骤2:构建管制语音识别纠错模型,使用管制指令带噪训练数据集训练管制语音识别纠错模型。
选择以BERT模型作为编码层,全连接网络层作为输出层构建并训练管制语音识别纠错模型。在训练时,输入因语音识别错误干扰的管制指令文本训练数据,输出正确的管制指令文本标签,实现语音识别纠错功能。具体包括以下步骤。
步骤2-1:构建管制语音识别纠错模型。基于BERT(Bidirectional EncoderRepresentations from Transformers)的管制语音识别纠错模型,具体描述如下。
针对输入序列x,基于BERT的管制语音识别纠错模型使用12层编码层,如图2和图3所示,其中每一层编码层包括注意力层,注意力层的输入为映射层输出,利用公式1~3计算得到注意力层的输入。
其中,Q代表查询向量,K代表键向量,V代表目标向量,W Q 、W K 和W V 分别为注意力层的输入转换矩阵,所述非结构化文本数据的内容中的每一个字的语义都受到其他字的影响,而注意力值的大小表示影响程度,所述每一个字在经过注意力层之后的输出如公式4所示。
其中,d k 是缩放因子,缩放因子d k 的大小与映射层的输出维度d相同,softmax函数用于对输出的注意力值进行归一化,输出结果Attention(Q,K,V)表示输入序列x经过上下文信息的影响后得到的深层语义表征。
在BERT模型中使用多头注意力机制集成更多的信息,本实施例中,通过使用多头注意力机制,能够使结果更精确,假设单头注意力定义为公式5。
则所述多头注意力定义为公式6。
其中,Concat()表示对多个注意力头进行拼接计算,W O 是转换矩阵,经过多头注意力计算后输出的表征与输入表征进行相加,得到X=X+MultiHead(Q,K,V),然后通过全连接层进行文本语义表征数据的整合,再与全连接层输入相加,得到单个编码层输出,如公式7所示。
其中,W 1和W 2是全连接层的转换矩阵,b 1和b 2是全连接层的偏置参数,由此得到
BERT模型一层的输出FFN(X),每一个编码层的输出都是下一层的输入;最后得到BERT模型
的输出,构建全连接层映射输出序列,其中R表示实数集合,L表示输
入序列长度,|D|表示管制指令带噪训练数据集中不同字符的个数。
步骤2-2:训练管制语音识别纠错模型。使用带噪管制指令文本训练数据集训练管
制语音识别纠错模型,使用训练文本数据作为输入序列,标签文本数据作为输出参考。假设
输入序列定义为:x = x 1,x 2,…,x L ,其中x i 表示序列中的第i个汉字,,L表示序列长
度。通过索引序列映射得到的向量表征X,如公式8所示。
将输入序列表征X E 输入管制语音识别纠错模型,输出Y E 与标签计算,得到误差并进行反向传播,使训练后的管制语音识别纠错模型实现语音识别纠错功能。以上公式中涉及的变量或矩阵的详细描述和取值,请参见参考文献2。
步骤3:构建并训练管制信息抽取模型,将管制指令文本数据输入管制信息抽取模型,生成管制信息并形成集合。
以训练后的管制语音识别纠错模型中的语音识别纠错编码层BERT模型作为编码层,条件随机场或Softmax模型作为输出层,构建管制信息抽取模型。
将管制指令文本数据集中的每一个管制指令句子中的数字和英文字母转换成相应汉字,使用BIO标注表示转换后的每一个管制指令句子,获得标注结果,BIO标注将转换后的管制指令句子中的每一个汉字表示成BIO中的一个字母和信息类型,所述信息类型为管制指令所属的类型,包括地点、动作、航班呼号、航班高度、航班速度、推出方向、机构名称和天气,所述机构名称包括塔台、地面和进近机构名称等,具体请参见参考文献3;将标注结果与管制指令文本数据集中的每一个管制指令句子形成信息抽取训练数据集;利用信息抽取训练数据集训练管制信息抽取模型,将管制指令文本数据集中的每一个管制指令句子作为管制信息抽取模型的输入序列,获得输出序列;计算输出序列与标注结果的误差,根据误差进行反向传播,获得训练后的管制信息抽取模型。
从实际管制指令文本中抽取管制信息并形成集合包括:将实际管制指令文本据输入管制信息抽取模型,获得输出信息标签序列;所述信息标签序列中的信息标签包括BIO中的一个字母和信息类型,所述信息类型为管制指令所属的类型,包括地点、动作、航班呼号、航班高度、航班速度、推出方向、机构名称和天气,所述机构名称包括塔台、地面和进近机构名称等;B表示信息类型的开头部分,I表示信息类型的中间部分,O表示无信息类型;根据信息标签序列中的BIO确定管制信息的边界,根据实际管制指令文本和信息标签序列中的信息类型组合汉字,形成结构化管制信息,所述结构化管制信息的格式如下,根据实际管制指令文本和信息标签序列中的信息类型可以追加字段。
{
航班号:东方三九八四;
动作:推出开车;
起始位置:停机位;
…
}。
步骤4:验证已抽取的管制信息是否正确,若正确,输出管制信息;若错误,执行步骤5。
构建管制术语字典,将采集的管制指令文本数据中的常用词汇包括起飞、降落、跑道、五边和地面风术语,塔台、地面和进近机构名词编写成管制术语字典;引接管制自动化系统中的航班呼号等信息,形成字符串先验知识。遍历管制术语字典和字符串先验知识,保留能匹配的正确管制信息,输出未匹配的错误管制信息。
步骤5:纠正错误管制信息,生成正确的管制信息集合,形成计算机可以理解的结构化管制指令。
考虑语音识别错误引起的管制信息内容错误问题,遍历管制术语字典中的词语,以及航班呼号字符串,计算其与错误管制信息字符串之间的编辑距离,若编辑距离越短,则相似度越高,当相似度大于设置的相似度阈值时,以被选管制术语字典中的词语或航班呼号字符串替换错误管制信息并保留。相似度阈值根据错误管制信息的文本长度,以及管制术语字典或航班呼号字符串中相似字、相同字和相同字符串的数量进行设置。
将步骤4和步骤5中保留的管制信息进行组合汇聚,形成正确的管制信息。
实施例。
为方便配图和描述,此处的实施步骤分为三个部分:一是构建并训练管制信息抽取模型;二是从管制语音数据中提取管制信息;三是判断管制信息是否错误,并纠正错误的管制信息。结合实际的管制指令进行说明。
首先给出管制指令的例子:东方3984,跑道35,立即起飞。
第一部分:构建管制信息抽取模型。
步骤1:构建拼音表,以及同音字表,即:{{dong: 东、动、洞},{fang: 方、放、坊},{san: 三、叁},…}。扩充同音字表,选择编辑距离为1的相似拼音,补充相似拼音及相似音字,即:{{dong: 东、动、洞},{fang: 方、放、坊},{fan: 翻、帆},{san: 三、叁},{shan: 山、陕}…}。
步骤2:生成训练数据集,包括带噪训练数据集和信息抽取训练数据集。针对带噪训练数据集,随机替换同音或相似音字,例如:东放3984,跑到35,立即齐飞。将该句子与原始句子组成带噪训练数据集。针对信息抽取训练数据集,使用BIO标注表示原始句子,即B-FLT, I-FLT, I-FLT, I-FLT, I-FLT, I-FLT, B-RWY, I-RWY, I-RWY, I-RWY, B-ACT, I-ACT, I-ACT, I-ACT。其中,标签FLT表示航班呼号,标签RWY表示跑道,标签ACT表示动作。将上述标记与原始句子组成信息抽取训练数据集。
步骤3:构建并训练模型,首先构建管制语音识别纠错模型,使用带噪训练数据集训练语音识别纠错模型,再将训练好的管制语音识别纠错模型作为编码层,构建管制信息抽取模型,并使用信息抽取训练数据集训练管制信息抽取模型,形成鲁棒管制信息抽取模型。
第二部分:抽取管制信息。
步骤4:数据预处理,针对管制指令:东方3984,跑道35,立即起飞。使用管制语音识别系统转译管制语音数据,得到:东放3984,跑道35,立即齐飞。其中,出现错误识别结果。将数字和英文字母转成相应汉字,即:东放三九八四跑道三五立即齐飞。
步骤5:使用鲁棒管制信息抽取模型提取管制信息,因为管制信息抽取模型已经学习错误发音知识,所以可较为准确地输出信息标签序列B-FLT, I-FLT, I-FLT, I-FLT, I-FLT, I-FLT, B-RWY, I-RWY, I-RWY, I-RWY, B-ACT, I-ACT, I-ACT, I-ACT。再根据信息标签序列中的BIO确定管制信息的边界,根据实际管制指令文本和信息标签序列中的信息类型组合汉字,形成以下管制信息:东放三九八四(航班)、跑道三五(跑道)、立即齐飞(动作)。
第三部分:判断信息对错。
步骤6:构建管制术语字典,包括管制术语、航空公司、机构名称等词汇,即:{立即起飞、马上、降落、跑道、东方、春秋、四川,…};构建管制自动化系统中的航班呼号字符串字典,即:{东方三九八四、南方幺幺洞拐,…}。
步骤7:遍历管制术语字典和航班呼号字符串字典,判断是否匹配信息,得到正确信息“跑道三五”。
步骤8:纠正错误实体,遍历管制术语字典和航班呼号字符串字典,计算不同抽取信息与字典中的词汇之间的编辑距离,例如:“东放三九八四”与“东方三九八四”的编辑距离为1,“立即齐飞”与“立即起飞”的编辑距离为1,选择航班呼号字符串字典和管制术语字典中的词语作为正确信息。
步骤9:输出正确的管制信息:东方三九八四(航班)、跑道三五(跑道)、立即起飞(动作)。
本发明提供了一种基于语音识别纠错模型的管制信息提取方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种基于语音识别纠错模型的管制信息提取方法,其特征在于,包括以下步骤:
步骤1,采集管制指令文本数据集,构建相似拼音替换规则库,模拟管制语音识别错误,形成管制指令带噪训练数据集;
步骤2,构建管制语音识别纠错模型,使用管制指令带噪训练数据集对管制语音识别纠错模型进行训练;
步骤3,构建并训练管制信息抽取模型,从实际管制指令文本中抽取管制信息并形成集合;
步骤4,验证已抽取的管制信息是否正确,若正确,输出管制信息;若错误,执行步骤5;
步骤5,纠正错误的管制信息,生成正确的管制信息集合,形成计算机能够理解的结构化管制指令。
2.根据权利要求1所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤1中基于所采集的管制指令文本数据集,构建相似拼音替换规则库,模拟管制语音识别错误,形成管制指令带噪训练数据集,包括以下步骤:
步骤1-1:构建第一拼音表,将管制指令文本数据中的数字和英文字母按照读音替换为对应的同音汉字,统计管制指令文本数据集中出现的汉字,生成管制指令字典,对管制指令字典中的汉字标注拼音,形成第一拼音表;
步骤1-2:扩充第一拼音表,面向第一拼音表中的拼音,通过删除、替换或增加单个字母获取相似拼音表,所述相似拼音表和第一拼音表结合,并形成第二拼音表;
步骤1-3:构建同音字表,根据第二拼音表扩充同音字个数,形成同音字表,所述同音字表和第二拼音表结合,形成相似拼音替换规则库;
步骤1-4:构建训练数据集,面向管制指令文本数据集中的每一个管制指令句子,以15%的概率随机选择汉字,对于被选择的汉字,以50%的概率替换为同音字表中的同音字,50%的概率替换为相似拼音表中的相似拼音对应汉字;
步骤1-5:基于以上步骤,获得管制指令带噪训练数据集,包括训练数据和标签数据,所述训练数据为带有同音字替换和相似拼音对应汉字替换的文本数据,所述标签数据为对应的正确文本数据。
3.根据权利要求2所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤1-2中所述面向第一拼音表中的拼音,通过删除、替换或增加单个字母获取相似拼音表,采用编辑距离法,定义编辑距离为相似拼音通过删除、替换或增加单个字母的总次数。
4.根据权利要求3所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤2中,所述管制语音识别纠错模型包括语音识别纠错编码层和语音识别纠错输出层,所述语音识别纠错编码层采用BERT模型,所述语音识别纠错输出层采用全连接网络层;使用管制指令带噪训练数据集训练管制语音识别纠错模型,将训练数据作为输入序列,获得输出序列,输出序列与标签数据计算得到误差,根据误差进行反向传播,获得训练后的管制语音识别纠错模型。
5.根据权利要求4所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤3中所述管制信息抽取模型包括管制信息抽取编码层和管制信息抽取输出层,所述管制信息抽取编码层采用步骤2中训练好的管制语音识别纠错模型的语音识别纠错编码层,对输入序列进行编码表征;所述管制信息抽取输出层采用条件随机场或Softmax模型,对管制信息抽取编码层的输出表征结果进行处理,输出信息标签序列;所述信息标签序列中的信息标签包括BIO中的一个字母和信息类型,所述信息类型为管制指令所属的类型,包括地点、动作、航班呼号、航班高度、航班速度、推出方向、机构名称和天气,所述机构名称包括塔台、地面和进近机构名称;B表示信息类型的开头部分,I表示信息类型的中间部分,O表示无信息类型。
6.根据权利要求5所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤3中训练管制信息抽取模型采用信息抽取训练数据集,所述信息抽取训练数据集的构建包括:将管制指令文本数据集中的每一个管制指令句子中的数字和英文字母转换成相应汉字,使用BIO标注表示转换后的管制指令句子,获得标注结果,BIO标注将转换后的管制指令句子中的每一个汉字表示成BIO中的一个字母和信息类型,所述信息类型为管制指令所属的类型;将标注结果与管制指令文本数据集中的每一个管制指令句子形成信息抽取训练数据集;训练管制信息抽取模型时,将管制指令文本数据集中的每一个管制指令句子作为管制信息抽取模型的输入序列,获得输出序列;计算输出序列与标注结果的误差,根据误差进行反向传播,获得训练后的管制信息抽取模型。
7.根据权利要求6所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤3中从实际管制指令文本中抽取管制信息并形成集合包括:
将实际管制指令文本输入管制信息抽取模型,获得输出信息标签序列;
根据信息标签序列中的BIO确定管制信息的边界,根据实际管制指令文本和信息标签序列中的信息类型组合汉字,形成结构化管制信息。
8.根据权利要求7所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤4包括:
构建管制术语字典,包括起飞、降落、跑道、五边和地面风术语,以及塔台、地面和进近机构名词;
从管制自动化系统中引接航班呼号,获得航班呼号字符串字典;
遍历管制术语字典以及航班呼号字符串字典,判断步骤3获得的管制信息是否正确;若正确,输出正确管制信息;若错误,输出错误管制信息,执行步骤5。
9.根据权利要求8所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤5包括使用编辑距离法计算步骤4输出的错误管制信息与管制术语字典中术语或机构名词以及航班呼号字符串间的相似度,设置相似度阈值,选择高于相似度阈值的管制术语或航班呼号作为正确管制信息,并输出纠正后的管制信息;
相似度阈值根据错误管制信息的文本长度,以及管制术语字典或航班呼号字符串中相似字、相同字和相同字符串的数量进行设置。
10.根据权利要求1所述的一种基于语音识别纠错模型的管制信息提取方法,其特征在于,步骤1中所述采集管制指令文本数据集指采集场面、塔台、进近和区域运行场景中的管制指令数据;所述管制指令文本数据均匀分布在包括推出开车、滑行、进跑道等待、起飞、管制移交、进近、航班降落、脱离跑道、进停机位和调高调速在内的不同子场景,形成管制指令文本数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111125476.4A CN113569545B (zh) | 2021-09-26 | 2021-09-26 | 一种基于语音识别纠错模型的管制信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111125476.4A CN113569545B (zh) | 2021-09-26 | 2021-09-26 | 一种基于语音识别纠错模型的管制信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569545A true CN113569545A (zh) | 2021-10-29 |
CN113569545B CN113569545B (zh) | 2021-12-07 |
Family
ID=78174321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111125476.4A Active CN113569545B (zh) | 2021-09-26 | 2021-09-26 | 一种基于语音识别纠错模型的管制信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569545B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861635A (zh) * | 2022-05-10 | 2022-08-05 | 广东外语外贸大学 | 一种中文拼写纠错方法、装置、设备及存储介质 |
CN114912465A (zh) * | 2022-06-17 | 2022-08-16 | 四川九洲空管科技有限责任公司 | 一种管制通话场景的生成及维护方法 |
CN115862674A (zh) * | 2023-02-21 | 2023-03-28 | 山东山大鸥玛软件股份有限公司 | 英语口语评测的语音识别及纠错方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN110069771A (zh) * | 2019-03-11 | 2019-07-30 | 中国电子科技集团公司第二十八研究所 | 一种基于语义组块的管制指令信息处理方法 |
CN110232121A (zh) * | 2019-04-28 | 2019-09-13 | 中国电子科技集团公司第二十八研究所 | 一种基于语义网的管制指令分类方法 |
CN113158658A (zh) * | 2021-04-26 | 2021-07-23 | 中国电子科技集团公司第二十八研究所 | 一种基于知识嵌入的结构化管制指令提取方法 |
-
2021
- 2021-09-26 CN CN202111125476.4A patent/CN113569545B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN110069771A (zh) * | 2019-03-11 | 2019-07-30 | 中国电子科技集团公司第二十八研究所 | 一种基于语义组块的管制指令信息处理方法 |
CN110232121A (zh) * | 2019-04-28 | 2019-09-13 | 中国电子科技集团公司第二十八研究所 | 一种基于语义网的管制指令分类方法 |
CN113158658A (zh) * | 2021-04-26 | 2021-07-23 | 中国电子科技集团公司第二十八研究所 | 一种基于知识嵌入的结构化管制指令提取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861635A (zh) * | 2022-05-10 | 2022-08-05 | 广东外语外贸大学 | 一种中文拼写纠错方法、装置、设备及存储介质 |
CN114912465A (zh) * | 2022-06-17 | 2022-08-16 | 四川九洲空管科技有限责任公司 | 一种管制通话场景的生成及维护方法 |
CN115862674A (zh) * | 2023-02-21 | 2023-03-28 | 山东山大鸥玛软件股份有限公司 | 英语口语评测的语音识别及纠错方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113569545B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113569545B (zh) | 一种基于语音识别纠错模型的管制信息提取方法 | |
CN110046350B (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN108124477B (zh) | 基于伪数据改进分词器以处理自然语言 | |
CN112182191B (zh) | 多轮口语理解的结构化记忆图网络模型 | |
CN110070855B (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
CN112633017B (zh) | 翻译模型训练、翻译处理方法、装置、设备和存储介质 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN110428830B (zh) | 一种基于正则表达式的空管指令意图识别方法 | |
CN108537176A (zh) | 目标弹幕的识别方法、装置、终端及存储介质 | |
CN108664474A (zh) | 一种基于深度学习的简历解析方法 | |
CN109241540A (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112133290A (zh) | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 | |
CN108829823A (zh) | 一种文本分类方法 | |
CN110069771B (zh) | 一种基于语义组块的管制指令信息处理方法 | |
CN118313372B (zh) | 一种中文航行通告文本纠错方法、计算机程序产品及终端 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN110232121B (zh) | 一种基于语义网的管制指令分类方法 | |
CN113268595A (zh) | 一种基于实体关系抽取的结构化机场警报处理方法 | |
CN112466277A (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN107943783A (zh) | 一种基于lstm‑cnn的分词方法 | |
CN113948091A (zh) | 民航客机陆空通话语音识别引擎及其应用方法 | |
CN109460547B (zh) | 一种基于自然语言处理的结构化管制指令提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |