CN113393836A

CN113393836A - 一种机载电台语音识别控制方法及系统

Info

Publication number: CN113393836A
Application number: CN202110634473.7A
Authority: CN
Inventors: 鲍捷; 吕春; 陈英爽; 刘家宏; 徐涛
Original assignee: CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD; Shenzhen SDG Information Co Ltd
Current assignee: CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD; Shenzhen SDG Information Co Ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-09-14
Anticipated expiration: 2041-06-08
Also published as: CN113393836B

Abstract

本发明提供一种机载电台语音识别控制方法及系统，方法包括：从机载电台接收的远程电台语音中抽取电台语音数据；对电台语音数据进行增强去噪预处理；对预处理后的电台语音数据进行声纹鉴权识别和语音内容识别；在声纹鉴权识别判断电台语音数据来源于具有指挥权限的说话人时，将语音内容识别得到的语音文字内容合成为电子音，并将语音文字内容转换为机器语言指令进行暂存；将电子音输出到机载电台以反馈给驾驶室操作人员；响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给机载飞控系统进行执行。实现在机载电台环境下进行语音指令传输识别转换文字，并合成纯净的电子音以便于操作人员确认指令并作出执行决定，将指令呈现方式简洁化。

Description

一种机载电台语音识别控制方法及系统

技术领域

本发明涉及机载控制及语音技术领域，尤其涉及一种机载电台语音识别控制方法及系统。

背景技术

飞机的智能化控制方式越来越受到世界各国的重视，研究在嵌入式平台上实现智能语音指令控制系统技术，可简化其操作流程、隐藏操作细节。针对处于电台环境的机载语音控制，目前的语音技术系统适应性差，也存在着实时性差的问题；且目前的控制、交互方式实现方式较为繁琐，表达方式较为复杂，已经不能满足当前作战对简洁性、隐蔽性等的需求；同时，在真实操作中，电台环境处于高噪音环境，而在强噪干扰环境下现有的语音技术遇到了极大的困难，特别是高噪音与多人物说话的“鸡尾酒效应”，现在还没有有效的解决方案，而电台环境就是直接面对高噪音与多人物说话，当然，多人说话可以通过硬件进行针对性优化，但高噪音的情况无法通过硬件达到全屏蔽与通用性，会极大的影响识别率。

发明内容

针对上述现有技术不足，本申请提供一种机载电台语音识别控制方法及系统，在驾驶室中加载识别控制系统，实现通过电台环境进行语音指令传输识别转换文字，并反向合成纯净的电子音以便于驾驶人员确认指令并作出执行决定，解决了真实电台高噪音环境下的识别准确率问题，同时将指令呈现方式简洁化。

为了实现本发明的目的，拟采用以下方案：

一种机载电台语音识别控制方法，包括步骤：

从机载电台接收的远程电台语音中抽取电台语音数据；

对电台语音数据进行增强去噪预处理；

对预处理后的电台语音数据进行声纹鉴权识别以判断电台语音数据是否来源于具有指挥权限的说话人，同时对电台语音数据进行语音内容识别以获得语音文字内容；

在声纹鉴权识别判断电台语音数据不是来源于具有指挥权限的说话人时，放弃电台语音数据；

在声纹鉴权识别判断电台语音数据来源于具有指挥权限的说话人时，将语音文字内容合成为电子音，并将语音文字内容转换为机器语言指令，将机器语言指令暂存；

将电子音输出到机载电台以反馈给飞机操控人员；

响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给机载飞控系统进行执行。

进一步，对预处理后的电台语音数据进行声纹鉴权识别以判断电台语音数据是否来源于具有指挥权限的说话人，包括步骤：

从预处理后的电台语音数据中提取说话人声纹特征和起始关键词；

将提取的声纹特征和起始关键词，分别与数据库预存的授权ID声纹和授权关键词进行匹配判断：

若起始关键词与授权关键词不匹配，判断电台语音数据不是来源于具有指挥权限的说话人；

若起始关键词与授权关键词完全匹配，且声纹特征与授权ID声纹匹配度大于等于预设值，判断电台语音数据来源于具有指挥权限的说话人；

若起始关键词与授权关键词完全匹配，且声纹特征与授权ID声纹匹配度小于预设值，判断电台语音数据不是来源于具有指挥权限的说话人。

进一步，对电台语音数据进行增强去噪预处理，包括步骤：

将电台语音数据转换为语谱图；

使用预先训练的UNET神经网络对语谱图进行重构，得到Mel频率和幂律的增强幅度谱图；

对增强幅度谱图进行预加重、分针、加窗、ISTFT处理，生成增强后的时域语音信号。

进一步，响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给机载飞控系统进行执行，包括步骤：

接收操作人员根据电子音做出的确认语音信息；

对确认语音信息进行声纹鉴权识别和确认关键词提取，获得操作人员声纹特征和确认关键词；

将操作人员声纹特征与数据库预存的驾驶室人员声纹特征进行匹配，并将提取的确认关键词与数据库预存的操作关键词列表进行匹配：

若均匹配成功，则将机器语言指令传输给机载飞控系统进行执行；

若其中一项匹配不成功，则禁止将机器语言指令向机载飞控系统传输。

一种机载电台语音识别控制系统，包括：

适配器模块，与机载电台连接，用于从机载电台接收的远程电台语音中抽取电台语音数据；

语音处理模块，与适配器模块连接，用于对电台语音数据进行增强去噪预处理；

声纹鉴权模块，与语音处理模块连接，用于对预处理后的电台语音数据进行声纹鉴权识别以判断电台语音数据是否来源于具有指挥权限的说话人；

语音识别模块，与语音处理模块连接，用于对电台语音数据进行语音内容识别以获得语音文字内容；

指令控制模块，用于在声纹鉴权识别判断电台语音数据来源于具有指挥权限的说话人时，向语音合成模块输送语音文字内容，并将语音文字内容转换为机器语言指令进行暂存；

语音合成模块，与指令控制模块，用于将指令控制模块输送的语音文字内容合成为电子音，并向适配器模块输送；

适配器模块，还与语音合成模块连接，还用于接收语音合成模块输送的电子音，并将合成的电子音输出到机载电台以反馈给驾驶室操控人员；

指令控制模块，还用于响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给机载飞控系统进行执行。

进一步，还包括数据库，数据库用于预存授权ID声纹和授权关键词；

声纹鉴权模块用于从预处理后的电台语音数据中提取说话人声纹特征和起始关键词，并用于将提取的声纹特征和起始关键词分别与授权ID声纹和授权关键词进行匹配判断：

若起始关键词与授权关键词完全匹配，且声纹特征与授权ID声纹匹配度小于预设值，判断电台语音数据不是来源于具有指挥权限的说话人；

指令控制模块，还用于在声纹鉴权识别判断电台语音数据不是来源于具有指挥权限的说话人时，放弃电台语音数据。

进一步，数据库还用于预存操作人员声纹特征和操作关键词列表；

指令控制模块还用于接收操作人员根据电子音做出的确认语音信息，并对确认语音信息进行声纹鉴权识别和确认关键词提取，获得操作人员声纹特征和确认关键词；并将操作人员声纹特征与数据库预存的操作人员声纹特征进行匹配，并将提取的确认关键词与数据库预存的操作关键词列表进行匹配：

进一步，语音处理模块，包括：

输入转换单元，用于将电台语音数据转换为语谱图；

语音增强单元，用于使用预先训练的UNET神经网络对语谱图进行重构，得到Mel频率和幂律的增强幅度谱图；

预处理单元，用于对增强幅度谱图进行预加重、分针、加窗、ISTFT处理，生成增强后的时域语音信号。

进一步，还包括唤醒模块，唤醒模块用于在识别到操作人员发出的语音指示中包含预设唤醒词时，开启适配器模块的语音通路，以唤醒机载电台语音识别控制系统；机载电台语音识别控制系统在平时处于待机状态。唤醒模块与适配器模块连接，唤醒模块包括：

唤醒接收单元，用于接收操作人员发出的语音指示信息；

唤醒识别单元，用于对唤醒接收单元接收的语音指示信息进行语音识别，转换为文字指示；

唤醒判断单元，用于判断转换的文字指示中是否包含预设唤醒词；

唤醒控制单元，用于在唤醒判断单元判断换的文字指示中包含预设唤醒词时，开启适配器模块的语音通路，以唤醒机载电台语音识别控制系统。

本发明的有益效果：

1、通过机载电台进行接收远程电台，如地面站或其他机载电台的电台语音指令，并通过抽取、预处理增强去噪、声纹鉴权和语音识别，确认是否为授权信号且获得语音文字内容，并通过反向语音合成，获得纯净的电子音以反馈给机载电台并传输到驾驶室操作人员耳机，操作人员仅需通过电子音确认识别信息的完整性并决定最终是否执行本指令，并通过语音确认，即可将由语音文字内容转换的机器语言指令传输给机载飞控系统进行执行，整个过程简洁有效，将指令呈现方式简洁化，通过进行上述处理过程，方便操作人员可以获取清晰的电子音内容以方便做出决断；而向操作人员推送电子音之前，系统已经自动进行了声纹鉴权的权限判断，确保对无效信息的过滤和作战指令传达的有效性。

2、声纹鉴权和语音识别同时并行进行，在声纹鉴权结果不是来源于具有指挥权限的说话人，系统自动放弃该电台语音数据，避免进行后续的反向语音合成和机器语言指令转换，也避免了操作人员来自行判断，简化指令过程；声纹鉴权处理中，同时需要匹配声纹特征和起始关键词，通过双重匹配和关联性，确保声纹鉴权对说话人是否指挥权限判断的可靠性和不遗漏性；

3、增强去噪预处理，通过将电台语音数据转换为语谱图，利用预先训练的UNET神经网络进行重构，并进行预加重、分针、加窗、ISTFT处理，获得增强的时域语音数据，最终将得到一段没有噪音的新语音数据；采用此方案只需在训练端加入相应噪音，可以无视其背景噪音的dB值；

4、系统具有唤醒功能，能够在需要时响应于驾驶室操作人员的确认语音信息进行唤醒启动适配器模块以及整个系统，使得系统能够在不需要工作时保持休眠或待机，有效、合理的降低能耗；同时对于唤醒的确认，需要通过驾驶室操作人员的声纹及关键词进行匹配后才启动，具备一定的防御功能，无权限的其他操作人员将无法唤醒；

5、通过日志模块可以进行操作日志的生成和保存，并通过下载模块提供接口以在需要的时候可以下载操作日志。

附图说明

本文描述的附图只是为了说明所选实施例，而不是所有可能的实施方案，更不是意图限制本发明的范围。

图1示出了本申请实施例的机载电台语音识别控制系统结构框图。

图2示出了本申请实施例的唤醒模块结构框图。

图3示出了本申请实施例的语音处理模块结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图对本发明的实施方式进行详细说明，但本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本申请实施例提供的一种机载电台语音识别控制系统，设置于飞机内部，如图1所示，包括适配器模块、语音处理模块、声纹鉴权模块、语音识别模块、指令控制模块、数据库、唤醒模块等。

具体的，适配器模块与飞机的机载电台连接，语音处理模块与适配器模块连接，声纹鉴权模块和语音识别模块分别与语音处理模块连接，作为两个并行处理模块，指令控制模块连接声纹鉴权模块和语音识别模块，指令控制模块连接飞机的机载飞控系统，语音合成模块连接指令控制模块和适配器模块，数据库连接声纹鉴权模块和指令控制模块，唤醒模块连接适配器模块。

飞机的机载电台从远程电台接收远程电台发送的远程电台语音，然后本实例的机载电台语音识别控制系统进行机载电台语音识别控制流程：

适配器模块从机载电台接收的远程电台语音中抽取电台语音数据，并传输给语音处理模块；

语音处理模块对电台语音数据进行增强去噪预处理；

然后，声纹鉴权模块对预处理后的电台语音数据进行声纹鉴权识别以判断电台语音数据是否来源于具有指挥权限的说话人；同时，语音识别模块对电台语音数据进行语音内容识别以获得语音文字内容；

在声纹鉴权识别判断电台语音数据来源于具有指挥权限的说话人时，指令控制模块向语音合成模块输送语音文字内容，并将语音文字内容转换为机器语言指令进行暂存；在声纹鉴权识别判断电台语音数据来源于具有指挥权限的说话人时，指令控制模块放弃当前电台语音数据；

语音合成模块将指令控制模块输送的语音文字内容合成为电子音，并向适配器模块输送；

适配器模块接收语音合成模块输送的电子音，并将合成的电子音输出到机载电台以反馈给操作人员；

驾驶室操控人员通过电子音确认识别信息的完整性并决定最终是否执行本指令，在操控人员做出的确认信号时，指令控制模块响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给机载飞控系统进行执行。

具体的，数据库预存有授权ID声纹和授权关键词，以供声纹鉴权模块模块进行比对，授权ID声纹和授权关键词分别有多个，每个授权ID声纹对应若干个授权关键词，部分授权关键词可能被多个授权ID声纹分别均对应。

具体的，声纹鉴权模块从预处理后的电台语音数据中提取说话人声纹特征和起始关键词，并将提取的声纹特征和起始关键词分别与授权ID声纹和授权关键词进行匹配判断：

若起始关键词与所有的授权关键词均不匹配，判断电台语音数据不是来源于具有指挥权限的说话人；

若起始关键词与其中一个授权关键词匹配，且声纹特征与该授权关键词对应的至少一个授权ID声纹匹配度大于等于预设值，判断电台语音数据来源于具有指挥权限的说话人；

若起始关键词与其中一个授权关键词匹配，且声纹特征与该授权关键词对应的所有授权ID声纹匹配度均小于预设值，判断电台语音数据不是来源于具有指挥权限的说话人。

具体的，数据库中预存有驾驶人员声纹特征和操作关键词列表。指令控制模块响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给机载飞控系统进行执行，包括如下步骤：

指令控制模块接收操作人员根据电子音做出的确认语音信息；

指令控制模块对确认语音信息进行声纹鉴权识别和确认关键词提取，获得操作人员声纹特征和确认关键词；

指令控制模块将操作人员声纹特征与数据库预存的驾驶室人员声纹特征进行匹配，并将提取的确认关键词与数据库预存的操作关键词列表进行匹配：

若操作人员声纹特征与数据库预存的驾驶室人员声纹特征匹配，比如按照70%~80%的匹配度设置阈值，大于此阈值属于匹配；且提取的确认关键词存在于数据库预存的操作关键词列表中，则将机器语言指令传输给机载飞控系统进行执行；

若操作人员声纹特征与数据库预存的驾驶人员声纹特征匹配，但提取的确认关键词不存在于数据库预存的操作关键词列表中，则禁止将机器语言指令向机载飞控系统传输；

若操作人员声纹特征与数据库预存的驾驶人员声纹特征不匹配，比如匹配度小于阈值，则禁止将机器语言指令向机载飞控系统传输。

具体的，语音处理模块的结构如图3所示，语音处理模块对电台语音数据进行增强去噪预处理，包括如下步骤：

通过输入转换单元将电台语音数据转换为语谱图；

然后通过语音增强单元使用预先训练的UNET神经网络对语谱图进行重构，得到Mel频率和幂律的增强幅度谱图；

然后通过预处理单元对增强幅度谱图进行预加重、分针、加窗、ISTFT处理，生成增强后的时域语音信号。

其中，UNET神经网络通过如下方式进行训练：

准备两组数据，一组原始语音数据，一组带噪音的语音数据。通过把两组语音数据分别转换为语谱图后，让两组语谱图分别进入UNET神经网络，其中原始数据作为有监督判据，带噪数据进行图像分割训练，UNET神经网络根据数据特征持续分割带噪图像数据为新的干净数据与纯噪音数据，再与监督判据进行比较，最终通过大量的数据训练、网络与超参调试，完成UNET神经网络训练。

电台语音存在着断音与超高的通信噪音，对语音识别影响非常大。如正常语音识别率为90%，在电台环境下基本上会下降到40%左右，语音处理模块通过语音增强手段，完成高噪音消除后再进行语音识别：

在背景噪音信噪比10dB、5dB以及0dB的情况下，信噪比增益≥6dB；在背景噪音信噪比-5dB以及-10dB的情况下，信噪比增益≥3dB；可以有效的提高识别准确率。

具体的，唤醒模块与适配器模块连接，数据库预存有唤醒词列表，唤醒词列表中包括若干预设唤醒词。机载电台语音识别控制系统在平时处于待机状态，当唤醒模块在识别到操作人员发出的语音指示中包含预设唤醒词时，开启适配器模块的语音通路，以唤醒机载电台语音识别控制系统。通过此种方式，可以实现对机载电台语音识别控制系统的能耗降低。

如图2所示，唤醒模块包括依次连接的唤醒接收单元、唤醒识别单元、唤醒判断单元、唤醒控制单元，唤醒控制单元与适配器模块连接。唤醒模块的实施流程如下：

唤醒接收单元接收操作人员发出的语音指示信息；

唤醒识别单元对唤醒接收单元接收的语音指示信息进行语音识别，转换为文字指示；

唤醒判断单元判断转换的文字指示中是否包含预设唤醒词；

唤醒控制单元在唤醒判断单元判断换的文字指示中包含有唤醒词列表中的至少一个预设唤醒词时，开启适配器模块的语音通路，以唤醒机载电台语音识别控制系统。

具体的，如图1所示，本实例的机载电台语音识别控制系统还包括显示模块，显示模块连接指令控制模块，指令控制模块在声纹鉴权识别判断电台语音数据来源于具有指挥权限的说话人时，将语音文字内容发送于显示模块进行显示，以便于呈现给驾驶室操作人员。

具体的，如图1所示，本实例的机载电台语音识别控制系统还包括日志模块，与系统内各模块分别连接，用于记录各模块的操作日志，并进行存储。日志模块连接有下载模块，用于提供下载端口/接口，以便于从日志模块中下载操作日志。

以上仅为本发明的优选实施例，并不表示是唯一的或是限制本发明。本领域技术人员应理解，在不脱离本发明的范围情况下，对本发明进行的各种改变或同等替换，均属于本发明保护的范围。

Claims

1.一种机载电台语音识别控制方法，其特征在于，包括步骤：

从机载电台接收的远程电台语音中抽取电台语音数据；

对电台语音数据进行增强去噪预处理；

将电子音输出到机载电台以反馈给驾驶室操控人员；

响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给驾舱飞控系统进行执行。

2.根据权利要求1所述的机载电台语音识别控制方法，其特征在于，其特征在于，对预处理后的电台语音数据进行声纹鉴权识别以判断电台语音数据是否来源于具有指挥权限的说话人，包括步骤：

3.根据权利要求1所述的机载电台语音识别控制方法，其特征在于，其特征在于，对电台语音数据进行增强去噪预处理，包括步骤：

将电台语音数据转换为语谱图；

4.根据权利要求1所述的机载电台语音识别控制方法，其特征在于，其特征在于，响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给驾舱飞控系统进行执行，包括步骤：

接收操作人员根据电子音做出的确认语音信息；

将操作人员声纹特征与数据库预存的驾舱人员声纹特征进行匹配，并将提取的确认关键词与数据库预存的操作关键词列表进行匹配：

若均匹配成功，则将机器语言指令传输给驾舱飞控系统进行执行；

若其中一项匹配不成功，则禁止将机器语言指令向驾舱飞控系统传输。

5.一种机载电台语音识别控制系统，其特征在于，包括：

指令控制模块，还用于响应于操作人员根据电子音做出的确认信号，将机器语言指令传输给驾舱飞控系统进行执行。

6.根据权利要求5所述的机载电台语音识别控制系统，其特征在于，还包括数据库，数据库用于预存授权ID声纹和授权关键词；

若起始关键词与授权关键词匹配，且声纹特征与授权ID声纹匹配度大于等于预设值，判断电台语音数据来源于具有指挥权限的说话人；

若起始关键词与授权关键词匹配，且声纹特征与授权ID声纹匹配度小于预设值，判断电台语音数据不是来源于具有指挥权限的说话人；

7.根据权利要求6所述的机载电台语音识别控制系统，其特征在于：

数据库还用于预存驾舱人员声纹特征和操作关键词列表；

指令控制模块还用于接收操作人员根据电子音做出的确认语音信息，并对确认语音信息进行声纹鉴权识别和确认关键词提取，获得操作人员声纹特征和确认关键词；并将操作人员声纹特征与数据库预存的驾舱人员声纹特征进行匹配，并将提取的确认关键词与数据库预存的操作关键词列表进行匹配：

8.根据权利要求5所述的机载电台语音识别控制系统，其特征在于，语音处理模块，包括：

输入转换单元，用于将电台语音数据转换为语谱图；

9.根据权利要求5所述的机载电台语音识别控制系统，其特征在于，还包括唤醒模块，唤醒模块用于在识别到操作人员发出的语音指示中包含预设唤醒词时，开启适配器模块的语音通路，以唤醒机载电台语音识别控制系统；机载电台语音识别控制系统在平时处于待机状态。

10.根据权利要求9所述的机载电台语音识别控制系统，其特征在于，唤醒模块与适配器模块连接，唤醒模块包括：

唤醒接收单元，用于接收操作人员发出的语音指示信息；