CN114220432A

CN114220432A - 基于海事单边带语音自动监听方法、系统及存储介质

Info

Publication number: CN114220432A
Application number: CN202111349726.2A
Authority: CN
Inventors: 王桂格; 王琪
Original assignee: Guangzhou Communication Center Nanhai Navigation Support Center Ministry Of Transport
Current assignee: Guangzhou Communication Center Nanhai Navigation Support Center Ministry Of Transport
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-22

Abstract

本发明公开了一种基于海事单边带语音自动监听方法、系统及存储介质，包括：获取海事单边带音频文件；将所述海事单边带音频文件输入到预设语音识别模型得到文本文件；所述预设语音识别模型包括声学单元和端到端的语音识别单元；对所述文本文件进行分词处理得到若干个词语，并根据所述词语的危险等级做出对应的响应措施。本发明实施例能够自动监听海事单边带音频文件并根据监听的结果做出响应措施，可广泛应用于语音识别技术领域。

Description

基于海事单边带语音自动监听方法、系统及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于海事单边带语音自动监听方法、系统及存储介质。

背景技术

单边带通信广泛应用于军事、海洋、气象等领域，如飞机、坦克、各类船舶都配备单边带电台。单边带通信具有以下优点：一、距离远(传播距离可到1万公里以上)且不需要中继站；二、依靠天波传输，通信链路不易受到毁损，具备加密功能，在异常天气和战争等特殊时期非常重要的通信手段；三、单边带通信节约频带及节省功率；四、单边带发射机不发送载频，提高了保密性；因此，海事单边带语音通信是目前海上遇险紧急通信和常规语音通信非常重要的通信手段。

在目前的实际应用中，主要依靠工作人员长时间集中精力监听和分辨广播中的音频，从中识别各种求助信息语音并作出应答。当工作人员处于疲惫或精神不集中时，则很容易疏忽或漏掉某些关键的海上求助语音信息。

发明内容

有鉴于此，本发明实施例的目的是提供一种基于海事单边带语音自动监听方法、系统及存储介质，能够自动监听海事单边带音频文件并根据监听的结果做出响应措施。

第一方面，本发明实施例提供了一种基于海事单边带语音自动监听方法，包括以下步骤：

获取海事单边带音频文件；

将所述海事单边带音频文件输入到预设语音识别模型得到文本文件；所述预设语音识别模型包括声学单元和端到端的语音识别单元；

对所述文本文件进行分词处理得到若干个词语，并根据所述词语的危险等级做出对应的响应措施。

可选地，所述预设语音识别模型通过以下方法训练得到：

获取海事单边带音频样本文件，并对所述样本文件进行预处理和标注以获得标记文件；

提取所述标记文件的音频特征；

将所述标记文件的标注文本及所述标记文件的音频特征划分为训练集、交叉验证集和测试集；

采用所述训练集及所述交叉验证集对所述预设语音识别模型进行训练，并采用测试集对所述设语音识别模型进行验证。

可选地，所述获取海事单边带音频样本文件，具体包括：

获取海事单边带音频第一样本文件；所述第一样本文件包括待寻找目标音频文件；

获取海事单边带音频第二样本文件；所述第二样本文件包括噪声文件。

可选地，所述对所述样本文件进行预处理和标注以获得标记文件，具体包括：

对所述样本文件进行语音活动检测并静音切割以提取预设长度的有效音频文件；

将所述有效音频文件按照字向量及位置信息进行标注以获得标记文件。

可选地，所述方法还包括：

对所述海事单边带音频样本文件进行数据增强以扩充数据。

可选地，所述根据所述词语的危险等级做出对应的预警响应措施，具体包括：

当所述词语的危险等级为遇险紧急通信，发出报警信息并开启自动录音；

当所述词语的危险等级为常规语音通信，判断是否需要接通程控电话并开启自动录音。

第二方面，本发明实施例提供了一种基于海事单边带语音自动监听系统，包括：

第一模块，用于获取海事单边带音频文件；

第二模块，用于将所述海事单边带音频文件输入到预设语音识别模型得到文本文件；所述预设语音识别模型包括声学单元和端到端的语音识别单元；

第三模块，用于对所述文本文件进行分词处理得到若干个词语，并根据所述词语的危险等级做出对应的预警响应措施。

第三方面，本发明实施例提供了一种基于海事单边带语音自动监听系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述的方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行上述的方法。

第五方面，本发明实施例提供了一种基于海事单边带语音自动监听系统，包括计算机设备，以及与所述计算机设备连接的单边带语音接收设备、报警装置和程控电话通信装置；其中，

所述单边带语音接收设备，用于接收海事单边带音频文件；

所述报警装置，用于根据所述计算机设备的指令产生报警信号；

所述程控电话通信装置，用于连接公共网络并根据所述计算机设备的指令拨打程控电话；

所述计算机设备包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

实施本发明实施例包括以下有益效果：本发明实施例首先将获取的海事单边带音频文件输入到预设语音识别模型得到文本文件，然后对文本文件进行分词处理得到若干个词语并根据词语的危险等级做出对应的响应措施，其中，预设语音识别模型包括声学单元和端到端的语音识别单元，能够自动监听海事单边带音频文件并根据监听的结果做出响应措施，减少人工成本，准确率高，适用范围广。

附图说明

图1是本发明实施例提供的一种基于海事单边带语音自动监听方法的步骤流程示意图；

图2是本发明实施例提供的一种端到端的语音识别单元的结构示意图；

图3是本发明实施例提供的一种基于海事单边带语音自动监听系统的结构框图；

图4是本发明实施例提供的第二种基于海事单边带语音自动监听系统的结构框图；

图5是本发明实施例提供的第三种基于海事单边带语音自动监听系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明实施例提供了一种基于海事单边带语音自动监听方法，其包括的步骤如下所示。

S100、获取海事单边带音频文件。

需要说明的是，海事单边带通信机发出的音频文件通过海事单边带接收装置接收。

S200、将所述海事单边带音频文件输入到预设语音识别模型得到文本文件；所述预设语音识别模型包括声学单元和端到端的语音识别单元。

需要说明的是，传统的语音识别技术包含声学模型、发音模型、语言模型及二次重打分模型等，每个模型都得分开训练，过程非常繁琐复杂且耗时。本发明实施中，语音识别单元采用了自注意力机制(self-attention)的Transformer模型端到端语音识别技术。基于Transformer模型端到端语音识别技术具有以下优点：第一、通过上下文来理解当前词的创新方法，语义特征的提取能力更强，对于句子中的同音字或词，能根据其周围的词和前后的句子来判断究竟应该是哪个，从而得到更准确的结果；第二、解决了传统的语音识别方案中各部分任务独立，无法联合优化的问题，单一神经网络的框架变得更简单，直接实现语音的输入与解码识别，从而不需要繁杂的对齐工作与发音词典制作工作，可以节省大量的前期准备工作；第三、当更换识别语言体系时可以利用相同的框架结构直接训练，例如同样的网络结构可以训练包含26个字符的英文模型，也可以训练包含几千个常用汉字的中文模型，或者将中英文的词典直接合在一起，训练一个混合模型；第四、能更好利用GPU运算，预测速度更快，如对于一个10秒左右的音频文件，在一块GPU的服务器上仅需0.1秒左右的时间便可得到预测结果。

具体地，参阅图2，采用Transformer模型和利用自注意力self-attention机制来构建语音识别单元，在计算语音信号的同时，采用位置编码技术作为语音信号的补充。本实施例中，采用6层Transformer模型作为编码器(Encoder)以及12层Transformer模型作为解码器(Decoder)来构建所述构建语音识别单元的识别引擎。编码器负责把输入(音频序列)映射成为隐藏层，然后解码器再把隐藏层映射为自然语言序列，并学习如何得到每一个文字的最大概率。

其中，位置编码是将词序信息和词向量结合起来一种的表示方式。Transformer模型需把位置编码信息输入给编码器和解码器，这样模型就具备了学习词序信息的能力。计算位置编码的公式如下：

其中，PE表示位置编码，pos表示单词的位置索引；设句子长度为L，那么pos＝0，1，2，…，L-1，i是向量的某一维度，假设词向量维度d_model＝512，那么i＝0，1，…，255。

需要说明的是，在处理音频序列数据时，各个音频序列常常具有不同长度；深度学习模型的输入数据必须为单一张量，短于最长条目的样本需要用占位符值进行填充。如果所有样本都具有了统一长度，须告知模型，数据的某些部分实际上是填充应该忽略，这种机制称作遮盖。前瞻遮挡，用于遮挡一个序列中的后续标记，前瞻遮挡表明了不应该使用的条目；比如要预测第三个词，将仅使用第一个和第二个词，与此类似，预测第四个词，仅使用第一个，第二个和第三个词，依此类推。在本实施例中，通过在keras引入遮挡层来解决这个问题，比如：添加一个keras layers Masking层。

需要说明的是，端到端模型有一个缺点是如果句子太长，编码器会遗忘，那么解码器接受到的句子特征也就不完全。为此，Transformer模型引入自注意力机制(self-attention)机制，让源序列和目标序列首先“自关联”起来，解码器每次更新状态的时候都会再看一遍编码器所有状态，还会告诉解码器要更关注的部分。

编码器和解码器均包括多头注意力层(MultiHeadAttention)以及全连接层(FeedFrowardNetwork)。多头注意力层主要由多个注意力网络构成，有助于网络捕捉到更丰富的特征信息。比如有i层等网络，多头注意力层计算公式如下：

MultiHead(Q，K，V)＝concat(Att1，Att2，Att3，...，Attn)

其中，MultiHead表示多头注意力，Atti表示单个注意力，Atti＝Attentioni(Qi，Ki，Vi)，concat表示将Atti注意力机制得到的结果向量进行拼接，下标i表示第i层，Q表示请求，K表示主键，V表示数值。假设Q和K的均值为0，方差为1，它们的矩阵乘积将有均值为0，方差为d_k；因此，d_k的平方根被用于缩放(而非其他数值)，Q和K的矩阵乘积的均值本应该为0，方差本应该为1，这样会获得一个更平缓的softmax值。

需要说明的是，Transformer模型的解码器最终的输出是一个向量，其中每个元素是浮点数。全连接层则可以把解码器输出的向量映射到一个更长的向量，这个向量称为logits向量。Softmax层会把这些分数转换为概率，最后选择最高概率的那个数字对应的词，作为这个时间步的输出文字。

可选地，所述预设语音识别模型通过以下方法训练得到：

S210、获取海事单边带音频样本文件，并对所述样本文件进行预处理和标注以获得标记文件；

需要说明的是，海事单边带音频样本文件包括正面素材和负面素材，对样本文件进行预处理以符合预设语音识别模型的输入要求，标记文件文件包括海事单边带音频文件及其对应的标注文本。

可选地，所述获取海事单边带音频样本文件，具体包括：

S211、获取海事单边带音频第一样本文件；所述第一样本文件包括待寻找目标音频文件；

S212、获取海事单边带音频第二样本文件；所述第二样本文件包括噪声文件。

具体地，海事单边带音频样本文件根据采集的海事单边带通讯机在日常工作中的实际音频确定。如将“救命”“船只起火”“船只破损”“有人落水”“救命”“紧急呼叫”“我们遇到危险”“有伤亡”“SOS”“Mayday”“XXX”“PANPAN”等声音作为正面素材，正面素材即为待寻找目标音频文件；另外，第一样本文件包括各种常见的语言版本音频，比如普通话版、英文版、粤语版、闽南语版等，男声和女声等。将啸叫声、背景杂音、海浪声、机器声等作为负面素材，负面素材即为噪声文件。

需要说明的是，将第一样本文件和第二样本文件制作生成wav文件。

S213、对所述样本文件进行语音活动检测并静音切割以提取预设长度的有效音频文件。

获取的海事单边带音频样本文件，由于语音信号的差异性巨大，音量有大有小，首先进行VAD(Voice Activity Detection，语音活动检测)及静音切割技术进行切割，将音频信号中的有效部分抽取出来，并重新输出标准wav文件。根据海事单边带通讯语音交流的特点，10秒的说话长度被认为是合适的，因此在切割音频文件时，使切割长度切割后长度不超过10秒。

S214、将所述有效音频文件按照字向量及位置信息进行标注以获得标记文件。

有效音频文件通过人工方式进行语音信号的标注工作以生成标记文件，将标注完成的数据进行归集工作，整理为一个文本文件，并分别记录标注音频文件以及标注文本。

具体地，通过获取相关的字向量、文本向量或位置信息等,提供每个字的位置信息给transformer才能识别出语言中的顺序关系。字典表类似以下表示：{1：我，2：们，3：在，...}，每个字无论中英文都有一个唯一的数字与其对应。本实施例中，海事单边带通讯中常用的通信词语并不多(大概有几百个)，因此，中文采用单个汉字作为建模单元，英文则使用单个字母建模。

可选地，所述方法还包括：

S214、对所述海事单边带音频样本文件进行数据增强以扩充数据。

具体地，本实施例采用了三种数据增强的方法：音频加噪、速度扰动以及SpecAugment方法(Google AI Resident团队提出的一种应用于语音识别的数据增强方法)。音频加噪主要通过在原始音频中添加加性噪声来实现，采取音频加噪的方式扩充训练数据集来提高模型的抗噪声干扰能力。速度扰动通过在原始音频中对音频进行加速或减速来达到数据增广的目的。在本实施例中采用了0.9、1.0和1.1的速度扰动因子对数据进行增广，最终得到的数据量是原来的三倍。

S220、提取所述标记文件的音频特征；

具体地，提取标记文件的音频特征指提取语音数据的时域特征，通过预加重、分帧、加窗、傅里叶变换(FFT)、mel滤波、去均值等操作获得FBank特征。FBank特征更能符合声音信号的本质，拟合人耳的接收特性，在模型对高相关的信号不敏感时(如神经网络)，比MFCC特征更有优势。

S230、将所述标记文件的标注文本及所述标记文件的音频特征划分为训练集、交叉验证集和测试集。

需要说明的是，标记文件的标注文本与音频特征是对应的。

S240、采用所述训练集及所述交叉验证集对所述预设语音识别模型进行训练，并采用测试集对所述设语音识别模型进行验证。

具体地，Transformer使用Adam优化器与自定义的学习速率调度程序(scheduler)配合使用，学习速率的计算公式如下：

公式中，warmup_step表示迭代次数，step_num表示学习步长。在本实施例中，warmup_step设置为40000次迭代训练后，单边带广播输入的音频信号能基本被识别成对应的文字。

S300、对所述文本文件进行分词处理得到若干个词语，并根据所述词语的危险等级做出对应的响应措施。

具体地，本实施例采用golang的GoJieba中文分词工具，并采用精确分词模式，将文字信息精确切开，并获得相关的词语。

S310、当所述词语的危险等级为遇险紧急通信，发出报警信息并开启自动录音；

S320、当所述词语的危险等级为常规语音通信，判断是否需要接通程控电话并开启自动录音。

需要说明的是，报警信息包括声光报警，当发生报警信息后，工作人员也可以进行人工紧急处理。

具体地，如“救命”“危险”等属于遇险紧急通信，发出声光报警，工作人员进行紧急处理；如“天气”等属于常规语音通信，连接气象台等程控电话；另外，接收的海事单边带音频文件需要录音。

如图3所示，本发明实施例提供了一种基于海事单边带语音自动监听系统，包括：

第一模块，用于获取海事单边带音频文件；

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

如图4所示，本发明实施例提供了一种基于海事单边带语音自动监听系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

此外，本申请实施例还公开了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述所示的方法。同样地，上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

如图5所示，本发明实施例提供了一种基于海事单边带语音自动监听系统，包括计算机设备，以及与所述计算机设备连接的单边带语音接收设备、报警装置和程控电话通信装置；其中，

所述单边带语音接收设备，用于接收海事单边带音频文件并将所述海事单边带音频文件发送给所述计算机设备；

所述计算机设备包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

具体地，对于所述单边带语音接收设备可以通过单边带通信机实现；对于所述报警装置，其主要通过LED灯和/或声音报警器或来实现；而对于所述计算机设备，其可为不同类型的电子设备，包含但不限于有台式电脑、手提电脑等终端。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于海事单边带语音自动监听方法，其特征在于，包括：

获取海事单边带音频文件；

2.根据权利要求1所述的方法，其特征在于，所述预设语音识别模型通过以下方法训练得到：

提取所述标记文件的音频特征；

3.根据权利要求2所述的方法，其特征在于，所述获取海事单边带音频样本文件，所述样本文件包括第一样本文件和第二样本文件，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述样本文件进行预处理和标注以获得标记文件，具体包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，所述方法还包括：

对所述样本文件进行数据增强以扩充数据。

6.根据权利要求1-4所述的方法，其特征在于，所述根据所述词语的危险等级做出对应的预警响应措施，具体包括：

7.一种基于海事单边带语音自动监听系统，其特征在于，包括：

第一模块，用于获取海事单边带音频文件；

8.一种基于海事单边带语音自动监听系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6任一项所述的方法。

9.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6任一项所述的方法。

10.一种基于海事单边带语音自动监听系统，其特征在于，包括计算机设备，以及与所述计算机设备连接的单边带语音接收设备、报警装置和程控电话通信装置；其中，

所述单边带语音接收设备，用于接收海事单边带音频文件；

所述计算机设备包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；