CN116110405B

CN116110405B - 一种基于半监督学习的陆空通话说话人识别方法及设备

Info

Publication number: CN116110405B
Application number: CN202310379089.6A
Authority: CN
Inventors: 石含; 林毅; 郭东岳; 吴志红; 杨波
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-21
Anticipated expiration: 2043-04-11
Also published as: CN116110405A

Abstract

本发明涉及民用航空空中交通管理语音通信领域，特别是一种基于半监督学习的陆空通话说话人识别方法及设备。本发明提出了一种空管语音关键信息自动提取框架，对真实环境中的空管数据进行标注，以构建大规模空管说话人识别语音数据集；基于所述空管说话人识别语音数据集，本发明构建了一种使用联合损失函数训练的说话人识别模型，该模型包含身份注意力模块和对抗解耦模块，并基于半监督学习范式，通过迭代优化的方式逐步提高数据标注质量与模型性能，其识别准确率相比基准模型有显著提高。解决了空管多人、多轮无线电通话环境条件下，如何快速准确区分说话人身份的问题，为管制员和飞行员快速识别地空通话中各方身份提供辅助参考。

Description

一种基于半监督学习的陆空通话说话人识别方法及设备

技术领域

本发明涉及民用航空空中交通管理语音通信领域，特别是一种基于半监督学习的陆空通话说话人识别方法及设备。

背景技术

随着我国民航领域的飞速发展，航空运输量随之增加，对空管的要求也越来越高。在空管领域，管制员需要在同一个无线电频率上同时与多名飞行员通信，因此常面临如何从多人、多轮对话中快速识别说话人身份的问题。

目前在通用领域有很多优秀的说话人识别模型，但将它们迁移到空管环境下使用时，其准确率会大幅降低。为了得到高精度的陆空通话说话人识别模型，在模型训练阶段需要使用大量的空管领域的真实语音数据。已有的面向空管语音的数据集（如ATCOSIM、HIWIRE、MALORCA、UWB ATCC等）都没有标注说话人身份，且它们包含的数据量较小，甚至有部分数据集不开源，导致使用此类数据集难以训练出符合国内使用场景的陆空通话说话人识别模型。由于空管多人、多轮无线电通话的特性，研究者无法直接得到说话人的身份信息，且通过传统人工标注构建空管语音数据集需要耗费大量的人力成本，故想要构建大型的空管语音数据集面临的挑战很大。

为此，本发明提出了一种基于半监督学习的陆空通话说话人识别方法及设备，有助于缩短管制员指挥时延，提高管制员与飞行员之间的沟通效率，同时避免出现指挥延误等情况，进而提高管制效率和空管安全水平。

发明内容

本发明的目的在于克服现有技术中所存在的如何从多人、多轮对话中快速识别说话人身份的问题，提供一种基于半监督学习的陆空通话说话人识别方法及设备。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于半监督学习的陆空通话说话人识别方法，包括以下步骤：

a：实时接收陆空通话的语音信号，并对所述语音信号进行降噪处理；

b：持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片段；

c：将所述单句语音片段输入到预构建的说话人识别模型中进行识别，在说话人注册语音特征库中匹配对应的说话人信息，并输出识别匹配结果；所述说话人注册语音特征库根据已知身份的说话人语料构建；

其中，基于半监督学习的所述说话人识别模型包括以下训练步骤：

S1：采集陆空通话的语音信号，对所述语音信号进行预处理后，输出若干包含人声的单句语音片段；所述预处理包括：记录所述语音信号的来源、降噪、去混响以及提取包含人声的单句语音片段；

S2：搭建空管语音关键信息提取框架，所述空管语音关键信息提取框架包括语音识别模型和空管关键信息提取模型；

S3：通过所述语音识别模型将所述单句语音片段转录为文本信息；

S4：利用所述空管关键信息提取模型提取所述文本信息中的航班号和说话人角色信息；

S5：根据所述单句语音片段及其对应的所述航班号和所述说话人角色信息构建面向半监督学习的空管说话人识别的语音数据集；

S6：构建说话人识别初始模型；所述说话人识别初始模型包括SincNet特征提取网络、说话人身份注意力模块以及基于互信息的对抗解耦模块；

所述SincNet特征提取网络用于提取所述单句语音片段的语音特征；所述说话人身份注意力模块用于提取所述语音特征中的说话人身份相关特征；所述基于互信息的对抗解耦模块用于将说话人身份相关特征与语音信道相关特征解耦，得到说话人特征嵌入；

S7：根据所述语音数据集生成若干三元组组合，并通过所述三元组组合将所述说话人识别初始模型训练至模型收敛，得到说话人识别初步模型；

所述三元组组合由正例组合以及反例组成，所述正例组合为所述语音数据集中随机选取的一段单句语音片段根据正例选取策略切分而成，所述反例为根据反例选取策略从所述语音数据集中选取的与所述正例组合相对应的一段单句语音片段；

S8：使用所述说话人识别初步模型分别对同一天内同一航班号对应的飞行员语音和同一科室所对应的管制员语音进行聚类，给同属一个类簇的语音数据赋予相同的ID标签，使用所述ID标签及其对应的语料对说话人识别初步模型继续进行训练至模型收敛，输出说话人识别进阶模型；

S9：使用说话人识别进阶模型分别对同一天内同一航班号对应的飞行员语音和同一科室所对应的管制员语音重新进行聚类，更新所述语音数据集中每条语音数据对应的ID标签，使用更新后的ID标签及其对应的语料对说话人识别进阶模型继续进行训练至模型收敛；

S10：重复S9，直至说话人识别进阶模型的识别准确率无法再提高，输出为最终的说话人识别模型。

作为本发明的优选方案，所述S1中提取包含人声的单句语音片段包括以下步骤：

S11：获取所述语音信号的梅尔频率倒谱系数；

S12：通过SOM神经网络对所述梅尔频率倒谱系数进行聚类，生成若干类簇；

S13：通过LSTM神经网络对所述类簇进行特征学习，生成连续的活动语音帧序列，并输出为包含人声的单句语音片段。

作为本发明的优选方案，所述S3中所述语音识别模型采用CNN-RNN-CTC架构，包括卷积神经网络层、循环神经网络层以及全连接层，并通过时序链接主义损失函数以及人工标注的单句语音片段进行训练优化。

作为本发明的优选方案，所述S4中所述空管关键信息提取模型包括预训练模型BERT、长短期记忆网络、模态融合模块和多任务模块；

所述预训练模型BERT用于对所述文本信息进行编码，并输出所述单句语音片段对应的单词级语义槽值特征和句子级全局特征；

所述长短期记忆网络用于通过串接正向与反向的隐藏层状态向量，在文本层面构建所述单词级语义槽值特征的双向关联信息，输出所述单句语音片段对应的单词级全局特征向量；

所述模态融合模块通过注意力机制将所述单词级语义槽值特征和所述单词级全局特征进行融合后送入所述多任务模块；

所述多任务模块包括全连接层和softmax函数，用于根据所述模态融合模块的输出结果进行分类预测，输出所述单句语音片段包含的说话人角色信息和航班号。

作为本发明的优选方案，所述S6中所述说话人身份注意力模块包括通道注意力学习部分和空间注意力学习部分；具体的：

所述身份注意模块的工作原理可描述为：

Fcr=CAN(Fc)UFc，

Fcu=(1- CAN(Fc))UFc，

其中，Fc、Fcr和Fcu分别表示说话人语音特征、说话人身份相关特征和说话人身份无关特征，CAN(Fc)表示身份注意力网络，即注意力聚焦的信息范围；U表示元素层面上的乘积；

所述通道注意力学习部分的运行表达式为：

C_mix=[S-GAP(F);S-GMP(F);S-ADP(F)]，

C(F)=α(Conv^1×1(α(Conv^1×1(C_mix))))，

其中，C_mix为三个输出通道注意图通过自适应元素相加进行融合的结果，S-GAP(F)为跨空间全局平均池化，S-GMP(F)为跨空间全局最大值池化，S-ADP(F)为跨空间自适应池化，F为输入特征图；C(F)为通道注意力学习部分的输出结果，α为PReLU激活函数；Conv^1×1为卷积核为1×1的卷积操作；

所述空间注意力学习部分的运行表达式为：

S_mix=[C-GAP(F);C-GMP(F);C-ADP(F)]，

S(F)=α(Conv^1×1(Resize(α(Conv^1×1(S_mix))))，

其中，S_mix为三个输出空间注意图通过自适应元素相加进行融合的结果，C-GAP(F)为跨通道全局平均池化，C-GMP(F)为跨通道全局最大值池化，C-ADP(F)为跨通道自适应池化；S(F)为空间注意力学习部分的输出结果；

所述说话人身份注意力模块的运行表达式为：

O(F)=αSigmiod(α(Conv^1×1(C(F)US(F))))，

其中，O(F)为所述说话人身份注意力模块的输出结果。

作为本发明的优选方案，所述基于互信息的对抗解耦模块包括梯度反转层以及互信息估计器网络；所述互信息估计器网络包括卷积神经网络、MFM激活函数、展平层、全连接层和Sigmoid激活函数；所述梯度反转层用于将来自所述互信息估计器网络的梯度乘以负标量，并将其传递给前一层。

作为本发明的优选方案，所述S6中所述说话人识别初始模型采用基于三元组损失和生成对抗损失的可学习的联合损失函数L_J作为模型训练的损失函数；所述联合损失函数L_J的表达式为：

L_J=ρL_T+φL_A，

L_T=max(||f(A)-f(P)||²- ||f(A)-f(N)||²+δ,0)，

，

其中，L_T为三元组损失函数，L_A为生成对抗损失函数，ρ和φ为可学习的超参数；f(*)为特征提取网络提取语音特征操作；A为锚定样本，P为正例，N为反例，δ为可训练参数；D为所述说话人身份注意力模块代表的鉴别器，D(*)为所述鉴别器的处理操作，G为基于互信息的对抗解耦模块代表的生成器，G(*)为所述生成器的处理操作，E(*)为分布函数的期望值，P_data(x)为真实样本的分布，P_noise(z)为低维噪声的分布。

作为本发明的优选方案，所述S7中所述正例选取策略为：

（1）判断选取的单句语音片段的长度是否大于模型要求输入长度的两倍，若满足条件则进行下一步，如不满足条件则重新选取一条语音；

（2）在选中的所述单句语音片段上截取两段长度等于模型要求输入长度且不重合的语音并保存；

（3）在m的几率下给其中的一段添加噪音增强，1-m的几率下保持原样，0≤m≤100%；

所述反例选取策略为：

（1）根据选取所述单句语音片段的角色，有n的概率直接在语音数据集中选取不同的角色对应的单句语音片段，在两条单句语音片段上截取特定长度的片段作为反例对，0≤n≤100%；

（2）根据选取所述单句语音片段的角色，有1-n的概率在语音数据集中选取相同的角色对应的单句语音片段，但此情况下必须保证所选取的单句语音片段来自不同的说话人：

具体的，若对应角色为管制员，则选取其他科室的管制员对应的单句语音片段，在两条单句语音片段上截取特定长度的片段作为反例对；

若对应角色为飞行员，则选取不同航空公司的飞行员对应的单句语音片段，在两条单句语音片段上截取特定长度的片段作为反例对。

作为本发明的优选方案，所述S8以及所述S9中使用半监督学习的方法迭代优化说话人识别初步/进阶模型；具体的，通过聚类进行模型训练的具体步骤为：

①将空管说话人识别数据集中的语音分成飞行员和管制员两类，并分别按航班/科室进一步分组；

②在每组中随机选取1条语音作为锚定样本，再随机选取1条语音与锚定样本计算相似度，当相似度大于阈值η时，判定两条语音来自同一个人并分配相同的ID标签；当相似度小于阈值η时，判定两条语音不属于同一个人并在同组中再随机选取其它语音与锚定样本计算相似度，直到选取范围覆盖整个分组；

③重复②过程，直到所有的语音均至少被选中作为锚定样本1次；

④使用分配的ID标签，构建三元组组合，使用三元组组合训练说话人识别模型至收敛。

一种基于半监督学习的陆空通话说话人识别设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

与现有技术相比，本发明的有益效果：

1.本发明提出了一种空管语音关键信息自动提取框架，对真实环境中的空管数据进行标注，以构建大规模空管语音数据集；基于所述空管语音数据集，本发明构建了一种使用联合损失函数训练的说话人识别模型，该模型包含身份注意力模块和对抗解耦模块，其识别准确率相比基准模型有显著提高。解决了空管多人、多轮无线电通话环境条件下，如何快速准确区分说话人身份的问题，为管制员和飞行员快速识别地空通话中各方身份提供辅助参考。且本发明还可以与空管领域其他应用结合，用于管制员工作量统计、行业通信用语规范培训、飞行事故复盘分析等任务。

2.本发明采用伪标注的方式自动化地构建面向半监督学习的空管说话人识别语音数据集，在实现高准确率的自动数据标注的同时，节省了大量的人力成本。

3.本发明使用基于三元组损失和生成对抗损失函数的可学习的联合损失函数作为说话人识别模型的损失函数，通过合理的正例、反例选取策略，反复进行生成对抗训练，使得模型具有较高的识别准确度，最终实现较高准确度的说话人角色识别。

4.本发明结合先验知识，使用说话人识别初步模型/进阶模型分别对同一天内同一航班号对应的飞行员语音和同一科室所对应的管制员语音进行聚类，使用半监督的方法，对说话人识别模型进行反复迭代训练，提高了说话人识别模型的识别准确率和鲁棒性。

5.本发明基于半监督学习的陆空通话说话人识别方法采用模块化方式设计，各部分可以分别实现不同的子功能，可以与其他系统结合使用，完成更多不同的任务。

附图说明

图1为本发明实施例1所述的一种基于半监督学习的陆空通话说话人识别方法的流程示意图；

图2为本发明实施例1所述的一种基于半监督学习的陆空通话说话人识别方法中说话人识别模型的搭建流程示意图；

图3为本发明实施例2所述的说话人识别初步模型的训练流程图；

图4为本发明实施例2所述的说话人识别模型中所述语音端点检测模型的工作流程示意图；

图5为本发明实施例2所述的说话人识别模型中所述语音识别模型的工作流程示意图；

图6为本发明实施例2所述的说话人识别模型中所述关键信息提取模型的工作流程图；

图7为本发明实施例2所述的说话人识别模型中语音数据集的构建流程；

图8为本发明实施例2所述的说话人识别模型中所述说话人身份注意力模块构成图；

图9为本发明实施例2所述的说话人识别模型中基于互信息的对抗解耦模块构成图；

图10为本发明实施例2所述的说话人识别模型中一种三元组正例选取策略示意图；

图11为本发明实施例2所述的说话人识别模型中一种三元组反例选取策略示意图；

图12为本发明实施例2所述的说话人识别初步模型的迭代训练流程图；

图13为本发明实施例4所述的说话人识别模型中空管说话人注册及验证过程示意图；

图14为本发明实施例5所述的一种利用了实施例1-4任一所述的一种基于半监督学习的陆空通话说话人识别方法的一种基于半监督学习的陆空通话说话人识别设备的结构示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

如图1所示，一种基于半监督学习的陆空通话说话人识别方法，包括以下步骤：

a：实时接收陆空通话的语音信号，并对所述语音信号进行降噪处理。

b：持续监听并从降噪处理后的所述语音信号中提取出包含人声的单句语音片段。

c：将所述单句语音片段输入到预构建的说话人识别模型中进行识别，在说话人注册语音特征库中匹配对应的说话人信息，并输出识别匹配结果；所述说话人注册语音特征库根据已知身份的说话人语料构建。

其中，如图2所示，基于半监督学习的所述说话人识别模型包括以下训练步骤：

实施例2

本实施例与实施例1的区别在于，如图3所示，所述说话人识别初步模型的构建方法具体包括以下步骤：

S1：采集陆空通话的语音信号，对所述语音信号进行预处理后，输出若干包含人声的单句语音片段。所述预处理包括：记录所述语音信号的来源、降噪、去混响以及提取包含人声的单句语音片段。所述语音信号的来源包括通信频率、所属管制科室、管制扇区等信息。

具体的，语音信号的降噪采用小波降噪方法，包括以下步骤：

（1）语音信号的小波分解。首先确定小波分解的层次N，然后使用小波基对信号进行 N 层小波分解计算。

（2）小波分解高频系数的阈值量化。确定一个阈值对第1层到第N层的每一层高频系数进行软阈值量化处理。

（3）一维小波的重构。根据量化处理后的第1层到第N层的高频系数和小波分解的第N 层的低频系数进行语音信号的小波重构。

语音去混响采用基于线性预测的方法，包括以下步骤：

（1）分析处理语音信号中的线性预测残差信号。

（2）从混响观测中估计干净语音信号的线性预测系数。

（3）从滤波器的输出中合成混响减小的语音信号。

提取包含人声的单句语音片段通过基于SOM-LSTM神经网络的语音端点检测模型实现，所述语音端点检测模型由自组织神经网络（Self-Organizing Map，SOM）和长短时记忆神经网络（LongShort-Term Memory, LSTM）两部分组成。如图4所示，包括以下步骤：

S11：获取所述语音信号的梅尔频率倒谱系数；对采集到的语音信号进行预加重、分帧、加窗等处理步骤，并提取语音信号中的梅尔频率倒谱系数（Mel-Frequency CepstralCoefficients，MFCC）。

S12：通过SOM神经网络对所述梅尔频率倒谱系数进行聚类，生成若干类簇。所述SOM 神经网络检测语音信号在每个时间节点上的特征属性并进行聚类，输出能够判别语音状态和噪声状态的特征向量。其根据每组梅尔频率倒谱系数的数值大小对数值接近的节点进行汇总形成大小不一的类簇，并按升序排列。

S13：通过LSTM神经网络对所述类簇进行特征学习，生成连续的活动语音帧序列，并输出为包含人声的单句语音片段。所述LSTM神经网络是以SOM神经网络的输出为输入，通过对语音信号进行时序建模，学习语音在时间序列上的上下文信息的特性，输出一段连续的活动语音帧序列，将其保存为特定格式的音频文件，从而得到单句语音片段。

S2：搭建空管语音关键信息提取框架，所述空管语音关键信息提取框架包括语音识别模型和空管关键信息提取模型。

S3：通过所述语音识别模型将所述单句语音片段转录为文本信息，其具体步骤为：

（1）选取部分所述单句语音片段进行人工校对，并人工标注语音内容文本，构建语音数据集。

（2）如图5所示，使用所述语音数据集训练基于CNN-RNN-CTC架构的语音识别模型至网络收敛，模型包含卷积神经网络层、循环神经网络层、全连接层，并使用CTC（Connectionist Temporal Classification，时序链接主义）损失函数进行优化。

（3）对其它未进行人工标注的单句语音片段进行预处理，提取该段音频对应的语谱图特征，保存为帧长为25ms、步长为15ms、80维的语谱图。

（4）将语谱图输入到语音识别模型中执行推理过程，转录出语音对应的文本。

S4：利用所述空管关键信息提取模型提取所述文本信息中的航班号和说话人角色信息；所述空管关键信息提取模型包括预训练模型BERT、长短期记忆网络(Long short-term memory, LSTM)、模态融合模块和多任务模块。所述空管关键信息主要包括说话人角色信息、航班号；说话人角色包括飞行员和管制员；所述航班号由航空公司代号和几位数字或字母组成，是管制语音指令中申明所指挥航班的常用标识。如图6所示，当输入的所述文本信息为“四川8633成都叫”时，提取并输出其中的航班号为“四川8633”，以及说话人角色为“成都”。

具体的，所述空管关键信息提取模型的运行流程包括以下步骤（定义输入语句为X=(x₁,x₂,...,x_N)，N为语句长度）：

（1）将文本信息经过预训练模型BERT进行编码，输出d维单词级语义槽值特征和d维句子级全局特征的特殊向量[CLS]；

（2）通过双向LSTM网络，对所述输入文本信息X=(x₁,x₂,...,x_N)通过串接正向与反向的隐藏层状态向量，在文本层面构建双向关联信息，最终输出d维的单词级全局特征向量。

（3）通过注意力机制将所述单词级语义槽值特征和所述单词级全局特征进行融合后送入所述多任务模块。

（4）通过所述多任务模块接收融合后的特征进行分类预测，输出句子级别的分类结果（即说话人角色信息）和序列分类结果（即航班号结果）。

S5：根据所述单句语音片段及其对应的所述航班号和所述说话人角色信息构建面向半监督学习的空管说话人识别的语音数据集。

陆空通话基于无线电通信，通话各方来自不同单位不同部门，人员信息难以收集确认，所以使用传统人工采集+人工标注的方式构建一个真实的空管语音数据集极为困难，本实施例结合先验知识，使用自动化方法构建一个大规模的语音数据集，如图7所示，其构建的步骤为：

（1）通过语音信号采集模块持续获取语音信号并通过语音端点检测模型进行预处理；

（2）将连续的语音信号分割为多段仅包含人声的单句语音片段；

（3）通过语音识别模型将单句语音片段转录成文本信息并保存；

（4）通过空管关键信息提取模型提取单句语音片段对应的航班号、说话人角色等关键信息；

（5）将得到的文本信息、对应的关键信息（航班号、说话人角色）和语音信号采集时得到的先验知识整理汇总，形成空管语音标注信息，并通过所述空管语音标注信息构建空管语音的数据集。

S6：构建说话人识别初始模型；所述说话人识别初始模型包括SincNet特征提取网络、说话人身份注意力模块以及基于互信息的对抗解耦模块。

（1）所述SincNet特征提取网络用于提取所述单句语音片段的语音特征；所述说话人身份注意力模块用于提取所述语音特征中的说话人身份相关特征；所述基于互信息的对抗解耦模块用于将说话人身份相关特征与语音信道相关特征解耦，得到说话人特征嵌入。

所述SincNet特征提取网络包括一组受约束的卷积神经网络滤波器、池化层、层归一化、激活函数、降采样层以及卷积层。所述受约束的卷积神经网络滤波器是指在普通卷积神经网络滤波器的基础上，将波形与实现带通滤波器的一组参数化sinc函数进行卷积，从而迫使网络将重点放在对最终滤波器的形状和带宽有广泛影响的高级可调参数上。

具体的，所述SincNet特征提取网络的第一层卷积经过特殊设计，包括以下内容：

第一层卷积可视为一组可训练的有限冲激响应滤波器，其形式化描述为：

，

其中，y[n]为第一层卷积的输出，x[n]是滑动窗口内的语音信号片段，h[n]是长度为L的滤波器，h[n]预定义为一个函数g，g只有少量的可学习参数θ，因此前面的卷积公式可以写成：

y[n]=xf[n]*g[n,θ]，

g定义为一个带通滤波器，其可描述为两个低通滤波器的结果的差分：

，

其中，f₁和f₂是可学习参数，代表带通滤波器的低、高截止频率。上式是g的频域表示，经过逆傅里叶变换，最终得到滤波器g的时域表示：

，

其中，sinc函数的定义为：

。

（2）如图8所示，所述说话人身份注意力模块专注于身份相关的信息，同时排除与通道相关的信息和其他变化。假设说话人语音特征、说话人身份相关特征和说话人身份无关特征分别用Fc、Fcr和Fcu表示，则身份注意模块的工作原理可描述为：

Fcr=CAN(Fc)UFc，

Fcu=(1- CAN(Fc))UFc，

其中，CAN(Fc)表示身份注意力网络，即注意力聚焦的信息范围；U表示元素层面上的乘积。

说话人身份注意力模块分为通道注意力学习部分和空间注意力学习部分，其中通道注意力学习部分采用跨空间全局最大值池化(S-GMP)、跨空间全局平均池化(S-GAP)和跨空间自适应池化(S-ADP)来聚集空间信息，空间注意力学习部分采用跨通道全局平均池(C-GAP)、跨通道全局最大值池(C-GMP)和跨通道自适应池(C-ADP)将输入特征图聚合成三个空间图。

通道注意力学习部分的目的是为输入特征图的每个通道生成关注值，以表明其对目标的重要性。为了提高效率，提出了三个自注意分支。通过沿空间维度将输入特征图压缩到通道图中，然后探索对给定任务的通道重要性，每个分支从不同的视角产生通道关注图。三个输出通道注意图通过自适应元素相加进行融合，从而增强了捕获不同信息的能力。具体地说，这三个分支机构并行工作并共享一个高级网络层，整个通道注意力学习部分的过程可以表述为：

C_mix=[S-GAP(F);S-GMP(F);S-ADP(F)]，

C(F)=α(Conv^1×1(α(Conv^1×1(C_mix))))，

空间注意力学习部分是探索输入特征图中重要区域的学习方法。空间注意力学习部分也是一个三头自我注意网络，类似于上面提出的通道注意力学习部分。通过跨通道全局平均池(C-GAP)、跨通道全局最大值池(C-GMP)和跨通道自适应池(C-ADP)将输入特征图聚合成三个空间图。然后，通过探索它们对给定目标的重要性，产生三个空间注意掩模，并通过元素相加进行自适应融合，有效地提高了准确率。整个空间注意力学习部分的过程可以描述为：

S_mix=[C-GAP(F);C-GMP(F);C-ADP(F)]，

S(F)=α(Conv^1×1(Resize(α(Conv^1×1(S_mix))))，

所述说话人身份注意力模块的运行表达式为：

O(F)=αSigmiod(α(Conv^1×1(C(F)US(F))))，

其中，O(F)为所述说话人身份注意力模块的输出结果。

（3）如图9所示，所述基于互信息的对抗解耦模块通过Jensen-Shannon估计得到最大化互信息（Mutual Information，MI）。而前述的说话人身份注意力模块在对抗网络中充当生成器作用，通过对抗训练将互信息降至最低，从而将说话人身份相关特征与信道相关特征相互独立开来。

具体的，所述基于互信息的对抗解耦模块包括梯度反转层(GRL)以及互信息估计器网络（充当对抗网络中的鉴别器）；所述互信息估计器网络包括卷积神经网络、MFM激活函数层、展平（Flatten）层、全连接层和Sigmoid激活函数；所述梯度反转层用于将来自所述互信息估计器网络的梯度乘以负标量，并将其传递给前一层，使得整个网络可以完成反向传播(BP)训练。

（4）所述说话人识别初始模型采用基于三元组损失和生成对抗损失的可学习的联合损失函数L_J作为模型训练的损失函数；所述联合损失函数L_J的表达式为：

L_J=ρL_T+φL_A，

L_T=max(||f(A)-f(P)||²- ||f(A)-f(N)||²+δ,0)，

，

S7：根据所述语音数据集生成若干三元组组合，并通过所述三元组组合将所述说话人识别初始模型训练至模型收敛，得到说话人识别初步模型。

如图10所示，所述正例选取策略为：

如图11所示，所述反例选取策略为：

如图12所示，以下步骤为如何对所述说话人识别初步模型进行迭代训练得到最终模型的具体操作：

S8：使用所述说话人识别初步模型分别对同一天内同一航班号对应的飞行员语音和同一科室所对应的管制员语音进行聚类，给同属一个类簇的语音数据赋予相同的ID标签，使用所述ID标签及其对应的语料对说话人识别初步模型继续进行训练至模型收敛，输出说话人识别进阶模型。

S9：使用说话人识别进阶模型分别对同一天内同一航班号对应的飞行员语音和同一科室所对应的管制员语音重新进行聚类，更新所述语音数据集中每条语音数据对应的ID标签，使用更新后的ID标签及其对应的语料对说话人识别进阶模型继续进行训练至模型收敛。

实施例3

本实施例与实施例1或2的区别在于，所述说话人识别初步/进阶模型通过聚类进行模型训练的具体步骤为：

①将空管说话人识别数据集中的语音分成飞行员和管制员两类，并分别按航班/科室进一步分组。

②在每组中随机选取1条语音作为锚定样本，再随机选取1条语音与锚定样本计算相似度，当相似度大于阈值η时，判定两条语音来自同一个人并分配相同的ID标签；当相似度小于阈值η时，判定两条语音不属于同一个人并在同组中再随机选取其它语音与锚定样本计算相似度，直到选取范围覆盖整个分组。

③重复②过程，直到所有的语音均至少被选中作为锚定样本1次。

所述使用说话人识别初步模型/进阶模型分别对同一天内同一航班号对应的飞行员语音和同一科室所对应的管制员语音进行聚类的方法，其理论依据在于：

同一天内同一航班号对应的说话人通常仅包含机长和副机长，同一天内同一科室中的管制员通常仅为特定的值班人员。此已知条件有助于缩小聚类空间，提高聚类效率和准确度。

所述同一天根据数据采集时携带的时间戳判定；

所述同一科室根据数据采集时记录的语音信号来源判定；

所述同一航班根据所述空管关键信息提取模型输出的航班号信息判定。

实施例4

本实施例与上述实施例的区别在于，如图13所示，所述说话人注册语音特征库的搭建包括以下步骤：

d1：使用专用空管语音信号采集设备和软件分别为管制员和飞行员录制语音，其通话环境和真实工作环境一致，所述语音数据满足以下要求：

（1）语音采样率为8K，采样精度为16bit，保存格式为wav；

（2）所述语音数据包括识别场景中使用的语种、所述管制员相对应的管制用语和所述飞行员相对应的应答用语；

（3）所述语音数据包括多种发音状态下的语音；所述发音状态包括正常语速、快语速、慢语速、不稳定语速、放松情绪、兴奋情绪、沮丧情绪中的一种或多种。

d2：使用训练好的基于半监督学习的陆空通话说话人识别模型提取已知的管制员和飞行员的语音特征，构建静态语音特征库，为每个人建立一条记录，记录中主要包括ID、性别、年龄、籍贯、语音片段等。

d3：将待识别的说话人语音输入训练好的说话人识别模型中，提取其语音特征并与语音特征库中的已知信息比较，输出相对应的说话人身份信息，若识别为未注册的说话人，则输出“unknown”。

实施例5

如图14所示，一种基于半监督学习的陆空通话说话人识别设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，以及与所述至少一个处理器通讯连接的至少一个输入输出接口；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述实施例所述的一种基于半监督学习的陆空通话说话人识别方法。所述输入输出接口可以包括显示器、键盘、鼠标、以及USB接口。

本领域技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半监督学习的陆空通话说话人识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S1中提取包含人声的单句语音片段包括以下步骤：

S11：获取所述语音信号的梅尔频率倒谱系数；

3.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S3中所述语音识别模型采用CNN-RNN-CTC架构，包括卷积神经网络层、循环神经网络层以及全连接层，并通过时序链接主义损失函数以及人工标注的单句语音片段进行训练优化。

4.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S4中所述空管关键信息提取模型包括预训练模型BERT、长短期记忆网络、模态融合模块和多任务模块；

5.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S6中所述说话人身份注意力模块包括通道注意力学习部分和空间注意力学习部分；具体的：

所述说话人身份注意模块的工作原理可描述为：

Fcr=CAN(Fc) UFc，

Fcu=(1- CAN(Fc)) UFc，

所述通道注意力学习部分的运行表达式为：

C_mix=[S-GAP(F);S-GMP(F);S-ADP(F)]，

C(F)=α(Conv^1×1(α(Conv^1×1(C_mix))))，

所述空间注意力学习部分的运行表达式为：

S_mix=[C-GAP(F);C-GMP(F);C-ADP(F)]，

S(F)=α(Conv^1×1(Resize(α(Conv^1×1(S_mix))))，

所述说话人身份注意力模块的运行表达式为：

O(F)=αSigmiod(α(Conv^1×1(C(F)US(F))))，

其中，O(F)为所述说话人身份注意力模块的输出结果。

6.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述基于互信息的对抗解耦模块包括梯度反转层以及互信息估计器网络；所述互信息估计器网络包括卷积神经网络、MFM激活函数、展平层、全连接层和Sigmoid激活函数；所述梯度反转层用于将来自所述互信息估计器网络的梯度乘以负标量，并将其传递给前一层。

7.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S6中所述说话人识别初始模型采用基于三元组损失和生成对抗损失的可学习的联合损失函数L_J作为模型训练的损失函数；所述联合损失函数L_J的表达式为：

L_J=ρL_T+φL_A，

L_T=max(||f(A)-f(P)||²- ||f(A)-f(N)||²+δ,0)，

，

8.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S7中所述正例选取策略为：

所述反例选取策略为：

9.根据权利要求1所述的一种基于半监督学习的陆空通话说话人识别方法，其特征在于，所述S8以及所述S9中使用半监督学习的方法迭代优化说话人识别初步/进阶模型；具体的，通过聚类进行模型训练的具体步骤为：

10.一种基于半监督学习的陆空通话说话人识别设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。