CN113724692B

CN113724692B - 一种基于声纹特征的电话场景音频获取与抗干扰处理方法

Info

Publication number: CN113724692B
Application number: CN202111172930.1A
Authority: CN
Inventors: 郑颖龙; 赖蔚蔚; 吴广财; 郑杰生; 周昉昉; 林嘉鑫; 陈颖璇; 叶杭; 冯志鹏; 吴穹
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-07-14
Anticipated expiration: 2041-10-08
Also published as: CN113724692A

Abstract

本申请公开了一种基于声纹特征的电话场景音频获取与抗干扰处理方法。本方法包括：获取音频片段；获取音频片段的至少两个信号特征，至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征；基于至少两个信号特征，确定音频片段是否为干扰音频片段；若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰音频片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持。后续去干扰处理时可以尽可能地去除音频片段中的干扰，提高去除音频信号中的干扰的效果，尽可能降低干扰人声对指挥命令造成的影响。

Description

一种基于声纹特征的电话场景音频获取与抗干扰处理方法

技术领域

本申请涉及音频信号处理技术领域，更具体地，涉及一种基于声纹特征的电话场景音频获取与抗干扰处理方法。

背景技术

调度中心中的调度员会综合各种数据以及当前实时反馈的信息，统一指挥调度部署。调度员下达指挥命令的准确性在调度过程中十分重要。然而，由于办公环境的限制，调度员通过麦克风下达的指挥命令不可避免会采集到其他人员的干扰人声。

相关技术中，通过具有指向性功能的麦克风解决指挥命令中存在干扰人声问题。具体地，具有指向性功能的麦克风在采集指挥命令时，将麦克风正前方向采集的声音信号确认为调度员发出的声音，正前方向之外的方向的声音信号确认为干扰声音信号，并对正前方向之外的多个方向的声音信号进行衰减，以降低干扰人声。

然而，具有指向性功能麦克风仅能够对指定方向的干扰人声进行抑制，且抑制程度最多 10dB，因此去除指挥命令中的干扰人声的效果不佳。

发明内容

本申请实施例提供一种基于声纹特征的电话场景音频获取与抗干扰处理方法。

第一方面，本申请一些实施例提供一种基于声纹特征的电话场景音频获取与抗干扰处理方法，该方法包括：获取音频片段；获取音频片段的至少两个信号特征，至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征；基于至少两个信号特征，确定音频片段是否为干扰音频片段；若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。

第二方面，本申请一些实施例还提供一种基于声纹特征的电话场景音频获取与抗干扰处理装置，该装置包括：音频获取模块、信号特征获取模块、确定模块以及处理模块。音频获取模块用于获取音频片段；信号特征获取模块用于获取音频片段的至少两个信号特征，至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征；确定模块用于基于至少两个信号特征，确定音频片段是否为干扰音频片段；处理模块用于若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。

第三方面，本申请一些实施例还提供一种电子设备，包括麦克风、一个或多个处理器、存储器、一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述一种基于声纹特征的电话场景音频获取与抗干扰处理方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述一种基于声纹特征的电话场景音频获取与抗干扰处理方法。

第五方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品被执行时，实现上述一种基于声纹特征的电话场景音频获取与抗干扰处理方法。

本申请实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法，通过获取音频片段的至少两个信号特征，至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征，并进一步基于至少两个信号特征，确定音频片段是否为干扰音频片段。在确定音频片段为干扰音频片段的情况下，对音频片段进行抗干扰处理。由于本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰音频片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持，后续抗干扰处理时可以尽可能地去除音频片段中的干扰，提高去除音频信号中的干扰的效果，尽可能降低干扰人声在电话场景中造成的影响。

此外，该方法还可以应用于调度场景，在调度员通过麦克风下达指挥命令时，指挥命令中可能混杂着其他调度员的干扰人声。通过本申请提供的方法，同样可以从指挥命令对应的音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰音频片段，因此能更准确地判断指挥命令对应的音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持，后续抗干扰处理时可以尽可能地去除音频片段中的干扰，提高去除音频信号中的干扰的效果，尽可能降低干扰人声对指挥命令造成的影响。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法的一种应用环境的示意图。

图2示出了本申请实施例提供的一种调度设备的功能模块框图。

图3示出了本申请第一实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法的流程示意图。

图4示出了本申请实施例提供的一种混响时间特征估计模型的结构示意图。

图5示出了本申请实施例提供的一种声纹特征估计模型的结构示意图。

图6示出了本申请实施例提供的一种综合神经网络模型的结构示意图。

图7示出了本申请第二实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法的流程示意图。

图8示出了本申请实施例提供一种通过降噪算法对干扰人声进行处理的方法的流程示意图。

图9示出了本申请第三实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法的流程示意图。

图10示出了本申请实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理装置的模块框图。

图11示出了本申请实施例提供的一种电子设备的模块框图。

图12示出了本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请实施例涉及的技术名词进行介绍：

混响时间(RT60)特征：表示指室内稳态声源停止发声后衰减60dB所需要的时间。

声纹特征：指通过计算机算法(数学方法)从音频信号中提取出来的一组声学描述参数(向量)。

语音清晰度特征：是对音频信号的音质评价的重要指标，用于评估室内或者声音传播系统的声音传输质量。

傅里叶变换：信号在时域空间内，可以表征为不同频率的正弦波信号的叠加，在对信号进行傅里叶变换之后，将时域空间转换成频域空间，并得到该信号的频率响应，频率响应描述该信号中不同正弦波信号的频率对应的振幅大小。

卷积神经网络(Convolutional Neural Networks,CNN)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习(Deep Learning,DL)的代表算法之一。常见的CNN主要包括：数据输入层、卷积计算层、激励层、池化层以及全连接层，其本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式。

长短期记忆网络(Long Short-Term Memory,LSTM)：是一种时间循环神经网络，是为了解决一般的循环神经网络(Recurrent Neural Network,RNN)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。其改善了RNN中存在的长期依赖问题，作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

全连接网络(Fully Connected Neural Network,FCNN)：是一种多层神经元网络，其主要包括为：输入层、隐藏层和输出层，通过反向传播算法不断更新网络的权重，使得FCNN在拟合非线性问题时具有很大的优势。

时延神经网络(Time Delay Neural Network,TDNN)：是一种可以获取语音的时间序列特征，从而更好地利用上下文信息判断语义的网络。由于不同的帧之间存在时序关系，多层TDNN 可以使神经网络学习到语音信号的时序结构性信息。

概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)：又称概率形式的线性鉴别分析(Linear Discriminant Analysis,LDA)，是模式识别领域常用的降维方法。其基本思想为，将高维的样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果。

余弦评分(Cosine Scoring)：用于计算两个矢量的相似度。采用余弦评分恰好可以消除特征矢量模的影响(在余弦中的计算与矢量的模无关)，从而在一定程度上削弱信道信息的影响。

本申请提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法，通过获取音频片段的多个信号特征，比如混响时间特征、声纹特征、语音清晰度特征等，之后基于上述多个信号特征，确定音频片段是否为干扰音频片段，在确定音频片段为干扰音频片段的情况下，对音频片段进行抗干扰处理。由于本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持，后续抗干扰处理时可以尽可能去除音频片段带来的干扰，提高去除音频信号中的干扰的效果，进而降低干扰人声在电话场景中造成的影响。

为了便于详细说明本申请方案，下面先结合附图对本申请实施例中的应用环境进行介绍。请参阅图1，图1为本申请实施例提供的实施环境的示意图，该实施环境包括：一个或多个麦克风110和调度设备120。

麦克风110是一种拾取声音的传感器，主要用来收集外部的音频信号，并将其转化为电信号传输给调度设备120进行处理，麦克风110可以通过有线连接或者无线连接等方式与调度设备120之间建立通信连接。在本实施例中，麦克风110可以是有线/无线话筒、有线/无线耳机上的麦克风110、智能设备(例如，智能手机)上的麦克风110，本申请实施例对麦克风110 的具体类型不作限定。

调度设备120是调度中心的重要组成部分，主要用来监控数据并发出指令。调度设备120 可以应用于电力调度场景、铁路调度场景、急救中心调度场景、矿井调度场景等等。以调度设备应用于铁路调度场景为例，在调度设备120上的监控数据反映当前某列车行驶状态出现异常的情况下，显示异常信息，调度员基于该异常信息发出指挥命令，列车上的维修人员基于该指挥命令，对列车进行故障检查和故障排除。调度设备120可以是一台装有调度系统的计算机，也可以是多台计算机组成的计算机系统。

在本申请实施例中，调度设备120用于接收麦克风110发出的音频信号，调度设备120设置有干扰人声处理模块以对音频信号进行处理，请参阅图2，图2为本申请实施例提供的一种调度设备120的功能模块框图。该功能模块框图包括：音频输入模块210、干扰人声处理模块 220和音频输出模块230。其中，音频输入模块210用于接收麦克风110发出的音频信号。干扰人声处理模块220包括：特征估计模块222和音频处理模块224。其中，特征估计模块222 包括：混响时间特征估计模块2221、声纹特征估计模块2222和语音清晰度特征估计模块2223。混响时间特征估计模块2221用于获取音频信号的混响时间特征，声纹特征估计模块2222用于获取音频信号的声纹特征，语音清晰度特征估计模块2223用于获取音频信号的语音清晰度特征。音频处理模块224用于根据特征估计模块222获取的混响时间特征、声纹特征和语音清晰度特征，确定音频信号是否为干扰音频信号，并且在确定音频信号为干扰音频信号的情况下，对音频信号进行抗干扰处理。音频输出模块230用于输出音频信号。

在一些实施例中，该实施环境还包括：受控设备130，该受控设备130用于接收调度设备 120发送的指挥命令，并展示上述指挥命令。受控设备130与调度设备120之间通过有线方式或无线方式建立通信连接，该受控设备130包括且不限于：对讲机、移动终端、平板电脑等。

如图3所示，图3示意性地示出本申请第一实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法，该方法可以包括以下步骤S310至步骤S340。

步骤S310：获取音频片段。

音频片段为音频信号中具有特定时间长度的片段。音频信号(Audio Signals)指的是带有语音、音乐或音效的有规律的声波的频率、幅度变化信息载体。作为一种实施方式，当麦克风进入录音状态(例如，麦克风处于打开状态即表示处于录音状态)后，对外部的音频信号进行拾音，并实时将拾取到的音频信号发送至调度设备，进而调度设备对该音频信号进行分帧操作，即划分成多个音频片段。其中，连续相邻的两个音频片段的时间重叠率应不小于50％，时间重叠率用于表征相邻的两个音频片段中相同音频的时长占单个音频片段时长的比例。可选地，预设特定时间长度的取值可以大于或等于10ms且小于或等于40ms。在本实施例中，预设特定时间长度取值为20ms，时间重叠率取值为50％。

在对音频信号进行分帧操作之后，需要对音频片段进行信号处理操作。具体地，对该音频片段进行时域采样操作，采样频率为16kHz，将采样后的音频片段记为x(n)，n＝1，2，...，N，其中N表示采样点数。在本实施例中，采样点数取值为320。

步骤S320：获取音频片段的至少两个信号特征。

至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征。混响时间特征用于表征音频片段衰减60dB所需要的时间；声纹特征用于表征音频片段中的一组声学描述参数(向量)；语音清晰度特征用于表征音频片段的声音传输质量。

在本实施例中，通过获取音频片段的多个信号特征来判断该音频片段中是否存在干扰音频。具体地，将上述步骤S310中的音频片段x(n)作为输入，通过神经网络模型或者信号特征提取算法的方式来获取对应的信号特征。

作为一种实施方式，调度设备分别获取信号特征。

可选地，调度设备通过混响时间特征估计模型或者混响时间特征提取算法来获取音频片段的混响时间特征。混响时间特征估计模型用于表征采用多个第一训练音频片段对第一神经网络进行训练得到的模型，多个第一训练音频片段被标注有实际混响时间特征。混响时间特征提取算法可以是基于线性预测的盲估计算法，或者是基于最大似然估计的盲估计算法。可选地，调度设备通过声纹特征估计模型来获取音频片段的声纹特征，声纹特征估计模型用于表征采用多个第二训练音频片段对第二神经网络进行训练得到的模型，多个第二训练音频片段被标注有实际声纹特征。可选地，调度设备通过语音清晰度特征提取算法来获取音频片段的语音清晰度特征。

通过神经网络模型或者信号特征提取算法分别获取信号特征的具体实现方法在下文实施例中进行介绍。

作为另一种实施方式，调度设备同时获取信号特征。可选地，调度设备通过综合神经网络模型来获取音频片段的混响时间特征、声纹特征和语音清晰度特征。综合神经网络模型用于表征采用多个第三训练音频片段对第三神经网络进行训练得到的模型，多个第三训练音频片段被标注有实际混响时间特征、实际声纹特征和实际语音清晰度特征。

步骤S330：基于至少两个信号特征，确定音频片段是否为干扰音频片段。

干扰音频片段用于表征干扰人声占比较大的音频片段。例如，干扰音频片段是指存在干扰人声的时长占音频片段总时长的比例大于预设比例的音频片段。具体地，该预设比例可以设置为50％，在这种情况下，干扰音频片段是指存在干扰人声的时长占音频片段总时长的比例大于 50％的音频片段。

作为一种实施方式，步骤S330可以包括以下步骤S331至步骤S332。

步骤S331：基于至少两个信号特征，获取综合评价参数。

综合评价参数用于表征确定音频片段是否为干扰音频片段的评价参数。在本实施例中，通过混响时间特征、声纹特征和语音清晰度特征三个信号特征来获取综合评价参数。

在获取综合评价参数之前，可以通过对三个信号特征进行标准化处理，将混响时间特征、声纹特征和语音清晰度特征映射到相同的取值范围，从而保证综合评价参数更加合理。具体地，步骤S331可以包括以下步骤S3311至步骤S3314。

步骤S3311：对混响时间特征进行第一标准化处理，得到标准混响时间特征。

第一标准化处理可以是一种映射操作，其作用在于将混响时间特征映射到第一指定区间。在本实施例中，对指定范围内的混响时间特征进行线性映射操作，将指定范围外内的混响时间特征确定为预设值。

具体地，若混响时间特征小于第一混响时间特征值，则确定标准混响时间特征为第一混响时间预设值。若混响时间特征大于或等于第二混响时间特征值，则确定标准混响时间特征为第二混响时间预设值。若混响时间特征大于或等于第一混响时间特征值且小于第二混响时间特征值，则将混响时间特征映射到第一区间，得到标准混响时间特征，标准混响时间特征与混响时间特征之间呈负相关关系。

第一混响时间特征值用于表征音频片段中不存在干扰人声的情况下的混响时间特征。可选地，第一混响时间特征值为0.2。第一混响时间预设值由调度设备默认设定，可选地，第一混响时间预设值为第一区间的上限值。第二混响时间特征值用于表征音频片段中只存在干扰人声的情况下的混响时间特征。可选地，第二混响时间特征值为0.4。第二混响时间预设值由调度设备默认设定，可选地，第二混响时间预设值为第一区间的下限值。第一混响时间特征值小于第二混响时间特征值，第一混响时间预设值大于第二混响时间预设值。第一区间由调度设备默认设定。可选地，第一区间为[0.1，1]。

负相关关系用于表征当混响时间特征的取值越大时，标准混响时间特征的取值则越小；反之，当混响时间特征的取值越小时，标准混响时间特征的取值则越大。

示例性地，在音频片段中不存在干扰人声的情况下，对应的混响时间特征的取值小于0.2，也即第一混响特征值为0.2，调度设备将该情况下第一混响特征预设值设置为1；在音频片段中只存在干扰人声的情况下，对应的混响时间特征的取值大于或等于0.4，也即第二混响特征值为0.4，调度设备将该情况下第二混响预设值设置为0.1；在音频片段中可能存在干扰人声的情况下，对应的混响时间特征的取值大于或等于0.2且小于0.4，调度设备将其映射到第一区间[0.1， 1]。该示例中，第一标准化处理可以用下述计算公式表示：

s₁表示混响时间特征，s_混响表示标准混响时间特征。根据上述计算公式可以得知，当混响时间特征的取值在0.2和0.4之间时，标准混响时间特征与混响时间特征之间呈负相关关系。因此，若标准混响时间特征的取值越趋近于1，则表示该音频片段为干扰音频片段的可能性就越小；反之，若标准混响时间特征的取值越趋近于0.1，则表示该音频片段为干扰音频片段的可能性就越大。

这里需要说明的是，在通过神经网络模型或者信号特征提取算法得到混响时间特征时，是将多个音频片段作为算法的输入，因此输出会得到多个相应的混响时间特征。因此，在对混响时间特征进行第一标准化处理之前，需要对多个混响时间特征进行平滑处理。平滑处理可以通过均值滤波、中值滤波、高斯滤波等方式实现。

步骤S3312：获取声纹特征和预设声纹特征之间的声纹相似度，对声纹相似度进行第二标准化处理，得到标准声纹相似度；

在对声纹特征进行标准化处理之前，需要获取声纹特征和预设声纹特征之间的声纹相似度。调度设备通过声纹特征估计模型对注册音频信号进行处理，获得预设声纹特征，此处的声纹特征估计模型和基于音频片段获得声纹特征的声纹特征估计模型可以为同一模型，声纹特征估计模型的具体实现方式将在下文实施例中进行说明。由于采用相同的神经网络模型来获得声纹特征和预设声纹特征，因此，声纹特征和预设声纹特征各自的向量维度保持一致。

在本申请实施例中，注册音频信号为调度员在上岗之前预先录制的一段音频信号，其被视为不存在干扰人声的音频信号。注册音频信号的时间长度通常大于10s，因此在获取预设声纹特征时，需要将该注册音频信号进行分帧，分帧操作的具体操作可以参考步骤S310中的阐述。在获取多个注册音频片段之后，基于神经网络模型可以获得多个对应的注册声纹特征，进一步地，可以将多个注册声纹特征在向量维度方向分别进行求均值操作，得到预设声纹特征；也可以从多个注册声纹特征中任选一个作为预设声纹特征。

可选地，调度设备通过概率线性判别分析(PLDA)算法、余弦相似度算法来获取声纹相似度。

第二标准化处理可以是一种映射操作，其作用在于将声纹相似度映射到第二指定区间。在本实施例中，将指定范围内的声纹相似度进行线性映射操作，将指定范围外的声纹相似度确定为预设值。

具体地，若声纹相似度小于第一声纹相似度，则确定标准声纹相似度为第一声纹相似度预设值。若声纹相似度大于或等于第二声纹相似度，则确定标准声纹相似度为第二声纹相似度预设值。若声纹相似度大于或等于第一声纹相似度且小于第二声纹相似度，则将声纹相似度映射到第二区间，得到标准声纹相似度，标准声纹相似度与声纹相似度之间呈正相关关系。

第一声纹相似度用于表征音频片段中只存在干扰人声的情况下的声纹相似度。可选地，第一声纹相似度为40。第一声纹相似度预设值由调度设备默认设定，可选地，第一声纹相似度预设值为第二区间的下限值。第二声纹相似度用于表征音频片段中不存在干扰人声的情况下的声纹相似度。可选地，第二声纹相似度为80。第二声纹相似度预设值由调度设备默认设定，可选地，第二声纹相似度预设值为第二区间的上限值。第一声纹相似度小于第二声纹相似度，第一声纹相似度预设值小于第二声纹相似度预设值。

第二区间由调度设备默认设定。可选地，第二区间为[0.1，1]。

正相关关系用于表征当声纹相似度的取值越大时，标准声纹相似度的取值则越大；反之，当声纹相似度的取值越小时，标准声纹相似度的取值则越小。

示例性地，在音频片段中只存在干扰人声的情况下，对应的声纹相似度的取值小于40，也即第一声纹相似度为40，调度设备将该情况下第一声纹相似度预设值设置为0.1；在音频片段中不存在干扰人声的情况下，对应的声纹相似度的取值大于或等于80，也即第二声纹相似度为 80，调度设备将该情况下第二声纹相似度预设值设置为1；在音频片段中可能存在干扰人声的情况下，对应的声纹相似度的取值大于或等于40且小于80，调度设备将其映射到第二区间[0.1， 1]。该示例中，第二标准化处理可以用下述计算公式表示：

其中，s₂表示声纹相似度，s_声纹表示标准声纹相似度。根据上述计算公式可以得知，当声纹相似度的取值在40和80之间时，标准声纹相似度与声纹相似度之间呈正相关关系。因此，若标准声纹相似度的取值越趋近于1，则表示该音频片段为干扰音频片段的可能性就越小；反之，若标准声纹相似度的取值越趋近于0.1，则表示该音频片段为干扰音频片段的可能性就越大。

同样地，在神经网络模型得到声纹特征时，是将多个音频片段作为算法的输入，因此输出会得到多个相应的声纹特征。因此，在获得声纹相似度时，通过多个声纹特征和预设声纹特征分别计算声纹相似度，从而获得多个声纹相似度。因此，在对声纹相似度进行第二标准化处理之前，需要对多个声纹相似度进行平滑处理。平滑处理可以通过均值滤波、中值滤波、高斯滤波等方式实现。

步骤S3313：对语音清晰度特征进行第三标准化处理，得到标准语音清晰度特征；

第三标准化处理可以是一种映射操作，其作用在于将语音清晰度特征映射到第三指定区间。在本实施例中，将指定范围内的语音清晰度特征进行线性映射操作，将指定范围外的语音清晰度特征确定为预设值。可选地，第一指定区间、第二指定区间和第三指定区间均相同。

具体地，若语音清晰度特征小于第一语音清晰度特征值，则确定标准语音清晰度特征为第一语音清晰度预设值。若语音清晰度特征大于或等于第二语音清晰度特征值，则确定标准语音清晰度特征为第二语音清晰度预设值。若语音清晰度特征大于或等于第一语音清晰度特征值且小于第二语音清晰度特征值，则将语音清晰度特征映射到第三区间，得到标准语音清晰度特征，标准语音清晰度特征与语音清晰度特征之间呈正相关关系。

第一语音清晰度特征值用于表征音频片段中只存在干扰人声的情况下的语音清晰度特征。可选地，第一语音清晰度特征值为0.3。第一语音清晰度预设值由调度设备默认设定，可选地，第一语音清晰度预设值为第三区间的下限值。第二语音清晰度特征值用于表征音频片段中不存在干扰人声的情况下的语音清晰度特征。可选地，第二语音清晰度特征值为0.5。第二语音清晰度预设值由调度设备默认设定，可选地，第二语音清晰度预设值为第三区间的上限值。第一语音清晰度特征值小于第二语音清晰度特征值，第一语音清晰度预设值小于第二语音清晰度预设值。

第三区间由调度设备默认设定。可选地，第三区间为[0.1，1]。

正相关关系用于表征当语音清晰度特征的取值越大时，标准语音清晰度特征的取值则越大；反之，当语音清晰度特征的取值越小时，标准语音清晰度特征的取值则越小。

示例性地，在音频片段中只存在干扰人声的情况下，对应的语音清晰度特征的取值小于0.3，也即第一语音清晰度特征值为0.3，调度设备将该情况下第一语音清晰度预设值设置为0.1；在音频片段中不存在干扰人声的情况下，对应的语音清晰度特征的取值大于或等于0.5，也即第二语音清晰度特征值为0.5，调度设备将该情况下第二语音清晰度预设值设置为1；在音频片段中可能存在干扰人声的情况下，对应的语音清晰度特征的取值大于或等于0.3且小于0.5，调度设备将其映射到第三区间[0.1，1]。该示例中，第三标准化处理可以用下述计算公式表示：

其中，s₃表示语音清晰度特征，s_清晰度表示标准语音清晰度特征。根据上述计算公式可以得知，当语音清晰度特征的取值在0.3和0.5之间时，标准语音清晰度特征与语音清晰度特征之间呈正相关关系。因此，若标准语音清晰度特征的取值越趋近于1，则表示该音频片段为干扰音频片段的可能性就越小；反之，若标准语音清晰度特征的取值越趋近于0.1，则表示该音频片段为干扰音频片段的可能性就越大。

同样地，在通过神经网络模型或者信号特征提取算法得到语音清晰度特征时，是将多个音频片段作为算法的输入，因此输出会得到多个相应的语音清晰度特征。因此，在对语音清晰度特征进行第三标准化处理之前，需要对多个语音清晰度特征进行平滑处理。平滑处理可以通过均值滤波、中值滤波、高斯滤波等方式实现。

步骤S3314：基于标准混响时间特征、标准声纹相似度和标准语音清晰度特征，获取综合评价参数。

调度设备将标准混响时间特征、标准声纹相似度和标准语音清晰度特征按照预设运算方式进行运算，以获取综合评价参数。预设运算方式包括且不限于：加权求和、求积、求平均值等等。

在一些实施例中，将标准混响时间特征、标准声纹相似度和标准语音清晰度特征之间的乘积，确定为综合评价参数。综合评价参数的表达公式如下：

s＝s_混响×s_声纹×s_清晰度。

其中，s表示综合评价参数。示例性地，当s_混响取值为0.8，s_声纹取值为1，s_清晰度取值为0.7的情况下，通过上述公式计算得出的综合评价参数s为0.56。

步骤S332：基于综合评价参数，确定音频片段是否为干扰音频片段。

如上所述，若标准混响时间特征、标准声纹相似度和标准语音清晰度特征的取值越趋近于 1，则表示该音频片段为干扰音频片段的可能性就越小；反之，若标准混响时间特征、标准声纹相似度和标准语音清晰度特征的取值越趋近于0.1，则表示该音频片段为干扰音频片段的可能性就越大。

因此，根据标准混响时间特征、标准声纹相似度和标准语音清晰度特征三者相乘得到的综合评价参数，同样也存在下述关系：若综合评价参数的取值越趋近于1，则表示该音频片段为干扰音频片段的可能性就越小；反之，若综合评价参数的取值越趋近于0.1，则表示该音频片段为干扰音频片段的可能性就越大。

因此，在本实施例中，通过判断综合评价参数和预设的综合评价参数阈值之间的大小关系来确定音频片段是否为干扰音频片段。具体地，若综合评价参数小于预设的综合评价参数阈值，则确定音频片段是干扰音频片段；反之，若综合评价参数大于或等于预设的综合评价参数阈值，则确定音频片段不是干扰音频片段。

预设的综合评价参数阈值可以由调度人员自定义设置，也可以默认设置。具体地，该预设的综合评价参数阈值的取值可以大于或等于0.2且小于或等于0.6。在本实施例中，预设的综合评价参数阈值取值为0.4。示例性地，若音频片段对应的综合评价参数为0.35，则确定该音频片段是干扰音频片段；若音频片段对应的综合评价参数为0.6，则确定该音频片段不是干扰音频片段。

步骤S340：若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。

在调度设备确定音频片段为干扰音频片段的情况下，对于该音频片段进行抗干扰处理。抗干扰处理是指去除音频片段中的干扰人声。

作为一种实施方式，可以减小该音频片段的响度特征。具体地，音频片段的减小量可以由响度特征和减小比例的乘积来确定，减小比例可以是大于50％并且小于或等于100％的值。在本实施例中，减小比例取值为100％，即直接将音频片段的响度特征减小至0。

作为另一种实施方式，可以通过将综合评价参数和降噪算法相结合，对音频片段进行抗干扰处理。具体地，基于综合评价参数，获取噪声估计值；基于噪声估计值，获取信噪比估计值；基于信噪比估计值和综合评价参数，获取语音存在概率；基于语音存在概率和信噪比估计值，获取增益值；基于增益值，对音频片段进行抗干扰处理。通过和降噪算法相结合的方式来进行抗干扰处理的具体实现方式将在下文实施例中进行说明。

本申请实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法。通过获取音频片段的三个信号特征，信号特征包括：混响时间特征、声纹特征、语音清晰度特征，并进一步基于三个信号特征，确定音频片段是否为干扰音频片段。在确定音频片段为干扰音频片段的情况下，对音频片段进行抗干扰处理；由于本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰音频片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持。后续抗干扰处理时可以尽可能地去除音频片段中的干扰，进而降低干扰人声对指挥命令造成的影响。

下面给出了一个通过神经网络模型或者信号特征提取算法的方式来分别获取信号特征的实施例。

如图4所示，图4示意性地示出本申请实施例提供的一种混响时间特征估计模型400，通过混响时间特征估计模型400对将音频片段进行处理，得到该音频片段对应的混响时间特征。其中，混响时间特征估计模型400包括卷积神经网络层410、长短期记忆网络层420以及全连接网络层430。

卷积神经网络层410的输入数据维度为512*100。其中维度512*100中的512表示音频片段在频域内的频点个数。这里需要说明的是，在上述步骤S310中提到，对音频信号进行分帧操作后，对每个音频片段(每帧音频信号)在时域内进行采样操作。进一步地，对时域采样操作后的音频片段进行傅里叶变换操作，并且在频域内，对应的频点个数为512，将音频片段中 512个频点对应的幅值作为网络的输入，并且维度512*100中的100表示算法输入的音频片段的个数为100，因此卷积神经网络层410的输入数据维度为512*100。

卷积神经网络层410用于在频率方向进行快速降维。其中，卷积神经网络层410的结构为三层，第一层采用的卷积核维度为5*3，步长为5*2，通道数为4，第一层的输入维度为512*100，输出维度为4*102*49。第二层采用的卷积核维度为3*10，步长为2*8，通道数为8，第二层的输入维度为4*102*49，输出维度为8*50*8。第三层采用的卷积核维度为3*5，步长为2*2，通道数为2，第三层的输入维度为8*50*8，输出维度为2*24*2。其中，每一层的激活函数为线性整流(Rectified Linear Unit,ReLU)函数，并且在激活函数之后都加一个批量归一化层(Batch Normalization,BN)，BN层可以防止梯度消失或爆炸，并且加快训练速度。

长短期记忆网络层420和卷积神经网络层410相连接。其中，长短期记忆网络层420具有 2个隐藏层，其输入维度为96，输出维度为40。

全连接网络层430和长短期记忆网络层420相连接，用于提取音频片段中的混响时间特征。其中，全连接网络层430的输入维度为40，输出维度为1。

进一步地，需要对该混响时间特征估计模型400进行训练，训练中使用的数据可以通过两种方式获取，包括模拟房间冲击响应信号(Room Impulse Response,RIR)方法和实际录制房间冲击响应信号方法。其中，模拟房间冲击响应信号方法采用镜像声源模型(即image方法)，其根据房间的大小和预先设置的混响时间特征来生成房间冲击响应信号(即音频信号)。在实际录制房间冲击响应信号方法中，分别在大型房间、中型房间和小型房间中分别录制房间冲击响应信号，录制房间冲击响应信号的总数为500。进一步从LibriSpeech数据集以及录制的音频信号(房间冲击响应信号)中任选30小时的数据，该数据作为不包含干扰人声的音频信号数据，并且将40分钟的实录数据以及2小时稳态噪声数据作为噪声数据。使用音频混叠工具，将上述不包含干扰人声的音频信号数据和噪声数据混合成训练数据和测试数据。其中，训练数据的时长为100小时，测试数据的时长为5小时。

具体地，在模型训练的过程中，采用的优化器为自适应矩估计(Adaptive momentestimation， Adam)优化器，Adam优化器中学习率(learning rate，lr)的初始值为10^-3。训练采用的损失函数为均方方差(mean-square error，MSE)函数，即计算预测的混响时间特征值和实际的混响时间特征值之差的平方。

在混响时间特征估计模型400完成训练之后，可以实时输入音频片段，模型的输出即为该音频片段对应的混响时间特征。

可选地，计算每个音频片段的混响时间特征还通过信号特征提取算法来实现。在本实施例中，给出了一种使用基于最大似然估计的盲估计算法来计算混响时间特征的方法，该方法可以包括以下步骤S410至步骤S430。

步骤S410：构造低阶线性预测滤波器。

计算每一帧音频信号x(n)的自相关函数R(k)，R(k)的计算公式如下：

其中，N为音频信号x(n)的帧长，k为自相关延迟值，M为滤波器的阶数。使用莱文森-德宾 (Levinson-Durbin)算法求解以下方程组，获得M阶线性预测滤波器系数a_i，i＝0，1，...，M。

步骤S420：计算残差信号的自相关函数。

将音频信号x(n)通过M阶线性预测系数构成的残差滤波器，得到残差信号

的计算公式如下：

计算每一帧

的自相关函数/>

的计算公式如下：

需要说明的是，在本方案中的音频片段为实时采集到的音频数据，为了保证输出结果的准确性，因此在使用盲估计算法来计算音频片段的混响时间特征时，响应对每个音频片段x(n)都计算对应的混响时间特征值。

步骤S430：根据残差信号的自相关函数构造似然函数，通过牛顿法求解混响时间特征值。

根据残差信号的自相关函数应用最大似然方法，估计最佳混响时间特征值。其中，构建自相关函数

与参数a和k的似然函数为/>

对应的表达式如下：

对参数a求偏导，并将偏导设置为0，对应公式如下：

对参数k求偏导，并将偏导设置为0，对应公式如下：

用牛顿法(Newton-Raphson)求解上述两个公式得到最佳参数a，参数a即为每个音频片段x(n)对应的混响时间特征。

如图5所示，图5示意性地示出本申请实施例提供的一种声纹特征估计模型500，通过声纹特征估计模型500对音频片段进行处理，得到该音频片段对应的声纹特征。其中，声纹特征估计模型500包括帧级网络层510、因果池化层520以及全连接网络层530。

帧级网络层510包括3层时延神经网络层和2层全连接网络层。这里需要说明的是，和上述混响时间特征估计模型输入数据不同的是，在获取音频片段在频域内的512维数据之后，需要对该数据进行降采样操作，提取低维特征。具体地，可以采用滤波器组(FilterBank)的方式提取音频片段的低维特征(即Fbank特征)，该特征的维度为23维。

进一步地，音频片段通过拼接相邻音频片段的方式作为数据的输入。具体地，将当前的音频片段记为第m个音频片段，作为帧级网络层510的输入，该音频片段会拼接第m-2个、第 m-1个、第m+1个和第m+2个总计5个音频片段，因此帧级网络层510的输入维度为115。其中，帧级网络层510中每一层的激活函数为线性整流(Rectified Linear Unit，ReLU)函数，并且在激活函数之后都加一个批量归一化层(Batch Normalization，BN)，帧级网络层510对应的输入维度为512。

因果池化层520和帧级网络层510相连接，用于更新均值和标准差。具体地，因果池化层 520采用滑窗形式，窗长维度为4600。因果池化层520的输入维度为512，输出维度为3000。

全连接网络层530和因果池化层520相连接，用于提取第m个音频片段对应的声纹特征向量。其中，全连接网络层530的输入维度为3000，输出维度为512，这里即表明声纹特征向量的维度为512。

进一步地，需要对该声纹特征估计模型500进行训练，训练中使用的数据可以分为两部分。一部分为swbd数据集中的音频信号，在该数据集中，通过2600个人录制音频信号，其中，音频信号的总数为28000。另一部分为发明人制作的数据集中的音频信号，在该数据集中，通过 1000个人录制音频信号，其中，音频信号的总数为20000。通过对上述两部分音频信号进行数据清洗之后，将发明人录制的500个人的音频数据作为测试数据，该测试数据中音频数据的总数为1000，每条音频数据的时间长度为10～60秒。训练数据采用MUSAN数据集进行扩展，具体地，对MUSAN数据集中的嘈杂人声(babble)和稳态噪声进行扩展，信噪比取值范围为 10～15dB。

在训练过程中的损失函数采用softmax函数。在声纹特征估计模型500完成训练之后，可以实时输入音频片段，模型的输出即为该音频片段对应的声纹特征。

计算音频片段对应的信号清晰度特征可以通过信号特征提取算法来实现。下面给出了一种通过使用信号特征提取算法来获取信号清晰度特征的方法。该方法可以包括以下步骤S510至步骤S530。

步骤S510：计算音频片段的确定性自相关系数。

具体地，音频片段x(n)对应的确定性自相关系数r_xx(t，k)的计算公式如下：

其中，N为音频信号x(n)的帧长，k为自相关延迟值，t为帧序号，w(n)为汉宁窗(Hanning window)，是一种窗函数。其表达式为：

步骤S520：根据确定性自相关系数，计算最小平均幅度差函数。

具体地，最小平均幅度差函数D(t，k)对应的计算公式如下：

其中，β(k)为比例因子，其取值范围为[0.6，1.0]，在本实施例中，β(k)的取值为0.8。

步骤S530：计算信号清晰度特征。

具体地，计算信号清晰度c(t)的计算公式如下：

其中，k_min和k_max的计算公式分别如下：

通过上述算法，可以实时输入音频片段，之后输出即为该音频片段对应的信号清晰度特征。

在本申请实施例中，给出了一种通过神经网络模型或者信号特征提取算法来分别获取混响时间特征，声纹特征和语音清晰度特征的方法，通过获取音频片段的至少两个信号特征，为后续抗干扰处理过程提供准确的数据支持。

下面给出了一个通过神经网络模型的方式来同时获取信号特征的实施例。

如图6所示，图6示意性地示出本申请实施例提供的一种综合神经网络模型600。其中，综合神经网络模型600包括卷积神经网络层610、长短期记忆网络层620以及全连接网络层630。其中，全连接网络层630中的输出层具有第一通道、第二通道和第三通道，通过综合神经网络模型对音频片段进行处理，从输出层中第一通道获取混响时间特征，从输出层中第二通道获取语音清晰度特征，从输出层中第三通道获取声纹特征。

具体地，卷积神经网络层610和长短期记忆网络层620的具体结构，可以参考图4中卷积神经网络层410和长短期记忆网络层420的结构，不再一一阐述。

全连接网络层630和长短期记忆网络层620相连接，用于提取音频片段中的混响时间特征、声纹特征和语音清晰度特征，因此，全连接网络层630中的输出层需要具有三个通道。在本实施例中，输出层的维度设置为20。具体地，将输出层的第中第1通道(即第1维度)的输出结果作为混响时间特征，将输出层中第2通道(即第2维度)的输出结果作为语音清晰度特征，将输出层中第3通道(即第3～20维度)的输出结果作为声纹特征，即对应声纹特征的维度为 18。

进一步地，需要对该综合神经网络模型600进行训练，训练中使用的数据可以参考混响时间特征估计模型400中训练数据的制作方式。但由于综合神经网络模型600中需要输出声纹特征，因此，训练数据中的音频信号总时长设置为500小时，其中，为了保证男女平衡问题的问题，男声对应的音频信号时长不低于200小时，并且女声对应的音频信号时长也不低于200小时。在模型训练的过程中，采用的优化器为自适应矩估计(Adaptive momentestimation，Adam) 优化器，Adam优化器中学习率(learning rate，1r)的初始值为10^-3。

进一步地，由于全连接网络层630的输出层中对应的第3～20维度的输出结果为声纹特征。因此在训练时，需要对该18维声纹特征提取相应的标签，即为声纹标签，声纹标签的维度为1。具体地，可以在第3通道之后，通过连接一层全连接层的方式来实现获取声纹标签，该全连接层对应的输入为18，输出为1。并采用a-softmax损失函数来计算声纹特征对应的损失，采用均方方差(mean-square error，MSE)函数来计算混响时间特征以及信号清晰度特征对应的损失。总损失函数即为混响时间特征损失、计算声纹特征损失以及信号清晰度特征损失三者的和。

在本实施例中，给出了一种通过神经网络模型来同时获取混响时间特征，声纹特征和语音清晰度特征的方法，通过获取音频片段的至少两个信号特征，为后续抗干扰处理过程提供准确的数据支持。

如图7所示，图7示意性地示出本申请第二实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法，该方法可以包括以下步骤S710至步骤S745。

步骤S710：获取音频片段。

步骤S720：获取音频片段的至少两个信号特征。

步骤S730：基于至少两个信号特征，确定音频片段是否为干扰音频片段。

在本实施例中，步骤S710至步骤S730的具体实施，可以参考上文实施例所提供的步骤 S310至步骤S330的阐述，此处不再一一赘述。

步骤S740：若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。

在本实施例中，可以通过将综合评价参数和降噪算法相结合，对音频片段进行抗干扰处理。请参阅图8，图8为本申请实施例提供的一种通过降噪算法对干扰人声进行处理的方法的流程示意图。具体地，步骤S740可以包括以下步骤S741至步骤S745。

步骤S741：若音频片段为干扰音频片段，则基于综合评价参数，获取噪声估计值。

在获取噪声估计值之前，先对综合评价参数s进行映射操作。对应映射公式如下：

其中，s′为映射操作后的综合评价参数s。

基于s′，可以获得噪声估计值σ_n(t)，σ_n(t)的计算公式如下：

σ_n(t)＝(α_ns′)σ_n(t-1)+(1-α_ns′)E[N²|Y]。

其中，Y表示带噪语音信号，N为噪声信号，E[N²|Y]表示在Y已知的情况下，对N²的估计值，t为帧序号，σ_n表示噪声方差的估计值，α_n为平滑值，在本实施例中，α_n取值为0.8。

步骤S742：基于噪声估计值，获取信噪比估计值。

作为一种实施方式，可以使用直接判决算法(DD算法)来获取先验信噪比估计值ξ。

步骤S743：基于信噪比估计值和综合评价参数，获取语音存在概率。

作为一种实施方式，语音存在概率对应的计算公式如下：

其中，H₁表示语音存在的状态，p(H₁|Y)表示在Y已知的情况下，对语音存在的概率估计值。 p₁为先验的语音存在概率，p₀为先验的语音不存在概率，在本实施例中，p₁取值为0.5，p₀取值为0.5。γ称为后验信噪比，其表达式为

exp()为指数函数。

步骤S744：基于语音存在概率和信噪比估计值，获取增益值。

作为一种实施方式，增益值G的计算公式如下：

其中，

的表达式为/>

V的表达式为/>

Gmin是预设的经验值。

步骤S745：基于增益值，对音频片段进行抗干扰处理。

通过下述公式计算抗干扰处理后音频片段的频域信息X。

X＝G*Y。

其中，Y表示抗干扰处理前的音频片段对应的频域信息。

进一步地，将X进行反傅里叶变换操作后，即可得到抗干扰处理后音频片段x。

在本实施例中，给出了一种将综合评价参数和降噪算法相结合，对音频片段进行抗干扰处理的方法。通过神经网络模型或者信号特征提取算法得到的信号特征，并基于信号特征获得综合评价参数，综合评价参数用于判断音频片段是否为干扰音频片段。在确定音频片段为干扰音频片段的情况下，进一步将综合评价参数和降噪算法相结合，对音频片段进行抗干扰处理。由于本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰音频片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持。后续抗干扰处理时可以尽可能地去除音频片段中的干扰，提高去除音频信号中的干扰的效果，尽进而降低干扰人声对指挥命令造成的影响。

如图9所示，图9示意性地示出本申请第三实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法，该方法可以包括以下步骤S910至步骤S950。

步骤S910：获取音频片段。

步骤S920：获取音频片段的至少两个信号特征。

在本实施例中，步骤S910至步骤S920的具体实施，可以参考上文实施例所提供的步骤 S310至步骤S320的阐述，此处不再一一赘述。

步骤S930：基于两个信号特征，获取综合评价参数。

在本实施例中，可以通过混响时间特征、声纹特征和语音清晰度特征之间的两两组合来获取综合评价参数。作为一种实施方式，可以通过混响时间特征和声纹特征来获取综合评价参数。作为一种实施方式，可以通过声纹特征和语音清晰度特征来获取综合评价参数。作为一种实施方式，可以通过混响时间特征和语音清晰度特征来获取综合评价参数。

同样地，在获取综合评价参数之前，需要对信号特征进行标准化处理。标准化处理的具体实施，可以参考上文实施例所提供的步骤S3311至步骤S3313的阐述，此处不再一一赘述。

调度设备可以通过对标准混响时间特征、标准声纹相似度和标准语音清晰度特征其中的两个信号特征按照预设运算方式进行运算，以获取综合评价参数。预设运算方式包括且不限于：求和、求积、求平均值等等。

在一些实施例中，将标准混响时间特征和标准声纹相似度之间的乘积，确定为综合评价参数。综合评价参数的表达公式如下：

s＝s_混响×s_声纹。

其中，s表示综合评价参数。示例性地，当s_混响取值为0.8，s_声纹取值为1的情况下，通过上述公式计算得出的综合评价参数s为0.8。

在一些实施例中，将标准混响时间特征和标准语音清晰度特征之间的乘积，确定为综合评价参数。综合评价参数的表达公式如下：

s＝s_混响×s_清晰度。

其中，s表示综合评价参数。示例性地，当s_混响取值为0.8，s_清晰度取值为0.7的情况下，通过上述公式计算得出的综合评价参数s为0.56。

在一些实施例中，将标准声纹相似度和标准语音清晰度特征之间的乘积，确定为综合评价参数。综合评价参数的表达公式如下：

s＝s_声纹×s_清晰度。

其中，s表示综合评价参数。示例性地，当s_声纹取值为1，s_清晰度取值为0.7的情况下，通过上述公式计算得出的综合评价参数s为0.7。

步骤S940：基于综合评价参数，确定音频片段是否为干扰音频片段。

步骤S950：若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。

在本实施例中，步骤S940至步骤S950的具体实施，可以参考上文实施例所提供的步骤 S332至步骤S340的阐述，此处不再一一赘述。

本申请实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理方法，通过获取音频片段的至少两个信号特征，至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征；基于至少两个信号特征，确定音频片段是否为干扰音频片段；若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。由于本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰音频片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持。后续抗干扰处理时可以尽可能地去除音频片段中的干扰，提高去除音频信号中的干扰的效果，进而降低干扰人声对指挥命令造成的影响。同时，该方法通过提取音频片段的两个信号特征来判断音频片段是否为干扰音频片段，和上述通过三个信号特征来判断音频片段是否为干扰音频片段的方法相比，提供了其他可选的方案，并对需要处理的数据进行了简化，可以加快调度设备的计算速度。

请参阅图10，其示出了本申请实施例提供的一种基于声纹特征的电话场景音频获取与抗干扰处理装置1000的结构框图。装置1000包括：音频获取模块1010、信号特征获取模块1020、确定模块1030和处理模块1040。其中，音频获取模块1010用于获取音频片段。信号特征获取模块1020用于获取音频片段的至少两个信号特征，至少两个信号特征包括以下任意两项或全部三项：混响时间特征、声纹特征、语音清晰度特征。确定模块1030用于基于至少两个信号特征，确定音频片段是否为干扰音频片段。处理模块1040用于若音频片段为干扰音频片段，则对音频片段进行抗干扰处理。

在一些实施例中，确定模块1030用于基于至少两个信号特征，获取综合评价参数；基于综合评价参数，确定音频片段是否为干扰音频片段。

在一些实施例中，至少两个信号特征包括混响时间特征、声纹特征、语音清晰度特征。确定模块1030用于对混响时间特征进行第一标准化处理，得到标准混响时间特征；获取声纹特征和预设声纹特征之间的声纹相似度，对声纹相似度进行第二标准化处理，得到标准声纹相似度；对语音清晰度特征进行第三标准化处理，得到标准语音清晰度特征；基于标准混响时间特征、标准声纹相似度和标准语音清晰度特征，获取综合评价参数。

在一些实施例中，确定模块1030用于若混响时间特征小于第一混响时间特征值，则确定标准混响时间特征为第一混响时间预设值；若混响时间特征大于或等于第二混响时间特征值，则确定标准混响时间特征为第二混响时间预设值，第一混响时间特征值小于第二混响时间特征值，第一混响时间预设值大于第二混响时间预设值；若混响时间特征大于或等于第一混响时间特征值且小于第二混响时间特征值，则将混响时间特征映射到第一区间，得到标准混响时间特征，标准混响时间特征与混响时间特征之间呈负相关关系。

在一些实施例中，确定模块1030用于若声纹相似度小于第一声纹相似度，则确定标准声纹相似度为第一声纹相似度预设值；若声纹相似度大于或等于第二声纹相似度，则确定标准声纹相似度为第二声纹相似度预设值，第一声纹相似度小于第二声纹相似度，第一声纹相似度预设值小于第二声纹相似度预设值；若声纹相似度大于或等于第一声纹相似度且小于第二声纹相似度，则将声纹相似度映射到第二区间，得到标准声纹相似度，标准声纹相似度与声纹相似度之间呈正相关关系。

在一些实施例中，确定模块1030用于若语音清晰度特征小于第一语音清晰度特征值，则确定标准语音清晰度特征为第一语音清晰度预设值；若语音清晰度特征大于或等于第二语音清晰度特征值，则确定标准语音清晰度特征为第二语音清晰度预设值，第一语音清晰度特征值小于第二语音清晰度特征值，第一语音清晰度预设值小于第二语音清晰度预设值；若语音清晰度特征大于或等于第一语音清晰度特征值且小于第二语音清晰度特征值，则将语音清晰度特征映射到第三区间，得到标准语音清晰度特征，标准语音清晰度特征与语音清晰度特征之间呈正相关关系。

在一些实施例中，确定模块1030用于将标准混响时间特征、标准声纹相似度和标准语音清晰度特征之间的乘积，确定为综合评价参数。

在一些实施例中，信号特征获取模块1020用于通过混响时间特征估计模型对将音频片段进行处理，得到混响时间特征，混响时间特征估计模型用于表征采用多个第一训练音频片段对第一神经网络进行训练得到的模型，多个第一训练音频片段被标注有实际混响时间特征。

在一些实施例中，信号特征获取模块1020用于通过声纹特征估计模型对音频片段进行处理，得到声纹特征，声纹特征估计模型用于表征采用多个第二训练音频片段对第二神经网络进行训练得到的模型，多个第二训练音频片段被标注有实际声纹特征。

在一些实施例中，信号特征获取模块1020用于通过综合神经网络模型对音频片段进行处理，得到混响时间特征，声纹特征和语音清晰度特征，综合神经网络模型用于表征采用多个第三训练音频片段对第三神经网络进行训练得到的模型，多个第三训练音频片段被标注有实际混响时间特征、实际声纹特征和实际语音清晰度特征。

在一些实施例中，综合神经网络模型包括全连接网络，全连接网络中的输出层具有第一通道、第二通道和第三通道。信号特征获取模块1020用于通过综合神经网络模型对音频片段进行处理，从输出层中第一通道获取混响时间特征，从输出层中第二通道获取语音清晰度特征，从输出层中第三通道获取声纹特征。

在一些实施例中，处理模块1040用于将音频片段的响度特征设置为预设值。

在一些实施例中，处理模块1040用于基于综合评价参数，获取噪声估计值和语音存在概率；基于噪声估计值，获取信噪比估计值；基于语音存在概率和信噪比估计值，获取增益值；基于增益值，对音频片段进行抗干扰处理。

本申请实施例提供了一种基于声纹特征的电话场景音频获取与抗干扰处理装置，通过获取音频片段的多个信号特征，比如混响时间特征、声纹特征、语音清晰度特征等，之后基于上述多个信号特征，确定音频片段是否为干扰音频片段，在确定音频片段为干扰音频片段的情况下，对音频片段进行抗干扰处理。由于本申请从音频片段的多个不同维度的信号特征来判断该音频片段是否为干扰片段，因此能更准确地判断音频片段是否为干扰音频片段，为后续抗干扰处理过程提供准确的数据支持，后续抗干扰处理时可以尽可能去除音频片段带来的干扰，提高去除音频信号中的干扰的效果，进而降低干扰人声对指挥命令造成的影响。

请参阅图11，其示出了本申请实施例还提供一种电子设备1100，该电子设备1100包括：一个或多个处理器1110、存储器1120、麦克风1130以及一个或多个应用程序，其中一个或多个应用程序被存储在存储器1120中并被配置为由一个或多个处理器1110执行，一个或多个程序配置用于执行上述的内存管理的方法。

处理器1110可以包括一个或者多个处理核。处理器1110利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器1120内的指令、程序、代码集或指令集，以及调用存储在存储器1120内的数据，执行电池管理系统的各种功能和处理数据。可选地，处理器1110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1110可集成中央处理器1110(Central Processing Unit，CPU)、图像处理器1110(Graphics ProcessingUnit，GPU)和调制解调器等中的一种或几种的组合。其中， CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1110中，其可以单独通过一块通信芯片进行实现。

存储器1120可以包括随机存储器1120(Random Access Memory，RAM)，也可以包括只读存储器1120(Read-Only Memory)。存储器1120可用于存储指令、程序、代码、代码集或指令集。存储器1120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储电子设备图在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图12，其示出了本申请实施例还提供一种计算机可读存储介质1200，该计算机可读存储介质1200中存储有计算机程序指令1210，计算机程序指令1210可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1200包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1200具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种基于声纹特征的电话场景音频获取与抗干扰处理方法，其特征在于，所述方法包括：

获取音频片段；

获取所述音频片段的混响时间特征、声纹特征和语音清晰度特征；

基于所述混响时间特征、所述声纹特征和所述语音清晰度特征，获取综合评价参数；

基于所述综合评价参数，确定所述音频片段是否为干扰音频片段；

若所述音频片段为所述干扰音频片段，则对所述音频片段进行抗干扰处理。

2.根据权利要求1所述的方法，其特征在于，所述基于所述混响时间特征、所述声纹特征和所述语音清晰度特征，获取综合评价参数，包括：

对所述混响时间特征进行第一标准化处理，得到标准混响时间特征；

获取所述声纹特征和预设声纹特征之间的声纹相似度，对所述声纹相似度进行第二标准化处理，得到标准声纹相似度；

对所述语音清晰度特征进行第三标准化处理，得到标准语音清晰度特征；

基于所述标准混响时间特征、所述标准声纹相似度和所述标准语音清晰度特征，获取所述综合评价参数。

3.根据权利要求2所述的方法，其特征在于，所述对所述混响时间特征进行第一标准化处理，得到标准混响时间特征，包括：

若所述混响时间特征小于第一混响时间特征值，则确定所述标准混响时间特征为第一混响时间预设值；

若所述混响时间特征大于或等于第二混响时间特征值，则确定所述标准混响时间特征为第二混响时间预设值，所述第一所述混响时间特征值小于所述第二所述混响时间特征值，所述第一混响时间预设值大于所述第二混响时间预设值；

若所述混响时间特征大于或等于所述第一混响时间特征值且小于所述第二混响时间特征值，则将所述混响时间特征映射到第一区间，得到所述标准混响时间特征，所述标准混响时间特征与所述混响时间特征之间呈负相关关系。

4.根据权利要求2所述的方法，其特征在于，所述对所述声纹相似度进行第二标准化处理，得到标准声纹相似度，包括：

若所述声纹相似度小于第一声纹相似度，则确定所述标准声纹相似度为第一声纹相似度预设值；

若所述声纹相似度大于或等于第二声纹相似度，则确定所述标准声纹相似度为第二声纹相似度预设值，所述第一声纹相似度小于所述第二声纹相似度，所述第一声纹相似度预设值小于所述第二声纹相似度预设值；

若所述声纹相似度大于或等于所述第一声纹相似度且小于所述第二声纹相似度，则将所述声纹相似度映射到第二区间，得到所述标准声纹相似度，所述标准声纹相似度与所述声纹相似度之间呈正相关关系。

5.根据权利要求2所述的方法，其特征在于，所述对所述语音清晰度特征进行第三标准化处理，得到标准语音清晰度特征，包括：

若所述语音清晰度特征小于第一语音清晰度特征值，则确定所述标准语音清晰度特征为第一语音清晰度预设值；

若所述语音清晰度特征大于或等于第二语音清晰度特征值，则确定所述标准语音清晰度特征为第二语音清晰度预设值，所述第一语音清晰度特征值小于所述第二语音清晰度特征值，所述第一语音清晰度预设值小于所述第二语音清晰度预设值；

若所述语音清晰度特征大于或等于所述第一语音清晰度特征值且小于所述第二语音清晰度特征值，则将所述语音清晰度特征映射到第三区间，得到所述标准语音清晰度特征，所述标准语音清晰度特征与所述语音清晰度特征之间呈正相关关系。

6.根据权利要求2所述的方法，其特征在于，所述基于所述标准混响时间特征、所述标准声纹相似度和所述标准语音清晰度特征，获取所述综合评价参数，包括：

将所述标准混响时间特征、所述标准声纹相似度和所述标准语音清晰度特征之间的乘积，确定为所述综合评价参数。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述混响时间特征的获取过程包括：

通过混响时间特征估计模型对将所述音频片段进行处理，得到所述混响时间特征，所述混响时间特征估计模型用于表征采用多个第一训练音频片段对第一神经网络进行训练得到的模型，多个所述第一训练音频片段被标注有实际混响时间特征。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述声纹特征的获取过程包括：

通过声纹特征估计模型对所述音频片段进行处理，得到所述音频片段的声纹特征，所述声纹特征估计模型用于表征采用多个第二训练音频片段对第二神经网络进行训练得到的模型，多个所述第二训练音频片段被标注有实际声纹特征。

9.根据权利要求1至6任一项所述的方法，其特征在于，所述获取所述音频片段的混响时间特征、声纹特征和语音清晰度特征，包括：

通过综合神经网络模型对所述音频片段进行处理，得到所述音频片段的混响时间特征、声纹特征和语音清晰度特征，所述综合神经网络模型用于表征采用多个第三训练音频片段对第三神经网络进行训练得到的模型，多个所述第三训练音频片段被标注有实际混响时间特征、实际声纹特征和实际语音清晰度特征。

10.根据权利要求9所述的方法，其特征在于，所述综合神经网络模型包括全连接网络，所述全连接网络中的输出层具有第一通道、第二通道和第三通道，所述通过综合神经网络模型对所述音频片段进行处理，得到所述音频片段的混响时间特征、声纹特征和语音清晰度特征，包括：

通过所述综合神经网络模型对所述音频片段进行处理，从所述输出层中第一通道获取所述混响时间特征，从所述输出层中第二通道获取所述语音清晰度特征，从所述输出层中第三通道获取所述声纹特征。

11.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述音频片段进行抗干扰处理，包括：

减小所述音频片段的响度特征。

12.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述音频片段进行抗干扰处理，包括：

基于所述综合评价参数，获取噪声估计值；

基于所述噪声估计值，获取信噪比估计值；

基于所述信噪比估计值和所述综合评价参数，获取语音存在概率；

基于所述语音存在概率和所述信噪比估计值，获取增益值；

基于所述增益值，对所述音频片段进行抗干扰处理。