CN117975971A

CN117975971A - 一种基于隐私保护的声纹年龄段估计方法及系统

Info

Publication number: CN117975971A
Application number: CN202410389361.3A
Authority: CN
Inventors: 林舒源; 盧明天; 翁健; 潘涛
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-05-03

Abstract

本发明公开了一种基于隐私保护的声纹年龄段估计方法及系统，该方法包括下述步骤：获取原始声纹并进行分帧处理，识别并标记原始声纹的敏感信息，进行脱敏处理并输出具有差分隐私噪声的声纹数据，基于多重编码器进行编码并进行维度叠加及卷积操作，将增强后的特征向量进行维度特征交互，得到维度扩展的特征向量，融合时域和空域信息得到融合特征向量，进行维度变换和非线性映射得到低维特征表示，利用残差链接整合低维特征表示和维度扩展的特征向量，得到用于年龄估计的特征表示，用于年龄估计的特征表示输入Softmax分类器得到声纹年龄段估计结果。本发明更精准地捕捉声音数据中的年龄相关特征，提高隐私条件下年龄段估计的鲁棒性和准确性。

Description

一种基于隐私保护的声纹年龄段估计方法及系统

技术领域

本发明涉及声纹识别技术领域，具体涉及一种基于隐私保护的声纹年龄段估计方法及系统。

背景技术

声纹识别技术的飞速发展给人们的生活带来了诸多便利，但也引发了人们对声音数据隐私保护和安全性的关切。作为是一种极具个人特征的生物数据，因此声纹隐私保护显得愈发至关重要。然而，传统的声纹识别方法通常需要使用个体的原始声音数据，这可能会带来隐私泄漏的风险。因此，在估计声纹中的年龄属性时，保护声纹中的个人隐私成为当下待解决的问题。

声纹年龄段估计常规流程主要基于声音数据的时域和频域特征提取，包括声音的频谱、声音强度、语速等特征的分析。随后，这些特征会被输入到机器学习或深度学习模型中，以建立与年龄之间的关系。这些模型经过充分训练后，可以对新的声音样本进行年龄属性估计，从而实现声纹年龄段估计任务。然而，在面对隐私保护条件下的声纹时，传统流程存在一定的局限性。例如，传统流程中的声纹属性估计主要集中在原始声音数据上，这可能导致潜在的隐私泄漏风险。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于隐私保护的声纹年龄段估计方法，针对在隐私条件下声纹估计年龄困难问题，本发明首先通过融合多级编码器来强化声纹特征的表达能力；其次，引入长短记忆力网络和注意力机制，对时域和空域进行年龄解耦，以更精准地捕捉声音数据中与年龄相关的特征，从而提升隐私条件下声纹年龄段估计的鲁棒性和准确性。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于隐私保护的声纹年龄段估计方法，包括下述步骤：

获取原始声纹并进行分帧处理；

构建敏感信息数据库，基于敏感信息数据库训练循环神经网络模型，基于训练后的循环神经网络模型识别原始声纹的敏感信息，标记原始声纹的敏感信息；

基于第一对抗生成网络对已标记敏感信息的原始声纹进行脱敏处理，得到脱敏后的声纹；

脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y；

声纹数据Y分别经过MFCC编码器、FDLP编码器、Wav2vec编码器得到特征向量、特征向量/>和特征向量/>；

将特征向量、特征向量/>和特征向量/>进行维度叠加及卷积操作，得到特征向量/>；

将特征向量进行注意力增强，得到增强后的特征向量；

将增强后的特征向量输入卷积神经网络进行维度特征交互，得到维度扩展的特征向量；

对维度扩展的特征向量进行时域信息建模，基于时域信息建模结果进行空域信息建模，基于残差网络融合时域和空域信息，得到融合特征向量；

对融合特征向量进行维度变换和非线性映射，得到低维特征表示；

利用残差链接整合低维特征表示及特征向量/>，得到用于年龄估计的特征表示/>；

将特征表示输入Softmax分类器，得到声纹年龄段估计结果。

作为优选的技术方案，基于第一对抗生成网络对原始声纹进行脱敏处理，得到脱敏后的声纹，具体表示为：

；

其中，表示脱敏后的声纹帧，/>表示第n帧的敏感声纹帧，/>表示第一对抗生成网络的第一生成器，/>表示第一生成器的参数，/>表示更新后的声纹数据集，/>表示通过循环神经网络模型提取的特征，/>是激活函数，/>表示第n帧声纹信号包含敏感信息的概率，/>表示第n帧是否包含敏感信息的判断，1表示包含敏感信息，0表示不包含，/>表示阈值。

作为优选的技术方案，脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y，具体表示为：

；

其中，Y表示具有差分隐私噪声的声纹数据，表示第二对抗生成网络的第二生成器，/>表示第二生成器的参数，/>为第一对抗生成网络的第一生成器的输出结果，/>表示服从差分隐私分布的噪声。

作为优选的技术方案，特征向量经过注意力增强得到增强后的特征向量，具体表示为：

；

其中，表示注意力机制中的权重矩阵，/>表示注意力权重的偏置项，/>表示激活函数，用于将注意力权重规范化，/>表示逐元素相乘。

作为优选的技术方案，对特征向量进行时域信息建模，基于时域信息建模结果进行空域信息建模，基于残差网络融合时域和空域信息，得到融合特征向量，具体包括：

基于LSTM网络对特征向量进行时域信息建模，表示为：

；

其中，表示LSTM网络输出的声纹特征向量；

基于Transformer模型对声纹特征向量进行空域信息建模，表示为：

；

其中，表示Transformer模型通过对特征进行加权而输出的分数；

基于残差网络融合时域和空域信息，得到融合特征向量，表示为：

；

其中，表示基于残差网络融合时域和空域信息的结果，表示加权矩阵，用于强调与年龄相关的特征维度，/>表示逐元素相乘，/>表示最终的融合特征向量。

本发明还提供一种基于隐私保护的声纹年龄段估计系统，包括：原始声纹获取模块、预处理模块、声纹隐私保护模块、差分隐私约束模块、隐私声纹特征提取模块、年龄特征解耦模块和年龄段估计模块；

所述原始声纹获取模块用于获取原始声纹；

所述预处理模块用于对原始声纹进行分帧处理；

所述声纹隐私保护模块包括声纹敏感信息标记单元和声纹信息脱敏单元；

所述声纹敏感信息标记单元用于构建敏感信息数据库，基于敏感信息数据库训练循环神经网络模型，基于训练后的循环神经网络模型识别原始声纹的敏感信息，标记原始声纹的敏感信息；

所述声纹信息脱敏单元用于基于第一对抗生成网络对已标记敏感信息的原始声纹进行脱敏处理，得到脱敏后的声纹；

所述差分隐私约束模块用于将脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y；

所述隐私声纹特征提取模块包括多重编码器、多编码器特征融合单元、注意力增强单元和特征维度扩展单元；

所述多重编码器包括MFCC编码器、FDLP编码器和Wav2vec编码器；

所述MFCC编码器、FDLP编码器、Wav2vec编码器将声纹数据Y编码得到特征向量、特征向量/>和特征向量/>；

所述多编码器特征融合单元用于将特征向量、特征向量/>和特征向量进行维度叠加及卷积操作，得到特征向量/>；

所述注意力增强单元用于将特征向量进行注意力增强，得到增强后的特征向量；

所述特征维度扩展单元用于将增强后的特征向量输入卷积神经网络进行维度特征交互，得到维度扩展的特征向量；

所述年龄特征解耦模块包括时域信息建模单元、空域信息建模单元、特征融合单元、低维转换单元和残差单元；

所述时域信息建模单元用于对维度扩展的特征向量进行时域信息建模；

所述空域信息建模单元用于基于时域信息建模结果进行空域信息建模；

所述特征融合单元用于基于残差网络融合时域和空域信息，得到融合特征向量；

所述低维转换单元用于对融合特征向量进行维度变换和非线性映射，得到低维特征表示；

所述残差单元用于利用残差链接整合低维特征表示及特征向量，得到用于年龄估计的特征表示/>；

所述年龄段估计模块用于将特征表示输入Softmax分类器，得到声纹年龄段估计结果。

作为优选的技术方案，所述声纹信息脱敏单元用于基于第一对抗生成网络对已标记敏感信息的原始声纹进行脱敏处理，得到脱敏后的声纹，具体表示为：

；

作为优选的技术方案，所述差分隐私约束模块用于将脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y，具体表示为：

；

作为优选的技术方案，所述注意力增强单元用于将特征向量经过注意力增强得到增强后的特征向量，具体表示为：

；

作为优选的技术方案，所述特征融合单元用于基于残差网络融合时域和空域信息，得到融合特征向量，具体包括：

基于LSTM网络对特征向量进行时域信息建模，表示为：

；

其中，表示LSTM网络输出的声纹特征向量；

；

本发明与现有技术相比，具有如下优点和有益效果：

（1）本发明利用对抗学习对声纹中的敏感信息进行脱敏处理，目的在于平衡隐私保护和声纹年龄段估计特征完整性，虽对声纹数据进行了隐私保护，但对年龄段估计的准确性影响较小，成功实现了隐私安全与声纹分析效能的平衡。

（2）本发明通过使用多级编码器、长短期记忆网络（LSTM）和注意力机制有效地在时间和空间域内解耦了年龄特征，更精准地捕捉声音数据中的年龄相关特征，提高了在隐私条件下年龄段估计的鲁棒性和准确性。

附图说明

图1为本发明基于隐私保护的声纹年龄段估计方法的流程示意图；

图2为本发明基于隐私保护的声纹年龄段估计系统的整体架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种基于隐私保护的声纹年龄段估计方法，该方法包括下述步骤：

S1：获取原始声纹并进行分帧处理；

S2：构建敏感信息数据库，基于敏感信息数据库训练循环神经网络模型，基于训练后的循环神经网络模型识别原始声纹的敏感信息，标记原始声纹的敏感信息；

S3：基于第一对抗生成网络对已标记敏感信息的原始声纹进行脱敏处理，得到脱敏后的声纹；

在本实施例中，基于第一对抗生成网络对原始声纹进行脱敏处理，得到脱敏后的声纹，具体表示为：

；

S4：脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y；

在本实施例中，脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y，具体表示为：

；

S5：声纹数据Y分别经过MFCC编码器、FDLP编码器、Wav2vec编码器得到特征向量、特征向量/>和特征向量/>；

S6：将特征向量、特征向量/>和特征向量/>进行维度叠加及卷积操作，得到特征向量/>；

S7：将特征向量进行注意力增强，得到增强后的特征向量；

在本实施例中，特征向量经过注意力增强得到增强后的特征向量，具体表示为：

；

S8：将增强后的特征向量输入卷积神经网络进行维度特征交互，得到维度扩展的特征向量；

S9：对维度扩展的特征向量进行时域信息建模，基于时域信息建模结果进行空域信息建模，基于残差网络融合时域和空域信息，得到融合特征向量，具体包括：

基于LSTM网络对特征向量进行时域信息建模，表示为：

；

其中，表示LSTM网络输出的声纹特征向量；

；

其中，表示基于残差网络融合时域和空域信息的结果，表示加权矩阵，用于强调与年龄相关的特征维度，/>表示逐元素相乘，/>表示最终的融合特征向量；

S10：对融合特征向量进行维度变换和非线性映射，得到低维特征表示；

S11：利用残差链接整合低维特征表示及特征向量/>，得到用于年龄估计的特征表示/>；

S12：将特征表示输入Softmax分类器，得到声纹年龄段估计结果。

实施例2

如图2所示，本实施例提供一种基于隐私保护的声纹年龄段估计系统，包括：原始声纹获取模块、预处理模块、声纹隐私保护模块、差分隐私约束模块、隐私声纹特征提取模块、年龄特征解耦模块和年龄段估计模块；

在本实施例中，原始声纹获取模块用于获取原始声纹X，预处理模块用于对原始声纹X进行分帧处理，得到对应的p个语音帧，表示为：

；

其中，表示在第n个帧上的声音信号，p代表总的帧数，/>；

声纹隐私保护模块使用差分隐私技术对声纹中的隐私信息加以保护，本实施例的声纹隐私保护模块包括声纹敏感信息标记单元和声纹信息脱敏单元，声纹敏感信息标记单元识别声纹中包含的敏感或隐私信息，例如个人身份、地址等，并为这些信息标记，以便声纹信息脱敏单元进行脱敏处理；

在本实施例中，声纹敏感信息标记单元用于构建敏感信息数据库，基于敏感信息数据库训练循环神经网络模型，基于训练后的循环神经网络模型识别原始声纹的敏感信息，标记原始声纹的敏感信息；

在本实施例中，在本实施例中，建立一个包含个人身份、地址等敏感信息的数据库，用于训练循环神经网络（RNN）模型，使其能够从声纹中识别敏感信息，RNN模型对声纹数据的每一帧进行特征提取，利用激活函数（如sigmoid）计算每一帧含有敏感信息的概率，通过比较这些概率值与预设阈值，判断得到每一帧的类型；

在本实施例中，声纹信息脱敏单元用于基于第一对抗生成网络对已标记敏感信息的原始声纹进行脱敏处理，得到脱敏后的声纹，以确保隐私数据在脱敏处理后仍然保持有效性；

在本实施例中，第一生成器通过在声纹帧中引入经过计算的噪声，以混淆原始声纹数据中的敏感特征，具体包括：

；

其中，表示脱敏后的声纹帧，/>表示第n帧的敏感声纹帧，/>表示第一对抗生成网络的第一生成器，/>表示第一生成器的参数，/>表示更新后的声纹数据集，包含替换了敏感帧/>后的新帧/>，而其他非敏感帧保持不变，/>表示通过循环神经网络模型提取的特征，/>是激活函数，/>表示第n帧声纹信号包含敏感信息的概率，/>表示第n帧是否包含敏感信息的判断，1表示包含敏感信息，0表示不包含，/>表示阈值。

在本实施例中，差分隐私约束模块用于将脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y；本实施例针对声纹信息脱敏单元的结果基于第二对抗生成网络注入噪声，对声纹引入差分隐私噪声，以确保声纹整体的隐私性；

在本实施例中，通过第二对抗生成网络的第二生成器进行处理，在训练过程中引入差分隐私约束，调整第二生成器的权重和参数，具体地，通过在第二对抗生成网络的第二生成器中引入差分隐私噪声的方式，对声纹数据进行微小的扰动，以达到声纹整体隐私的目的，具体表示为：

；

其中，Y表示具有差分隐私噪声的声纹数据，表示第二对抗生成网络的第二生成器，/>表示第二生成器的参数，/>为第一对抗生成网络的第一生成器的输出结果，/>表示服从差分隐私分布的噪声；

在本实施例中，隐私声纹特征提取模块包括多重编码器、多编码器特征融合单元、注意力增强单元和特征维度扩展单元；

在本实施例中，多重编码器包括MFCC编码器、FDLP编码器、Wav2vec编码器；

其中，MFCC编码器提取声纹基本频率特征，如音调和语气的变化，这些特征有助于捕捉声纹中的基本音色和音调变化；

在本实施例中，MFCC编码器用于捕获声音的音调和语气等基本频率特征，包括以下步骤：首先，将声音信号分成窗口帧，并减少频谱泄漏，然后进行快速傅立叶变换，得到功率谱；接下来，进行梅尔滤波器卷积，捕捉声音的频率特征；最后，对功率谱进行对数化处理和应用离散余弦变换（DCT），生成MFCC系数，代表每帧的声音频率特征；具体表示为：

；

其中，Y表示具有差分隐私噪声的声纹数据，表示对声音信号进行窗函数处理，FFT代表对窗处理后的信号进行快速傅里叶变换，/>是将FFT的结果通过梅尔滤波器组处理，/>是对对数能量谱进行离散余弦变换，得到最终的特征向量/>。

在本实施例中，FDLP编码器捕捉声纹频谱细节，如共振峰和高级频域特征，从而增强不同声纹之间的区分度；

在本实施例中，FDLP编码器通过对声音信号进行分帧处理，计算线性预测系数、自相关系数，并提取共振峰参数，这些参数有助于描述声音信号的频域特性，尤其是共振峰的位置和幅度，从而为声纹年龄段估计提供了重要的频域信息，具体表示为：

；

其中，Y表示具有差分隐私噪声的声纹数据，Y _frame代表对声纹数据Y进行分帧处理后的结果，LPC表示线性预测编码的结果，R代表自相关函数的计算结果，F _res表示共振峰参数的提取过程，这些参数详细描述了声音信号中共振峰的位置和幅度。

在本实施例中，Wav2vec编码器学习声纹高级语音特征，如语速、发音和说话方式等，来捕捉语音信号中的长程依赖关系，并将学习到的特征量化为特征信息；

在本实施例中，Wav2vec编码器使用自回归卷积神经网络（AR-CNN）以捕捉语音信号中的长程依赖关系，在特征量化步骤中，采用矢量量化的技术处理AR-CNN学习到的连续语音特征，将其转换为一系列离散的代码，这一过程通过建立一个矢量代码本，对特征空间进行分割，并将每一段连续的特征映射到最近的矢量代表（码字）上，实现特征的高效压缩。最终，这些离散代码被映射到一个固定大小的词汇表上，从而获得包含语速、发音和说话方式等信息的高级语音特征表示，为声纹年龄段估计提供了关键信息，具体表示为：

；

其中，Y表示具有差分隐私噪声的声纹数据，代表应用自回归卷积神经网络处理声纹数据Y，/>代表矢量量化过程，将AR-CNN学习到的连续特征转换为离散代码，代表最终得到的高级语音特征表示，它包含了语速、发音和说话方式等特征。

在本实施例中，多编码器特征融合单元进行多编码器特征融合，将MFCC编码器（13维）、FDLP编码器（24维）、和Wav2vec编码器（512维）的输出进行维度叠加，然后应用卷积操作，以融合各个方面的特征，最终输出一个512维的特征向量，表示为：

；

其中，代表13维的MFCC编码器输出，/>代表24维的FDLP编码器输出，代表512维的Wav2vec编码器输出，/>表示将不同编码器输出的特征向量进行维度叠加的操作，/>代表卷积操作，用于融合叠加后的特征向量，最终输出一个512维的特征向量/>；

在本实施例中，注意力增强单元通过注意力机制加强声音特征的关键部分，同时减弱噪声的干扰，使模型能够更集中地识别声音中的关键信息，从而提高声纹特征的区分度和可识别性；

在本实施例中，首先采用注意力机制对该特征向量中的每个维度进行加权处理，目的是为了强调那些与声纹年龄段估计最相关的特征，例如声纹的语速、音调和音色等关键特征，并抑制那些与年龄关联度较低的特征维度，比如背景噪声或非关键频段的信息，具体表示为：

；

其中，代表多个编码器融合后得到的特征向量，/>代表注意力机制中的权重矩阵，/>是注意力权重的偏置项，/>是一个激活函数，用于将注意力权重规范化，/>表示逐元素相乘；

在本实施例中，特征维度扩展单元进行特征维度扩展，通过卷积操作来使各个维度的特征交互，以更好地捕捉声音数据中的抽象特征以及关联性，输出一个512维的特征向量；

在本实施例中，针对注意力增强后的声纹特征使用卷积神经网络（CNN）进行维度特征交互，这里的CNN由多个卷积层构成，每个卷积层对特征向量进行局部区域的扫描，通过加权求和的方式提取局部特征。在此过程中，对特征向量中的每个局部区域进行详细分析，提取出更细致的声纹特征，如声波的微小波动、音调的细微变化等；经过卷积层处理后，这些局部特征被汇总，形成一个维度更高、信息更丰富的新特征向量，具体表示为：

；

其中，表示通过注意力机制增强后的特征向量，CNN表示卷积神经网络，/>是CNN处理后输出的512维特征向量；

在本实施例中，年龄特征解耦模块包括时域信息建模单元、空域信息建模单元、特征融合单元、低维转换单元和残差单元；

其中，时域信息建模单元将隐私声纹特征提取模块提取出的特征数据输入到长短时记忆网络中，基于LSTM网络首先对这些特征进行时间序列建模，通过内部循环结构捕捉声纹特征中的时间依赖性，例如声调的连续变化、语速的调整以及说话方式的特征，在此基础上，LSTM的门控单元（包括遗忘门、输入门和输出门）起到关键作用，遗忘门决定哪些历史信息是无关紧要的并应被忽略，而输入门则将当前时间点的新信息添加到网络的状态中，最后，输出门根据声纹特征的时序关联性，选择性地输出某些特征，具体表示为：

；

其中，是LSTM网络输出的声纹特征向量，可以表示为：

；

其中，i _t代表输入门，用于更新年龄相关的新特征；代表遗忘门，用于抛弃过时或对于年龄不相关的特征；/>代表输出门，用于提取对年龄判断有用的特征；/>代表单元候选值，用于处理新输入的声纹数据；/>代表单元状态，用于维持对声音特征的长期记忆；代表隐藏状态，最终，LSTM网络的输出/>是由各个时间步的隐藏状态/>组成的序列；

空域信息建模单元使用Transformer模型来处理LSTM网络揭示的时间序列特征，在时域建模捕捉到的特征，如声调的连续变化和语速的调整，被空域信息建模单元进一步分析，并且这些注意力分数被用于LSTM网络中的特征融合过程中，强化与年龄段估计最相关的特征。这样，模型允许在更广泛的上下文中评估和整合关键特征，从而为年龄特征提供更精细的声纹特征映射，确保年龄估计的准确性和深度；空域信息建模单元有助于捕捉声音特征的高级关联性，从而更好地分析和解耦年龄信息，具体表示为：

；

其中，是Transformer模型通过对特征进行加权而输出的分数，Transformer模型可以表示为：

；

其中，d _k表示查询和键的向量维度；表示查询和键的内积，用于计算注意力分数；V是通过线性变换得到的数值向量；T表示矩阵的转置操作，将矩阵K转置，/>是查询矩阵，K是键矩阵，V是值矩阵，W权重矩阵。通过这种方式，有助于模型在大量声纹特征中识别出对年龄段判断最有影响的特征，提升年龄估计的精确度。

为了结合时域和空域信息，特征融合单元采用残差网络（Residual Network）对不同的结构进行增强关键信息的传递和融合，通过残差连接强化模型的学习能力，确保时域和空域信息在融合过程中的关键信息得以保留，这样的融合策略突出了与年龄相关的声纹特征，如语音的稳定性和成熟度，从而提高声纹年龄段估计的准确性和模型的泛化能力，具体表示为：

；

其中，表示通过残差网络融合时域和空域信息的结果，代表一个加权矩阵，用于强调与年龄相关的特征维度，/>代表最终的融合特征向量。

在本实施例中，使用多层感知机（MLP）对最终的融合特征向量进行处理，多层感知机（MLP）由若干全连接层组成，每个连接层后使用非线性激活函数，如ReLU；在此过程中，经过维度变换和非线性映射，多层感知机（MLP）有效地将高维的融合特征转换为更适合年龄段分类任务的低维表示，这一低维特征空间中的点对年龄特征的敏感性更高，具体表示为：

；

其中，表示多层感知机处理后的低维特征；

在本实施例中，残差单元利用残差链接来整合声纹特征提取模型的结果和使用多层感知机的处理结果，残差链接通过直接连接输入与输出，使得模型在进行深层次特征学习时可以保留原始信号的信息，解决了梯度消失的问题，增强了模型的学习能力，从而提升了声纹年龄估计模型的准确性和泛化能力，具体表示为：

；

其中，是最终用于年龄估计的特征表示，公式内的加法操作代表残差链接，直接将隐私声纹特征提取模块的输出与MLP的处理结果相加，以此方式保留原始信号信息，同时加入了深层次的特征学习结果；

在本实施例中，年龄段估计模块进行声纹特征年龄段估计，结合残差单元输出的用于年龄估计的特征表示，利用Softmax分类器产生具体年龄段的概率预测；

具体地，采用高度优化的特征映射来细化年龄预测，经过Softmax函数处理后，输出一个概率分布，直接指示声纹对应于各个年龄段的可能性，完成从声纹到年龄段的精确映射，输出年龄段估计结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于隐私保护的声纹年龄段估计方法，其特征在于，包括下述步骤：

获取原始声纹并进行分帧处理；

将特征向量进行注意力增强，得到增强后的特征向量；

将特征表示输入Softmax分类器，得到声纹年龄段估计结果。

2.根据权利要求1所述的基于隐私保护的声纹年龄段估计方法，其特征在于，基于第一对抗生成网络对原始声纹进行脱敏处理，得到脱敏后的声纹，具体表示为：

；

3.根据权利要求1所述的基于隐私保护的声纹年龄段估计方法，其特征在于，脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y，具体表示为：

；

其中，Y表示具有差分隐私噪声的声纹数据，表示第二对抗生成网络的第二生成器，表示第二生成器的参数，/>为第一对抗生成网络的第一生成器的输出结果，/>表示服从差分隐私分布的噪声。

4.根据权利要求1所述的基于隐私保护的声纹年龄段估计方法，其特征在于，特征向量经过注意力增强得到增强后的特征向量，具体表示为：

；

5.根据权利要求1所述的基于隐私保护的声纹年龄段估计方法，其特征在于，对特征向量进行时域信息建模，基于时域信息建模结果进行空域信息建模，基于残差网络融合时域和空域信息，得到融合特征向量，具体包括：

基于LSTM网络对特征向量进行时域信息建模，表示为：

；

其中，表示LSTM网络输出的声纹特征向量；

；

6.一种基于隐私保护的声纹年龄段估计系统，其特征在于，包括：原始声纹获取模块、预处理模块、声纹隐私保护模块、差分隐私约束模块、隐私声纹特征提取模块、年龄特征解耦模块和年龄段估计模块；

所述原始声纹获取模块用于获取原始声纹；

所述预处理模块用于对原始声纹进行分帧处理；

所述多重编码器包括MFCC编码器、FDLP编码器和Wav2vec编码器；

所述多编码器特征融合单元用于将特征向量、特征向量/>和特征向量/>进行维度叠加及卷积操作，得到特征向量/>；

所述残差单元用于利用残差链接整合低维特征表示及特征向量/>，得到用于年龄估计的特征表示/>；

7.根据权利要求6所述基于隐私保护的声纹年龄段估计系统，其特征在于，所述声纹信息脱敏单元用于基于第一对抗生成网络对已标记敏感信息的原始声纹进行脱敏处理，得到脱敏后的声纹，具体表示为：

；

8.根据权利要求6所述基于隐私保护的声纹年龄段估计系统，其特征在于，所述差分隐私约束模块用于将脱敏后的声纹输入第二对抗生成网络，基于差分隐私约束进行训练，输出具有差分隐私噪声的声纹数据Y，具体表示为：

；

9.根据权利要求6所述基于隐私保护的声纹年龄段估计系统，其特征在于，所述注意力增强单元用于将特征向量经过注意力增强得到增强后的特征向量，具体表示为：

；

10.根据权利要求6所述基于隐私保护的声纹年龄段估计系统，其特征在于，所述特征融合单元用于基于残差网络融合时域和空域信息，得到融合特征向量，具体包括：

基于LSTM网络对特征向量进行时域信息建模，表示为：

；

其中，表示LSTM网络输出的声纹特征向量；

；