CN113179157A

CN113179157A - 基于深度学习的文本相关声纹生物密钥生成方法

Info

Publication number: CN113179157A
Application number: CN202110348221.8A
Authority: CN
Inventors: 吴震东; 周昊文
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-27
Anticipated expiration: 2041-03-31
Also published as: CN113179157B

Abstract

本发明公开基于深度学习的文本相关声纹生物密钥生成方法。利用经典声纹信号处理方法与针对声纹特征图像的深度神经网络处理方法相结合，实现了文本相关的声纹信号的稳定特征提取、特征序列稳定等系列操作，更为精准地提取话者不同样本的稳定特征分量，并通过声纹密钥深度神经网络的层层处理，进一步稳定声纹特征于特征值，最后通过声纹密钥模糊提取器，实现正常文本相关语音高强度声纹密钥序列生成，所生成的声纹生物密钥长度可大于512bit。本发明不存在需记录的生物特征模板信息，降低了隐私泄露的风险，同时用户无需高强度的记忆即可生成高安全性的密钥。

Description

基于深度学习的文本相关声纹生物密钥生成方法

技术领域

本发明属于信息安全技术领域，具体涉及一种从人类声纹中经由深度学习生成生物密钥的方法。生成的密钥即可用于身份认证，也可用于加密，可以理解为网络安全中泛在加密技术的一种。

背景技术

声纹识别技术是现今比较成熟的生物特征识别技术，在低噪音环境中声纹识别准确率可达到95％以上。基于声纹的身份认证技术，其基本方法为：1)采集用户语音信号，经语音信号处理提取用户声纹特征，生成声纹特征模板，存储在本地安全域或远端网络认证服务器中；2)当某用户需要进行身份认证时，再次采集用户语音信号，提取用户声纹特征；3)将用户声纹特征与存储的相应用户声纹特征模板进行比对，一致则认证通过，不一致则认证失败。由于本地安全域存在被读取的可能，认证服务器一般不是可信第三方，使得存储的声纹特征模板的安全性受到质疑，一般认为目前的生物特征认证系统设计存在较为严重的隐私安全问题。

现有的声纹特征隐私保护方案主要集中在声纹特征模板保护方面。模板保护一般采用对特征模板进行函数运算产生新的特征模板的方法来保护生物特征原始信息，要求由新的特征模板一般难以推知原始特征信息。模板变形、模糊金库等方法均可以归入此类方法。模板保护方法在使用过程中存在识别准确率下降，原始特征信息依然存在被恢复的可能等问题。声纹生物密钥技术直接从声纹特征中获取高强度的稳定的声纹密钥序列，可直接参与加密运算，亦可用于身份特征识别，可以扩展声纹技术在信息安全领域的应用范围。

现有的声纹生物密钥生成技术主要有：(1)中国专利号201410074511.8公开了“一种人类声纹生物密钥生成方法”，方法将声纹特征序列向高维空间中投影，在高维空间中将特征序列稳定到可接受的波动范围内，再对稳定后的特征序列编码，从编码中提取生物密钥。该方法可以对基于MFCC的声纹特征序列起到一定的稳定效果，但由于基于MFCC的声纹特征受环境、发声状态等因素影响较大，使得单纯依靠MFCC的声纹特征的高维空间投影方法，密钥生成的准确率和强度均不够高，一般能提取的稳定比特序列长度不足256bit。中国发明专利ZL201110003202.8基于声纹的文档加密及解密方法，提出了一个从声纹信息中提取稳定密钥序列的方案。但是该方案仅用棋盘法稳定声纹特征值，稳定效果有限。并且棋盘法事实是通过缩小编码空间来稳定特征值，如1024的值空间映射为16的值空间，这使得密钥序列的长度缩短，降低了安全性。

发明内容

本发明的目的是针对现有的文本相关声纹生物密钥生成方法的不足，提出了一种基于深度学习的文本相关声纹生物密钥生成方法。

基于深度学习的文本相关声纹生物密钥生成分两部分，第一部分为声纹生物密钥训练部分，第二部分为声纹生物密钥提取部分。

所述声纹生物密钥训练部分具体步骤为：

步骤(1)、获取文本相关内容的纯净训练语音数据；

步骤(2)、对步骤(1)纯净训练语音数据进行第1阶段预处理，具体是对步骤(1)纯净训练语音数据提取MFCC系数，并利用上述MFCC系数进行混合数为N的高斯混合模型训练；

所述的MFCC系数提取方法为现有常规技术。

所述高斯混合模型由N个高维高斯分布组成，N＝8～32，可由用户根据经验选定；每一个高斯分布的均值向量组成N×nx维的矩阵，将N×nx维的矩阵归一化至取值为[0,255]的图像灰度矩阵，即声纹特征图像1，其中nx为MFCC系数个数，一般取20。

高斯混合模型对应每一个高维高斯分布有一个权值，组合在一起为1×N维的权值向量λ；同时在用户端存储λ。

步骤(3)、对步骤(1)纯净训练语音数据进行第2阶段预处理，具体是对步骤(1)纯净训练语音数据生成文本相关声纹语谱图，并对上述文本相关声纹语谱图进行盲对齐与统一图像尺寸操作(一般取300×200～500×300)，获得声纹特征图像2。

步骤(4)、将声纹特征图像1、2进行拼接，获得声纹特征图像3；基于声纹特征图像3构建声纹密钥深度神经网络训练集合L1。

步骤(5)、构造声纹密钥深度神经网络，并利用训练集合L1进行训练

所述的声纹密钥深度神经网络包括依次级联的声纹稳定特征提取器、声纹生物密钥稳定器、声纹生物密钥提取器；

5-1构造声纹稳定特征提取器M1，其输入为声纹特征图像3，输出为声纹特征图像4；

5-2构造声纹生物密钥稳定器M2，其输入为声纹稳定特征提取器M1输出的声纹特征图像4，输出为声纹生物特征序列L2；

5-3构造声纹生物密钥提取器M3，其输入为声纹生物密钥稳定器M2输出的声纹生物特征序列L2，输出为声纹生物密钥。

声纹生物密钥提取部分包括声纹生物特征预处理、声纹稳定特征提取、声纹生物密钥稳定、声纹生物密钥提取，具体步骤为：

步骤(1)、获取与训练阶段文本相关内容一致的纯净测试语音数据；

步骤(2)、对步骤(1)测试语音数据进行第1阶段预处理，提取出MFCC系数；依据声纹生物密钥训练时存储的λ，训练GMM高斯混合模型，其中模型的混合数阶数N与声纹生物密钥训练时一致。取GMM高斯混合模型的每一个高斯分布的均值向量，组成N×nx维的矩阵，将矩阵用训练阶段步骤3的归一化方法归一化为[0,255]的图像灰度矩阵，获得声纹特征图像a1。

步骤(3)、将步骤(1)测试语音数据进行第2阶段预处理，生成文本相关声纹语谱图；对文本相关声纹语谱图进行盲对齐与统一图像尺寸操作，尺寸与训练阶段确定的尺寸相同，获得声纹特征图像a2。

步骤(4)、将声纹特征图像a1、a2进行拼接，获得声纹特征图像a3；

步骤(5)、用训练好的声纹密钥深度神经网络处理声纹特征图像a3，生成声纹生物密钥。

本发明的另一个目的是提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述的方法。

本发明的又一个目的是提供一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述的方法。

本发明提出了一种基于深度学习的声纹生物密钥生成方法。本发明利用经典声纹信号处理方法与针对声纹特征图像的深度神经网络处理方法相结合，实现了文本相关的声纹信号的稳定特征提取、特征序列稳定等系列操作，与现有经典的声纹模型系数密钥提取方法比较，可以更为精准地提取话者不同样本的稳定特征分量，并通过声纹密钥深度神经网络的层层处理，进一步稳定声纹特征于特征值，最后通过声纹密钥模糊提取器，实现正常文本相关语音高强度声纹密钥序列生成，所生成的声纹生物密钥长度可大于512bit。本发明不存在需记录的生物特征模板信息，降低了隐私泄露的风险，同时用户无需高强度的记忆即可生成高安全性的密钥，该密钥可用于现有的公私钥、对称加密等操作，能够为现有的基于人类声纹的身份认证技术、泛在加密技术提供一种新的认证模式与加密技术，扩展了声纹在信息安全领域内的应用范围，提高了声纹生物特征使用的安全性和灵活性。

附图说明

图1为基于深度学习的文本相关声纹生物密钥生成框图。

图2为Mel频率倒谱系数计算流程图。

图3为GMM高斯混合模型示意图。

图4为声纹语谱图盲对齐示意图。

图5为声纹稳定特征提取器M1结构图。

图6为声纹生物密钥稳定器M2结构图。

具体实施方式

下面结合附图对本发明作进一步说明。

虽然在低噪音环境中声纹识别准确率可达到95％以上，但是直接从声纹中提取生物密钥依然存在诸多困难。声纹生物特征是依概率进行识别的，从语音信号中提取的声纹特征存在很大的波动性。如果不作处理，直接比较两组声纹特征数字序列，大于99％的概率没有一个数字是相同的。现有的稳定声纹特征数字序列的方法主要是棋盘法和高维空间矩阵投影法，但其稳定效果均有限，提取声纹生物密钥的成功率偏低。针对已有技术的不足，本发明提出了一种基于深度神经网络编码的文本相关声纹生物密钥生成方法，可使声纹生物密钥提取成功率达到90％以上。

本发明分二部分，声纹生物密钥训练部分与声纹生物密钥提取部分。

声纹生物密钥训练、提取的整体流程图如图1所示，声纹生物密钥训练部分的具体实施步骤为：

步骤(1)、用户确定文本相关内容，用正常语速与音量读出文本内容，录取语音s1秒以上，s1一般取10～20，若叙述一遍文本内容录取的语音<s1秒，则重复叙述文本内容直至录取的语音达到s1秒以上。

步骤(2)、对录取的语音信号进行第1阶段预处理，从录取语音中提取MFCC系数(Mel频率倒谱系数)，如图2所示，具体方法为：

2-1、对步骤(1)获得的语音信号进行预增强(Pre-Emphasis)

以S1(n)(n＝0，1，…，N-1)表示语音时域信号，N表示离散时间序列个数。

预增强公式为：

S(n)＝S1(n)–a×S1(n-1)

其中0.9<a<1.0，表示加重系数。

2-2、对预增强后的语音信号进行音框化(Framing)

音框化即对语音信号分帧，帧长一般取为20～50毫秒。

2-3、对音框化后的语音信号进行汉明窗(Hamming Windowing)处理

假设音框化后的信号为S(n)，n＝0，1，…，N-1，那么乘上汉明窗后为:

S'(n)＝S(n)*w(n)

其中w(n)表示汉明窗，a为汉明窗修正系数，一般取0.46。

2-4、对汉明窗处理后的语音信号S'(n)进行快速傅立叶转换(FFT)，得到线性频谱X(k)。

所述的快速傅立叶转换(FFT)为基2FFT变换。

2-5、对语音信号的线性频谱采用三角带通滤波器(Triangle Filters)进行滤波，得到每个滤波器输出的对数能量z(m),m＝0,1,…,Ms-1，计算如下：

其中H_m(k)为第m个梅尔尺度的三角形滤波器的频率响应，Ns为语音信号的点数，一般取256，Ms为三角带通滤波器个数，一般取20，X(k)表示第k个语音信号的线性频谱。

2-6、对对数能量进行离散余弦转换(DCT)，获得DCT系数数组r[20]，r[]＝dct(z[])；

dct()变换公式为

其中r[]表示一帧语音信号的MFCC参数，一般为20个，k1取值0～19。D＝20。

MFCC系数计算方法为语音信号处理领域通用算法。

2-7、用MFCC系数训练用户GMM高斯混合模型，取混合数为8～32阶，阶数可由用户根据经验选定，记为N。GMM高斯混合模型如图3所示。图中有N个混合数，每个混合数对应一个高维高斯分布，维数为MFCC参数个数，一般为20；μ_i为高斯分布的均值向量，∑_i为高维高斯分布的协方差矩阵，p_i为对应高斯分布在整个GMM高斯混合模型中所占的比例权值，∑p_i＝1。GMM训练方法采用语音信号处理领域通用算法。

2-8、混合数为N的高斯混合模型由N个高维高斯分布组成，取每一个高斯分布的均值向量，组成N×20维的矩阵，20为MFCC系数个数，将N×20维的矩阵归一化至取值为[0,255]的图像灰度矩阵，即声纹特征图像1。归一化可采用本领域的通用方法，归一化函数f也可采用如下设计：

其中，α为MFCC系数值域的最大值减去最小值，x0为MFCC系数取值的最小值，x1取遍N×20维矩阵的每一个分量，

为向下取整运算符；

高斯混合模型对应每一个高维高斯分布有一个权值，组合在一起为1×N维的权值向量，记为λ，在用户端存储λ。

步骤(3)、对步骤1录取语音进行第2阶段预处理；

3-1、生成文本相关声纹语谱图；用时间n作为时间轴坐标,k作为频谱轴坐标,将|X(n,k)|²的值表示为灰度级，显示在相应的坐标点位置上，即构成了声纹语谱图。X(n,k)为第n段语音帧的频谱能量密度函数，是对语音时域信号S’(n)实施基2快速傅立叶变换(FFT变换)得到的线性频谱，基2FFT变换为本领域内通用算法，k对应频谱段，每一段语音帧对应了时间轴上的一个时间片。通过变换10log₁₀(|X(n,k)|²)得到语谱图的dB表示。

3-2、对上述声纹语谱进行图盲对齐与统一图像尺寸操作，分为图像宽度尺寸统一、标志点定位、图像平移长度重整3部分；标志点定位方法如图4所示，具体为：

1)声纹语谱图宽度对应人类语音的频率取值范围，一般为8000Hz，可采用双线性插值等领域内通用的图像缩放方法将所有生成的声纹语谱图宽度缩放到统一尺寸，一般为200～300像素。

2)采用CNN深网模型G1寻找声纹语谱图标志点位置；确定声纹语谱图标志点的平移目标位置，一般为图像的中心点位置，将声纹语谱图进行整体平移，使声纹语谱图标志点与平移目标位置重合；

3)采用CNN深网模型G2、G3寻找声纹语谱图起始点和终止点位置；统一声纹语谱图的长度尺寸，采用双线性插值等领域内通用的图像缩放方法将声纹语谱图标志点以左和以右2部分分别缩放到统一尺寸，完成声纹语谱图盲对齐操作。获得声纹特征图像2。

所述的CNN深网模型G1、G2、G3可采用现有成熟的用于图像分类的深网模型，如Resnet模型，以声纹语谱图为输入，声纹语谱图标志点、起始点和终止点为输出；模型G1、G2、G3使用滑动窗口法识别标志点、起始点和终止点；

所述的CNN深网模型G1、G2、G3的训练过程：

1)制作数据集：

一类是带有标签的声纹语谱图标志点、起始点和终止点区域图像集：标志点、起始点和终止点区域由用户依据本人声纹语谱图特点进行选择，选取标准如下：标志点、起始点和终止点区域固定形状和大小，其内部的各频段的能量变化较为剧烈；标志点区域一般选取声纹语谱图中心点区域，长宽为d1、d2的矩形，如图4所示，起始点和终止点区域在图像的起始和结束部分选取，长宽为d1、d2的矩形；标志点、起始点和终止点区域图像集数量分别达到图像集总数量的

λ由用户定义，一般取1～2；

另一类是声纹语谱图其他区域的图像集，即非标志点、起始点和终止点区域，长宽与标志点、起始点和终止点区域设置相同，数量与标志点、起始点和终止点区域图像集大致相当；为两类图像集分别打上分类标签，标志点、起始点和终止点各自与其他区域图像集一起单独制作1个训练数据集，共3个训练数据集，分别对应模型G1、G2、G3的训练；

2)将构建好的3个训练数据集分别带入到CNN深网模型G1、G2、G3进行训练，让模型能够识别声纹标志点、起始点和终止点区域和其他区域，识别的准确率>θ1；θ1为用户定义的准确率阈值，如95％；

3)训练过程中采用Softmax输出+交叉熵的方式；

模型G1、G2、G3进行二分类判别，Softmax输出为y＝{y₁,y₂}，其中

z₁,z₂为模型全连接层输出结节输出的值；

损失函数设置为交叉熵损失函数

其中t_i表示样本属于i类的概率，y_i为y₁,y₂；

4)使用滑动窗口法识别标志点、起始点和终止点；从左至右遍历声纹语谱图的每一个长宽与标志点、起始点和终止点区域设置相同的区域，由模型G1、G2、G3判断该区域是不是声纹标志点、起始点和终止点区域；如找到标志点、起始点和终止点区域，则将声纹语谱图进行平移和缩放，使声纹标志点区域的中心点与平移目标位置点重合，完成声纹语谱图盲对齐操作，获得声纹特征图像2；否则判定未找到声纹标志点、起始点和终止点区域，舍弃该幅声纹图像。

步骤(4)、将声纹特征图像1、2进行拼接，获得声纹特征图像3，领域内通用的图像拼接方法均可使用；基于声纹特征图像3构建声纹密钥深度神经网络训练集合L1。

所述的声纹密钥深度神经网络包括串联的声纹稳定特征提取器、声纹生物密钥稳定器、声纹生物密钥提取器；

声纹稳定特征提取器M1由深度神经网络学习模型、声纹稳定特征选择器组成；

所述的深度神经网络学习模型可采用现有成熟的ResNet、DenseNet等模型，在模型经训练集L1训练稳定后，移除全连接层，用声纹稳定特征选择器替换全连接层，如图4所示；

所述的声纹稳定特征选择器用于从深度神经网络学习模型输出的所有特征图，选择拼接为一张输出特征图。

将训练集L1中的训练图片经步骤5-1处理后得到的输出特征图组成集合U，其中图片集为U＝(U₁,U₂,...,U_i,...,U_n1)，U_i为单张输出特征图，n1为输出特征图的数量，所有图片大小均相同；像素点集

p_i,j表示第i张特征图中第j个位置的单个像素点，每张特征图有m1个像素点，共n1×m1个像素点；然后从像素点集P中选出取值更趋稳定的像素点集P'，由像素点集P'整理为声纹特征图像4：

所述从像素点集P中选出取值更趋稳定的像素点集P'具体是：

a)根据公式(1)获得特征图U_i在j位置处的像素值p_i,j的绝对误差R(p_i,j)，如果R(p_i,j)＜Δ1则将像素位置(i,j)存入队列，反之判断像素位置(i,j)是否已存在于队列中，若存在于队列中则执行步骤b)；若不存在于队列中，则将像素位置(i,j)加入队列，并计算队列中所有像素点值的方差δ，若δ≥Δ2，则将像素位置(i,j)从队列中删除，则执行步骤b)；

b)继续遍历i、j，选择一个新的像素点位置，返回步骤a)；直至i＝n1,j＝m1时迭代结束，将队列中存放的所有像素位置对应的像素点组成像素点集P'；

其中

为像素点集P中j列的所有像素点的均值，p_i,j表示特征图U_i在j位置处的像素值，Δ1、Δ2均为人为定义的阈值。

声纹生物密钥稳定器M2以现有成熟的具备编码-解码(Encode-Decode)以及跳跃连接(Skip Connection)结构特点的Unet网络模型为基础，模型的基本构造为多层编码-解码模块的堆叠，编码采用卷积加下采样操作，解码采用上采样加卷积操作；

作为优选，Unet网络的跳跃连接采用神经连接控制(Neural connectioncontrol，NCC)结构；

NCC将流经该网络的原始数据的特征保留；保留的原始数据特征信息将参与到解码运算中。

NCC采用h层(h一般取1～3)神经元连接网络结构构成，原始数据作为NCC结构的输入数据，作为第一层神经元的输入，第一层神经元的输出作为连接到的下一层神经元的输入，最后一层神经元的输出为NCC结构的输出，即保留的特征信息。

单层神经元的计算过程如下：

X_i＝σ(W_i*X_i-1+b_i)

其中，i表示当前层为第i层神经连接网络，若i为1，则X_i-1即为原始数据，若1<i<h，则X_i-1为上一层神经元的输出结果，若i＝h，X_i为NCC结构的输出；W_i为第i层神经连接网络学到的权值，b_i为第i层神经连接网络的偏置值，σ为激活函数。

Unet网络处理后的输出为指静脉生物特征序列L2。

经过指纹特征稳定器M2处理后的序列向量L2一般依然有一定数量的数值是不稳定的，用指纹密钥提取器M3提取稳定的指纹密钥序列。M3的构造可以使用领域内通用的模糊提取器提取指纹生物密钥。也可以采用Shamir门限秘密共享方法进行密钥的模糊提取，具体方法为：

生成阶段：设定参数n2，t1，bx，其中参数n2表示从序列向量L2中选取的子序列的个数，bx表示选取的子序列的长度，子序列为连续的数字序列；参数t1表示阈值，当有t1个子序列成功匹配时即可准确提取出密钥。

(1)构造一个多项式，使Output与多项式常数项a₀绑定，a₀视为密钥

F(x)＝a_t1-1x^t1-1+...+a₂x²+a₁x¹+a₀mod(p),a₀＝Output

其中p为素数，系数a_t1-1,...a₂,a₁随机选取，x∈Z_p，Z_p为模p剩余系域。

(2)从训练阶段的指纹密钥稳定器M2处理后的序列向量L2中取n2块比特长为bx的子序列1≤t1≤n2，将n2个子序列作为多项式的输入x，得到对应的F(M_i)，记录F(M_i)、p与loc_i(i＝1,2,...,n2)，其中loc_i表示选取的第i个子序列M_i的第一位在整个序列中的索引值。供密钥提取阶段使用。

提取阶段：

当x＝0时F(0)＝a₀＝Output，即可恢复出密钥。根据记录的n2个索引值选取n2块bx比特长的子序列Q_i，将(Q_i,F(M_i))及x＝0代入下式，若其中有t1(1≤t1≤n2)块Q_i与M_i相等即可得到Output＝a0，即为指纹生物密钥。

声纹生物密钥训练完成。

声纹生物密钥提取部分由：声纹生物特征预处理、声纹稳定特征提取、声纹生物密钥稳定、声纹生物密钥提取4部分顺次连接组成。具体步骤为：

步骤(1)、用户用正常语速与音量读出训练阶段确定的文本相关内容，录取语音s2秒以上，s2一般取3～6，若叙述一遍文本内容录取的语音<s2秒，则重复叙述文本内容直至录取的语音达到s2秒以上。

步骤(2)、对录取的语音信号进行第1阶段预处理，从录取语音中提取MFCC系数(Mel频率倒谱系数)；依据声纹生物密钥训练时存储的λ，训练用户GMM高斯混合模型，取混合数阶数与声纹生物密钥训练时一致，记为N。取GMM高斯混合模型的每一个高斯分布的均值向量，组成N×nx维的矩阵，将矩阵用训练阶段步骤3的归一化方法归一化为[0,255]的图像灰度矩阵，获得声纹特征图像a1。

步骤(3)、将用户输入语音进行第2阶段预处理，生成文本相关声纹语谱图；对语谱图进行盲对齐与统一图像尺寸操作，尺寸与训练阶段确定的尺寸相同，获得声纹特征图像a2。

步骤(5)、用声纹密钥深度神经网络处理声纹特征图像a3，生成声纹生物密钥。

本技术领域中的普通技术人员应当认识到，以上实施例仅是用来说明本发明，而并非作为对本发明的限定，只要在本发明的实质范围内，对以上实施例的变化、变型都将落在本发明的保护范围。

Claims

1.基于深度学习的文本相关声纹生物密钥生成方法，其特征在于包括声纹生物密钥训练部分和声纹生物密钥提取部分；

所述声纹生物密钥训练部分具体步骤为：

步骤(1)、获取文本相关内容的纯净训练语音数据；

所述高斯混合模型由N个高维高斯分布组成；每一个高斯分布的均值向量组成N×nx维的矩阵，将N×nx维的矩阵归一化至取值为[0,255]的图像灰度矩阵，即声纹特征图像1，其中nx为MFCC系数个数；

高斯混合模型对应每一个高维高斯分布有一个权值，组合在一起为1×N维的权值向量λ；同时在用户端存储λ；

步骤(3)、对步骤(1)纯净训练语音数据进行第2阶段预处理，具体是对步骤(1)纯净训练语音数据生成文本相关声纹语谱图，并对上述文本相关声纹语谱图进行盲对齐与统一图像尺寸操作，获得声纹特征图像2；

步骤(4)、将声纹特征图像1、2进行拼接，获得声纹特征图像3；基于声纹特征图像3构建声纹密钥深度神经网络训练集合L1；

2.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于声纹稳定特征提取器M1包括深度神经网络学习模型、声纹稳定特征选择器；

所述的深度神经网络学习模型采用现有ResNet或DenseNet模型，在模型经训练集L1训练稳定后，移除全连接层，用声纹稳定特征选择器替换全连接层；

所述的声纹稳定特征选择器M1用于从深度神经网络学习模型输出的所有特征图，选择拼接为一张输出特征图。

3.根据权利要求2所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于将训练集L1中基于声纹特征图像3经深度神经网络学习模型、声纹稳定特征选择器处理后得到的输出特征图组成集合U，其中图片集为U＝(U₁,U₂,...,U_i,...,U_n1)，U_i为单张输出特征图，n1为输出特征图的数量，所有图片大小均相同；像素点集

所述从像素点集P中选出取值更趋稳定的像素点集P'具体是：

a)根据公式(1)获得特征图U_i在j位置处的像素值p_i,j的绝对误差R(p_i,j)，如果R(p_i,j)＜β1则将像素位置(i,j)存入队列，反之判断像素位置(i,j)是否已存在于队列中，若存在于队列中则执行步骤b)；若不存在于队列中，则将像素位置(i,j)加入队列，并计算队列中所有像素点值的方差δ，若δ≥β2，则将像素位置(i,j)从队列中删除，则执行步骤b)；

其中

为像素点集P中j列的所有像素点的均值，p_i,j表示特征图U_i在j位置处的像素值，β1、β2均为人为定义的阈值。

4.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于声纹生物密钥稳定器M2以具备编码-解码以及跳跃连接结构特点的Unet网络模型为基础，模型的基本构造为多层编码-解码模块的堆叠，编码采用卷积加下采样操作，解码采用上采样加卷积操作。

5.根据权利要求4所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于Unet网络的跳跃连接采用神经连接控制NCC结构。

6.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于声纹生物密钥提取器M3采用模糊提取器提取指纹生物密钥。

7.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于声纹生物密钥提取器M3采用Shamir门限秘密共享方法进行密钥的模糊提取，具体方法为：

F(x)＝a_t1-1x^t1-1+...+a₂x²+a₁x¹+a₀mod(p),a₀＝Output

(2)从训练阶段的指纹密钥稳定器M2处理后的序列向量L2中取n2块比特长为bx的子序列1≤t1≤n2，将n2个子序列M_i作为上述多项式的输入x，得到对应的F(M_i)，记录F(M_i)、p与loc_i(i＝1,2,...,n2)，其中loc_i表示选取的第i个子序列M_i的第一位在整个序列中的索引值。供密钥提取阶段使用。

提取阶段：

当x＝0时F(0)＝a₀＝Output，即可恢复出密钥。根据n2个索引值选取n2块bx比特长的子序列Q_i，将(Q_i,F(M_i))及x＝0代入下式，若其中有t1(1≤t1≤n2)块Q_i与M_i相等即可得到Output＝a0，即为指纹生物密钥；

8.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法，其特征在于声纹生物密钥提取部分包括声纹生物特征预处理、声纹稳定特征提取、声纹生物密钥稳定、声纹生物密钥提取，具体步骤为：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的方法。

10.一种机器可读存储介质，其特征在于，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1-8任一项所述的方法。