CN113257266B

CN113257266B - 基于声纹多特征融合的复杂环境门禁方法及装置

Info

Publication number: CN113257266B
Application number: CN202110559509.XA
Authority: CN
Inventors: 赵晓凯
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-12-24
Anticipated expiration: 2041-05-21
Also published as: CN113257266A

Abstract

本发明公开了一种基于声纹多特征融合的复杂环境门禁方法及装置，涉及人工智能技术领域，该方法包括根据语音环境数据训练集中的数据组合的语音混合数据提取第一、第二特征矩阵并将其融合后输入语音处理网络进行处理，输出第一输出向量；将数据组合的环境数据输入环境处理网络进行处理，输出第二输出向量，根据第一、第二输出向量构建损失函数训练语音处理网络和环境处理网络，训练完成后将第二输出向量输入环境恢复网络进行处理，输出特征矩阵作为环境处理网络的输入，再次训练，训练完成后共同组成语音识别网络，实现用户识别。本发明通过反馈滤除环境音，实现了嘈杂环境下用户语音的高速识别。

Description

基于声纹多特征融合的复杂环境门禁方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于声纹多特征融合的复杂环境门禁方法及装置。

背景技术

声纹不仅具有特定性，而且有相对稳定性的特点。人成年以后，人的声音可保持长期相对稳定不变。根据声纹的该特点，目前市场上也出现了多种利用声纹识别的门禁系统。

但是，这些声纹识别的门禁系统大多是仅针对声音采集设备采集获得的一段语音来进行声纹建模和特征提取，从而获得该段语音的说话人，以实施是否开门的判断。然而，通常声音采集设备安装在移动客户端(如手机、IPAD等)、门禁设备端等地方，工作时所采集到的语音中都包含有环境音，导致存在识别率低、易出错的缺陷，特别是在嘈杂等的复杂环境下。

发明内容

因此，为了克服上述缺陷，本发明实施例提供一种基于声纹多特征融合的复杂环境门禁方法及装置。

为此，本发明实施例的一种基于声纹多特征融合的复杂环境门禁方法，包括以下步骤：

获取语音环境数据训练集，所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成，所述语音混合数据由用户的声音数据和环境的声音数据构成，所述环境数据由所述环境的声音数据构成；

将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵；将所述语音混合数据提取获得第二特征矩阵；

将所述第一特征矩阵和所述第二特征矩阵进行融合，获得融合矩阵并输入语音处理网络，经语音处理网络处理后输出第一输出向量；

将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量；

将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数，以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络，训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数；

将所述第二输出向量输入环境恢复网络，经环境恢复网络处理后输出特征矩阵，将所述特征矩阵作为环境处理网络的输入，在训练好的语音处理网络和环境处理网络的基础上，通过所述损失函数，以所述损失函数最小化为目标训练环境恢复网络，训练好后获得环境恢复网络的第三网络参数；

在语音处理网络的输出端连接分类器，组成语音识别网络，将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛，获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系；

获取待识别的语音混合数据，将其输入训练好的语音识别网络进行处理，若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据，则输出用户识别成功信息；若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据，则输出用户识别不成功信息；

根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。

优选地，所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个；所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个，第二特征矩阵与第一特征矩阵不同。

优选地，所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层，融合矩阵输入语音处理网络，经语音处理网络处理后输出第一输出向量的步骤包括：

将融合矩阵输入所述第一卷积-循环层进行计算，获得第一结果；

将所述第一结果输入第一全连接层进行计算，获得第一输出向量。

优选地，所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层，将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量的步骤包括：

将所述数据组合的环境数据提取声音特征，获得环境特征矩阵；

将环境特征矩阵输入所述第二卷积-循环层进行计算，获得第二结果；

将所述第二结果输入第二全连接层进行计算，获得第二输出向量。

优选地，所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层，将所述第二输出向量输入环境恢复网络，经环境恢复网络处理后输出特征矩阵的步骤包括：

将所述第二输出向量输入所述第三全连接层进行计算，获得第三结果；

将所述第三结果输入循环-反卷积层进行计算，获得特征矩阵。

本发明实施例的一种基于声纹多特征融合的复杂环境门禁装置，包括：

训练集获取单元，用于获取语音环境数据训练集，所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成，所述语音混合数据由用户的声音数据和环境的声音数据构成，所述环境数据由所述环境的声音数据构成；

声纹特征提取单元，用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵；将所述语音混合数据提取获得第二特征矩阵；

语音处理网络单元，用于将所述第一特征矩阵和所述第二特征矩阵进行融合，获得融合矩阵并输入语音处理网络，经语音处理网络处理后输出第一输出向量；

环境处理网络单元，用于将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量；

第一训练单元，用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数，以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络，训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数；

第二训练单元，用于将所述第二输出向量输入环境恢复网络，经环境恢复网络处理后输出特征矩阵，将所述特征矩阵作为环境处理网络的输入，在训练好的语音处理网络和环境处理网络的基础上，通过所述损失函数，以所述损失函数最小化为目标训练环境恢复网络，训练好后获得环境恢复网络的第三网络参数；

语音识别网络训练单元，用于在语音处理网络的输出端连接分类器，组成语音识别网络，将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛，获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系；

用户语音识别单元，用于获取待识别的语音混合数据，将其输入训练好的语音识别网络进行处理，若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据，则输出用户识别成功信息；若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据，则输出用户识别不成功信息；

开关门控制单元，用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。

优选地，所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层，语音处理网络单元包括：

第一卷积-循环层单元，用于将融合矩阵输入所述第一卷积-循环层进行计算，获得第一结果；

第一全连接层单元，用于将所述第一结果输入第一全连接层进行计算，获得第一输出向量。

优选地，所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层，环境处理网络单元包括：

环境特征提取单元，用于将所述数据组合的环境数据提取声音特征，获得环境特征矩阵；

第二卷积-循环层单元，用于将环境特征矩阵输入所述第二卷积-循环层进行计算，获得第二结果；

第二全连接层单元，用于将所述第二结果输入第二全连接层进行计算，获得第二输出向量。

优选地，所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层，第二训练单元包括：

第三全连接层单元，用于将所述第二输出向量输入所述第三全连接层进行计算，获得第三结果；

循环-反卷积层单元，用于将所述第三结果输入循环-反卷积层进行计算，获得特征矩阵。

本发明实施例的基于声纹多特征融合的复杂环境门禁方法及装置，具有如下优点：

通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端，从而滤除掉输入语音混合数据中的环境数据，消除复杂环境对语音识别的影响，提高了识别率和识别速度，从而也提高了识别准确性。用户在门禁输入语音时通常伴随有环境音/背景音，其十分影响语音识别的效果，特别是在嘈杂环境中。通过将用户开门时的语音，即待识别的语音混合数据，去除掉环境音/背景音，然后输入语音识别网络进行识别，获得用户识别成功与否的信息，以此进行开关门的控制，提高了识别效率及准确性，特别是在嘈杂环境中能够快速实现用户声音的识别，提高开门速度和开门安全性。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中基于声纹多特征融合的复杂环境门禁方法的一个具体示例的流程图；

图2为本发明实施例1中基于声纹多特征融合的复杂环境门禁方法的一个具体示例的原理框图；

图3为本发明实施例2中基于声纹多特征融合的复杂环境门禁装置的一个具体示例的原理框图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，本文所用的术语仅用于描述特定实施例的目的，而并非旨在限制本发明。除非上下文明确指出，否则如本文中所使用的单数形式“一”、“一个”和“该”等意图也包括复数形式。使用“包括”和/或“包含”等术语时，是意图说明存在该特征、整数、步骤、操作、元素和/或组件，而不排除一个或多个其他特征、整数、步骤、操作、元素、组件、和/或其他组合的存在或增加。术语“和/或”包括一个或多个相关列出项目的任何和所有组合。术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，本说明书中的某些图式是用于例示方法的流程图。应了解，这些流程图中的每一个方块、及这些流程图中方块的组合可通过计算机程序指令来实施。这些计算机程序指令可加载至一计算机或其他可编程的设备上来形成一机器，以使在所述计算机或其他可编程设备上执行的指令形成用于实施在所述流程图方块中所规定功能的结构。这些计算机程序指令也可储存于一计算机可读存储器中，所述计算机可读存储器可指令一计算机或其他可编程设备以一特定方式工作，以使储存于所述计算机可读存储器中的指令形成一包含用于实施在所述流程图方块中所规定功能的指令结构的制品。所述计算机程序指令也可加载至一计算机或其他可编程设备上，以便在所述计算机或其他可编程设备上执行一系列操作步骤来形成一由计算机实施的过程，从而使在所述计算机或其他可编程设备上执行的指令提供用于实施在所述流程图方块中所规定功能的步骤。

相应地，各流程图中的方块支持用于执行所规定功能的结构的组合及用于执行所规定功能的步骤的组合。还应了解，所述流程图中的每一个方块、及所述流程图中方块的组合可由执行所规定功能或步骤的基于专用硬件的计算机系统、或者专用硬件与计算机指令的组合来实施。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种基于声纹多特征融合的复杂环境门禁方法，如图1所示，包括以下步骤：

S1、获取语音环境数据训练集，所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成，所述语音混合数据由用户的声音数据和环境的声音数据构成，所述环境数据由所述环境的声音数据构成，也可以是背景音数据；语音环境数据训练集中包括所有用户，若有新的用户，则可将新的用户加入到语音环境数据训练集中即可。每个用户可建立多个环境数据和语音混合数据组成的数据组合，即同一句语音可对应多个不同的环境，采用实时采集录制或后期叠加处理(后期对语音叠加上不同的背景音)均可。

S2、将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵；将所述语音混合数据提取获得第二特征矩阵；

优选地，所述第一特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个；所述第二特征矩阵包括但不限于MFCC(梅尔倒谱系数)特征参数矩阵、GFCC(Gammatone频率倒谱系数)特征参数矩阵和LPCC(线性预测倒谱系数)特征参数矩阵中的一个，第二特征矩阵与第一特征矩阵不同。

S3、将所述第一特征矩阵和所述第二特征矩阵进行融合，获得融合矩阵并输入语音处理网络，经语音处理网络处理后输出第一输出向量；

优选地，将MFCC特征参数矩阵和GFCC特征参数矩阵进行融合，例如，将这两个矩阵进行合并形成一个融合矩阵，或者将这两个矩阵中的各元素分别求取一阶差分后获得两个一阶差分矩阵，然后将这两个矩阵和两个一阶差分矩阵进行合并形成一个融合矩阵。通过参数融合后提高了识别性能和抗噪性。

S4、将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量；

S5、将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数，以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络，训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数；

当损失函数满足最小化要求时，第一输出向量与第二输出向量完成映射关联，即第一输出向量对应的语音混合数据与第二输出向量对应的环境数据实现数据组合的配对，从而达到了训练效果，完成训练。

S6、将所述第二输出向量输入环境恢复网络，经环境恢复网络处理后输出特征矩阵，将所述特征矩阵作为环境处理网络的输入，在训练好的语音处理网络和环境处理网络的基础上，通过所述损失函数，以所述损失函数最小化为目标训练环境恢复网络，训练好后获得环境恢复网络的第三网络参数；

S7、在语音处理网络的输出端连接分类器，组成语音识别网络，将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛，获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系；将所述语音混合数据去除掉所述特征矩阵对应的环境数据可根据实际选择相应的方法即可。

S8、获取待识别的语音混合数据，将其输入训练好的语音识别网络进行处理，若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据，则输出用户识别成功信息；若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据，则输出用户识别不成功信息；

S9、根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。根据用于识别成功信息控制开门，根据用户识别不成功信息控制不开门或其他控制步骤(例如若确认为用户则进行用户信息录入等步骤)。

如图2所示，上述基于声纹多特征融合的复杂环境门禁方法中采用语音处理网络、环境处理网络和环境恢复网络构成训练模型，训练时分为两个阶段，先通过语音环境数据训练集中的预设置的用户语音与环境之间的数据组合对语音处理网络和环境处理网络进行训练，以用户语音与环境之间的空间距离构建的损失函数最小化为训练目标，使得用户语音与环境之间在高维空间实现向量对齐，以符合预设置的配对，从而完成训练。然后在训练好的语音处理网络和环境处理网络的基础上，将环境恢复网络的输出输入环境处理网络，还是以上述损失函数的最小化为训练目标，即第一输出向量和第二输出向量的空间距离(用户语音与环境之间的空间距离)构建的损失函数，再次进行训练，以调整网络参数使得环境恢复网络能够恢复出原始环境数据。

该方法中还采用语音识别网络构成语音识别模型，通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端，从而滤除掉输入语音混合数据中的环境数据，消除复杂环境对语音识别的影响，提高了识别率和识别速度，从而也提高了识别准确性。用户在门禁输入语音时通常伴随有环境音/背景音，其十分影响语音识别的效果，特别是在嘈杂环境中。通过将用户开门时的语音，即待识别的语音混合数据，去除掉环境音/背景音，然后输入语音识别网络进行识别，获得用户识别成功与否的信息，以此进行开关门的控制，提高了识别效率及准确性，特别是在嘈杂环境中能够快速实现用户声音的识别，提高开门速度和开门安全性。

优选地，所述语音处理网络包括依次连接的第一卷积-循环层(CNN-RNN)和第一全连接层，融合矩阵输入语音处理网络，经语音处理网络处理后输出第一输出向量的步骤包括：

S31、将融合矩阵输入所述第一卷积-循环层进行计算，获得第一结果；

S32、将所述第一结果输入第一全连接层进行计算，获得第一输出向量。

上述步骤从语音混合数据中分别提取不同的声纹特征，并将不同的声纹特征进行融合，从而提高识别性能和抗噪性。进行融合后获得声纹的融合矩阵作为语音处理网络的输入，在语音处理网络经第一卷积-循环层进行计算，然后经第一全连接层后输出语音混合数据对应的高维特征向量。

优选地，所述环境处理网络包括依次连接的第二卷积-循环层(CNN-RNN)和第二全连接层，将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量的步骤包括：

S41、将所述数据组合的环境数据提取声音特征，获得环境特征矩阵；

S42、将环境特征矩阵输入所述第二卷积-循环层进行计算，获得第二结果；

S43、将所述第二结果输入第二全连接层进行计算，获得第二输出向量。

上述步骤从环境数据中提取声音特征，形成环境特征矩阵，从而获得代表环境的特征。将环境特征矩阵作为环境处理网络的输入，在环境处理网络经第二卷积-循环层进行计算，然后经第二全连接层后输出环境数据对应的高维特征向量。

S61、将所述第二输出向量输入所述第三全连接层进行计算，获得第三结果；

S62、将所述第三结果输入循环-反卷积层进行计算，获得特征矩阵。

上述步骤将环境数据对应的第二输出向量作为环境恢复网络的输入，在环境恢复网络进行与环境处理网络相逆的过程，经第三全连接层进行计算，然后经循环-反卷积层后输出环境数据对应的特征矩阵。

实施例2

本实施例提供一种基于声纹多特征融合的复杂环境门禁装置，对应于实施例1的基于声纹多特征融合的复杂环境门禁方法，如图3所示，包括：

训练集获取单元1，用于获取语音环境数据训练集，所述语音环境数据训练集由环境数据和语音混合数据组成的数据组合构成，所述语音混合数据由用户的声音数据和环境的声音数据构成，所述环境数据由所述环境的声音数据构成；

声纹特征提取单元2，用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵；将所述语音混合数据提取获得第二特征矩阵；

语音处理网络单元3，用于将所述第一特征矩阵和所述第二特征矩阵进行融合，获得融合矩阵并输入语音处理网络，经语音处理网络处理后输出第一输出向量；

环境处理网络单元4，用于将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量；

第一训练单元5，用于将所述第一输出向量和所述第二输出向量的空间距离构建为损失函数，以损失函数最小化为目标在所述语音环境数据训练集上训练语音处理网络和环境处理网络，训练好后获得语音处理网络的第一网络参数和环境处理网络的第二网络参数；

第二训练单元6，用于将所述第二输出向量输入环境恢复网络，经环境恢复网络处理后输出特征矩阵，将所述特征矩阵作为环境处理网络的输入，在训练好的语音处理网络和环境处理网络的基础上，通过所述损失函数，以所述损失函数最小化为目标训练环境恢复网络，训练好后获得环境恢复网络的第三网络参数；

语音识别网络训练单元7，用于在语音处理网络的输出端连接分类器，组成语音识别网络，将所述语音混合数据去除掉所述特征矩阵对应的环境数据后输入语音识别网络进行再训练至收敛，获得训练好的语音识别网络以及语音混合数据与用户之间的映射关系；将所述语音混合数据去除掉所述特征矩阵对应的环境数据可根据实际选择相应的方法即可。

用户语音识别单元8，用于获取待识别的语音混合数据，将其输入训练好的语音识别网络进行处理，若所述语音混合数据与用户之间的映射关系中存在所述待识别的语音混合数据，则输出用户识别成功信息；若所述语音混合数据与用户之间的映射关系中不存在所述待识别的语音混合数据，则输出用户识别不成功信息；

开关门控制单元9，用于根据所述用户识别成功信息或用户识别不成功信息进行开关门控制。

上述基于声纹多特征融合的复杂环境门禁装置，通过将环境恢复网络恢复出的环境数据反馈给语音识别网络的输入端，从而滤除掉输入语音混合数据中的环境数据，消除复杂环境对语音识别的影响，提高了识别率和识别速度，从而也提高了开门速度和开门安全性，特别是在嘈杂的环境中。

优选地，所述语音处理网络包括依次连接的第一卷积-循环层(CNN-RNN)和第一全连接层，语音处理网络单元包括：

上述语音处理网络单元将声纹的融合矩阵作为语音处理网络的输入，在语音处理网络经第一卷积-循环层进行计算，然后经第一全连接层后输出语音混合数据对应的高维特征向量。

优选地，所述环境处理网络包括依次连接的第二卷积-循环层(CNN-RNN)和第二全连接层，环境处理网络单元包括：

上述环境处理网络单元将环境特征矩阵作为环境处理网络的输入，在环境处理网络经第二卷积-循环层进行计算，然后经第二全连接层后输出环境数据对应的高维特征向量。

上述第二训练单元将环境数据对应的第二输出向量作为环境恢复网络的输入，在环境恢复网络进行与环境处理网络相逆的过程，经第三全连接层进行计算，然后经循环-反卷积层后输出环境数据对应的特征矩阵。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于声纹多特征融合的复杂环境门禁方法，其特征在于，包括以下步骤：

将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵；将所述语音混合数据提取获得第二特征矩阵；所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个；所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个，第二特征矩阵与第一特征矩阵不同；

2.根据权利要求1所述的方法，其特征在于，所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层，融合矩阵输入语音处理网络，经语音处理网络处理后输出第一输出向量的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层，将所述数据组合的环境数据输入环境处理网络，经环境处理网络处理后输出第二输出向量的步骤包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层，将所述第二输出向量输入环境恢复网络，经环境恢复网络处理后输出特征矩阵的步骤包括：

5.一种基于声纹多特征融合的复杂环境门禁装置，其特征在于，包括：

声纹特征提取单元，用于将所述语音环境数据训练集中的数据组合的语音混合数据提取获得第一特征矩阵；将所述语音混合数据提取获得第二特征矩阵；所述第一特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个；所述第二特征矩阵包括但不限于MFCC特征参数矩阵、GFCC特征参数矩阵和LPCC特征参数矩阵中的一个，第二特征矩阵与第一特征矩阵不同；

6.根据权利要求5所述的装置，其特征在于，所述语音处理网络包括依次连接的第一卷积-循环层和第一全连接层，语音处理网络单元包括：

7.根据权利要求5所述的装置，其特征在于，所述环境处理网络包括依次连接的第二卷积-循环层和第二全连接层，环境处理网络单元包括：

8.根据权利要求5-7任一项所述的装置，其特征在于，所述环境恢复网络包括依次连接的第三全连接层和循环-反卷积层，第二训练单元包括：