CN117854509A

CN117854509A - 一种耳语说话人识别模型训练方法和装置

Info

Publication number: CN117854509A
Application number: CN202410250740.4A
Authority: CN
Inventors: 周若华; 杨靖汶
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2024-03-05
Filing date: 2024-03-05
Publication date: 2024-04-09
Anticipated expiration: 2044-03-05
Also published as: CN117854509B

Abstract

本申请提供一种耳语说话人识别模型训练方法和装置。本申请提供的耳语说话人识别模型训练方法，包括：基于迁移学习构建初始耳语说话人识别模型，所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型；建立第一耳语数据集，第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；对第一耳语数据集进行数据增强，获得第二耳语数据集；混合第一耳语数据集和第二耳语数据集，构建第三耳语数据集，利用第三耳语数据集训练初始耳语说话人识别模型，得到最终的耳语说话人识别模型。本申请提供的耳语说话人识别模型训练方法和装置，可提高耳语说话人识别准确性和鲁棒性。

Description

一种耳语说话人识别模型训练方法和装置

技术领域

本申请涉及语音识别技术领域，尤其涉及一种耳语说话人识别模型训练方法和装置。

背景技术

耳语作为一种非正式的交流方式，近年来受到研究人员的广泛关注。通过低声讲话或悄悄说话来传达信息，可以避免他人听到，这种形式的交流经常用于较私密或者避免打扰他人的情况下。与正常语音相比，耳语语音具有缺少发声和基频、频谱斜率平坦、低信噪比以及更易受到周围环境的影响的特点，这导致耳语说话人识别任务更具有挑战性。

目前主流的耳语说话人识别方法包括关注特征提取、特征变换和耳语和正常语音的互补特性，但当前对耳语说话人识别的研究有限，缺少对耳语说话人识别与一般语音说话人识别之间的关联研究，且缺乏大型耳语语音语料库，导致耳语说话人识别不够精准。

发明内容

有鉴于此，本申请提供一种耳语说话人识别模型训练方法和装置，用以提高耳语说话人识别的准确性和鲁棒性。

具体地，本申请是通过如下技术方案实现的：

本申请第一方面提供一种耳语说话人识别模型训练方法，所述方法包括：

基于迁移学习构建初始耳语说话人识别模型，其中，正常语音音频为口语语音音频，所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型；

建立第一耳语数据集，所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；

对所述第一耳语数据集进行数据增强，获得第二耳语数据集；其中，所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频；

混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。

本申请第二方面提供一种耳语说话人识别装置，所述装置包括构建模块、建立模块、处理模块和训练模块；其中，

所述构建模块，用于基于迁移学习构建初始耳语说话人识别模型，其中，正常语音音频为口语语音音频，所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型；

所述建立模块，用于建立第一耳语数据集，所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；

所述处理模块，用于对所述第一耳语数据集进行数据增强，获得第二耳语数据集；其中，所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频；

所述训练模块，用于混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。

本申请提供的耳语说话人识别模型训练方法和装置，首先通过迁移学习由正常语音音频预训练好的TDNN模型，构建初始耳语说话人识别模型，然后建立第一耳语数据集，进而对所述第一耳语数据集进行数据增强，获得第二耳语数据集，最后混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。需要说明的是，正常语音音频为口语语音音频；所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频。这样，通过迁移学习将TDNN预训练好的特定网络层参数作为耳语说话人识别模型的初始值，充分利用了已有的正常语音音频识别模型的功能、结构和性能优势，为耳语音频识别提供了基础，减少了模型基础训练的计算量；利用这些参数构建初始耳语说话人识别模型，并通过构建第一耳语数据集作为耳语语音语料库，对初始耳语说话人识别模型进行微调，提高了模型对耳语音频的适配能力，实现了耳语语音音频识别的准确性；进一步的，对第一耳语数据集进行数据增强操作扩大耳语数据训练的规模，提高耳语训练数据的多样性，最后用于模型的训练集中既包括耳语又包括正常语，将之用于训练初始耳语说话人识别模型，可提高最后得到的耳语说话人识别模型的准确性、适应能力和鲁棒性。

附图说明

图1为本申请提供的耳语说话人识别模型训练方法实施例一的流程图；

图2为本申请提供TDNN模型的网络结构图；

图3为本申请一示例性实施例示出的第一耳语数据集中说话人性别和年龄分布图；

图4A为本申请一示例性实施例示出的一说话人的耳语语音的Mel语谱图；

图4B为本申请一示例性实施例示出的一说话人的正常语音的Mel语谱图；

图5为本申请提供的耳语说话人识别装置实施例一的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种耳语说话人识别模型训练方法和装置，用以提高耳语说话人识别的准确性和鲁棒性。

本申请提供的耳语说话人识别模型训练方法和装置，首先通过迁移学习由正常语音音频预训练好的TDNN模型，构建初始耳语说话人识别模型，然后建立第一耳语数据集，进而对所述第一耳语数据集进行数据增强，获得第二耳语数据集，最后混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。需要说明的是，正常语音音频为口语语音音频；所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频。这样，通过迁移学习将TDNN预训练好的特定网络层参数作为耳语说话人识别模型的初始值，充分利用了已有的正常语音音频识别模型的功能、结构和性能优势，为耳语音频识别提供了基础，减少了模型基础训练的计算量；利用这些参数构建初始耳语说话人识别模型，并通过构建第一耳语数据集作为耳语语音语料库，对初始耳语说话人识别模型进行微调，提高了模型对耳语音频的适配能力，实现了耳语语音音频识别的准确性；进一步的，对第一耳语数据集进行数据增强操作扩大耳语数据训练的规模，提高耳语训练数据的多样性，最后用于模型的训练集中既包括耳语又包括正常语，将之用于训练初始耳语说话人识别模型，可提高最后得到的耳语说话人识别模型的准确性、适应能力和鲁棒性，且可以在同场景和跨场景中使用。

下面给出具体的实施例，用以详细介绍本申请的技术方案。

图1为本申请提供的耳语说话人识别模型训练方法实施例一的流程图。请参照图1，本实施例提供的方法，可以包括：

S101、基于迁移学习构建初始耳语说话人识别模型，其中，正常语音音频为口语语音音频，所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型。

需要说明的是，迁移学习是深度学习中的一种方法，指一种学习对另一种学习的影响，或习得的经验对完成其他活动的影响。在本申请中，通过迁移学习将预训练好的TDNN模型的特定网络层参数引入到耳语说话人识别模型中，并在此基础上进行微调，可提高耳语说话人识别模型的准确性。TDNN模型可以利用普通口语音频样本进行预训练，预训练之后，TDNN模型可以完成普通语音音频的准确识别。为了充分利用模型的识别能力，本发明提供的方法直接迁移学习TDNN模型的结构和参数，并进一步在耳语语音音频的基础上进行微调训练，以获得能够完成口语识别场景特殊音频识别任务的模型。其中，TDNN模型的网络结构如图2所示。

具体的，预训练好的TDNN模型包括输入层、时延层、非线性激活层、统计池化层、全连接层、瓶颈层和输出层；其中，所述输入层接收获取的音频数据并将其传输到时延层，时延层用于提取输入的音频数据的第一时间范围内的帧级上下文特征；非线性激活层接收时延层的输出并通过非线性激活函数进行处理；统计池化层对经非线性激活层输出的帧级上下文特征进行聚合操作，获得第二时间范围内的段级上下文特征，所述第二时间范围长于所述第一时间范围；统计池化层的输出进入全连接层，在全连接层通过连接所有节点，对时序信息进行整合和抽象，并通过瓶颈层进一步进行降维操作，最后通过输出层输出音频信息。

进一步的，除TDNN模型外，在耳语语音识别过程中，部分耳语识别难度大，模型需要进一步提高识别能力和准确性以便满足部分耳语识别的要求。为此，作为一种优选的实施例，迁移学习对象还包括第一模型和第二模型，其中，迁移学习第一模型、第二模型和TDNN的不同层，且第一模型与TDNN、第二模型功能不同，而第二模型与TDNN模型结构和功能均不相同。例如，第一模型可以为深度残差网络，比如ResNet34模型；第二模型可以为ECAPA-TDNN。

基于迁移学习构建初始耳语说话人识别模型，具体包括：

根据耳语识别场景确定所述第一模型、所述第二模型和所述TDNN模型中迁移层级；

基于层级结构关系组合确定所有迁移层级；

基于迁移层级的参数确定迁移后的模型结构模型参数，以构建初始耳语说话人识别模型

（1）基于正常语音音频预训练第一模型、第二模型和TDNN模型，其中，所述第一模型与所述TDNN模型实现不同的功能，所述第二模型与多数TDNN模型实现相同的功能。

需要说明的是，ResNet34说话人模型包括输入层、卷积层和池化层、残差层、全局平均池化层和全连接层；ECAPA-TDNN说话人识别模型包括输入层、时延层、非线性激活层、统计池化层、全连接层、Emphasized Channel Attention层和输出层。

（2）根据耳语识别场景确定所述第一模型、所述第二模型和所述TDNN模型中迁移层级。其中，第二模型和TDNN模型迁移的层级可以不同，也可以相同，第二模型和TDNN模型迁移层级完成的功能也不相同。

需要说明的是，确定迁移学习后的模型结构和迁移层级的过程通常依赖于特定任务和识别场景。其中，识别场景包括同场景和跨场景。具体实现时，例如，在一实施例中，对与ResNet34说话人识别模型选择迁移残差层及池化层；对于TDNN说话人识别模型迁移5层帧级层、2层段级层和统计池化层；对于ECAPA-TDNN说话人识别模型迁移Res2Block模块层、统计池化层以及全连接层。其中，Res2Block模块被嵌入在时延层的内部，每个时延块中可能包含了Res2Block模块，可用于加强模型的表示能力。

（3）基于层级结构关系组合确定所有迁移层级；基于迁移层级的参数确定迁移后的模型结构模型参数，以构建初始耳语说话人识别模型

具体的，确定了迁移层级之后，根据结构关系各个迁移得到的层级的位置和连接关系，进而使得迁移组合后的模型发挥最优的性能。在确定迁移层级的参数后会进行保存，并利用这些参数对耳语说话人识别模型进行参数初始化，进行迁移后的参数会代替耳语说话人识别模型的参数，且未迁移参数会进行正常随机初始化。此外，在耳语说话人识别模型进行参数初始化之后，还会对其进行微调，直至该模型拟合。

TDNN模型可以用于处理具有时间结构的数据，即时序数据，例如耳语音频，捕捉音频时序数据中的长距离依赖关系，减少计算复杂度。TDNN模型的基本结构与传统的前馈神经网络类似，至少包括输入层、隐藏层和统计池化层，进一步的在输入层和隐藏层之间引入了时间延迟和权重共享机制。基于模型结构的泛化改进使得TDNN能够学习输入数据中的局部时序模式和长距离依赖关系。TDNN中的神经元不仅接收当前时刻的输入，还接收过去若干时刻的输入。为了减少模型参数数量并提高泛化能力，TDNN在隐藏层中采用权重共享策略。在同一层内的神经元共享相同的权重，这使得TDNN具有平移不变性，即网络可以识别在时间轴上平移的相同模式。统计池化层用于汇总输入片段并计算平均值和标准偏差，之后产生代表说话人的段级嵌入码。对应TDNN模型，迁移5层帧级层、2层段级层和池化层到耳语说话人识别模型进行参数初始化并微调至拟合。

ECAPA-TDNN结合了TDNN的强大性能和ECAPA策略的优势。首先模型使用带有可变大小时间滑动窗口的局部感受野来捕捉输入序列中的局部模式，扩展通道注意力模块将每个通道的权重自适应地分配给神经网络的各个层，使得模型可以更好的关注与说话者识别相关的特征从而提高性能。信息传播通过残差连接和密集连接进行，这两种连接共同增强了网络的表达能力，允许信息在层之间更有效的流动。同时，该网络采用全局池化策略对最后一层特征图进行聚合，结合全局平均池化和全局最大池化，生成更具判别性的说话人嵌入码。为进一步提高模型性能，使用多头自注意力机制对嵌入进行细化，关注不用层次的特征，从而提高说话人识别的准确性。在使用公开正常语音音频训练好ECAPA-TDNN预训练模型后，迁移Res2Block模块层、池化层以及全连接层到耳语说话人识别模型进行参数初始化并微调至拟合，其中Res2Block模块通过残差和密集连接，池化层最后一层采用全局池化策略。

ResNet34是深度残差网络，至少包括34层卷积神经网络，能够有效解决深度神经网络中的梯度消失问题，使得网络能够更深更好地学习抽象特征。ResNet34的特点在于神经网络之间采用了残差连接。在传统的神经网络中，信息在每一层中都会经过多次变换，而这些变换可能会造成信息的损失。而残差连接允许网络在信息传递过程中直接跳过某些层，从而能够更好地保留原始信息，使得网络能够更加深入地学习。在使用公开正常语音音频训练好ResNet34预训练模型后，迁移迁移残差层及池化层到耳语说话人识别模型进行参数初始化并微调至拟合。

S102、建立第一耳语数据集，所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识。

需要说明的是，每一个说话人都有对应的标识，同一说话人的正常语音音频和耳语语音音频的标识相同。例如，在一实施例中，说话人标识可以为编号，即每一个人对应一个编号。若有40个人，则相应的有1到40的编号。第一耳语数据集内的样本内容可以不完全相同，从而创建各类样本，丰富样本的类型，提高了模型的能力。第一耳语样本可以为耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识，也可以为耳语语音音频和耳语语音音频对应的说话人标识，还可以为正常语音音频和对应的说话人标识。

具体的，建立第一耳语数据集的过程可以包括：

（1）选取不同年龄、不同性别、不同地域的说话人进行说话录制。

例如，在一实施例中，选取了40名说话人参与录制，其中包括21名男生，19名女生，年龄从22岁到26岁不等。参与录制的说话人均以汉语为母语，无语言障碍，能进行正常耳语表达。并且，这些说话人生源地不同，大多数话语在一定程度上受到方言的影响，增强了说话人验证的数据多样性。具体的，说话人的性别和年龄分布如图3所示。

（2）在安静环境中，以每次预设条音频、预设间隔时间进行所述说话录制；其中，录制内容包括相同数量的正常语音音频和耳语语音音频。

具体实现时，例如，在一实施例中，每个说话人每次录制20条音频，每次录制间隔时间为2-5天。具体的，说话人被要求在安静的环境中面对16路麦克风阵列或电脑麦克风阅读规定内容。每位说话人朗读统一文字内容，包括40句正常语音音频和40句耳语语音音频，且其中前30句为长句，平均持续时间为15.17秒，后10句为短句，平均持续时间为4.01秒。这些记录的采样率通常为16kHz或44kHz。

需要说明的是，录制内容包括相同数量的正常语音音频和耳语语音音频。

（3）将录制得到的所述音频进行记录并经过预处理保存。

需要说明的是，录制得到的所述音频以2声道立体声格式记录，然后在经过预处理后转换为单声道16kHz采样率wav格式保存。具体的，每个说话人对应不同的编号并划分成训练集和评估集以便验证实验的可重复性以及进行后续研究。每个说话人标题均有子文件夹，其中包括正常语音音频文件和耳语语音音频文件。每个说话人音频文件被分为训练子集和测试子集。其中，预处理的方式可以根据实际需要选择，本实施例中不对其进行限定。

此外，通过建立第一耳语数据集一定程度上解决了缺乏大型耳语语音语料库的问题，方便了将先进的基于深度神经网络的正常语音说话人识别方法引入到耳语说话人识别领域，可更好的建立更具有鲁棒性的耳语说话人识别模型。且该第一耳语数据集中音频数据的时长足够，可对耳语说话人识别模型进行有效的评估，便于对耳语说话人识别进行相关研究。

还需要说明的是，在得到所述第一耳语数据集之后还包括：

（1）从所述第一耳语数据集中随机抽取预设数量说话人的预设时长的样本，分别绘制抽取到的样本中的正常语音音频和耳语语音音频的Mel频谱图。

需要说明的是，预设数量和预设时长是根据实际需要设定的，本实施例中不对其进行限定。例如，在一实施例中，以一名说话人5s的正常语音音频和耳语语音音频分别绘制Mel频谱图。

（2）对比同一样本中正常语音音频和耳语语音音频的Mel频谱图，评价耳语语音音频Mel频谱图的基频分布特性。

图4A为本申请一示例性实施例示出的一说话人的耳语语音的Mel语谱图，图4B为本申请一示例性实施例示出的一说话人的正常语音的Mel语谱图。请同时参照图4A和图4B，可知当耳语语音产生时，声带虽然保持着打开状态但并不发生震动，所以没有基频且能量较低。

（3）基于基频分布特性与预设基频阈值的关系判断所述第一耳语数据集是否符合模型训练精度要求。

需要说明的是，预设基频阈值可以是根据大量正常语音和耳语语音的基频分布特性选取的平均值，当第一耳语数据集中音频的基频大于该预设基频阈值时，则判断该音频为正常语音音频，不符合耳语说话人识别模型的训练精度要求；反之，则判断该音频为耳语语音音频，符合耳语说话人识别模型的训练精度要求。

S103、对所述第一耳语数据集进行数据增强，获得第二耳语数据集；其中，所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频。

需要说明的是，数据增强是深度学习任务中可以有效提高模型的性能和泛化能力，在本申请中，通过对第一耳语数据集进行各种变换和扩充来增加现有数据样本的数量和多样性，从而可提高耳语说话人识别模型的鲁棒性，且数据增强后神经网络可以在不过拟合的情况下学习新的数据并提高性能。

具体的，对所述第一耳语数据集进行数据增强，至少包括：

（1）获取所述第一耳语数据集中的待增强数据集，所述待增强数据集中包括一个或多个待增强样本。

需要说明的是，从第一耳语数据集中选择一个或多个待增强的样本，这些样本可以是语音文件、音频片段或其他形式的语音数据。进而，可以对所选的待增强样本进行标记，以记录它们是待增强的目标，例如，在一实施例中，可以是在第一耳语数据集中添加标签或元数据，指示这些样本是需要增强的。

（2）遍历所述待增强数据集各个待增强样本，进行增强处理，对于任一待增强样本，确定语音增强的时间范围。

具体的，确定语音增强的时间范围可以全局增强，即对整个待增强样本进行增强处理；也可以是局部增强，即对音频片段的特定时间范围应用增强处理；还可以是随机增强，即在在增强处理中引入随机性，例如在音频片段中随机选择一个时间窗口进行增强。通过这样的操作，可以增加数据集的多样性。

（3）根据时间范围对选中的待增强样本中的正常语音音频和耳语语音音频进行倒放，将倒放后的音频片段与时间范围之外的音频混合，获得增强后的正常语音音频和增强后的耳语语音音频，增强后的音频与原始音频音调、节奏不相同。

需要说明的是，对增强时间范围内的正常语音音频和耳语语音音频进行倒放，例如，这可以通过音频处理库（如Librosa、Pydub等）来实现，其中，倒放操作将改变音频的音调和节奏。经过音频倒放操作后，总数据量为原始数据的两倍。

还需要说明的是，将倒放后的音频片段与时间范围之外的音频混合，获得增强后的正常语音音频和增强后的耳语语音音频，其中，混合操作可以是简单的根据时间关系进行拼接，以获得增强后的正常语音音频和增强后的耳语语音音频。增强处理可以对某音频段进行，也可以对整个音频进行，如果是对片段进行处理，增强处理后的片段还需要与原始未增强的其他片段拼接，以形成增强处理后的完整音频。

（4）关联增强后的正常语音音频、增强后的耳语语音音频和选中的待增强样本中的说话人标识，获得选中的待增强样本的增强后样本。

需要说明的是，将增强后的正常语音音频、增强后的耳语语音音频与相应的说话人标识关联可确保说话人标识的唯一性，以避免重复或混淆。此外，可将关联后的增强后样本保存为需要的格式。

（5）混合所有增强后样本，得到第二耳语数据集。

S104、混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。

需要说明的是，混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，这样得到的第三耳语数据集为一个更大的耳语语音语料库，以此来训练初始耳语说话人识别模型可使得最终得到的耳语说话人识别模型精度和鲁棒性更高。

还需要说明的是，在得到最终的耳语说话人识别模型之后，还包括：

（1）构建分类器模型，所述分类器模型用于对正常语音音频的说话人身份进行识别。

具体的，可根据选定的方法构建分类器，本实施例中不对其进行限定。

（2）将正常语音音频输入至预训练好的TDNN模型，利用输入的正常语音音频和TDNN模型输出的说话人嵌入表示关联，构建第四耳语数据集。

需要说明的是，说话人嵌入是从TDNN模型输出层之前的瓶颈层中提取的，通过利用时延层提取短时帧级上下文，进而统计池化层对输入段进行聚合，并计算平均值和标准偏差，之后该说话人被DNN分类得到第四耳语数据集。

（3）利用所述第四耳语数据集训练构建好的分类器模型。

（4）利用训练后的分类器模型对耳语说话人识别模型进行评估。

具体的，利用训练后的分类器模型对耳语说话人识别模型进行评估，包括：

（41）从所述第三耳语数据集中选择部分数据集作为验证数据集。

需要说明的是，从所述第三耳语数据集中选择部分数据集作为验证数据集可以是随机选择或者是按说话人选择的。

（42）将所述验证数据集中的正常语音音频输入至训练后的分类器模型，获得分类器识别的说话人嵌入表示。

（43）将所述验证数据集中的口语语音音频输入至最终的耳语说话人识别模型，获得预测的说话人嵌入表示。

（44）计算对应音频数据的识别的说话人嵌入表示与待测的说话人嵌入表示之间的相似度，计算最终的耳语说话人识别模型的准确率。

需要说明的是，利用最终的耳语说话人识别模型识别输入的待测输入音频的说话人标识，所述待测输入音频为正常语音音频或耳语语音音频或二者组合。

具体的，可通过对数似然比来计算说话人嵌入表示与预测的说话人嵌入表示之间的相似度，如下公式所示：

，

其中，和 />分别代表两条测试语音的嵌入码表示。两条语音来自同一个空间的假设为/>，来自不同的空间的假设为/>。/>为两条音频来自同一个空间的似然函数，/>分别代表不同空间的似然函数。

通过计算对数似然比，衡量两条测试语音的相似程度。得分越高，则两条语音属于同一说话人的可能性越大。

本实施例提供的耳语说话人模型训练方法，首先通过迁移学习由正常语音音频预训练好的TDNN模型，构建初始耳语说话人识别模型，然后建立第一耳语数据集，进而对所述第一耳语数据集进行数据增强，获得第二耳语数据集，最后混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。需要说明的是，正常语音音频为口语语音音频；所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频。这样，通过迁移学习将TDNN预训练好的特定网络层参数作为耳语说话人识别模型的初始值，充分利用了已有的正常语音音频识别模型的功能、结构和性能优势，为耳语音频识别提供了基础，减少了模型基础训练的计算量；利用这些参数构建初始耳语说话人识别模型，并通过构建第一耳语数据集作为耳语语音语料库，对初始耳语说话人识别模型进行微调，提高了模型对耳语音频的适配能力，实现了耳语语音音频识别的准确性；进一步的，对第一耳语数据集进行数据增强操作扩大耳语数据训练的规模，提高耳语训练数据的多样性，最后用于模型的训练集中既包括耳语又包括正常语，将之用于训练初始耳语说话人识别模型，可提高最后得到的耳语说话人识别模型的准确性、适应能力和鲁棒性。此外，引入迁移学习方法之后能够在耳语说话人识别任务上获得更好的性能，并且能够减少训练时间和资源消耗。

与前述一种耳语说话人识别训练方法的实施例相对应，本申请还提供了一种耳语说话人识别装置的实施例。

图5为本申请提供的耳语说话人识别装置实施例一的结构示意图。请参照图5，本实施例提供的装置，包括构建模块510、建立模块520、处理模块530和训练模块540；其中，

所述构建模块510，用于基于迁移学习构建初始耳语说话人识别模型，其中，正常语音音频为口语语音音频，所述迁移学习对象至少包括由正常语音音频预训练好的TDNN模型；

所述建立模块520，用于建立第一耳语数据集，所述第一耳语数据集中至少包括多个第一耳语样本，每个第一耳语样本中至少包括耳语语音音频、与耳语语音音频为同一说话人的正常语音音频和耳语语音音频对应的说话人标识；

所述处理模块530，用于对所述第一耳语数据集进行数据增强，获得第二耳语数据集；其中，所述数据增强的方式至少包括音频倒放；所述数据增强的对象至少包括正常语音音频和耳语语音音频；

所述训练模块540，用于混合所述第一耳语数据集和所述第二耳语数据集，构建第三耳语数据集，利用所述第三耳语数据集训练所述初始耳语说话人识别模型，得到最终的耳语说话人识别模型。

本实施例的装置，可用于执行图1所示方法实施例的步骤，具体实现原理和实现过程类似，此处不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种耳语说话人识别模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述建立第一耳语数据集包括：

选取不同年龄、不同性别、不同地域的说话人进行说话录制；

在安静环境中，以每次预设条音频、预设间隔时间进行所述说话录制；其中，录制内容包括相同数量的正常语音音频和耳语语音音频；

将录制得到的所述音频进行记录并经过预处理保存。

3.根据权利要求2所述的方法，其特征在于，在得到所述第一耳语数据集之后还包括：

从所述第一耳语数据集中随机抽取预设数量说话人的预设时长的样本，分别绘制抽取到的样本中的正常语音音频和耳语语音音频的Mel频谱图；

对比同一样本中正常语音音频和耳语语音音频的Mel频谱图，评价耳语语音音频Mel频谱图的基频分布特性；

基于基频分布特性与预设基频阈值的关系判断所述第一耳语数据集是否符合模型训练精度要求。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一耳语数据集进行数据增强，至少包括：

获取所述第一耳语数据集中的待增强数据集，所述待增强数据集中包括一个或多个待增强样本；

遍历所述待增强数据集各个待增强样本，进行增强处理，对于任一待增强样本，确定语音增强的时间范围；

根据时间范围对选中的待增强样本中的正常语音音频和耳语语音音频进行倒放，将倒放后的音频片段与时间范围之外的音频混合，获得增强后的正常语音音频和增强后的耳语语音音频，增强后的音频与原始音频音调、节奏不相同；

关联增强后的正常语音音频、增强后的耳语语音音频和选中的待增强样本中的说话人标识，获得选中的待增强样本的增强后样本；

混合所有增强后样本，得到第二耳语数据集。

5.根据权利要求1所述的方法，其特征在于，所述预训练好的TDNN模型包括输入层、时延层、非线性激活层、统计池化层、全连接层、瓶颈层和输出层；其中，

所述输入层接收获取的音频数据并将其传输到时延层，时延层用于提取输入的音频数据的第一时间范围内的帧级上下文特征；

非线性激活层接收时延层的输出并通过非线性激活函数进行处理；

统计池化层对经非线性激活层输出的帧级上下文特征进行聚合操作，获得第二时间范围内的段级上下文特征，所述第二时间范围长于所述第一时间范围；

统计池化层的输出进入全连接层，在全连接层通过连接所有节点，对时序信息进行整合和抽象，并通过瓶颈层进一步进行降维操作，最后通过输出层输出音频信息。

6.根据权利要求1所述的方法，其特征在于，所述得到最终的耳语说话人识别模型之后，还包括：

构建分类器模型；

将正常语音音频输入至预训练好的TDNN模型，利用输入的正常语音音频和TDNN模型输出的说话人嵌入表示关联，构建第四耳语数据集；

利用所述第四耳语数据集训练构建好的分类器模型；

利用训练后的分类器模型对耳语说话人识别模型进行评估。

7.根据权利要求6所述的方法，其特征在于，所述利用训练后的分类器模型对耳语说话人识别模型进行评估，包括：

从所述第三耳语数据集中选择部分数据集作为验证数据集；

将所述验证数据集中的正常语音音频输入至训练后的分类器模型，获得分类器识别的说话人嵌入表示；

将所述验证数据集中的口语语音音频输入至最终的耳语说话人识别模型，获得预测的说话人嵌入表示；

计算对应音频数据的识别的说话人嵌入表示与待测的说话人嵌入表示之间的相似度，计算最终的耳语说话人识别模型的准确率。

8.根据权利要求1所述的方法，其特征在于，基于迁移学习构建初始耳语说话人识别模型，具体包括：

基于正常语音音频预训练第一模型、第二模型和TDNN模型，其中，所述第一模型与所述TDNN模型实现不同的功能，所述第二模型与多数TDNN模型实现相同的功能；

基于层级结构关系组合确定所有迁移层级；

基于迁移层级的参数确定迁移后的模型结构模型参数，以构建初始耳语说话人识别模型。

9.根据权利要求1所述的方法，其特征在于，所述第一耳语数据集部分的第一耳语样本为：正常语音音频和说话人标识，或耳语语音音频和说话人标识；

所述方法还包括：

利用最终的耳语说话人识别模型识别输入的待测输入音频的说话人标识，所述待测输入音频为正常语音音频或耳语语音音频或二者组合。

10.一种耳语说话人识别装置，其特征在于，所述装置包括构建模块、建立模块、处理模块和训练模块；其中，