CN112037800A

CN112037800A - 声纹核身模型训练方法、装置、介质及电子设备

Info

Publication number: CN112037800A
Application number: CN202011003425.XA
Authority: CN
Inventors: 李泽远; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-04
Also published as: WO2021174883A1

Abstract

本申请涉及人工智能领域，应用于声纹识别领域，揭示了一种声纹核身模型训练方法、装置、介质及电子设备。该方法由联邦学习网络中目标金融机构节点执行，包括：执行本地训练步骤，包括：利用本地的语音数据对在本地部署的声纹核身模型进行训练，得到声纹核身模型的第一梯度参数信息和第一模型参数信息；将第一梯度参数信息输入至联邦学习网络中；从联邦学习网络中获取第二梯度参数信息；利用第二梯度参数信息重新执行本地训练步骤及本地训练步骤之后的步骤，以对第一模型参数信息进行更新，直至满足预定条件。此方法下，在各金融机构将能够用于训练模型的数据保留在本地的前提下，扩大了样本空间，提高了声纹核身模型的准确度和稳定性。

Description

声纹核身模型训练方法、装置、介质及电子设备

技术领域

本申请涉及人工智能领域，应用于声纹识别领域，特别涉及一种声纹核身模型训练方法、装置、介质及电子设备。

背景技术

随着人工智能技术的发展，其在很多领域中都产生的广泛的应用。在金融领域中，基于人工智能的声纹核身技术可以及时进行风控预警。在实际业务场景下，基于声纹核身技术，只需要与客户保持有效的交谈，即可验证客户身份是否真实有效。

然而，目前的声纹核身模型的精度通常很低。这是因为在金融领域中，各机构所存储的语音数据量受限，由于数据安全、知识产权等因素，且作为个人特征的声纹信息被纳入数据隐私的范畴不得随意使用，这就导致了在此基础上训练的声纹核身模型的准确度和稳定性都很难保证，这大大限制了声纹核身技术的实际应用。

发明内容

在人工智能和声纹识别技术领域，为了解决上述技术问题，本申请的目的在于提供一种声纹核身模型训练方法、装置、介质及电子设备。

根据本申请的一方面，提供了一种声纹核身模型训练方法，所述方法由联邦学习网络中的目标金融机构节点执行，所述联邦学习网络包括多个金融机构节点，所述方法包括：

执行本地训练步骤，所述本地训练步骤包括：利用本地的语音数据对在本地部署的声纹核身模型进行训练，得到所述声纹核身模型的第一梯度参数信息和第一模型参数信息，所述联邦学习网络中的各金融机构节点均已部署对应的声纹核身模型，各金融机构节点对所部署的声纹核身模型进行训练的方式与所述目标金融机构节点一致；

将所述第一梯度参数信息输入至所述联邦学习网络中；

从所述联邦学习网络中获取第二梯度参数信息，所述第二梯度参数信息基于所述联邦学习网络中所述目标金融机构节点之外的至少一个金融机构节点对各自的声纹核身模型进行训练而得到，所述第二梯度参数信息基于所述第一梯度参数信息计算得到；

利用所述第二梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件。

根据本申请的另一方面，提供了一种声纹核身模型训练装置，所述装置属于联邦学习网络中的目标金融机构节点，所述联邦学习网络包括多个金融机构节点，所述装置包括：

本地训练模块，被配置为执行本地训练步骤，所述本地训练步骤包括：利用本地的语音数据对在本地部署的声纹核身模型进行训练，得到所述声纹核身模型的第一梯度参数信息和第一模型参数信息，所述联邦学习网络中的各金融机构节点均已部署对应的声纹核身模型，各金融机构节点对所部署的声纹核身模型进行训练的方式与所述目标金融机构节点一致；

输入模块，被配置为将所述第一梯度参数信息输入至所述联邦学习网络中；

获取模块，被配置为从所述联邦学习网络中获取第二梯度参数信息，所述第二梯度参数信息基于所述联邦学习网络中所述目标金融机构节点之外的至少一个金融机构节点对各自的声纹核身模型进行训练而得到，所述第二梯度参数信息基于所述第一梯度参数信息计算得到；

参数更新模块，被配置为利用所述第二梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，当所述计算机可读指令被计算机执行时，使计算机执行如前所述的方法。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请所提供的声纹核身模型训练方法由联邦学习网络中的目标金融机构节点执行，所述联邦学习网络包括多个金融机构节点，该方法包括如下步骤：执行本地训练步骤，所述本地训练步骤包括：利用本地的语音数据对在本地部署的声纹核身模型进行训练，得到所述声纹核身模型的第一梯度参数信息和第一模型参数信息，所述联邦学习网络中的各金融机构节点均已部署对应的声纹核身模型，各金融机构节点对所部署的声纹核身模型进行训练的方式与所述目标金融机构节点一致；将所述第一梯度参数信息输入至所述联邦学习网络中；从所述联邦学习网络中获取第二梯度参数信息，所述第二梯度参数信息基于所述联邦学习网络中所述目标金融机构节点之外的至少一个金融机构节点对各自的声纹核身模型进行训练而得到，所述第二梯度参数信息基于所述第一梯度参数信息计算得到；利用所述第二梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件。

此方法下，通过基于联邦学习使多个金融机构协作完成声纹核身模型的训练，而各金融机构的数据不会泄露，在各金融机构将能够用于训练模型的数据保留在本地的前提下，扩大了样本空间，声纹核身模型基于各金融机构的数据训练而成，提高了声纹核身模型的准确度和稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种声纹核身模型训练方法的系统架构示意图；

图2是根据一示例性实施例示出的一种声纹核身模型训练方法的流程图；

图3是根据一示例性实施例示出的由两个银行组成的联邦学习网络的结构示意图；

图4A是根据一示例性实施例示出的联邦学习网络的结构示意图；

图4B是根据另一示例性实施例示出的联邦学习网络的结构示意图；

图5是根据一示例性实施例示出的一种声纹核身模型训练装置的框图；

图6是根据一示例性实施例示出的一种实现上述声纹核身模型训练方法的电子设备示例框图；

图7是根据一示例性实施例示出的一种实现上述声纹核身模型训练方法的计算机可读存储介质。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本申请首先提供了一种声纹核身模型训练方法。声纹核身是指依据声纹识别技术验证用户身份的过程，金融领域中需要声纹核身模型来实现风险监控，声纹核身模型主要包括声学特征提取模块、比对模块等，当然还可以包括其他模块。只有利用大量的语音数据训练得到一个具备准确性和稳定性的声纹核身模型，然而，在金融领域，由于单个金融机构的语音数据数量有限，再加上数据安全和隐私的限制，这就导致了金融领域中没有足够的语音数据，导致无法训练出具备准确性和稳定性的声纹核身模型，从而大大限制了声纹核身技术的实际应用。而本申请通过提供一种声纹核身模型训练方法，可以突破单个金融机构拥有的语音数据数量不足的限制，在保证数据安全和隐私的同时，使声纹核身模型能够基于足够的数据进行训练，从而提高声纹核身模型的准确性和稳定性。

本申请的实施终端可以是任何具有运算、处理以及通信功能的设备，该设备可以与外部设备相连，用于接收或者发送数据，具体可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如云计算的物理基础设施或者服务器集群。

可选地，本申请的实施终端可以为服务器或者云计算的物理基础设施。

图1是根据一示例性实施例示出的一种声纹核身模型训练方法的系统架构示意图。如图1所示，该系统架构为一个联邦学习网络，其包括多个计算机终端，分别为第一计算机终端110、第二计算机终端120、第三计算机终端130、第四计算机终端140以及第五计算机终端150，其中，任意两个计算机终端之间均通过通信链路相连，可以收发数据，每一计算机终端为一个金融机构节点。各计算机终端的本地均部署有声纹核身模型，并在本地存储有语音数据。该联邦学习网络中的各计算机终端利用在本地存储的语音数据训练在本地部署的声纹核身模型，并在联邦学习网络中按照一定的顺序传播训练得到的梯度参数，各计算机终端基于其他计算机终端发来的梯度参数进一步训练本地模型，从而使得联邦学习网络中计算机终端在本地部署的声纹核身模型均是基于多个计算机终端所存储的语音数据训练得到的。

值得一提的是，图1仅为本申请的一个实施例，虽然在本实施例中每一计算机终端为一个金融机构节点，但在其他实施例或者实际应用中，金融机构节点可以不为计算机终端，并且金融机构节点可以由多个终端或设备组成，比如可以是服务器集群；虽然在本实施例中，联邦学习网络中任意两个计算机终端之间均通过通信链路直接相连，但在其他实施例或者具体应用中，联邦学习网络中可以存在若干计算机终端不直接相连，而是经由其他计算机终端而建立连接，也就是说，联邦学习网络中的若干计算机终端之间可以不存在直接相连的通信链路，此时，各梯度参数也经由其他计算机终端进行累积传输。本申请对此不作限定，本申请的保护范围也不应因此而受到任何限制。

图2是根据一示例性实施例示出的一种声纹核身模型训练方法的流程图。本实施例提供的声纹核身模型训练方法由联邦学习网络中的目标金融机构节点执行，具体可以由服务器执行，如图2所示，包括以下步骤：

步骤210，执行本地训练步骤，所述本地训练步骤包括：利用本地的语音数据对在本地部署的声纹核身模型进行训练，得到所述声纹核身模型的第一梯度参数信息和第一模型参数信息。

所述联邦学习网络中的各金融机构节点均已部署对应的声纹核身模型，各金融机构节点对所部署的声纹核身模型进行训练的方式与所述目标金融机构节点一致。

也就是说，虽然本实施例示出的声纹核身模型训练方法仅由联邦学习网络中的一个目标金融机构节点执行，但联邦学习网络中的所有金融机构节点均可以作为目标金融机构节点，也可以像目标金融机构节点一样执行相同的操作，即本申请提供的声纹核身模型训练方法适用于任意一个金融机构节点。

各金融机构节点均部署的声纹核身模型为初始声纹核身模型，它可以是经过一定训练的模型，也可以是未经训练的模型。

声纹核身模型具有对应的损失函数，而第一梯度参数信息是在对声纹核身模型进行训练过程中不断迭代的用于逼近损失函数的最小值的向量。

在一个实施例中，所述声纹核身模型是基于x-vector模型建立而成的。

x-vector模型抗干扰性强，能够快速捕捉语音信息，通过基于x-vector模型建立得到声纹核身模型，可以保证声纹核身模型的识别效果。

在一个实施例中，所述联邦学习网络中的各金融机构节点均包括本地数据库，在执行本地训练步骤之前，所述方法还包括：

从本地数据库获取语音数据流；

对所述语音数据流进行特征提取，得到特征向量；

所述本地训练步骤包括：利用各所述语音数据流所对应的特征向量对在本地部署的声纹核身模型进行训练，得到所述声纹核身模型的第一梯度参数信息和第一模型参数信息。

特征向量可以是基于梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)生成的，对语音数据流进行特征提取，得到特征向量的步骤可以包括预处理步骤和生成特征向量的步骤。具体来说，预处理步骤可以包括以下子步骤：先将语音数据流输入高通滤波器以增强信号，同时消除唇齿效应；接着然后按照固定的长度对数据集中的语音流进行分割，获得多帧数据；然后采用汉明窗口函数在每帧数据上加窗，避免因为分割导致的数据不连续；接着利用傅里叶变换对语音流信号离散处理，最终获得初始数据。

生成特征向量的步骤可以包括以下子步骤：将初始数据通过三角滤波器组，以消除谐波获得平滑的频谱；然后计算对数能量，提取包括一阶和二阶参数在内的动态差分参数，得到梅尔倒谱系数。最终利用梅尔倒谱系数构造特征向量。

声纹核身模型的具体结构可以是各种各样的，具体来说，可以包括池化层、全连接层，softmax层等，特征向量先输入到模型的池化层，计算这些特征向量向量的均值和标准差，并将结果输入到全连接层。接着全连接层进行特征嵌入传向softmax层；softmax层接基于贝叶斯理论，计算每个特征序列的后验概率。然后根据概率值和先验信息，对应到具体说话人。将该模型的多分类交叉熵作为损失函数，并计算该损失函数对应的梯度值。梯度值即可作为梯度参数信息。

步骤220，将所述第一梯度参数信息输入至所述联邦学习网络中。

第一梯度参数信息可以被输入联邦学习网络中任意一个节点。

具体来说，第一梯度参数信息被封装为预设格式，使得联邦学习网络中的节点可以进行识别。

步骤230，从所述联邦学习网络中获取第二梯度参数信息。

所述第二梯度参数信息基于所述联邦学习网络中所述目标金融机构节点之外的至少一个金融机构节点对各自的声纹核身模型进行训练而得到，所述第二梯度参数信息基于所述第一梯度参数信息计算得到。

在一个实施例中，所述联邦学习网络还包括服务器节点，所述将所述第一梯度参数信息输入至所述联邦学习网络中，包括：

将所述第一梯度参数信息输入至所述联邦学习网络中的服务器节点，以供所述服务器节点基于多个梯度参数信息进行聚合操作，得到对应的全局梯度参数信息，其中，所述多个梯度参数信息包括所述第一梯度参数信息，所述服务器节点接收所述联邦学习网络中多个金融机构节点分别发来的梯度参数信息；

所述从所述联邦学习网络中获取第二梯度参数信息，包括：

从所述联邦学习网络中的所述服务器节点获取所述全局梯度参数信息作为第二梯度参数信息。

在本实施例中，通过利用服务器节点对多个梯度参数信息进行聚合操作，聚合得到的全局梯度参数信息可以直接由服务器节点向金融机构节点提供，保证了训练效率。

在一个实施例中，所述将所述第一梯度参数信息输入至所述联邦学习网络中，包括：

将所述第一梯度参数信息输入至所述联邦学习网络中所述目标金融机构节点之外的至少一个第一金融机构节点，以供所述第一金融机构节点基于所述第一梯度参数信息对在本地部署的声纹核身模型进行训练，得到对应的梯度参数信息；

所述从所述联邦学习网络中获取第二梯度参数信息，包括：

从所述联邦学习网络中获取来自至少一金融机构节点的第二梯度参数信息，所述第二梯度参数信息由所述第一金融机构节点输出或者在由所述第一金融机构节点向所述联邦学习网络输出梯度参数信息之后，经由所述联邦学习网络中某一路径上的各金融机构节点基于所述梯度参数信息对在本地部署的声纹核身模型进行训练，并依次向所述联邦学习网络输出对应的梯度参数信息而得到。

联邦学习网络中某一路径是两个及以上金融机构节点连接的路径。联邦学习网络中金融机构节点的数量以及金融机构节点间的连接关系可以是任意的，因此联邦学习网络中的路径的长度和延伸方向也可以是多种多样的。

在本实施例中，由于未设置中心服务器，因此可以减少服务器的负载压力。

图3是根据一示例性实施例示出的由两个银行组成的联邦学习网络的结构示意图。具体来说，请参照图3，其示出了一个简单的联邦学习网络，银行A为一个金融机构节点，银行B为另一个金融机构节点，银行A和银行B之间便可以相互发送各自生成的梯度参数信息，然后利用获取的梯度参数信息进一步训练和更新本地模型，训练和更新本地声纹核身模型是调整本地声纹核身模型的参数的过程，最终得到联邦模型。当银行A为目标金融机构节点时，银行A先训练本地声纹核身模型，得到第一梯度参数信息，接着，银行A向银行B发送第一梯度参数信息；然后，银行A从银行B获取第二梯度参数信息，并利用该第二梯度参数信息对本地声纹核身模型进行训练和更新，其中第二梯度参数信息可以是银行B利用本地数据库的数据预先训练得到的，也可以是银行B在获得了第一梯度参数信息之后，将已在本地训练得到的梯度参数信息和第一梯度参数信息进行聚合而得到的。在图3中，梯度参数信息还通过加密方式传输，保证了数据安全和隐私。图3中的频谱、韵律、词法、口音等特征信息可以利用前面所说的特征向量来表征。

步骤240，利用所述第二梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件。

预定条件是预先设定的用于停止迭代执行本地训练步骤的条件，可以基于各种规则设定，比如可以是更新次数达到预定更新次数阈值、训练时间达到预定训练时长等。

在一个实施例中，对应于上述实施例，所述联邦学习网络还包括服务器节点，所述服务器节点存储有金融机构节点列表，所述将所述第一梯度参数信息输入至所述联邦学习网络中所述目标金融机构节点之外的至少一个第一金融机构节点，以供所述第一金融机构节点基于所述第一梯度参数信息对在本地部署的声纹核身模型进行训练，得到对应的梯度参数信息，包括：

从所述服务器节点获取各金融机构节点的优先级，所述各金融机构节点的优先级由所述服务器节点随机生成并插入至所述金融机构节点列表之中，其中，各金融机构节点的优先级均不相同，每一金融机构节点仅属于一个优先级；

接收由所述服务器节点广播的当前优先级，其中，所述服务器节点按照优先级从高至低每次广播一个优先级；

若所述当前优先级与所述目标金融机构节点的优先级一致，则将所述第一梯度参数信息输入至所述联邦学习网络中所述目标金融机构节点之外的至少一个第一金融机构节点，以供所述第一金融机构节点基于所述第一梯度参数信息对在本地部署的声纹核身模型进行训练，得到对应的梯度参数信息；

所述从所述联邦学习网络中获取来自至少一金融机构节点的第二梯度参数信息，包括：

从所述联邦学习网络中获取由至少一金融机构节点根据所述广播而发来的梯度参数信息，作为第二梯度参数信息；

所述利用所述第二梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件，包括：

利用各所述第二梯度参数信息聚合得到全局梯度参数信息；

基于所述全局梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件。

在本实施例中，通过服务器随机确定优先级，并使用广播的方式向金融机构节点广播当前优先级，这样就合理地确定了一个金融机构节点其他向金融机构节点发送梯度参数信息的顺序，从而保证了公平性。

在一个实施例中，所述若所述当前优先级与所述目标金融机构节点的优先级一致，则向所述联邦学习网络中的金融机构节点发送所述第一梯度参数信息，包括：

若所述当前优先级与所述目标金融机构节点的优先级一致，则向所述联邦学习网络中优先级低于所述目标金融机构节点的金融机构节点按照优先级从高至低依次发送所述第一梯度参数信息。

图4A是根据一示例性实施例示出的联邦学习网络的结构示意图。请参照图4A，示出了一个联邦学习网络中的四个金融机构节点，每一个虚线框代表一个金融机构节点，各金融机构节点之间均可以直接发送数据。虚线框内的数字代表金融机构节点的优先级，优先级从1至4依次递减，那么，假如目标金融机构节点的优先级为2，按照图5实施例的梯度参数信息发送顺序依次是这样的：当前优先级为1时，优先级为1的金融机构节点按照优先级2、3、4的顺序依次向对应的金融机构节点发送由该优先级为1的金融机构节点生成的梯度参数信息；当前优先级为2时，优先级为2的金融机构节点按照优先级1、3、4的顺序依次向对应的金融机构节点发送梯度参数信息，该梯度参数信息即为第一梯度参数信息；同理，当前优先级为3时，优先级为3的金融机构节点按照优先级1、2、4的顺序依次向对应的金融机构节点发送由该优先级为3的金融机构节点生成的梯度参数信息；当前优先级为4时，优先级为4的金融机构节点按照优先级1、2、3的顺序依次向对应的金融机构节点发送由该优先级为4的金融机构节点生成的梯度参数信息。当然，金融机构节点也可以不按优先级的先后顺序向其他金融机构节点发送梯度参数信息，例如，在当前优先级为2时，优先级为2的金融机构节点也可以按照随机顺序向优先级分别为1、3、4的金融机构节点发送梯度参数信息。

具体来说，服务器节点按照优先级从高至低每次广播下一个优先级可以是根据该当前优先级的金融机构节点所发送出梯度参数信息是否被相应的金融机构节点接收而确定的，比如，金融机构节点列表可以记录发送方金融机构节点和与每一发送方金融机构节点相对应的接收方金融机构节点之间的对应关系，发送方金融机构节点和对应的接收方金融机构节点按照优先级相匹配，比如，优先级为2的金融机构节点为发送方金融机构节点，优先级为1、3、4的金融机构节点为对应的接收方金融机构节点，在当前优先级为2时，优先级为2的金融机构节点按照优先级1、3、4的顺序依次向对应的金融机构节点发送梯度参数信息，优先级分别为1、3、4的金融机构节点在接收到梯度参数信息后会向金融机构节点列表打上标记，当服务器节点判断当前优先级为2的发送方金融机构节点所对应的接收方金融机构节点均在金融机构节点列表中存在对应的标记时，服务器节点会广播下一个优先级。

在一个实施例中，对应于上述实施例，所述全局梯度参数信息利用如下的公式计算得到：

其中，W为全局梯度参数信息，k为金融机构节点，n为所述联邦学习网络中向所述服务器节点发送梯度参数信息的金融机构节点的数量，p_k为金融机构节点k的本地数据集在所有向所述服务器节点发送梯度参数信息的金融机构节点的本地数据集中的数量占比，W_k为金融机构节点k最近向所述联邦学习网络发送的梯度参数信息，m_k为金融机构节点k对应的参数修正值，m_k与金融机构节点k的计算性能正相关。

m_k是预先设置的，其是在综合了各金融机构节点的硬件信息之后，基于金融机构节点k的硬件信息而设定的，反映了金融机构节点k的计算性能。

在本实施例中，通过综合考虑各参与方的设备信息和贡献数据量，改善了联邦平均算法，可以最大化所有方的共同收益。

在一个实施例中，所述联邦学习网络为由多个金融机构节点依次首尾相连组成的闭合网络，所述将所述第一梯度参数信息输入至所述联邦学习网络中所述目标金融机构节点之外的至少一个第一金融机构节点，包括：

将所述第一梯度参数信息输入至所述联邦学习网络中与所述目标金融机构节点相连的第一金融机构节点，所述第一金融机构节点基于所述第一梯度参数信息生成相应的梯度参数信息，并将所述梯度参数信息发送至与所述第一金融机构节点相连的其他金融机构节点；

从所述联邦学习网络中获取来自与所述目标金融机构节点相连的金融机构节点的第二梯度参数信息，所述金融机构节点与所述目标金融机构节点不为同一金融机构节点。

图4B是根据另一示例性实施例示出的联邦学习网络的结构示意图。请参见图4B，图4B中的联邦学习网络以闭合网络的形式存在，该联邦学习网络是由多个金融机构节点依次首尾相连组成的，形成了一个闭合的梯度参数信息发送路径，假如目标金融机构节点为A，那么第一金融机构节点可以为B，第一梯度参数信息由节点A发送至节点B，然后节点B生成相应的梯度参数信息，以此类推，最终节点A再次从节点C获取梯度参数信息，该梯度参数信息是基于A、B、C、D各节点通过在本地训练声纹核身模型而生成的。

在一个实施例中，每一所述金融机构节点均维护所述联邦学习网络中的所有金融机构节点的地址表，所述地址表记录了金融机构节点对应的网络地址，所述联邦学习网络还包括服务器节点，所述服务器节点每隔预定时间段随机生成所述闭合网络中金融机构节点的连接顺序信息，并将所述连接顺序信息向所述联邦学习网络中所有金融机构节点广播，所述金融机构节点按照所述连接顺序信息确定接收由所述金融机构节点发出的梯度参数信息的金融机构节点，通过查询所述地址表确定接收所述梯度参数信息的金融机构节点的网络地址，并按照所述网络地址发送梯度参数信息。

网络地址比如可以是IP地址(Internet Protocol Address)。

在本实施例中，通过由服务器节点定期随机生成金融机构节点的连接顺序信息，从而使得各金融机构节点接收梯度参数信息以及发出梯度参数信息时所连接的金融机构节点是不固定的，从而保证了公平性。

综上所述，根据图2实施例提供的声纹核身模型训练方法，通过基于联邦学习使多个金融机构协作完成声纹核身模型的训练，而各金融机构的数据不会泄露，在各金融机构的能够用于训练模型的数据保留在本地的前提下，扩大了样本空间，声纹核身模型基于各金融机构的数据训练而成，提高了声纹核身模型的准确度和稳定性。

本申请还提供了一种声纹核身模型训练装置，所述装置属于联邦学习网络中的目标金融机构节点，所述联邦学习网络包括多个金融机构节点。以下是本申请的装置实施例。

图5是根据一示例性实施例示出的一种声纹核身模型训练装置的框图。如图5所示，该装置500包括：

本地训练模块510，被配置为执行本地训练步骤，所述本地训练步骤包括：利用本地的语音数据对在本地部署的声纹核身模型进行训练，得到所述声纹核身模型的第一梯度参数信息和第一模型参数信息，所述联邦学习网络中的各金融机构节点均已部署对应的声纹核身模型，各金融机构节点对所部署的声纹核身模型进行训练的方式与所述目标金融机构节点一致；

输入模块520，被配置为将所述第一梯度参数信息输入至所述联邦学习网络中；

获取模块530，被配置为从所述联邦学习网络中获取第二梯度参数信息，所述第二梯度参数信息基于所述联邦学习网络中所述目标金融机构节点之外的至少一个金融机构节点对各自的声纹核身模型进行训练而得到，所述第二梯度参数信息基于所述第一梯度参数信息计算得到；

参数更新模块540，被配置为利用所述第二梯度参数信息重新执行所述本地训练步骤及所述本地训练步骤之后的步骤，以对所述第一模型参数信息进行更新，直至满足预定条件。

根据本申请的第三方面，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(ROM)623。存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行，比如与显示单元640通信。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，当所述计算机可读指令被计算机执行时，使计算机执行本说明书上述的方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种声纹核身模型训练方法，其特征在于，所述方法由联邦学习网络中的目标金融机构节点执行，所述联邦学习网络包括多个金融机构节点，所述方法包括：

将所述第一梯度参数信息输入至所述联邦学习网络中；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一梯度参数信息输入至所述联邦学习网络中，包括：

所述从所述联邦学习网络中获取第二梯度参数信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述联邦学习网络还包括服务器节点，所述将所述第一梯度参数信息输入至所述联邦学习网络中，包括：

所述从所述联邦学习网络中获取第二梯度参数信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述联邦学习网络还包括服务器节点，所述服务器节点存储有金融机构节点列表，所述将所述第一梯度参数信息输入至所述联邦学习网络中所述目标金融机构节点之外的至少一个第一金融机构节点，以供所述第一金融机构节点基于所述第一梯度参数信息对在本地部署的声纹核身模型进行训练，得到对应的梯度参数信息，包括：

利用各所述第二梯度参数信息聚合得到全局梯度参数信息；

5.根据权利要求3或4所述的方法，其特征在于，所述全局梯度参数信息利用如下的公式计算得到：

6.根据权利要求2所述的方法，其特征在于，所述联邦学习网络为由多个金融机构节点依次首尾相连组成的闭合网络，所述将所述第一梯度参数信息输入至所述联邦学习网络中所述目标金融机构节点之外的至少一个第一金融机构节点，包括：

7.根据权利要求6所述的方法，其特征在于，每一所述金融机构节点均维护所述联邦学习网络中的所有金融机构节点的地址表，所述地址表记录了金融机构节点对应的网络地址，所述联邦学习网络还包括服务器节点，所述服务器节点每隔预定时间段随机生成所述闭合网络中金融机构节点的连接顺序信息，并将所述连接顺序信息向所述联邦学习网络中所有金融机构节点广播，所述金融机构节点按照所述连接顺序信息确定接收由所述金融机构节点发出的梯度参数信息的金融机构节点，通过查询所述地址表确定接收所述梯度参数信息的金融机构节点的网络地址，并按照所述网络地址发送梯度参数信息。

8.一种声纹核身模型训练装置，其特征在于，所述装置属于联邦学习网络中的目标金融机构节点，所述联邦学习网络包括多个金融机构节点，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可读指令，当所述计算机可读指令被计算机执行时，使计算机执行根据权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至7任一项所述的方法。