CN111933155B

CN111933155B - 声纹识别模型训练方法、装置和计算机系统

Info

Publication number: CN111933155B
Application number: CN202010986351.XA
Authority: CN
Inventors: 张晴晴; 张雪璐; 贾艳明; 曹艳丽
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-25
Anticipated expiration: 2040-09-18
Also published as: CN111933155A

Abstract

本申请公开了一种基于联邦学习技术的声纹识别模型训练方法、装置和计算机系统，联邦学习终端对原始音频信号进行扭曲处理，扭曲处理用于对原始音频信号进行时域上的扭曲处理或者频域上的掩蔽处理；对音频信号进行声学特征的提取；将随机生成的数据编号与提取到的相应声学特征拼接得到信息向量；对拼接后的信息向量进行无损数学特性的加密处理，得到待训练数据，并将待训练数据传输给联邦学习服务端；联邦学习服务端接收待训练数据；将待训练数据中的多个信息向量按照解密规则一一对应地拆解为数据编号和声学特征两部分；以声学特征作为输入，以数据编号作为输出，训练声学向量提取算法，在声学向量提取算法收敛的情况下，完成声学向量提取算法的训练。

Description

声纹识别模型训练方法、装置和计算机系统

技术领域

本申请属于声纹识别领域，具体涉及一种声纹识别模型训练方法、装置和计算机系统。

背景技术

在大数据时代，人工智能从业者和数据采集者属于不同的分工，二者彼此需要对方的资源，却又常常因安全、隐私等问题，难以建立信任、协同工作。确切地来讲，数据采集者需要将自己的数据使用权交给人工智能从业者，允许后者使用数据来训练人工智能模型，从而使自己的数据产生价值；人工智能从业者则需要获得数据采集方提供的数据使用权，才能训练出可应用的模型并让渡模型的使用权，从而进一步推动社会的发展。在实现本申请过程中，发明人发现人工智能从业者和数据采集者之间存在信任危机，数据采集者只愿意将数据交给人工智能从业者用于模型的训练，而不希望他们接触数据中存在的隐私和敏感信息；人工智能从业者又无法保证自己只将数据用作训练模型而不作他用，目前至少存在如下问题：难以使得数据采集者提供的数据被人工智能从业者安全有效地利用。

发明内容

本申请实施例的目的是提供声纹识别模型训练方法、装置和计算机系统，能够解决目前难以保证数据采集者提供的数据被人工智能从业者安全有效地利用的技术问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种基于联邦学习技术的声纹识别模型训练方法，其特征在于，包括：

联邦学习终端对原始音频信号进行扭曲处理，所述扭曲处理用于对原始音频信号进行时域上的扭曲处理或者频域上的掩蔽处理；

所述联邦学习终端对音频信号进行声学特征的提取；

所述联邦学习终端将随机生成的数据编号与提取到的相应声学特征拼接得到信息向量；

所述联邦学习终端对拼接后的信息向量进行无损数学特性的加密处理，得到待训练数据，并将所述待训练数据传输给联邦学习服务端；

所述联邦学习服务端接收所述待训练数据；

所述联邦学习服务端将所述待训练数据中的多个信息向量按照解密规则一一对应地拆解为数据编号和声学特征两部分；

所述联邦学习服务端以所述声学特征作为输入，以所述数据编号作为输出，训练声学向量提取算法，在所述声学向量提取算法收敛的情况下，完成所述声学向量提取算法的训练。

进一步地，所述联邦学习终端有多个，所述待训练数据包括由第一联邦学习终端提供的第一训练数据和由第二联邦学习终端提供的第二训练数据。

进一步地，在所述完成所述声学向量提取算法的训练之后，还包括：

以所述所述声学向量提取算法的输出结果作为输入，以所述数据编号作为输出，训练分类算法，在所述分类算法收敛的情况下，完成所述分类算法的训练。

第二方面，本申请实施例提供了一种基于联邦学习技术的声纹识别模型训练装置，其特征在于，包括：

扭曲模块，用于联邦学习终端对原始音频信号进行扭曲处理，所述扭曲处理用于对原始音频信号进行时域上的扭曲处理或者频域上的掩蔽处理；

提取模块，用于所述联邦学习终端对音频信号进行声学特征的提取；

拼接模块，用于所述联邦学习终端将随机生成的数据编号与提取到的相应声学特征拼接得到信息向量；

加密模块，用于所述联邦学习终端对拼接后的信息向量进行无损数学特性的加密处理，得到待训练数据，并将所述待训练数据传输给联邦学习服务端；

接收模块，用于所述联邦学习服务端接收所述待训练数据；

拆解模块，用于所述联邦学习服务端将所述待训练数据中的多个信息向量按照解密规则一一对应地拆解为数据编号和声学特征两部分；

第一训练模块，用于所述联邦学习服务端以所述声学特征作为输入，以所述数据编号作为输出，训练声学向量提取算法，在所述声学向量提取算法收敛的情况下，完成所述声学向量提取算法的训练。

进一步地，所述训练装置还包括：

第二训练模块，用于以所述所述声学向量提取算法的输出结果作为输入，以所述数据编号作为输出，训练分类算法，在所述分类算法收敛的情况下，完成所述分类算法的训练。

第三方面，本申请实施例提供了另一种基于联邦学习技术的声纹识别模型训练方法，其特征在于，包括：

所述联邦学习终端对音频信号进行声学特征的提取；

所述联邦学习终端以所述声学特征作为输入，以所述数据编号作为输出，训练声学向量提取算法，在所述声学向量提取算法收敛的情况下，完成所述声学向量提取算法的训练，得到待融合模型；

所述联邦学习终端对所述待融合模型进行无损数学特性的加密处理，并将所述加密后的所述待融合模型传输给联邦学习服务端；

所述联邦学习服务端接收所述待融合模型；

所述联邦学习服务端对所述待融合模型进行融合处理，得到最终的声纹向量提取模块。

进一步地，在所述所述联邦学习服务端对所述待融合模型进行融合处理，得到最终的声纹识别模型之后，还包括：

所述联邦学习服务端以所述声学向量提取模块的输出结果作为输入，以所述数据编号作为输出，训练分类算法，在所述分类算法收敛的情况下，完成所述分类算法的训练。

第四方面，本申请实施例提供了一种计算机系统，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的声纹识别模型的训练方法的步骤。

在本申请实施例中，联邦学习终端通过对采集到的原始数据进行预先的加密处理，之后联邦学习服务端对加密处理后的数据进行声纹识别的训练，既保护了联邦学习终端侧（数据采集方）的数据隐私，又保证联邦学习服务端侧（模型训练方）对数据的正当使用权，使得数据采集者提供的数据被人工智能从业者安全有效地利用。

附图说明

图1是本申请实施例提供的一种基于联邦学习技术的声纹识别模型训练方法的流程示意图；

图2是本申请实施例提供的一种基于联邦学习技术的声纹识别模型训练装置的结构示意图；

图3是本申请实施例提供的另一种基于联邦学习技术的声纹识别模型训练方法的流程示意图。

附图标记说明：

20-声纹识别模型训练装置、201-扭曲模块、202-提取模块、203-拼接模块、204-加密模块、205-接收模块、206-拆解模块、207-第一训练模块、208-第二训练模块。

本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的摄影设备进行详细地说明。

参照图1示出了本申请实施例提供的一种基于联邦学习技术的声纹识别模型训练方法的流程示意图。

训练方法，包括：

S101：联邦学习终端对原始音频信号进行扭曲处理，扭曲处理用于对原始音频信号进行时域上的扭曲处理或者频域上的掩蔽处理。

可以理解的是，经过扭曲预处理可以遮蔽音频信号中人耳不敏感的高频信号。

S102：联邦学习终端对音频信号进行声学特征的提取。

进一步地，声学特征可以包括：梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient, MFCC)、I-vector、D-vector和X-vector。

可以理解的是，通过对以上声学特征的判断，可以完成对说话人身份的识别。

S103：联邦学习终端将随机生成的数据编号与提取到的相应声学特征拼接得到信息向量。

可选地，数据编号可以由随机生成的固定位数的设备编号与随机生成的固定位数的说话人编号构成，通过随机编号与设备、说话人建立关联关系。

S104：联邦学习终端对拼接后的信息向量进行无损数学特性的加密处理，得到待训练数据，并将待训练数据传输给联邦学习服务端。

可选地，可以采用同态加密的方法进行加密处理。同态加密方法能够实现密文之间的计算等价于明文之间的计算，即无需解密数据仍能对数据进行计算操作，既能减少解密带来的计算成本，又能在有效保护隐私的情况下进行计算任务。

S105：联邦学习服务端接收待训练数据。

可选地，联邦学习终端有多个，待训练数据包括由第一联邦学习终端提供的第一训练数据和由第二联邦学习终端提供的第二训练数据。

通过对不同联邦学习终端提供的数据进行整合，可以更加高效地进行数据处理。

S106：联邦学习服务端将待训练数据中的多个信息向量按照解密规则一一对应地拆解为数据编号和声学特征两部分。

可选地，解密规则可以是加密规则的逆过程。可以按位数拆解出设备编号、说话人编号以及声学特征。

S107：联邦学习服务端以声学特征作为输入，以数据编号作为输出，训练声学向量提取算法，在声学向量提取算法收敛的情况下，完成声学向量提取算法的训练。

可选地，声学向量提取算法可以包括：GMM-UBM算法、DNN算法、TDNN+POOLING+DNN算法。

本申请实施例中，联邦学习终端通过对采集到的原始数据进行预先的加密处理，之后联邦学习服务端对加密处理后的数据进行声纹识别的训练，既保护了联邦学习终端侧（数据采集方）的数据隐私，又保证联邦学习服务端侧（模型训练方）对数据的正当使用权，使得数据采集者提供的数据被人工智能从业者安全有效地利用。

进一步地，在步骤S107之后，还包括：

S108：联邦学习服务端以声学向量提取算法的输出结果作为输入，以数据编号作为输出，训练分类算法，在分类算法收敛的情况下，完成分类算法的训练。

可选地，分类算法可以包括：PLDA算法、SVM算法、贝叶斯分类法。

在本申请实施例中，通过训练分类算法，可以提高数据的处理效率。

需要说明的是，本申请实施例提供的声纹识别模型的训练方法，执行主体可以为虚拟装置，或者该虚拟装置中的用于执行声纹识别模型的训练方法的控制模块。本申请实施例中以虚拟装置执行加载声纹识别模型的训练方法为例，说明本申请实施例提供的声纹识别模型的训练装置。

参照图2，示出了本申请实施例提供的一种基于联邦学习技术的声纹识别模型训练装置的结构示意图，声纹识别模型训练装置20包括：

扭曲模块201，用于联邦学习终端对原始音频信号进行扭曲处理，扭曲处理用于对原始音频信号进行时域上的扭曲处理或者频域上的掩蔽处理；

提取模块202，用于联邦学习终端对音频信号进行声学特征的提取；

拼接模块203，用于联邦学习终端将随机生成的数据编号与提取到的相应声学特征拼接得到信息向量；

加密模块204，用于联邦学习终端对拼接后的信息向量进行无损数学特性的加密处理，得到待训练数据，并将待训练数据传输给联邦学习服务端；

接收模块205，用于联邦学习服务端接收待训练数据；

拆解模块206，用于联邦学习服务端将待训练数据中的多个信息向量按照解密规则一一对应地拆解为数据编号和声学特征两部分；

第一训练模块207，用于联邦学习服务端以声学特征作为输入，以数据编号作为输出，训练声学向量提取算法，在声学向量提取算法收敛的情况下，完成声学向量提取算法的训练。

进一步地，联邦学习终端有多个，待训练数据包括由第一联邦学习终端提供的第一训练数据和由第二联邦学习终端提供的第二训练数据。

进一步地，声纹识别模型训练装置20还包括：

第二训练模块208，用于以声学向量提取算法的输出结果作为输入，以数据编号作为输出，训练分类算法，在分类算法收敛的情况下，完成分类算法的训练。

本申请实施例提供的声纹识别模型训练装置20能够实现上述方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例中的虚拟装置可以是装置，也可以是终端中的部件、集成电路、或芯片。

可选的，本申请实施例还提供一种计算机系统，其特征在于，包括处理器，存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现上述的声纹识别模型的训练方法的步骤。且能达到相同的技术效果，为避免重复，这里不再赘述。

进一步地，参照图3，示出了本申请实施例提供的另一种基于联邦学习技术的声纹识别模型训练方法的流程示意图，训练方法，包括：

S301：联邦学习终端对原始音频信号进行扭曲处理，扭曲处理用于对原始音频信号进行时域上的扭曲处理或者频域上的掩蔽处理。

S302：联邦学习终端对音频信号进行声学特征的提取。

S303：联邦学习终端将随机生成的数据编号与提取到的相应声学特征拼接得到信息向量。

S304：联邦学习终端以声学特征作为输入，以数据编号作为输出，训练声学向量提取算法，在声学向量提取算法收敛的情况下，完成声学向量提取算法的训练，得到待融合模型。

S305：联邦学习终端对待融合模型进行无损数学特性的加密处理，并将加密后的待融合模型传输给联邦学习服务端。

S306：联邦学习服务端接收待融合模型。

S307：联邦学习服务端对待融合模型进行融合处理，得到最终的声纹向量提取模块。

本申请实施例中，联邦学习终端通过对采集到的原始数据进行预先的训练得到待融合模型，之后对待融合模型进行加密处理，联邦学习服务端对加密处理后的待融合模型进行融合处理得到最终的声纹向量提取模块，既保护了联邦学习终端侧（数据采集方）的数据隐私，又保证联邦学习服务端侧（模型训练方）对数据的正当使用权，使得数据采集者提供的数据被人工智能从业者安全有效地利用。

进一步地，在步骤S307之后，还包括：

S308：联邦学习服务端以声学向量提取模块的输出结果作为输入，以数据编号作为输出，训练分类算法，在分类算法收敛的情况下，完成分类算法的训练。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于联邦学习技术的声纹识别模型训练方法，其特征在于，包括：

所述联邦学习终端对音频信号进行声学特征的提取；

所述联邦学习服务端接收所述待训练数据；

2.根据权利要求1所述的方法，其特征在于，所述联邦学习终端有多个，所述待训练数据包括由第一联邦学习终端提供的第一训练数据和由第二联邦学习终端提供的第二训练数据。

3.根据权利要求1所述的方法，其特征在于，在所述完成所述声学向量提取算法的训练之后，还包括：

所述联邦学习服务端以所述声学向量提取算法的输出结果作为输入，以所述数据编号作为输出，训练分类算法，在所述分类算法收敛的情况下，完成所述分类算法的训练。

4.一种基于联邦学习技术的声纹识别模型训练装置，其特征在于，包括：

接收模块，用于所述联邦学习服务端接收所述待训练数据；

5.根据权利要求4所述的装置，其特征在于，所述联邦学习终端有多个，所述待训练数据包括由第一联邦学习终端提供的第一训练数据和由第二联邦学习终端提供的第二训练数据。

6.根据权利要求4所述的装置，其特征在于，还包括：

第二训练模块，用于所述联邦学习服务端以所述声学向量提取算法的输出结果作为输入，以所述数据编号作为输出，训练分类算法，在所述分类算法收敛的情况下，完成所述分类算法的训练。

7.一种计算机系统，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-3任一项所述的声纹识别模型训练方法的步骤。