CN107424614A

CN107424614A - 一种声纹模型更新方法

Info

Publication number: CN107424614A
Application number: CN201710585058.0A
Authority: CN
Inventors: 杨有科; 李�权; 冯国梁; 谢泽鑫; 邹月荣; 郭清霞; 钟胜根
Original assignee: GUANGZHOU MORNING STAR TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU MORNING STAR TECHNOLOGY Co Ltd
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2017-12-01

Abstract

本发明公开了一种声纹模型更新方法，包括如下步骤：接收用户语音数据；采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人；采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据；利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型，利用所述新的声纹模型更新原声纹模型。本发明防止与目标说话人很相似的冒认者说话人在短时间内连续冒认，对目标说话人声纹模型持续更新，导致目标说话人无法进行身份认证的情况，以及防止不同用户的声纹模型更新程度不同而导致的模型匹配度得分布不一致，从而提高目标说话人声纹模型更新的正确性。

Description

一种声纹模型更新方法

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种声纹模型更新方法。

背景技术

声纹特征是人体重要生物特征之一，具有较强的个体特殊性，常用于声纹识别、声纹认证等领域作为身份认证的一种特征。因此，可以通过建立声纹模型来表征不同的个体，进而利用该声纹模型识别不同的个体。目前，声纹模型的应用面临的共同的问题是训练数据的获取。一般情况下，声纹模型获取到的训练数据都非常少，因此，训练得到的模型准确度和适应性较差，为了增加声纹模型的实用性，需要后期不断的更新模型来增加模型的准确度和适应性。现有的模型更新方法一般是直接将认证成功用户的新录制语音数据加入到原声纹模型的训练数据中重新训练模型，利用所述新模型对原模型进行更新。当与目标说话人相似的冒认者说话人在很短时间内连续冒认时，如连续录入大量数据，目标说话人模型会持续更新，从而导致目标说话人模型偏离目标说话人声纹特征，最终导致目标说话人无法认证。此外，现有方法中，不同目标说话人模型更新程度往往不同，使用所述模型进行认证得到的模型匹配度得分分布也不一致，对所有用户使用统一阈值判定认证结果显然不合理。因此，如何可以准确合适的对声纹模型进行更新成为研究人员亟需解决的问题。

发明内容

本发明提供一种声纹模型更新方法，解决现有技术中与目标说话人声纹特征相似的冒认说话人在很短时间内连续冒认时，导致更新后的声纹模型偏离目标说话人声纹特征的问题。

本发明采用如下技术方案：

一种声纹模型更新方法，包括如下步骤：

接收用户语音数据；

采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人；

采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据；

利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型，利用所述新的声纹模型更新原声纹模型。

进一步地，所述采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人的步骤包括具体如下步骤：

在对用户进行声纹认证时，获取当前用户的语音数据；

计算所述当前用户的语音数据的声纹特征与目标说话人声纹模型的匹配度，将所述匹配度作为待规整匹配度；

对所述待规整匹配度进行零规整，得到规整后的匹配度；

如果规整后的匹配度大于设定的第二阈值，则确定当前用户为目标说话人。

作为上述方案的改进，该方法还包括：

预先收集大量来自不同说话人的语音数据作为种子数据，放入种子集合中；

计算所述种子集合中每条语音数据的声纹特征与所述目标说话人声纹模型的匹配度，得到匹配度集合；

计算所述匹配度集合中所有匹配度的均值及标准差，并将计算得到的均值及标准差作为冒认者说话人语音数据的声纹特征与所述目标说话人声纹模型匹配度分布的均值及标准差；

所述对所述待规整匹配度进行零规整，得到规整后的匹配度包括：

利用所述均值及标准差对所述待规整匹配度进行零规整，得到规整后的匹配度。

进一步地，所述采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据的步骤具体包括如下步骤：

获取目标说话人当前登录时间及目标说话人声纹模型上一次的更新时间；

将目标说话人声纹模型上一次的更新时间至目标说话人当前登录时间的时间段划分为多个时间聚团；

获取每个时间聚团内所述目标说话人声纹认证成功时的语音数据，从每个时间聚团内认证成功的语音数据中选择语音数据，并将选择的语音数据作为目标说话人每个时间聚团内的语音数据；

对于每个时间聚团，获取所述时间聚团内认证成功的语音数据相对目标说话人声纹模型的匹配度；筛选出大于设定的第一阈值的匹配度对应的语音数据；或者按照匹配度由大到小的顺序对各条语音数据进行排序，筛选出设定条数的语音数据；

对所述每个时间聚团内已筛选出的语音数据进行采样，作为目标说话人模型更新数据。

有益效果

本发明采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人，防止不同用户的声纹模型更新程度不同而导致的模型匹配度得分布不一致，从而提高目标说话人声纹模型更新的正确性。采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据；防止与目标说话人很相似的冒认者说话人在短时间内连续冒认，对目标说话人声纹模型持续更新，导致目标说话人无法进行身份认证的情况。

附图说明

图1是本发明提供的一个实施例的声纹模型更新方法的流程图示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的一个实施例的声纹模型更新方法的流程图，该方法包括如下步骤：

S1：接收用户语音数据；

具体地，所述语音数据可以为用户通话、聊天或登录时的录音数据，也可为用户自己录制的语音数据。

S2：采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人；

S3：采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据；

S4：利用所述目标说话人模型更新数据及原声纹模型训练数据重新训练新的声纹模型，利用所述新的声纹模型更新原声纹模型。

进一步地，所述步骤S2，所述采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人步骤，为了防止不同用户的声纹模型更新程度不同而导致的模型匹配度得分布不一致，具体实现流程步骤如下：

S201：计算当前用户语音数据的声纹模型匹配度得分如式1所示：

其中，p(X|SM)为所述声纹特征X相对说话人声纹模型SM(Speaker Model，SM)的似然度，P(X|UBM)为所述声纹特征X相对通用背景模型UBM(Universal Background Model，UBM)的似然度。所述声纹模型SM和通用背景模型UBM可以通过收集数据预先进行构建。

S202：采用零规整方法对所述模型匹配度得分进行零规整。

S203：所述规整后的模型匹配度得分判定当前用户是否匹配成功，匹配结果为I，如果当前用户匹配成功，则将当前用户作为目标说话人，具体如式6所示：

其中，I为1表示当前用户匹配成功，当前用户作为目标说话人；I为0表示当前用户匹配失败。σ表示模型匹配度得分阈值，一般根据实验结果或经验取值。

上述均值μ及标准差σ可以按以下方式来计算：

步1)收集大量来自不同说话人的语音数据作为种子数据，放入种子集合中；计算种子集合中每条语音声纹特征相对目标说话人模型的匹配度得分QS：

其中，QS_i表示第i条语音特征相对目标说话人模型匹配度得分，A_i表示第i条语音的声纹特征。

步2)计算所述种子集合中每条语音特征相对目标发音人模型匹配度得分的均值及标准差，具体计算方法如式3和式4所示：

其中，N表示种子集合中语音条数；

步3)将步2)所述均值及标准差作为冒认者说话人在目标说话人模型上匹配度得分分布的均值及标准差，使用所述均值及标准差对步骤S201所述用户模型匹配度得分进行规整，得到规整后的模型匹配度得分S′。规整后的模型匹配度得分分布大致可以被规整到均值为0，方差为1的标准正态分布上，具体如式5所示：

进一步地，所述步骤S3，所述采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据步骤，为了防止与目标说话人很相似的冒认者说话人在短时间内连续冒认，对目标说话人声纹模型持续更新，导致目标说话人无法进行身份认证的情况，具体实现流程步骤如下：

S301：获取目标说话人当前登录时间T₁及声纹模型上一次的更新时间T₂。所述模型更新时间一般根据用户的习惯来确定，如用户在某一段时间内登录较频繁，而平常却很少登录使用，模型更新时间一般较长，如一个月更新一次；如果用户一直很频繁的登录，模型更新时间一般较短，如一个星期更新一次；

S302：根据所述T₁和T₂及预先确定的聚团数N，计算第i个时间聚团大小t_i，具体如式7所示：

其中，λ_i为影响因子，所述影响因子根据实际应用环境而定，具体取值可以人工设定，也可以通过大量数据训练得出；如实际应用环境在某段时间内网络安全性较差，黑客较多，此时需要相应增加影响因子λ_i，扩大时间聚团大小t_i，防止冒认者说话人在较短时间内连续录入大量语音数据持续将目标说话人模型更新。当时，即为平均划分每个时间聚团大小。

S303：根据步所述划分的时间聚团，搜索目标说话人每个时间聚团内匹配成功的语音数据；从而得到目标说话人每个时间聚团内的语音数据。

S304：对所述时间聚团内语音数据进行筛选，具体筛选方法可以根据阈值筛选；也可以根据模型匹配度得分对语音数据进行排序，选择TopN条语音数据，也可以采用其它方法进行数据筛选。以阈值筛选为例，判定每个时间聚团内的每条语音数据相对目标发音人声纹模型的模型匹配度得分是否大于预先设定的阈值；如果是，则保留当前语音数据；否则，删除当前语音数据。

S305：对每个时间聚团内保留的语音数据进行采样，如果时间聚团内的语音数据为0条，则不进行采样，如果为1条，则直接使用，如果大于1条，则进行采样，选择1条或多条语音数据，具体采样方法可以为随机采样或其它采样方法。

S306：获取每个时间聚团内采样得到的语音数据，作为目标说话人模型更新数据。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种声纹模型更新方法，其特征在于，包括如下步骤：

接收用户语音数据；

2.如权利要求1所述的声纹模型更新方法，其特征在于，所述采用零规整方法对当前用户进行身份认证，认证成功的用户作为目标说话人的步骤包括具体如下步骤：

在对用户进行声纹认证时，获取当前用户的语音数据；

对所述待规整匹配度进行零规整，得到规整后的匹配度；

3.如权利要求2所述的声纹模型更新方法，其特征在于，该方法还包括：

4.如权利要求1所述的声纹模型更新方法，其特征在于，所述采用时间聚团方法对所述目标说话人语音数据进行筛选，得到筛选后的目标说话人模型更新数据的步骤具体包括如下步骤：