CN111418009A

CN111418009A - 个性化说话者验证系统和方法

Info

Publication number: CN111418009A
Application number: CN202080000759.3A
Authority: CN
Inventors: 王志铭; 姚开盛; 李小龙
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2020-01-09
Publication date: 2020-07-14
Anticipated expiration: 2040-01-09
Also published as: WO2020098828A2; CN111712874A; TWI737462B; TW202119393A; US20210110833A1; US20210210101A1; SG11202010803VA; CN111712874B; CN111418009B; WO2020035085A2; US11244689B2; US10997980B2; WO2020035085A3; US11031018B2; SG11202013135XA; WO2020098828A3; US20210043216A1

Abstract

提供了用于个性化说话者验证的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述方法之一包括：获得说话者的第一语音数据作为正样本，以及与说话者不同的实体的第二语音数据作为负样本；将正样本和负样本馈送到第一模型以确定人声特性，从而相应地输出说话者的正人声特性和负人声特性；至少基于正人声特性和负人声特性获得梯度；将梯度馈送到第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

Description

个性化说话者验证系统和方法

相关申请的交叉引用

本申请基于2019年10月31日提交的、申请号PCT/CN2019/114812、发明标题为“用于确定人声特性的系统和方法”的国际专利申请，并要求该专利申请的优先权，该申请的全文以引用的方式并入本文。

技术领域

本申请通常涉及个性化说话者验证系统和方法。

背景技术

基于人的人声特性已经开发出许多应用。在给定所记录的说话者声学特性和某些语音话语作为试验的情况下，说话者验证可以验证说话者身份，并输出是否接受或拒绝该语音话语与该说话者相关联的二元决策。例如，个人身份可以与其唯一的声音相关联，以便可以根据他们的声音验证用户。为此，已经提出了诸如深度学习等的机器学习算法来训练计算机系统识别人声。深度学习，也称为深度神经网络(DNN)，是人工智能中机器学习的一个子集，它具有能够从非结构化数据(可以被标记或不被标记)中学习的网络。

传统的说话者验证系统对所有用户使用通用的说话者识别模型(以一对所有)，而没有针对目标用户的任何个性化更新，因此缺乏鲁棒性和灵活性。具体而言，传统的机器学习模型通常在经过数据样本训练后固定其参数，并且带有该模型的产品也包含着同样的固定参数被提供给用户。因此，期望针对个人提供个性化的机器学习模型。

发明内容

本文的各种实施例包括但不限于用于个性化说话者验证的系统、方法和非暂时性计算机可读介质。

根据一些实施例，计算机实现的个性化说话者验证方法包括：获得说话者的第一语音数据作为正样本，以及与说话者不同的实体的第二语音数据作为负样本；将正样本和负样本馈送到第一模型以确定人声特性，从而相应地输出说话者的正人声特性和负人声特性；至少基于正人声特性和负人声特性获得梯度；将梯度馈送到第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

在一些实施例中，获得说话者的第一语音数据作为正样本，以及不同于该说话者的实体的第二语音数据作为负样本，包括：获得说话者的一个或多个语音片段作为正样本，以及说话者以外的一人或多人的一个或多个语音片段作为负样本。将正样本和负样本馈送到第一模型，以相应地输出说话者的正人声特性和负人声特性，包括：将说话者的一个或多个语音片段馈送到第一模型，以相应地输出一个或多个正样本向量，并将说话者以外的一人或多人的一个或多个语音片段馈送到第一模型，以相应地输出一个或多个负样本向量。

在一些实施例中，该方法进一步包括对一个或多个正样本向量求平均以获得说话者的模板向量。

在一些实施例中，该方法还包括：获得用户的语音数据；将获得的语音数据馈送到第二模型，以获得用户的输入向量；将用户的输入向量与说话者的模板向量进行比较；并至少基于比较来验证用户是否是说话者。

在一些实施例中，至少基于正人声特性和负人声特性来获得梯度，包括：将一个或多个正样本向量和一个或多个负样本向量馈送到神经网络分类器中以获得一个或多个梯度向量。

在一些实施例中，至少基于正人声特性和负人声特性来获得梯度，还包括：对一个或多个梯度向量求平均，以获得说话者的平均梯度向量作为梯度。

在一些实施例中，将梯度馈送到第一模型以更新第一模型的一个或多个参数包括：将说话者的平均梯度向量馈送到第一模型以更新第一模型的一个或多个参数；一个或多个参数将第一模型的不同神经层相关联。

在一些实施例中，将一个或多个正样本向量和一个或多个负样本向量馈送到神经网络分类器以获得一个或多个梯度向量包括：至少基于通过神经网络分类器的交叉熵损失函数的反向传播来获得梯度。

在一些实施例中，将梯度馈送到第一模型以更新第一模型的一个或多个参数，包括：将梯度馈送到第一模型，以至少基于梯度和在线机器学习率来更新第一模型的一个或多个参数。

在一些实施例中，将梯度馈送到第一模型，以至少基于梯度和在线机器学习率来更新第一模型的一个或多个参数，包括：在梯度以最快的在线机器学习率下降的方向上更新一个或多个参数。

在一些实施例中，在将正样本和负样本馈送到第一模型以确定人声特性之前，至少已经通过使优化说话者分类的第一损失函数和优化说话者聚类的第二损失函数共同地最小化而训练了第一模型。

在一些实施例中，第一损失函数包括不基于采样的损失函数；以及第二函数包括具有非单位多元协方差矩阵的高斯混合损失函数。

根据其他实施例，一种用于个性化说话者验证的系统包括一个或多个处理器以及耦接到所述一个或多个处理器并且其上存储有指令的一个或多个计算机可读存储器，所述指令可由一个或多个处理器执行以执行前述实施例中任一项的方法。

根据又一实施例，一种非暂时性计算机可读存储介质，配置有可由一个或多个处理器执行的指令，以使一个或多个处理器执行前述实施例中任一项的方法。

根据再一实施例，一种用于个性化说话者验证的装置包括用于执行前述实施例中任一项的方法的多个模块。

根据一些实施例，个性化说话者验证系统包括一个或多个处理器以及一个或多个非暂时性计算机可读存储介质，其上存储有指令，所述指令可由一个或多个处理器执行以使一个或多个处理器执行包括以下的操作：获得说话者的第一语音数据作为正样本，以及与说话者不同的实体的第二语音数据作为负样本；将正样本和负样本输入第一模型以确定人声特性，从而相应地输出说话者的正人声特性和负人声特性；至少基于正人声特性和负人声特性获得梯度；将梯度馈送到第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

根据其他实施例，非暂时性计算机可读存储介质配置有可被一个或多个处理器执行的指令，以促使一个或多个处理器执行包括以下的操作：获得说话者的第一语音数据作为正样本，以及与说话者不同的实体的第二语音数据作为负样本；将正样本和负样本馈送到第一模型以确定人声特性，从而相应地输出说话者的正人声特性和负人声特性；至少基于正人声特性和负人声特性获得梯度；将梯度馈送到第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

根据另一些实施例，用于个性化说话者验证的装置包括：第一获得模块，用于获得说话者的第一语音数据作为正样本，以及与说话者不同的实体的第二语音数据作为负样本；第一馈送模块，用于将正样本和负样本馈送到第一模型以确定人声特性，从而相应地输出说话者的正人声特性和负人声特性；第二获得模块，用于至少基于正人声特性和负人声特性获得梯度；第二馈送模块，用于将梯度馈送到第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

本文公开的实施例具有一个或多个技术效果。在一些实施例中，通过至少使用说话者的语音数据训练模型参数来针对说话者个性化定制个性化说话者验证模型。这可以增强模型的鲁棒性和灵活性，并提供准确的身份验证。在一些实施例中，将在线机器学习策略用于训练个性化说话者验证模型，这有助于改善模型的性能。在一些实施例中，正样本(例如，用于个性化说话者验证的目标说话者的语音数据)和负样本(例如，并非由说话者说出的语音数据)都用于模型训练。这提高了个性化说话者验证模型的鲁棒性和准确性。在一个实施例中，将正样本和负样本被馈送到第一模型(称为“用于确定人声特性的第一模型”)以获得模板向量和梯度向量，两者均可以与说话者相关联地存储。在一些实施例中，将梯度向量馈送到第一模型以更新第一模型并获得更新后的第一模型作为第二模型(称为“用于个性化说话者验证的第二模型”)。第二模型可以包含每个目标说话者的个性化参数，并且可以用于个性化说话者验证。

本文公开的系统、方法和非暂时性计算机可读介质的这些和其他特征，相关结构要素的操作方法和功能以及各部分的结合，以及批量生产的经济考量，在结合附图来考虑下文的描述和附加的权利要求时将变得更加明显，所有这些均形成了本文的一部分，其中，相同的附图标记在各个附图中表示相应的部分。然而，应该明确地理解，附图仅是出于说明和描述的目的，而并非旨在进行限制。

附图说明

图1示出了根据一些实施例的用于个性化说话者验证的系统。

图2A示出了根据一些实施例的用于获得特征向量的方法。

图2B示出了根据一些实施例的用于训练用于确定人声特性的第一模型的示例的方法。

图2C示出了根据一些实施例的用于个性化说话者验证的方法。

图3示出了根据一些实施例的用于个性化说话者验证的方法。

图4示出了根据一些实施例的用于个性化说话者验证的计算机系统的框图。

图5示出了可以实现本文描述的实施例中的任何一个的计算机系统的框图。

具体实施方式

人声特性作为个人特点具有多种应用的潜力。人声特性可以包括以下一项或多项：音量、音高、语调(升调或降调)、声调、持续时间、语速、响度等。每个人都可能具有区别于其他人的一个或多个独特的人声特性。在给定已记录的说话者的人声特性和某些语音话语作为试验的情况下，说话者验证可以验证说话者身份。说话者验证输出接受或拒绝未识别的语音话语与说话者相关联的二元决策。

人声特性可能基于语音，也可能不基于语音。因此，说话者验证系统可以进一步分类为文本独立型或文本依赖型。与文本依赖型系统相比，文本独立型系统不会将话语内容固定为某些词汇短语。在一个示例中，对于文本依赖型系统，所有用户都必须说出相同的预设短语才能在基于自己声音的条件下被识别；但是对于文本独立型系统，用户可以说出不同的短语或发出不同的人声，而仍然可以被识别。

为使用深度学习获得实值的、紧凑的低维向量来表示说话者特性，已经提出了多种方法。深度学习是人工智能中机器学习的一个子集，它具有能够从非结构化或未标记数据中学习的网络。深度学习可以是有监督的、半监督的或无监督的。近期的成果试图结合例如三元组损失、中心损失和对比损失的多种损失函数，来训练说话者嵌入向量(通过深度学习得到的一组高级特征表示)。说话者嵌入向量可以指从可变长度的语音片段中捕获音段级的声学表征以区分不同说话者的习得式嵌入向量。例如，损失函数可以应用于属于其相关说话者的语音话语的正样本和与说话者不相关的语音话语的负样本。对于另一个示例，可以测量中心损耗，作为说话者嵌入向量与其中心之间的欧几里得损耗。

本文描述的实施例提供了用于个性化说话者验证的方法、系统和装置。在一些实施例中，公开了用于个性化说话者验证系统的在线机器学习策略。与固定针对所有说话者的通用说话者识别模型相反，该在线机器学习策略可以用于针对每个目标说话者训练个性化的说话者识别模型，这有助于增强说话者模型的鲁棒性并改善模型性能。在线机器学习可以指一种机器学习的方法，在该方法中，数据按顺序依次可用，且数据用于在每个步骤中为将来数据更新最佳预测器(模型)，这与通过一次性学习整个训练数据集来生成最佳预测器的批量学习技术相反。

图1示出了根据一些实施例的用于个性化说话者验证的系统100。下面呈现的系统100的组件旨在示意。取决于实施方式的不同，系统100可以包括更多的、更少的或替代性的组件。

在一些实施例中，系统100可以包括计算系统102、计算设备104、计算设备106和计算设备108。应当理解，尽管图1中示出了三个计算设备，系统100中可以包括任意数量的计算设备。计算系统102可以实现在一个或多个网络(例如企业网络)、一个或多个端点、一个或多个服务器(例如服务器130)或一个或多个云中。服务器130可以包括对网络中的集中式资源或服务的访问进行管理的硬件或软件。云可以包括分布在网络上的服务器和其他设备的集群。

在一些实施例中，计算系统102可以包括第一获得组件112、第一馈送组件114、第二获得组件116和第二馈送组件118，所述组件中的一个或多个可以是可选的。计算系统102可以包括其他组件。计算系统102的各种组件可以被集成在一个物理设备中或分布在多个物理设备中。

在一些实施例中，计算系统102可以包括一个或多个处理器(例如数字处理器、模拟处理器、设计用于处理信息的数字电路、中央处理器、图形处理单元、微控制器或微处理器、设计用于处理信息的模拟电路、状态机和/或其他用于电子化处理信息的机制)和一个或多个存储器(例如永久存储器、临时存储器、非暂时性计算机可读存储介质)。所述一个或多个存储器可以配置有可由一个或多个处理器执行的指令。处理器可以被配置为通过解释存储在存储器中的机器可读指令来执行各种操作。计算系统102可以安装有适当的软件(例如平台程序等)和/或硬件(例如电线，无线连接等)以访问系统100的其他设备。

在一些实施例中，计算设备104、106和108可以在诸如移动电话、平板电脑、服务器、台式计算机和膝上型计算机等的各种设备上实现，或实现为此类设备。计算设备106和计算设备108可以是相同设备或不同设备。计算系统102可以与计算设备104、106和108以及其他计算设备通信。设备间通信可能通过本地网络(例如LAN)、通过直接通信(例如蓝牙^TM、射频、红外)等在互联网上发生。在一个实施例中，计算设备104、106或108可以包括麦克风或配置为记录语音数据(例如人声)的替代设备，或与此类设备相关联。用户可以在麦克风的检测范围内讲话以进行音频捕获。

在一些实施例中，系统100可以包括个性化说话者验证平台。例如，计算系统102和/或其他计算设备可以实现该个性化说话者验证平台。个性化说话者验证平台可以训练用于个性化说话者验证的模型并实现其应用。例如，该平台可以从诸如计算设备104(通过通信122)和/或计算设备108(通过通信128)之类的各种源处获得训练数据，以针对目标说话者160建立个性化说话者验证模型。

在一些实施例中，计算设备104可能已经记录或存储了一个或多个说话者的语音数据。例如，计算设备104可以提供语音数据库。在第一阶段，所述平台可以利用从计算设备104获得的语音数据来训练机器学习模型，以获得第一模型(称为“用于确定人声特性的第一模型”)。第一模型未经个性化。在第二阶段，可以用更多的训练数据(例如正样本和负样本)进一步训练第一模型以获得第二模型(称为“用于个性化说话者验证的第二模型”)。

在一些实施例中，说话者160可以与计算设备108交互，以提供一部分训练数据(例如正样本)。例如，通过对耦接到计算设备108的麦克风讲话，用户160可以向计算设备108提供语音数据(例如人声142)。计算系统102可以从计算设备108获得由说话者160说出的语音数据作为正样本。计算系统102可以从计算设备104获得不是由说话者160说出的语音数据作为负样本。

在一些实施例中，利用正样本和负样本，可以进一步训练第一模型以获得用于个性化说话者验证的第二模型。第二模型可以被部署在远程服务器、云、客户端侧设备等当中。例如，第二模型可以被部署在计算设备106、计算设备108或计算系统102中。在一个实施例中，计算设备106可以安装有用于调用所述第二模型的软件应用程序、web应用程序、应用程序接口(API)或另一合适的接口。用户140可以与计算设备106交互，通过计算设备106调用第二模型。例如，通过对耦接到计算设备106的麦克风讲话，用户140可以向计算设备106提供语音数据(例如人声126)，计算设备106将该语音数据输入到第二模型中以验证用户140是否是说话者160。

虽然在图1中，计算系统102是作为单一实体被示出的，但这仅是为了便于参考而不旨在作为限制。本文描述的计算系统102的一个或多个组件或一个或多个功能可以在单个计算设备或多个计算设备中实现。例如，计算系统102可以合并计算设备106，反之亦然。也就是说，第一获得组件112、第一馈送组件114、第二获得组件116、第二馈送组件118中的每一个，都可以在计算系统102或计算设备106或108中实现。类似地，计算系统102可以耦接到一个或多个其他计算设备并与之关联，该计算设备能够实现计算系统102的部分组件或功能。计算设备106可以包括一个或多个处理器以及耦接到处理器的一个或多个存储器，该存储器配置有可由一个或多个处理器执行的指令，以使一个或多个处理器执行本文所述的各个步骤。

系统100的各组件(例如计算系统102的第一获得组件112、第一馈送组件114、第二获得组件116和第二馈送组件118)均可以被配置为执行用于个性化说话者验证的步骤。下图2A-2B描述了第一模型以及通过第一模型获得模板向量的处理。下图2C描述了通过第一模型获得第二模型并将第二模型应用于个性化说话者验证的。

参考图2A，2A示出了根据一些实施例的用于获得特征向量的方法。该方法可以由系统100的一个或多个组件(例如计算系统102和/或计算设备108)执行。在一些实施例中，第一获得组件112可以被配置为获得说话者160的语音数据，并且该语音数据可以被处理并馈送到第一模型中以输出说话者160的特征向量。在一个实施例中，为了获得说话者160的语音数据，第一获得组件112可以被配置为获得与该语音数据相对应的声谱图，并获得与该声谱图相对应的多个特征向量，如下文参考数字201-205所述。

在一些实施例中，如图2A所示，音频序列201可以表示从计算设备108或另一设备获得的说话者(例如说话者160)的语音数据的示例。在x轴方向的连续时间序列中，音频序列201标记有语词、停顿(pau)或无声(sil)的相应的块。图中的竖虚线可以标记各种图示上的相同的时间戳，并指示它们之间的对应关系。取决于应用，可以要求或可以不要求音频序列201可以包含某些文本依赖型的触发短语。

在一些实施例中，通过将单词分解成语言单元，使用音频序列202作为音频序列201的替代表示。语言单元可能有许多分类和定义，例如音位、音位部分、三音素、单词和n元组。所示的语言单位仅是示例。在一个示例中，音位是一组在一门语言中具有唯一的含义或功能的语音，并且可以是一门语言的音系学中最小的有意义的对比单元。音位的数量可能因不同的语言而异，大多数语言具有20-40个音位。在一个示例中，“hello”可以分为语言单元/音位，“hh”、“ah”、“l”和“ow”。

在一些实施例中，谱203可以表示语音数据(例如，音频序列201)。音频可能有各种不同的表示形式。在一个示例中，谱203可以示出所捕获的声音相对于时间的振幅。

在一些实施例中，可以至少基于谱203来获得声谱图204。声谱图204可以是语音数据的频率相对于时间的表示。在一个实施例中，可将傅立叶变换应用于谱203以获得声谱图204。在声谱图204中，振幅信息以灰度显示为暗区和亮区。亮区可以指示在相应的时间、相应的频率处没有捕获到任何声音(例如停顿、无声)，而暗区可以指示存在声音。基于暗图案和亮图案在x轴方向上的变化，可以确定语言单元(例如，单词、音素)之间的边界。此外，两条虚线之间的y轴方向上的暗区图案可以指示在相应时间段捕获的各种频率，并且可以提供(携带声音身份的)共振峰和音渡的信息，以帮助确定相应的音素。

在一些实施例中，可以至少基于声谱图204来获得特征序列205。在一个实施例中，可将倒频谱分析应用于声谱图204以获得特征序列205。例如，时间帧可以沿x轴移动并逐帧采样声谱图204。这样，语音数据可以被转换为一系列特征向量，在图中显示为矩形块。在一个实施例中，可以在宽度为25ms、步长为10ms、1024个点的FFT(快速傅立叶变换)的滑动汉明窗内生成短时声谱图。可以沿频率轴执行均值和方差归一化。可以从每段话语中随机采样300帧的音频语音数据进行训练，以覆盖3.015秒的语音并给出大小为300×512的声谱图，即时间维度上300和频率维度上512的特征。本领域技术人员将理解应用其他技术以获得特征向量。这些特征向量可用于训练模型或传递给训练后的模型以实现各种应用。例如，说话者160的特征向量可以被传递到第一模型以输出相应的人声特性。在此之前，下面参考图2B描述用于确定人声特性的第一模型及其训练处理。

参考图2B，图2B示出了根据一些实施例的用于训练用于确定人声特性的模型(第一模型)的方法的示例。该方法可以由系统100的一个或多个组件(例如计算系统102和/或计算设备104)执行。本文(例如图2B)所描述的第一模型仅是示例，并不旨在限制结构或训练处理。本领域普通技术人员将理解将其他说话者嵌入向量模型用于第一模型或与本文公开的系统和方法结合使用。

在一些实施例中，如图所示，第一模型可以是包括多个层的深度学习模型。作为机器学习的子集，深度学习可以利用人工神经网络的层次结构级别来执行机器学习的处理。深度学习系统的分层功能使机器可以使用非线性方法来处理数据。人工神经网络是像人的大脑一样建立起来的，其中的神经元节点像网络一样连接在一起。人工神经网络基于被称为人工神经元(由各个层中的圆圈表示，例如此图中的层207和208)的互相连接的单元或节点的集合，它们宽泛地模拟了生物脑中的神经元。每个连接都像生物大脑中的突触一样，可以将信号传输到其他神经元。接收信号的人工神经元随后对其进行处理，并可以向与其连接的其他神经元发出信号。连接处的信号可以是实数，并且每个神经元的输出可以通过对其输入之和的某种非线性函数来计算。这些连接称为边缘(由连接线表示，例如该图中的层207和208之间的连接线)。神经元和边缘通常具有随着学习的进行而调整的权重。权重增加或减小连接处信号的强度。神经元可以具有阈值，使得仅当总信号超过该阈值时才发送信号。神经元被聚集成层。由于每一层包括多个神经元，因此相邻的层通过具有相关权重的各种神经元之间的连接相连。不同的层可以对其输入执行不同的变换。信号从第一层(输入层)出发，可能在遍历这些层一次或多次之后，到达最后一层(输出层)。

在一些实施例中，作为对图2B的概述，DNN可以用作特征提取器，以将倒频谱声学特征(例如，特征序列205)作为其输入，使用几个帧级正向或卷积操作的层，然后在池化层之后，输出被称为嵌入向量的音段级表示。将分类和聚类损失的结合用于训练嵌入向量。通过嵌入向量，可以使用具有从嵌入向量到说话者ID的投影的软最大(softmax)分类器来区分不同的说话者。另外，退火(annealing)方案利用分类损失中的间隔来提高训练后的嵌入向量的泛化能力，并使训练处理更加稳定。由于不同的说话者可能会导致具有不同平均值和标准差的不同高斯分布，从而反映出人声的独特性，因此训练后的嵌入向量可能会以具有多种形状和模式的高斯混合分布。为了使训练后的嵌入向量趋向于这种分布，应用了聚类损失。下面描述第一模型的更多细节。

在一些实施例中，训练后的或未训练的第一模型可包括从一个神经元层输出到下一神经元层的多个神经元层，从而形成DNN。多个神经元层可以包括例如ResNet-34(34层残差网络)架构、ResNet-50架构等。例如，所述多个层可以包括：第一卷积层206a，被配置为接收多个特征向量(例如，特征序列205)作为第一卷积层206a的输入；第一池化层206b，被配置为接收第一卷积层206a的输出作为第一池化层206b的输入；多个残差网络层206c，被配置为接收第一池化层206b的输出作为所述多个残差网络层206c的输入；第二卷积层206d，被配置为接收多个残差网络层206c的输出作为第二卷积层206d的输入；第二池化层207，被配置为接收第二卷积层206d的输出作为第二池化层207的输入；嵌入层208，被配置为接收第二池化层207的输出作为嵌入层208的输入，并输出表示说话者的一个或多个人声特性的向量。第一卷积层206a可以是输入层，嵌入层208可以是输出层。第一卷积层206a、第一池化层206b、多个残差网络层206c和第二卷积层206d可以称为共享网络206。

嵌入向量是离散变量到连续数字向量的映射。在一些实施例中，通过嵌入层208，语音数据输入的单词或短语可以被映射到实数向量。因此，第一模型从每个单词具有很多维的空间转换为具有维度低得多的连续向量空间。

在一些实施例中，可以使用如表1所示的ResNet-34(34层残差网络)架构。在表1中，conv1可以对应于第一卷积层206a，pool1可以对应于第一池化层206b，rest_block1到rest_block 4可以对应于多个残差网络层206c，conv2可以对应于第二卷积层206d，并且pool1可以对应于第二池化层207。对于每个卷积运算符的输出，在计算整流线性单位(ReLU)激活之前，应用了表1中未示出的批量归一化。ResNet-34的参数可以被初始化。嵌入向量的大小可以被设置为512，并且512通道参数ReLU(PReLU)激活可以被用作特征嵌入向量。将PReLU用作非线性激活函数的优点是可以避免取消像ReLU这样的嵌入向量空间的负维度中的相关性，并增强嵌入特征的鲁棒性。

表1ResNet-34架构。三重输出大小以(通道×时序×频率)的形式表示。[(3×3,64)₂]×3表示3个残差块，每个残差块包含2个卷积运算符，每个卷积运算符有大小为3×3的内核和64个过滤器，其他类似。对于

的第一个块，在输入和输出之间有不同数量的过滤器，需要使用内核大小为1×1的一次卷积进行捷径连接。

在一些实施例中，如果第一模型是未训练的，则可以至少通过共同最小化第一损失函数和第二损失函数来训练第一模型。例如，特征序列205可以被馈送到未训练的第一模型，以通过最小化两个损失函数来训练各层(例如从输入层到输出层)。最小化损失函数是一种评估特定算法对给定数据进行建模的成果的方法。如果预测与实际结果相差太大，则损失函数会输出很大的数值。逐渐地，借助一些优化函数，损失函数学会了减少预测误差。

下面介绍第一损失函数(用于分类的209a)。在一些实施例中，第一损失函数(例如，下面的等式(3))可以是不基于采样的损失函数。通过最小化第一损失函数来训练第一模型可以优化说话者分类。用于分类的损失函数可以是计算上可行的损失函数，其表示为识别特定观察结果(例如语音数据输入)属于哪个类别(例如说话者身份类别)中的预测的不准确性而付出的代价。通常涉及标记数据集的学习处理的目标是最大程度地降低预期风险。

在一个实施例中，不基于采样的损失函数包括附加性间隔softmax损失函数。softmax函数采用N维的实数向量，并将其转换为范围为(0,1)的实数向量，其总和为1。softmax函数可用于基于神经网络的分类器的最后一层中。可以在对数丢失或交叉熵机制下训练此类网络，从而给出多项式逻辑回归的非线性变体。与用决策边界线分隔两个不同类别的初始softmax相比，附加性间隔softmax用决策间隔(例如，角度区域)分隔两个不同类别。

在一些实施例中，至少对于嵌入层而言，使第一损失函数最小化包括使不基于采样的损失函数最小化以优化类间分类误差。即，将一类与另一类混合的误差被最小化。通过分类误差优化，可以使类别之间的距离更远(例如，209a的类别spk1(说话者1)和类别spk3(说话者3)相距较远)并且更容易彼此区分，从而减少了在应用中混淆的可能性。在一个实施例中，使第一损失函数最小化而训练了多个神经元层(例如，从第一卷积层206a到嵌入层208)。这提供了一个训练第一模型的端到端框架，而不是在一个模型下训练第一卷积层206a到嵌入层208，并在另一个模型下训练嵌入层208以优化分类或聚类。

用于分类的softmax损失函数公式如下

其中N和C分别是批次大小和类别号。

是带有第i个样本的d维嵌入向量的d+1维的实数向量，并且附加有标量1。

是类别j的权重向量。内积

可以等效地用角度形式表示为

其中

是w_j和x_i之间的角度。

角度softmax在角θ上引入了乘性间隔m。角度softmax首先约束权重向量w_j具有单位范数，即在w_j(||w_j，i＜d||＝1，w_j，d＝0)中标准化权重并将偏差标量归零。所述内积变成

它进一步应用如下的相乘性间隔，

此处m仅应用于正标签y_i。对于x_i及其相应的标签y_i之间在

范围内的角

选择大于1.0的m会减小角距离

在训练处理中将m从1.0逐渐退火到更大的值时，可以迫使针对相应的标签y_i学习的嵌入向量x_i与从softmax训练出的相比更具区别性。

代替公式(2)中使用相乘性间隔m，附加性间隔softmax在角度空间中使用附加性间隔。此外，嵌入向量x_i被归一化为1(||x_i||＝1)，然后通过超参数s重新缩放。所述损失函数如下

ψ(θ)有两种定义形式。一种被定义为cosθ-m，以用于附加性余弦间隔softmax，即CosAMS。第二种是cos(θ+m)，用于附加性角间隔softmax，即ArcAMS。增加m将导致等式(3)中的后验概率减少，因为余弦函数单调递减，因此强制x_i更具区别性。另外，可以将s视为用于退火的温度参数。与使用s＝1相比，使用大s使后验概率更锐利。在一些实施例中，第一损失函数包括附加性间隔softmax损失函数

使用区别性损失函数(例如大间隔)来训练模型，可能会遭受局部最优或发散。当前解决此问题的方法是从预先训练的具有softmax损失的第一模型开始，但这可能很耗时。在一些实施例中，下面介绍用于使用附加性间隔softmax损失来训练模型的退火方法。在一个实施例中，最小化第一损失函数包括将间隔从零线性增加到用于退火的目标间隔值。训练处理稳定为向间隔m的一个渐进过渡。间隔m可以从0线性增加到目标间隔值，如

m＝min(m_max，m_inc×t)，

其中t≥0是时元(epoch)步长。为了保证ArcAMS损失的数值稳定性，如果sin(θ+m)＞0(即在笛卡尔坐标系的上象限中)，可以将其配置为ψ(θ)＝cos(θ+m)，否则将其配置为ψ(θ)＝cos(θ)。

下面介绍第二损失函数(用于聚类的209b)。在一些实施例中，第二函数可以是具有非单位多元协方差矩阵的高斯混合损失函数。在一个实施例中，非单位多元协方差矩阵包括标准偏差对角矩阵。协方差矩阵是这样一个矩阵，其在i,j位置的元素是随机向量的第i个和第j个元素之间的协方差。

在一些实施例中，通过使第二损失函数最小化来训练第一模型可以优化说话者聚类。聚类的目的是在无监督或不了解聚类的性质的情况下，将相似的数据点分组在一起。在一些实施例中，用于聚类的损失函数可以是无监督表征学习损失和面向聚类的损失的线性组合。有关更多详细信息，请参见公式(6)至(8)。

在一些实施例中，至少对于嵌入层而言，最小化第二损失函数包括利用非单位多元协方差矩阵最小化高斯混合损失函数以减少类别内差异。对于高斯混合损失函数，每个聚类根据不同的高斯分布建模。每个数据点可以由任何分布以相应的概率生成。通过聚类变化损失优化，相同类别中的单元彼此更相似(例如209b的类spk1的大小较小，并且反映了其各个单元之间的强烈相似性)。在一个实施例中，具有非单位多元协方差矩阵的高斯混合损失函数包括大间隔高斯混合损失函数。

在一个实施例中，使第二损失函数最小化而训练了多个神经元层(例如，从第一卷积层206a到嵌入层208)。这提供了一个训练第一模型的端到端框架，而不是在一个模型下训练第一卷积层206a到嵌入层208，并在另一个模型下训练嵌入层208以优化分类或聚类。

在一些实施例中，假设在训练集上提取的嵌入向量x_i按高斯密度混合分布。每个高斯分量k具有其均值μ_k与协方差

以及先验概率π_k。如果有C这样的高斯分量，则损失

被定义为测量x_i属于聚类k这一假设的接近性以及高斯混合模型的后验概率。该后验概率表示为

汇总所有观察结果可得：

对于y_i和C的说话者IDx_i对应于作为分类任务的分类编号。那么，在嵌入空间中

更加注重区分能力。

但是，优化上述损失不能确保获得的嵌入向量x_i拟合高斯分布的混合。因此，在一些实施例中，可以通过如下引入似然函数来添加明确驱动嵌入向量向高斯密度分布的混合的正则化项。

增加这种可能性可以驱动提取的嵌入向量x_i朝向其相应的高斯分布。

在一些实施例中，高斯混合损失

可以被定义为

其中λ是非负加权系数。为了简单起见，先验概率

可以是对角协方差矩阵。

然后变为以下形式，其中常数项被删除。

在一些实施例中，为了优化损失

使用随机梯度下降(SGD)算法更新高斯混合分量的所有参数，包括μ_k和∑_k，以及嵌入向量x_i。在等式(7)中应用对角协方差可能会有数值困难，因为协方差矩阵∑_k需要为半正定矩阵。在一些实施例中，定义

代替∑_k，标准偏差对角矩阵Λ_k是要学习的参数。Λ_k被初始化为单位矩阵。

在一些实施例中，当给出高斯分量标识时，应用间隔来提高所学习到的嵌入向量x_i的泛化能力是有益的。为此，距离

针对正样本被提高了标量1+α_i，其中间隔α大于零。新的损失函数，大间隔高斯混合，定义如下

其中I_cond是一个指标函数，如果满足cond，则I_cond等于1，否则I_cond等于0。在一些实施例中，第二损失函数包括具有非单位多元协方差矩阵

的高斯混合损失函数(等式8)。

在一些实施例中，第一损失函数充当第二损失函数的调节器，并且第二损失函数充当第一损失函数的调节器。正则化器允许在优化过程中对层参数或层活动施加惩罚。这些惩罚并入由网络所优化的损失函数中。训练嵌入向量时，这两个损失函数互相帮助实现稳定和快速的收敛。

在一些实施例中，积分损失函数是分类损失和聚类损失的组合，表示为等式(3)和等式(8)的相加，例如如下所示

等式(9)可针对

损失使用m_max＝0.2、m_inc＝0.035、s＝30，并针对

损失使用m_max＝0.25、m _inc＝0.045、s＝30。对于

损失，令α＝0.01，λ＝0.01。

在一些实施例中，两个度量可以用于模型评估。第一个度量是等错误率(EER)，其被定义为未命中概率P_miss等于虚警概率P_fa时的比率，第二个度量是最小检测成本函数(minDCF)，其被定义为

其中C_miss和C_fa分别是P_miss和P_fa的成本权重，P_tar是目标概率。由于P_miss和P_fa是阈值的函数，

中的最小值是在所有可能的阈值上计算的。例如，C_miss＝1.0，C_fa＝1.0，并且P_tar＝0.01。

在一些实施例中，对于训练和测试，使用动量SGD来优化模型，其中动量为0.9，权重衰减为5×10^-4。最小批量为64。在每个时元的开始，训练样本都会被随机排序。包括

和

的附加性间隔softmax损失的初始学习率为0.1。对于附加性间隔softmax损失和

学习率设置为0.01。学习率每6个时元下降0.1。在12个时元之后，训练终止，以避免当验证集上的等错误率(EER)增大时过拟合。在测试过程中，使用了全长的话语，并在表1中使用自适应平均池提取了嵌入向量。作为端到端深度说话者嵌入模型，当评估性能时，使用余弦距离作为后端评分。

如上所述，可以至少基于对两个共同采用的损失函数的优化来训练第一模型。在一些实施例中，不基于采样的损失函数被用于优化类别间分离性，并且具有非单位多元协方差矩阵的高斯混合损失被用于减小类别内差异。这种组合不仅提高了使用基于间隔的方法进行分类的泛化能力，而且还显着降低了类内差异性。在一个实施例中，与仅针对类别间分离性或类别内差异性的优化相比，同时针对类别间分离性和类别内差异性二者的优化实现了更好的性能(例如，更快和更好的收敛)。在一个实施例中，提供了端到端框架以通过使两个损失函数最小化来训练第一模型。在一些实施例中，通过共同优化，所学习到的嵌入向量从可变长度的语音片段中捕获音段级声学表征，以区分说话者并复制说话者群的密度。在一个实施例中，可以实现针对相同类别的受试者的更大的相似性和针对不同类别的受试者的更大的差异，使得所确定的人声特性更加准确。在一个实施例中，通过适应说话者嵌入向量以多种形状和模式分布的可能性来对类别内差异性进行的优化，改善了人声特性确定的处理。在一个实施例中，为了优化类别间分离性，提供了一种退火方法来稳定地训练附加性间隔softmax损失。

参考图2C，图2C示出了根据一些实施例的用于个性化说话者验证的方法290。方法290可以由系统100的一个或多个组件(例如计算系统102)执行。方法290可以实现在线机器学习策略。下面呈现的方法290的步骤旨在示意。取决于实施方式的不同，该方法可以包括更多的、更少的或替代性的组件。

在一些实施例中，第一获得组件112被配置为获得说话者的第一语音数据作为正样本241，以及不同于该说话者的实体的第二语音数据作为负样本242；例如，为了个性化针对说话者160的说话者验证，第一语音数据可以是由说话者160说出的，第二语音数据可以是由除说话者160以外的实体说出的。第二语音数据可以是由另一个人或由机器说出的。第二语音数据可以是，例如，从语料数据库中随机选择的。语音数据可以是传达说话者的语音信息的任何数据格式，例如数字文件中的语音记录。

在一些实施例中，在步骤221，第一馈送组件114可以被配置为将所述正样本和所述负样本馈送到第一模型以用于确定人声特性，从而相应地输出所述说话者的正人声特性和负人声特性。在一个实施例中，第一馈送组件114可以被配置为将正样本241和负样本242一起或分别馈送到第一模型243中。如以上参考图2A所描述的，第一馈送组件114可以被配置为将语音数据转换成多个对应的特征向量以馈送到第一模型中。

如以上参考图2B所描述的，可以至少通过使第一损失函数和第二损失函数共同地最小化来训练第一模型。第一模型可以包括层206a至208，但是具有诸如训练权重等的关联参数。第一模型可能已针对分类和聚类进行了优化，但尚未针对说话者验证进行个性化。因此，尽管已经针对第一模型训练了诸如权重等的相关参数，但是当更新第一模型以获得用于个性化说话者验证的第二模型时，可以如以下所述地进一步训练相关参数。

在一些实施例中，在步骤222，第一模型243可以输出一个或多个人声特性。一个或多个人声特性可以由从第一模型输出的嵌入层来表示。基于说话者160的正样本241，第一模型243可以输出正人声特性244。基于负样本242，第一模型243可以输出负人声特性245。正人声特性和负人声特性的生成可以彼此独立并且可以分别执行。

在一些实施例中，正语音数据和负语音数据可各自包括一个或多个语音片段，诸如由说话者说出的一个或多个短语。也就是说，第一获得组件112可以被配置为获得说话者的一个或多个语音片段(例如，P1、P2……Pk)作为正样本以及说话者以外的一个或多个人的一个或多个语音片段(例如，N1、N2……Nk)作为负样本。因此，第一馈送组件114可以被配置为将说话者的一个或多个语音片段馈送到第一模型中，以从嵌入层208相应地输出一个或多个正样本向量(例如，PV1、PV2……PVk)，然后将说话者以外的一个或多个人的一个或多个语音片段馈送到第一模型中，以从嵌入层208相应地输出一个或多个负样本向量(例如NV1、NV2……NVk)。例如，可以将P1输入到第一模型以输出PV1，并且可以对所有k个语音片段重复该处理。相同做法可以应用于负样本。

在一些实施例中，在步骤223，计算系统102可以被配置为合并一个或多个正样本向量244。例如，计算系统102可以被配置为对正样本向量(PV1、PV2……PVk)求平均以获得说话者的模板向量246(PVX)。模板向量也可以被称为说话者160的声纹模板向量。

在一些实施例中，在步骤224和225，第二获得组件116可以被配置为至少基于正人声特性244和负人声特性245来获得梯度248。为此，在步骤224，第二获得组件116可以被配置为将一个或多个正样本向量(例如，PV1、PV2……PVk)和一个或多个负样本向量(例如，NV1、NV2……Nvk)馈送到神经网络分类器中，以获得一个或多个梯度向量247(例如G1、G2……Gk)。例如，利用输入PV1和NV1，神经网络分类器可以输出G1，并且可以对所有k个向量重复该处理。神经网络分类器可以包括分层排列的单元(神经元)，这些单元会产生类标签，作为来自对象的一组特征的输出。

在一些实施例中，正样本向量和负样本向量可具有预定比例(例如1:5、1:10等)。例如，在步骤221，对于第一样本集合，第一馈送组件114可以被配置为将由说话者160说出的一个短语(作为正样本的一部分)和由除说话者160之外的某人说出的五个短语(作为负样本的一部分)输入到第一模型，以在步骤222相应地输出一个正样本向量PV1(作为正人声特性的一部分)和五个负样本向量NV1a-NV1d(作为负人声特性的一部分)。然后，在步骤224，第二获得组件116可以被配置为将所述一个正样本向量PV1和所述五个负样本向量NV1a-NV1d馈送到神经网络分类器中以获得一个梯度向量G1。可以针对k个样本集重复相同的处理，以相应地获得梯度向量247(例如G1、G2……Gk)。

在一些实施例中，第二馈送组件118可以被配置为至少基于通过神经网络分类器的交叉熵损失函数(cross-entropy loss function)的反向传播(backward propagation)来获得梯度。神经网络分类器可以是将每个正样本向量标记为1并将每个负样本向量标记为0的二元分类器。交叉熵损失函数的梯度可以包括例如相对于每个参数的交叉熵损失函数的偏导数。

在一些实施例中，在步骤225，第二获得组件116可以被进一步配置为合并一个或多个梯度向量247。例如，第二获得组件116可以进一步被配置为对一个或多个梯度向量(例如G1、G2……Gk)求平均，以获得说话者(GX)的平均梯度向量作为梯度248。

在一些实施例中，在步骤226，第二馈送组件118可以被配置为将梯度248馈送到第一模型243，以更新第一模型243的一个或多个参数，从而获得用于个性化说话者验证的第二模型249。例如，第二馈送组件118可以被配置为将说话者的平均梯度向量(GX)248馈送到第一模型243，以更新第一模型243的一个或多个参数。所述一个或多个参数(例如权重)可以将第一模型243的不同神经层相关联。

在一些实施例中，第二馈送组件118可以被配置为将梯度248馈送到第一模型243，以至少基于梯度248和在线机器学习率(online machine learning rate)更新第一模型243的一个或多个参数。例如，可以基于随机梯度下降(SGD)算法来更新所述一个或多个参数。在一个实施例中，第二馈送组件118可以被配置为在梯度以最快的在线机器学习率下降的方向上更新一个或多个参数。例如，为了更新参数p，可以根据p＝(p–LR*GX)迭代地更新p，其中LR是在线机器学习率，而GX是平均梯度向量。在线学习率可以指示下降步长。例如，在线学习率可以指在线训练期间被更新的参数的相对量。

在一些实施例中，在步骤227，计算系统102可以被配置为获得用户140的语音数据，并将获得的语音数据馈送到第二模型249以获得用户的输入向量251(IV)。在从第一模型的嵌入层208输出正/负样本向量的同时，可以从第二模型的嵌入层输出该输入向量(IV)。

在一些实施例中，在步骤229，计算系统102可以被配置为将用户140的输入向量251(IV)与说话者160的模板向量246(PVX)进行比较，并至少基于该比较验证用户140是否是说话者160。在一个实施例中，计算系统102可以被配置为将用户140的输入向量251(IV)与说话者160的模板向量246(PVX)之间的距离与阈值进行比较。如果该距离在阈值内，则指示用户140很可能是说话者160。如果该距离不在阈值之内，则指示用户140不太可能是说话者160。

在一些实施例中，说话者160可以是已经通过提供个人语音数据而注册个性化说话者识别的公司雇员。该公司的安全门可能已经安装或耦接到了实现第一模型和第二模型的计算系统102。以后，用户向公司安全门讲话的语音数据可用于验证该用户是否为员工。如果验证了雇员的身份，则可以相应地记录其工作时间。

在一些实施例中，说话者160可能已经使用安装在她的移动电话中的应用程序注册了个性化说话者识别。移动电话可能已经安装或耦接到实现第一模型和第二模型的计算系统102。以后，任何与移动电话或实现该应用程序的其他设备通话的用户的语音数据都可以用于验证用户身份。如果移动电话验证用户是已注册的身份的说话者160(即真实所有者)，则移动电话可以为用户解锁某些功能。

图3示出了根据一些实施例的用于个性化说话者验证的方法300的流程图。方法300可以由个性化说话者验证设备、装置或系统执行。方法300可以由图1至2C所示的环境或系统(例如计算系统102)的一个或多个组件来执行，例如计算系统102。下面呈现的方法300的操作旨在示意。取决于实施方式的不同，方法300可以包括更多的、更少的或替代性的步骤，以各种顺序执行或平行执行。

框310包括获得说话者的第一语音数据作为正样本，以及不同于说话者的实体的第二语音数据作为负样本。

框320包括将正样本和负样本馈送到用于确定人声特性的第一模型，以相应地输出说话者的正人声特性和负人声特性。

框330包括至少基于正人声特性和负人声特性获得梯度。

框340包括将梯度馈送到所述第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

在一些实施例中，该方法还包括：获得用户的语音数据；将获得的语音数据馈送到第二模型，以获得用户的输入向量；将用户的输入向量与说话者的模板向量进行比较；并至少基于该比较来验证用户是否是说话者。

在一些实施例中，将梯度馈送到第一模型以更新第一模型的一个或多个参数包括：将说话者的平均梯度向量馈送到第一模型以更新第一模型的一个或多个参数；并且一个或多个参数将第一模型的不同神经层相关联。

在一些实施例中，将梯度馈送到第一模型以更新第一模型的一个或多个参数，包括：将梯度馈送到第一模型以至少基于梯度和在线机器学习率来更新第一模型的一个或多个参数。

在一些实施例中，将梯度馈送到第一模型以至少基于梯度和在线机器学习率来更新第一模型的一个或多个参数，包括：在梯度以最快的在线机器学习率下降的方向上更新一个或多个参数。

图4示出了根据一些实施例的个性化说话者验证的计算机系统400装置的框图。下面呈现的计算机系统400的组件旨在示意。取决于实施方式的不同，计算机系统400可以包括更多的、更少的或替代性的组件。

计算机系统400可以是计算系统102的一个或多个组件的实现的示例。方法300可以由计算机系统400实现。计算机系统400可以包括一个或多个处理器以及耦接到所述一个或多个处理器的一个或多个非暂时性计算机可读存储介质(例如一个或多个存储器)，所述存储介质配置有可被一个或多个处理器执行的指令，以使系统或设备(例如处理器)执行上述方法，例如方法300。计算机系统400可以包括与所述指令(例如软件指令)相对应的各种单元/模块。

在一些实施例中，计算机系统400可以被称为个性化说话者验证装置。该装置可以包括：第一获得模块410，用于获得说话者的第一语音数据作为正样本，以及与说话者不同的实体的第二语音数据作为负样本；第一馈送模块420，用于将正样本和负样本馈送到第一模型以确定人声特性，从而相应地输出说话者的正人声特性和负人声特性；第二获得模块430，用于至少基于正人声特性和负人声特性获得梯度；第二馈送模块440，用于将梯度馈送到第一模型，以更新第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。第一获得模块410可以对应于第一获得组件112。第一馈送模块420可以对应于第一馈送组件114。第二获得模块430可以对应于第二获得组件116。第二馈送模块440可以对应于第二馈送组件118。

本文描述的技术可以由一个或多个专用计算设备来实现。该专用计算设备可以是台式计算机系统、服务器计算机系统、便携式计算机系统、手持式设备、网络设备或包含配置于硬件的逻辑和/或程序逻辑的任何设备或设备的组合，以实现所述技术的任何其他设备或设备组合。该专用计算设备可以被实现为个人计算机、膝上型计算机、蜂窝电话、照相电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏机、平板计算机、可穿戴设备或其组合。计算设备通常可以由操作系统软件控制和协调。常规的操作系统控制和调度用于执行的计算机进程，执行内存管理，提供文件系统，网络连接，I/O服务，并提供诸如图形用户界面(“GUI”)等的用户界面功能。本文描述的各种系统、装置、存储介质、模块和单元可以在专用计算设备或一个或多个专用计算设备的一个或多个计算芯片中实现。在一些实施例中，本文描述的指令可以在专用计算设备上的虚拟机中实现。在被执行时，所述指令可以使专用计算设备执行本文描述的各种方法。所述虚拟机可以包括软件、硬件或其组合。

图5示出了其中可以实现本文描述的实施例中的任何一个的计算机系统500的框图。可以在图1-4中所示的设备、装置或系统(例如计算系统102)的任何组件中实现计算机系统500。例如计算系统102。图1-4所示的方法中的一个或多个，例如方法300，可以由计算机系统500的一种或多种实现来执行。

计算机系统500可以包括总线502或用于信息沟通的其他通信机制，与总线502耦接的用于处理信息的一个或多个硬件处理器504。硬件处理器504可以是例如一个或多个通用微处理器。

计算机系统500还可包括耦接到总线502、用于存储可由处理器504执行的信息和指令的主存储器506，例如随机存取存储器(RAM)、缓存和/或其他动态存储设备。主存储器506还可用于在执行可由处理器504执行的指令期间存储临时变量或其他中间信息。当将这些指令存储在处理器504可访问的存储介质中时，这些指令将计算机系统500渲染成专用于执行指令中指定的操作的专用机器。计算机系统500可以进一步包括只读存储器(ROM)508或耦接到总线502的其他静态存储设备，用于存储用于处理器504的静态信息和指令。可以提供诸如磁盘、光盘或USB拇指驱动器(闪存驱动器)等的存储设备510，并将其耦接到总线502以存储信息和指令。

计算机系统500可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑来实现本文所述的技术，这些逻辑与计算机系统结合使计算机系统500成为专用计算机，或对计算机系统500进行编程使其成为专用计算机。根据一个实施例，本文所述的操作、方法和处理由计算机系统500响应于处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列来执行。可以从诸如存储设备510之类的另一存储介质将这样的指令读入主存储器506。执行包含在主存储器506中的指令序列可以使处理器504执行本文所述的处理步骤。在替代实施例中，可以使用硬连线电路代替软件指令或与软件指令结合使用。

主存储器506、ROM 508和/或存储设备510可以包括非暂时性存储介质。如本文中所使用的，术语“非暂时性介质”和类似术语是指存储有导致机器以特定方式运行的数据和/或指令的介质，所述介质不包括瞬时信号。这样的非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘，例如存储设备510。易失性介质包括动态存储器，例如主存储器506。非暂时性介质的常见形式包括，例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他存储芯片或盒式磁带及其网络版本。

计算机系统500可以包括耦接到总线502的网络接口518。网络接口518可以提供耦接到与一个或多个本地网络连接的一个或多个网络链路的双向数据通信。例如，网络接口518可以是集成服务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器，以向对应类型的电话线提供数据通信连接。作为另一示例，网络接口518可以是局域网(LAN)卡，以提供到兼容LAN(或与WAN通信的WAN组件)的数据通信连接。也可以实现无线链接。在任何这样的实现中，网络接口518可以发送和接收携带表示各种类型的信息的数字数据流的电信号、电磁信号或光信号。

计算机系统500可以通过网络、网络链接和网络接口518发送消息并接收数据，包括程序代码。在互联网的示例中，服务器可以通过互联网、ISP、局域网和网络接口518发送针对应用程序的被请求的代码。

接收到的代码可以在被接收到时由处理器504执行，和/或被存储在存储设备510或其他非易失性存储器中，以供以后执行。

前面各节中描述的每个处理、方法和算法都可以体现在由一个或多个包含计算机硬件的计算机系统或计算机处理器执行的代码模块中，或由这些代码模块完全或部分自动执行。所述处理和算法可以部分地或全部地在专用电路中实现。

上述的各种特征和处理可以彼此独立地使用或者可以以各种方式组合。所有可能的组合和子组合均旨在落入本文的范围内。另外，在某些实施方式中，可以省略某些方法或处理框。本文所述的方法和处理也不限于任何特定的顺序，并且可以以适当的其他顺序执行与之相关的框或状态。例如，可以以不同于具体公开的顺序来执行所描述的框或状态，或者可以在单个框或状态中组合多个框或状态。框或状态的示例可以串行，并行或以其他方式执行。框或状态可以被添加到所公开的实施例或从所公开的实施例中去除。本文描述的系统和组件的示例可以被配置为与所描述的不同。例如，与所公开的实施例相比，可以添加、移除或重新布置元素。

本文描述的方法的各种操作可以至少部分地由被临时配置(例如，通过软件)或永久地配置为执行相关操作的一个或多个处理器执行。无论是临时配置还是永久配置，这样的处理器都可以构成由处理器实现的引擎，该引擎运行以执行本文所述的一个或多个操作或功能。

类似地，本文描述的方法可以至少部分地由处理器实现，其中一个或多个特定处理器是硬件的示例。例如，一种方法的至少一些操作可以由一个或多个处理器或由处理器实现的引擎执行。此外，一个或多个处理器还可在“云计算”环境中或作为“软件即服务”(SaaS)来支持相关操作的执行。例如，至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以通过网络(例如互联网)和一个或多个适当的接口(例如应用程序接口(API))被访问。

某些操作的执行可以分布在处理器之间，不仅驻留在单个计算机内，而且可以跨多个计算机部署。在一些实施例中，处理器或由处理器实现的引擎可以位于单一的地理位置中(例如，在家庭环境、办公室环境或服务器农场中)。在其他实施例中，处理器或由处理器实现的引擎可以分布在多个地理位置上。

在全文中，多个实例可以实现被描述为单个实例的组件、操作或结构。尽管将一种或多种方法的单独操作示出并描述为独立的操作，但是可以同时执行一个或多个单独操作，并且不需要按照所示顺序执行操作。在配置中表示为独立组件的结构和功能可以实现为组合的结构或组件。类似地，呈现为单一组件的结构和功能可以实现为独立的组件。这些和其他变型、修改、添加和改进均在本文主题的范围内。

尽管已经参考特定实施例描述了主题的概述，但是在不脱离本文的实施例的较宽范围的情况下，可以对这些实施例进行各种修改和改变。具体实施方式不应以限制性的意义来理解，并且各种实施例的范围仅由所附权利要求书以及这些权利要求书所有的等同的全部范围来限定。此外，在此使用的相关术语(诸如“第一”、“第二”、“第三”等)不表示任何顺序、高度或重要性，而是用于将一个元件与另一个元件区分开。此外，术语“一个”、“一种”和“多个”在本文中不表示数量限制，而是表示存在所提及的项目中的至少一个。

Claims

1.一种计算机实现的用于个性化说话者验证的方法，包括：

获得说话者的第一语音数据作为正样本，以及不同于所述说话者的实体的第二语音数据作为负样本；

将所述正样本和所述负样本馈送到用于确定人声特性的第一模型，以相应地输出所述说话者的正人声特性和负人声特性；

至少基于所述正人声特性和所述负人声特性获得梯度；以及

将所述梯度馈送到所述第一模型，以更新所述第一模型的一个或多个参数，从而获得用于个性化说话者验证的第二模型。

2.根据权利要求1所述的方法，其中：

获得所述说话者的所述第一语音数据作为所述正样本，以及不同于所述说话者的实体的所述第二语音数据作为所述负样本，包括：获得所述说话者的一个或多个语音片段作为所述正样本，获得所述说话者以外的一人或多人的一个或多个语音片段作为所述负样本；以及

将所述正样本和所述负样本馈送到所述第一模型，以相应地输出所述说话者的正人声特性和负人声特性，包括：将所述说话者的一个或多个语音片段馈送到所述第一模型，以相应地输出一个或多个正样本向量，并将所述说话者以外的一人或多人的一个或多个语音片段馈送到所述第一模型，以相应地输出一个或多个负样本向量。

3.根据权利要求2所述的方法，还包括：

对所述一个或多个正样本向量求平均以获得所述说话者的模板向量。

4.根据权利要求3所述的方法，还包括：

获得用户的语音数据；

将获得的语音数据馈送到所述第二模型，以获得所述用户的输入向量；

将所述用户的所述输入向量与所述说话者的所述模板向量进行比较；以及

至少基于所述比较验证所述用户是否是所述说话者。

5.根据权利要求2所述的方法，其中，至少基于所述正人声特性和所述负人声特性获得梯度，包括：

将所述一个或多个正样本向量和所述一个或多个负样本向量馈送到神经网络分类器以获得一个或多个梯度向量。

6.根据权利要求5所述的方法，其中，至少基于所述正人声特性和所述负人声特性获得所述梯度，还包括：

对所述一个或多个梯度向量求平均以获得所述说话者的平均梯度向量作为所述梯度。

7.根据权利要求6所述的方法，其中：

将所述梯度馈送到所述第一模型，以更新所述第一模型的一个或多个参数，包括：将所述说话者的所述平均梯度向量馈送到所述第一模型，以更新所述第一模型的所述一个或多个参数；以及

所述一个或多个参数将所述第一模型的不同神经层相关联。

8.根据权利要求5所述的方法，其中，将所述一个或多个正样本向量和所述一个或多个负样本向量馈送到所述神经网络分类器以获得一个或多个梯度向量，包括：

至少基于通过所述神经网络分类器的交叉熵损失函数的反向传播来获得所述梯度。

9.根据权利要求1所述的方法，其中，将所述梯度馈送到所述第一模型，以更新所述第一模型的一个或多个参数，包括：

将所述梯度馈送到所述第一模型，以至少基于所述梯度和在线机器学习率更新所述第一模型的所述一个或多个参数。

10.根据权利要求9所述的方法，其中，将所述梯度馈送到所述第一模型，以至少基于所述梯度和所述在线机器学习率更新所述第一模型的所述一个或多个参数，包括:

在所述梯度以最快的在线机器学习率下降的方向上更新所述一个或多个参数。

11.根据权利要求1所述的方法，其中：

在将所述正样本和所述负样本馈送到所述第一模型以确定人声特性之前，至少已经通过使用于优化说话者分类的第一损失函数和用于优化说话者聚类的第二损失函数共同地最小化训练了所述第一模型。

12.根据权利要求11所述的方法，其中：

所述第一损失函数包括不基于采样的损失函数；以及

所述第二函数包括具有非单位多元协方差矩阵的高斯混合损失函数。

13.一种用于个性化说话者验证的系统，包括：

一个或多个处理器；以及

耦接到所述一个或多个处理器并且其上存储有指令的一个或多个计算机可读存储器，所述指令能够由所述一个或多个处理器执行以执行权利要求1-12中任一项的方法。

14.一种用于个性化说话者验证的装置，包括用于执行权利要求1-12中任一项所述的方法的多个模块。

15.一种非暂时性计算机可读存储介质，配置有能够由一个或多个处理器执行以促使所述一个或多个处理器执行权利要求1-12中任一项所述方法的指令。