CN116508097A

CN116508097A - 说话者识别准确度

Info

Publication number: CN116508097A
Application number: CN202180070524.6A
Authority: CN
Inventors: 方也明; 王权; 佩德罗·J·莫雷诺·门吉巴尔; 伊格纳西奥·洛佩斯莫雷诺; 冯刚; 处昉; 史进; 杰森·威廉·佩莱卡诺斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-10-15
Filing date: 2021-10-13
Publication date: 2023-07-28
Also published as: EP4218009A1; JP2023546890A; US20230015169A1; WO2022081688A1; US20220122612A1; US11468900B2; KR20230084228A

Abstract

一种为音频样本(202)生成准确的说话者表示的方法(300)包括接收来自第一说话者(10)的第一音频样本和来自第二说话者的第二音频样本。该方法包括将相应的音频样本划分为多个音频片段(214)。该方法还包括基于多个片段生成候选声学嵌入(232)的集合，其中，每个候选声学嵌入包括声学特征的向量表示。该方法还包括从候选声学嵌入的集合中移除候选声学嵌入的子集。该方法另外包括在移除候选声学嵌入的子集之后从候选声学嵌入的集合中的剩余候选声学嵌入生成聚合声学嵌入(234)。

Description

说话者识别准确度

技术领域

本公开涉及提高说话者识别准确度。

背景技术

近来，提供多种用户输入形态的计算设备已经变得更加普遍。例如，智能手机和其他用户设备包括语音辨识服务，其允许用户向设备提供语音输入以替代打字或指向输入。在某些情况下，基于语音的输入作为用于与计算设备交互的免提方式可能更方便。一些设备要求在基于语音输入执行动作之前验证用户的身份，以便防止侵犯隐私和安全。通常，设备执行的这种验证可能难以通过关于用户语音的很少或有限的信息(例如，音频数据)来识别用户。

发明内容

本公开的一个方面提供了为音频样本生成准确的说话者表示的方法。该方法包括在数据处理硬件处接收来自第一说话者的第一音频样本和来自第二说话者的第二音频样本。对于第一音频样本和第二音频样本中的每个音频样本，该方法包括由数据处理硬件将相应的音频样本划分成多个音频片段。对于第一音频样本和第二音频样本中的每个音频样本，该方法还包括基于多个片段，由数据处理硬件生成候选声学嵌入的集合，其中，每个候选声学嵌入包括声学特征的向量表示。对于第一音频样本和第二音频样本中的每个音频样本，该方法还包括由数据处理硬件从候选声学嵌入的集合中移除候选声学嵌入的子集。对于第一音频样本和第二音频样本中的每个音频样本，该方法还包括在移除候选声学嵌入的子集之后，由数据处理硬件从候选声学嵌入的集合中剩余的候选声学嵌入生成聚合声学嵌入。在一些示例中，该方法还包括由数据处理硬件确定为来自第一说话者的第一音频样本生成的聚合声学嵌入是否对应于为来自第二说话者的第二音频样本生成的聚合声学嵌入，以及当为来自说话者的第一音频样本生成的聚合声学嵌入对应于为来自第二说话者的第二音频样本生成的聚合声学嵌入时，数据处理硬件识别第一说话者和第二说话者是相同说话者。在一些实施方式中，该方法还包括由数据处理硬件确定为来自第一说话者的第一音频样本生成的聚合声学嵌入与为来自第二说话者的第二音频样本生成的聚合声学嵌入之间的距离是否满足距离阈值，以及当为来自第一说话者的第一音频样本生成的聚合声学嵌入与为来自第二说话者的第二音频样本生成的聚合声学嵌入之间的距离满足距离阈值时，数据处理硬件识别第一说话者和第二说话者是相同说话者。

本公开的另一方面提供了一种为音频样本生成准确的说话者表示的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，该指令当在数据处理硬件上执行时使数据处理硬件执行操作。该操作包括接收来自第一说话者的第一音频样本和来自第二说话者的第二音频样本。对于第一音频样本和第二音频样本中的每个音频样本，该操作包括将相应的音频样本划分成多个音频片段。对于第一音频样本和第二音频样本中的每个音频样本，该操作还包括基于多个片段，生成候选声学嵌入的集合，其中，每个候选声学嵌入包括声学特征的向量表示。对于第一音频样本和第二音频样本中的每个音频样本，该操作还包括从候选声学嵌入的集合中移除候选声学嵌入的子集。对于第一音频样本和第二音频样本中的每个音频样本，该操作还包括在移除候选声学嵌入的子集之后，从候选声学嵌入的集合中剩余的候选声学嵌入生成聚合声学嵌入。在一些示例中，该操作还包括确定为来自第一说话者的第一音频样本生成的聚合声学嵌入是否对应于为来自第二说话者的第二音频样本生成的聚合声学嵌入，以及当为来自说话者的第一音频样本生成的聚合声学嵌入对应于为来自第二说话者的第二音频样本生成的聚合声学嵌入时，识别第一说话者和第二说话者是相同说话者。在一些实施方式中，该操作还包括确定为来自第一说话者的第一音频样本生成的聚合声学嵌入与为来自第二说话者的第二音频样本生成的聚合声学嵌入之间的距离是否满足距离阈值，以及当为来自第一说话者的第一音频样本生成的聚合声学嵌入与为来自第二说话者的第二音频样本生成的聚合声学嵌入之间的距离满足距离阈值时，识别第一说话者和第二说话者是相同说话者。

系统或方法的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，每个候选声学嵌入包括相应的d向量。在一些示例中，基于多个音频片段生成候选声学嵌入的集合包括通过下述方式生成在候选声学嵌入的集合中的每个候选声学嵌入：将从相应音频样本划分的多个音频片段中的音频片段重新排序为与相应音频样本不同的顺序；级联重新排序的音频片段；以及，基于重新排序的音频片段的级联生成对应的候选声学嵌入。这里，与每个候选声学嵌入相关联的重新排序的音频片段的级联中的音频片段的顺序是不同的。在这些示例中的一些示例中，级联重新排序的音频片段包括确定重新排序的音频片段的级联满足时间阈值。在一些配置中，生成候选声学嵌入的集合包括使用神经网络声学模型生成候选声学嵌入的集合，其中，神经网络声学模型被配置为接收音频数据作为输入并生成声学嵌入作为输出。

在一些实施方式中，从候选声学嵌入的集合中移除候选声学嵌入的子集包括以下操作。对于候选声学嵌入的集合中的每个候选声学嵌入，该操作包括确定从相应候选声学嵌入到候选声学嵌入的集合中的每个其他候选声学嵌入的距离，并且基于从相应候选声学嵌入到候选声学嵌入的集合的每个其他候选声学嵌入确定的距离，为相应候选声学嵌入生成距离得分。这些操作还包括在候选声学嵌入的集合中选择与最低距离得分相关联的阈值数量的候选声学嵌入。

在一些示例中，从候选声学嵌入的集合中移除候选声学嵌入的子集包括以下操作。对于候选声学嵌入的集合中的每个候选声学嵌入，该操作包括：确定从相应候选声学嵌入到候选声学嵌入的集合中的每个其他候选声学嵌入的距离；以及，基于从相应候选声学嵌入到候选声学嵌入的集合的每个其他候选声学嵌入确定的距离，为相应候选声学嵌入生成距离得分。该操作还包括：在候选声学嵌入的集合中选择其距离得分未能满足距离得分阈值的每个候选声学嵌入。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中显而易见。

附图说明

图1A和图1B是说话者识别系统的示例语音环境的示意图。

图2A-2D是图1A和图1B的说话者识别系统的示例验证器的示意图。

图3是生成音频样本的说话者表示的方法的示例操作布置的流程图。

图4是可用于实现本文描述的系统和方法的示例计算设备的示意图。

在各个附图中相同的附图标记指示相同的元件。

具体实施方式

通常，说话者识别是指基于一个或多个音频样本来识别说话者的过程。一种这样的说话者识别形式是说话者验证。说话者验证是指验证两个或更多个话语是否源自相同说话者的过程。为执行此验证，说话者识别系统比较音频样本(例如，两个音频样本)并确定对应于说话者所说的第一话语的第一音频样本是否匹配或非常类似于对应于另一口述话语的第二音频样本。当第一话语与另一口述话语相匹配或非常类似时，说话者识别系统会识别出这两个话语可能来自相同说话者。另一方面，当第一话语与另一口述话语未能匹配或未能非常类似时，说话者识别系统识别出每个话语可能来自不同的说话者。当比较两个音频样本时，说话者识别系统可以使用基于向量的手段或基于模型的手段。在基于向量的手段中，说话者识别系统将第一音频样本的第一向量与第二音频样本的第二向量进行比较。该向量，也可称为d向量或声学嵌入，是由说话者识别系统生成或在说话者识别系统处接收的向量，其表示音频样本的声学特性。为了确定一个音频样本的说话者是否与另一个音频样本的说话者相同，基于向量的手段为每个音频样本生成d向量并比较这些d向量，以确定每个音频样本是否源自相同的音频源(即源自相同说话者)。换言之，当第一音频样本具有与来自第二音频样本的d向量非常类似的d向量时，说话者识别系统确定相似的d向量指示音频样本可能源自相同说话者。

相比之下，基于模型的手段将两个音频样本输入到说话者识别模型中，并使用该模型生成对来自两个音频样本的说话者是否是相同说话者的预测。换句话说，该模型经过训练以识别两个输入音频样本何时可能是相同说话者或不同说话者。尽管基于向量的手段和基于模型的手段用于执行说话者识别，但这两种手段都有一个共同的缺点，即任何一种手段都取决于所提供的两个音频样本的质量。例如，虽然可以在更大的样本语料库上训练模型，但模型针对输入音频样本表示其对应说话者的语音特性的能力预期其预测结果。同样，基于向量的手段被局限于音频样本的向量表示有多好地表示说话者的语音特性。但不幸的是，特定的音频样本可能不包括最能表示说话者的音频特性。例如，如果说话者有特定的英国口音，但当说话者说出特定短语时，说话者的英国口音并不那么明显或难以区分，则与说话者的其他口语短语(即音频样本)进行比较，该特定短语的音频样本可能不是说话者的一个好的d向量表示(例如，对于基于向量的手段)或输入音频样本(例如，对于基于模型的手段)。考虑到这一点，当说话者识别系统使用单个样本音频执行说话者识别时，说话者识别系统可能并不总是具有识别说话者或说话者之间的相似性的最佳音频信息输入。事实上，单个音频样本不太可能是说话者的最佳声学表示。

为了克服特定音频样本可能不是说话者的最佳表示的这个问题，说话者识别系统可以使用单个音频样本来生成音频样本的多个变体。通过生成音频样本的多个变体，可能存在音频样本的许多变体中的至少一个准确地表示说话者的更大可能性。换言之，通过具有不止一个音频样本，说话者识别系统可以增加其正确执行说话者验证的可能性。为了从单个音频样本生成多个变体，说话者识别可以使用各种音频样本增强过程。

对于基于向量的手段，音频样本增强过程生成单个音频样本的多个变体，这些变体又为单个音频样本的每个变体生成多个d向量。d向量越多，则可能存在许多d向量中的至少一个准确表示说话者的更大可能性。为了从单个音频样本生成多个d向量，说话者识别系统利用了下述事实，即任何长度的音频样本都可以生成一个d向量。例如，可以为十分钟的音频样本生成单个d向量，或者可以为半秒(0.5秒)的音频样本生成单个d向量。换句话说，d向量的生成与音频样本的长度无关。因此，三秒长的单个音频样本可以形成对应于三秒持续期间的口述音频的单个d向量，或者三秒音频样本可以被划分为一秒(1秒)的音频片段并且说话者识别系统为每个音频片段生成一个d向量。这意味着，在这个示例中，说话者识别系统不是具有单个d向量以希望该单个d向量准确地表示说话者的语音特性，而是具有三个d向量，每个向量可能具有表示说话者的语音特性的某种程度的准确度。

当说话者识别系统生成更大数量的d向量时，说话者识别系统可以被配置为使用多个d向量来识别哪个d向量或d向量集是说话者的最准确的表示。这里，由于表示音频样本的说话者的d向量或向量样本的数量更多，说话者识别系统可以将这些样本中的每一个相互比较以识别不太可能准确地表示说话者的异常值d向量。例如，如果多个d向量中的每一个都准确地表示给说话者，则多个d向量看起来会在维度空间中空间收敛。换句话说，多个d向量的空间表示将图示围绕说话者的理论完美d向量表示的d向量的紧密聚类。相比之下，仅从音频样本生成单个d向量以用于说话者识别的系统无法执行多个d向量的这种相对比较以确定单个d向量是否是说话者的准确表示。为了进一步扩展场景，在不知道单个d向量是否是说话者的准确表示的情况下，说话者识别系统可能不可避免地使用较差地表示说话者的d向量来验证说话者。由于这种较差的表示，说话者识别系统未能正确验证说话者的可能性变得增加。当说话者的身份变得与各种许可或权限相联系时，说话者识别系统可能会错误地阻止说话者访问该说话者基于他或她的许可/权限本应该能够访问的功能。

对于基于模型的手段，音频样本增强过程对音频样本进行频谱图增强以产生频谱图的多个变体。换句话说，由于对于模型的输入基于音频样本，因此频谱图增强过程会生成音频样本的频谱图变体。与基于向量的手段一样，通过生成多个频谱图变体，该模型能够为每个音频样本接收多个输入。利用对应于音频样本的多个输入，而不是单个输入，模型更有可能获得更多信息，并且因此，将其预测基于音频样本的说话者的更多表示。换句话说，这种每个音频样本多个输入的手段为模型提供了对音频样本的说话者的语音特性的更好理解，这继而可能导致对说话者识别和/或验证的更好预测。

图1A是语音环境100的示例，其包括向启用语音的设备110(也称为设备110或用户设备110)传送口述话语12的一个或多个用户10。用户10(即话语12的说话者)可以说出话语12作为查询或命令以征求来自设备110的响应。设备110被配置为从语音环境100中的一个或多个用户10捕获声音。这里，音频声音可以指用户10的口述话语12，其用作可听查询、设备110的命令或由设备110捕获的可听通信。设备110的启用语音的系统与设备110相关联的启用语音的系统可以通过回答查询和/或使命令被执行来产生对命令的查询。

这里，设备110被配置为检测话语12并调用本地或远程说话者识别过程。设备110可以对应于与用户10相关联并且能够接收对应于口述话语12的音频信号的任何计算设备。用户设备110的一些示例包括但不限于移动设备(例如，移动电话、平板电脑、笔记本电脑、电子书阅读器等)、计算机、可穿戴设备(例如智能手表)、音乐播放器、投射设备、智能电器(例如智能电视)和物联网(IoT)设备、遥控器、智能扬声器等。设备110包括数据处理硬件112和存储器硬件114，存储器硬件114与数据处理硬件112通信并存储指令，该指令当由数据处理硬件112执行时，使数据处理硬件112执行与话语检测或某种其他形式的话语/语音处理(例如，语音识别和/或语音验证)相关的一个或多个操作。

在一些示例中，设备110包括一个或多个应用(即，软件应用)，其中，每个应用可以利用与设备110相关联的一个或多个语音处理系统(例如，语音辨识系统、文本到语音系统、说话者识别系统140等)以执行应用内的各种功能。在一些实施方式中，设备110可以检测话语12并将表征话语12的数据提供给一个或多个语音处理系统。例如，设备110包括被配置为识别话语12的说话者10的语音识别应用。语音识别应用可以执行说话者验证过程，该过程验证话语12的说话者10的身份。例如，说话者验证涉及基于说话者语音的特性来接受或拒绝说话者10的身份声明，如通过来自说话者10的一个或多个话语12所确定的。在一些示例中，设备110被本地配置有应用以执行本地说话者验证或远程利用远程资源来执行说话者验证的某些部分。

设备110进一步包括具有音频捕获设备(例如，麦克风)116的音频子系统，音频捕获设备用于捕获语音环境100内的口述话语12并将其转换成电信号。虽然设备110在所示示例中实现了单个音频捕获设备116，但是在不脱离本公开的范围的情况下，设备110可以实现音频捕获设备116的阵列，由此阵列中的一个或多个音频捕获设备116可以物理上不驻留在设备110上，而是与音频子系统(例如，设备110的外围设备)通信。例如，设备110可以对应于利用遍布车辆定位的麦克风阵列的车辆信息娱乐系统。补充地或备选地，设备110还包括语音输出设备(例如，说话者)118，用于从设备110传送可听音频信号。例如，设备110被配置为响应于检测到的话语12生成合成回放信号。换句话说，话语12可以对应于设备110用设备110生成并经由语音输出设备118传送的合成音频回答的查询。

此外，设备110被配置为经由网络120与远程系统130通信。远程系统130可以包括远程资源132，例如远程数据处理硬件134(例如，远程服务器或CPU)和/或远程存储器硬件136(例如，远程数据库或其他存储硬件)。设备110可以利用远程资源132来执行与语音处理有关的各种功能，例如语音辨识和/或说话者识别/验证。例如，设备110被配置为使用说话者识别系统140执行说话者识别。该系统140可以驻留在设备110上(称为设备上系统)，或远程驻留(例如，驻留在远程系统130上)但与设备110通信。在一些示例中，系统140的一些部分位于本地或设备上，而其他部分驻留于远程。例如，被配置为对说话者识别系统140执行语音验证的验证器200驻留于远程或本地。在一些示例中，说话者识别系统140可以与诸如语音辨识系统、分割系统、文本到语音系统等的其他语音处理系统组合。在一些配置中，说话者识别系统140所驻留在的位置是根据处理要求。例如，当系统140在大小或处理要求上相当大时，系统140可以驻留在远程系统130中。然而，当设备110可以支持系统140的大小或处理要求时，一个或多个系统140可以使用数据处理硬件112和/或存储器硬件114驻留在设备110上。

说话者识别系统140通常被配置为处理表征话语12的数据并且向设备110提供响应142，其指示由说话者识别系统140的验证器200执行的语音验证过程的结果。例如，说话者识别系统140是为设备110的语音识别应用执行语音验证的系统。换句话说，说话者识别系统140被配置为使用验证器200执行说话者验证过程以验证话语12的说话者10的身份。例如，响应142可以基于说话者10的口述话语12来指示说话者10是否向设备110注册(即，注册的说话者)。在一些示例中，说话者识别系统140基于验证器200处的验证过程生成识别说话者10的身份的响应142。

仍然参考图1A，设备110可以使用说话者识别系统140来向设备110登记一个或多个用户10a-c。通过向设备110登记用户10，登记用作一种语音注册过程以识别登记的用户10、10_E作为设备110的授权用户。设备110可以是可配置的，使得设备110的登记用户10_E可以访问或控制设备110的各种功能，而未向设备110登记的未授权用户10被禁止执行设备110能够执行的一个或多个功能。可选地，设备110可以登记多个用户10。对于多个用户10，每个登记用户10_E可以在设备110上配置用户账户，该账户具有关于设备110的功能的特定许可或权限。例如，图1A中的三个用户10a-c对应于一个三口之家，有丈夫、妻子和一个9岁的女儿。这里，当每个成年人向设备110登记时，成年人可以设置父母控制，其允许每个成年人访问或控制设备110的所有功能，但限制他们的女儿(其也是登记用户10_E)拥有设备110的整体控制。例如，父母设置他们女儿的账户以防止他们的女儿修改家庭自动化控制，例如由设备110控制的恒温器时间表。这意味着一个登记用户10_E可能具有重叠的特定许可或权限，或不同于另一个登记用户10_E的许可或权限的特定许可或权限。此外，不是仅为登记者生成许可，设备110还可以被配置为针对不是登记用户10_E的设备110的用户10指定许可。例如，当设备110的用户10不是登记用户10_E时，设备110可以被配置为执行有限的功能(例如，访客模式)或完全防止未登记用户10使用设备110。没有限制地，授权登记用户10_E可以允许设备110仅访问登记用户10_E有权访问的资源。例如，在具有至少两个登记用户10_E的家庭中，其中，一人说出由设备110捕获的语音命令“播放我的音乐播放列表”，验证器200可以识别特定登记说话者10_E的身份，并允许该设备110访问与识别的说话者10相关联的特定音乐播放列表而不是其他登记用户10_E的音乐播放列表。

在一些配置中，设备110使用说话者识别系统140来执行将用户10登记为设备110的注册说话者的登记过程。例如，与说话者识别过程140相关联的说话者识别应用提示用户10说出一个或多个登记话语144，从中可以为用户10生成说话签名146。在一些实施方式中，登记话语144是例如一、二、三、四或更多单词的短语。说话者识别系统140可以提示用户10说出预定义的短语作为登记话语144，或者基于没有专门为用户10提供的短语，用户10可以自发地说出并提供登记话语144。在一些示例中，用户10可以说出多个登记话语144，其中，每个登记话语是相同的短语或不同的短语。登记话语144可以包括用户10说出预定义的热词，该热词被配置为触发设备110从睡眠状态唤醒以处理在预定义的热词之后接收到的口述音频。虽然示例显示用户10向设备110提供口述登记话语144，但其他示例可以包括一个或多个用户10从另一设备(例如，智能电话)访问语音识别系统140以提供登记话语144。在接收到登记话语144后，说话者识别系统140处理登记话语144以生成每个登记话语144的说话者表示。说话者识别系统140可以从登记话语144的所有、一些或一个说话者表示为用户10生成说话者签名146。在一些示例中，说话者签名146是多个登记话语144的相应说话者表示的平均。在其他示例中，说话者签名146对应于来自基于一个或多个准则(例如，基于所选登记话语144的音频的音频质量或语音质量)选择的特定登记话语144的特定说话者表示。一旦为说话者10生成了说话者签名146，就可以将说话者签名146本地存储在设备110上或存储在远程系统130中(例如，在远程存储器硬件136中)。

在登记之后，当设备110在语音环境100内检测到用户10的查询话语148时，说话者识别系统140被配置为基于查询话语148识别查询话语12的说话者10是否是设备110的登记用户10_E。查询话语148可以指代特殊类型的话语或口述短语，例如依赖于文本的验证短语，或者更一般地指代独立于文本的短语，独立于文本的短语可以包括在完成一个或多个用户10的登记过程之后由用户10说出的任何话语12。这里，验证器200执行的验证过程识别检测到的查询话语148的说话者10是否是登记用户10_E并生成响应142以指示说话者10是否是登记用户10_E。在一些示例中，验证器200可以访问已经为登记用户10_E生成的说话者签名146，并将检测到的通过说话者10的查询话语148与说话者签名146进行比较，以确定查询话语148是否对应于特定说话者签名146。在这些示例中，当查询话语148对应于特定说话者签名146时，验证器200确定查询话语148是由登记用户10_E说出的，并且生成指示查询话语148的说话者10是登记用户10_E的响应142。

在一些实施方式中，当说话者识别系统140生成说话者10不是登记用户10_E的响应142时，说话者识别系统140提示说话者10确定用户10是否想要成为在设备110上的登记用户10_E。在一些配置中，在提示未登记用户10成为登记用户10_E之前，设备110配置有准则，例如安全准则，以确保设备110的所有者已向未登记用户10或访客用户提供许可以成为设备110的登记用户10_E。这可以防止任何人简单地登记并获得对设备110的不期望的控制。

图1A图示了首先通过执行登记过程向设备110登记的三个用户10a-c。换句话说，图1A描绘了被每个用户10发送到设备110以向设备110登记的至少一个登记话语144、144a-c。在登记过程之后，第三用户10c向设备110说出查询话语148。当设备110接收查询话语148时，设备110将查询话语148连同任何说话者签名146传送到说话者识别系统140，以使验证器200能够验证第三说话者10c是登记用户10_E。这里，当验证器200验证第三说话者10c确实是登记用户10_E时，说话者识别系统140将响应142传送到设备110以指示第三说话者10c是向设备110的登记用户10_E。一旦验证，第三说话者10c可以使用设备110或访问登记用户10_E有权访问的或更具体地指定给第三用户10c的、由设备110提供的计算功能的某些方面。在一些示例中，查询话语148包括热词，紧跟有查询。在这些示例中，验证器200可以仅基于对应于热词的音频的一部分、仅对应于查询的音频的一部分或者包括热词和查询的整个音频来验证第三说话者10c。在另外的示例中，查询话语148可以是登记用户10_E提供给验证者200以验证登记用户10_E的身份的特定验证短语。

图1B是示例语音环境100，其使用说话者识别系统140来识别说话者10或用于与设备110相关联的分割系统的说话者10之间的变化。这里，设备110检测第一话语12a并且然后检测随后的第二话语12b，并且确定第一话语12a和第二话语12b是对应于相同说话者10还是对应于不同说话者10。通过区分话语12是否来自相同说话者10，说话者识别系统140能够在设备110接收到的音频流期间在识别说话者10方面协助例如分割系统。换句话说，当验证器200验证第二话语12b的说话者10是与第一话语12b的说话者10不同的说话者10时，验证器200可以生成响应142以将此差异通知分割系统。在所示示例中，当与设备110相关联的语音处理系统正在生成音频流的转录时，与设备110相关联的语音系统可以使用来自验证器200的响应142来生成说话者标签。例如，图1B图示与设备110的六个用户10a-f的会议。在会议期间，设备110被用于生成会议的转录。作为转录的一部分，转录包括识别谁在说什么信息的说话者标签。通过在会议期间使用说话者识别系统140，设备110能够使用验证器200，以基于验证器200确定两个后续话语12是否由相同的说话者10或不同的说话者10说出，来验证在转录中给定说话者的标签应该改变或应该保持不变。例如，图1B描绘了标记为“说话者2”的说话者10a的第一话语12a之后是标记为“说话者3”的说话者10c的第二话语12b。由于验证器200在其响应142中确认这两个话语12a-b来自不同的说话者10，因此设备110使用响应142来指示新说话者标签需要出现在第二话语12b的转录中。在一些示例中，除了验证说话者是相同还是不同之外，说话者识别系统140被配置为生成包括说话者10的身份的响应142。例如，返回参考图1A，如果说话者识别系统140包括被标记为说话者10的身份的说话者签名146，则当话语12对应于(例如，匹配或非常类似)特定标记的签名146时，说话者识别系统140可以在其响应142中包括该特定签名的标记身份。

为了更广泛地指代说话者识别系统140的多个潜在应用，所有类型的话语(例如，登记话语144、查询话语148或只是一般性说话话语12)和说话者签名146可以更一般地指代作为音频样本202(图2A-图2D)。音频样本指的是提供给设备110(例如，由用户10)或说话者识别系统140的任何长度的音频数据。例如，登记话语12是由特定用户10说出的音频样本202，其包括一定长度的音频数据以执行登记过程。在一些示例中，音频样本202可以对应于用户10说出的整个话语12或用户10说出的话语12的某个部分。因此，设备110从设备110的用户10接收音频样本202(例如，在音频捕获设备116处)并将音频样本202或音频样本202的一些衍生物传送到说话者识别系统140。

参考图2A-图2C，验证器200被配置为执行基于向量的说话者验证手段。在基于向量的手段中，验证器200包括变化器210、生成器220和比较器230。变化器210被配置为接收音频样本202并生成音频样本202的多个样本变体212、212a-n。每个样本变体212对应于已经经历某种增强技术的音频样本202的版本。在一些示例中，变化器210使用将音频样本202划分为片段214，使得每个片段214对应于样本变体212的增强技术。例如，图2A描绘音频样本202被分成四个音频片段214a-d以形成四个音频样本变体212a-d。

生成器220被配置为接收音频样本202的每个样本变体212，并且为每个样本变体212生成说话者表示222。换句话说，尽管来自说话者10的音频样本202已经在变化器210处经历了某种类型的增强技术，但是每个样本变体212仍将包括从音频样本202导出的语音特性。例如，当变化器210通过将音频样本202分成片段214来形成样本变体212时，作为音频样本202的子集的每个片段214将包括对应于该特定片段214的语音特性的子集。在诸如基于向量的手段的一些实施方式中，由生成器220生成的说话者表示222是样本变体212的声学嵌入222。声学嵌入222是一种说话者表示222，它指的是n维向量，其中，向量的每个维度表示根据其声学特征的某种形式的语音特性。换句话说，声学嵌入222对应于样本变体212的语音特性的向量表示，因为样本变体212是说话者10说出的音频样本202的衍生物。声学嵌入222可以包括d向量。在一些配置中，生成器220通过利用与说话者识别系统140通信的语音辨识系统的声学模型(AM)来生成声学嵌入222。这里，生成器220可以包括AM的版本或向语音辨识系统的AM传送样本变体212，以便AM使用将音频段(即，音频帧)映射到音素的其模型来为生成器220生成声学嵌入222。

在一些实施方式中，由于验证器200对两个音频样本202a-b执行验证过程，因此生成器220为第一音频样本202a生成第一组声学嵌入222，并为第二音频样本202b生成第二组声学嵌入222。换言之，生成器220为音频样本202的每个样本变体212生成声学嵌入222以形成该特定音频样本202的一组声学嵌入222。对于每个音频样本202的多个声学嵌入222，比较器230用于确定哪个声学嵌入222或声学嵌入222的子集可能是表示音频样本202的说话者10的最佳声学嵌入222。如前所述，不是依赖于例如音频样本202的单个声学嵌入222来准确地表示说话者10，验证器200产生音频样本202的多个变体212，使得很可能有更大的概率音频样本202的许多变体212中的至少一个或变体212的某种组合准确地表示说话者10。这意味着应该评估由多个声学嵌入222表示的多个样本变体212以确定一个或多个声学嵌入222，这些声学嵌入222似乎最好地表示音频样本202的说话者10的语音特性。

为执行此角色，比较器230被配置为将来自生成器220的每个声学嵌入222评估为候选声学嵌入232，并确定哪个单个候选232或哪个候选232a-n集合将最好地表示音频样本202的说话者10的语音特性。在一些示例中，比较器230通过从候选声学嵌入232的集合中移除候选声学嵌入232的子集并从剩余的候选声学嵌入232生成聚合声学嵌入来起作用。例如，图2A描绘了对应于来自生成器220的声学嵌入222a-d的第一音频样本202的四个候选声学嵌入232a-d和对应于来自生成器220的声学嵌入222e-h的第二音频样本202的四个声学嵌入232e-h。这里，比较器230相对于集合中的其他候选声学嵌入232检查每个候选声学嵌入232，并确定要移除哪个候选声学嵌入232。例如，图2A图示了比较器230移除第一音频样本202a的第一集合中的两个候选声学嵌入222a、d和第二音频样本202b的第二集合中的两个候选声学嵌入222e、f。根据第一集合中剩余的候选声学嵌入232b、c和第二集合中的剩余候选声学嵌入232e、f，比较器230生成用于第一音频样本202a的第一聚合声学嵌入234a和用于第二音频样本202b的第二聚合声学嵌入234b。在一些示例中，比较器230通过确定剩余候选声学嵌入232的平均向量来生成聚合声学嵌入234。

在一些示例中，比较器230通过确定集合中的每个候选声学嵌入232的得分来评估候选声学嵌入232的集合。在一些配置中，得分对应于特定音频样本202的给定候选声学嵌入232与集合中的其他候选声学嵌入232之间的平均余弦相似度的函数。余弦相似度是指测量在维度空间中两个向量之间的角度的余弦的度量。通过在候选声学嵌入232的集合中生成给定候选声学嵌入232和每个其他候选声学嵌入232之间的余弦相似度，给定候选的所有余弦相似度可以被一起平均以生成平均余弦相似度得分。在一些实施方式中，得分对应于特定音频样本202的集合中的给定候选声学嵌入232与其他候选声学嵌入232之间的欧氏距离的函数。例如，与余弦相似度一样，比较器230确定给定候选232和每个其他候选232之间的欧氏距离。根据给定候选232的这多个欧氏距离，得分被设置为等于所有多个欧氏距离的平均以表示候选232的总体欧氏距离得分。在通过任何方法生成得分之后，比较器230可以基于该得分对候选232的集合进行排名或排序。例如，得分按从最高得分到最低得分的降序排列，其中，最高得分表示具有最高得分的候选声学嵌入232平均最接近维度向量空间中的集合中的每个其他候选声学嵌入232。在对给定音频样本202的候选声学嵌入232的集合进行排序之后，比较器230可以被配置为从排序的列表中选择N个候选232并且去除未被选择的候选232。例如，图2B示出比较器230已经对第一音频样本202a的候选声学嵌入232的集合和第二音频样本202b的候选声学嵌入232的集合进行排序。这里，N＝2，并且比较器230选择有序列表中得分最高的两个候选声学嵌入232，同时移除其余的候选声学嵌入232。然后比较器230使用所选择的N个声学嵌入232为音频样本202生成聚合声学嵌入234。其他选择准则也是可能的。例如，不是选择N个候选声学嵌入232来用于聚合声学嵌入234，比较器可以从集合中移除N个候选声学嵌入232。作为另一个示例，比较器可以从集合中移除T-N个候选声学嵌入232，其中，T是集合中候选声学嵌入232的总数。

或者，不是选择具有最大得分的N个候选声学嵌入232，而是以阈值得分值来配置比较器230，使得比较器230使用满足阈值得分值(例如，等于或超过设置的阈值得分值)的所有候选声学嵌入232生成聚合声学嵌入234。通过使用评分过程，比较器230可以确保可能是音频样本202的说话者10的语音特性的不准确表示的音频样本202的样本变体212的离群声学嵌入222对验证器200的影响最小。在一些配置中，比较器230执行N选择和阈值得分值的某种组合。例如，在获知N个候选声学嵌入232将形成聚合声学嵌入234的情况下，比较器230确定对应于候选声学嵌入232的有序列表中的第N个候选声学嵌入232的得分并将阈值得分设置为这个值。在这种手段中，比较器230还可以检查对应于第N个候选232的阈值得分以确定数字N是否应该被更新(例如，基于阈值得分增加或减少)。

利用每个音频样本202a-b的聚合声学嵌入234，比较器230然后可以比较每个聚合声学嵌入234以确定第一音频样本202a和第二音频样本202b是否来自相同说话者10。在一些示例中，当第一音频样本202a的第一聚合声学嵌入234a匹配或非常类似于第二音频样本202b的第二聚合声学嵌入234b时，比较器230确定第一音频样本202a和第二音频样本202b来自相同说话者10。

在诸如图2B的一些实施方式中，为了确定第一音频样本202a的第一聚合声学嵌入234a是否匹配或非常类似于第二音频样本202b的第二聚合声学嵌入234b，比较器230确定第一聚合声学嵌入234a和第二聚合声学嵌入234b之间的距离(例如，余弦距离)。这里，比较器230可以被配置为使得当第一聚合声学嵌入234a和第二聚合声学嵌入234b之间的距离满足距离阈值236时，比较器230确定第一音频样本202a和第二音频样本202b是来自相同说话者10。否则，当第一聚合声学嵌入234a和第二聚合声学嵌入234b之间的距离未能满足距离阈值236时，比较器230确定第一音频样本202a和第二音频样本202b不是来自相同说话者10。距离阈值236指的是被设置为指示第一音频样本202a的说话者10可能与第二音频样本202b是相同说话者10的置信水平的值。

在一些实施方式中，变化器210的增大技术具有一些限制。例如，当变化器210使用将音频样本202分成片段214的增强技术生成样本变体212时，片段214的大小不能小到单个片段214包括非常少的语音特性数据用于形成有意义的说话者表示222。如果片段214太小，则对应于片段214的语音特性可能会在它们在说话者10的表示中衰减。由于这种限制，长度小于某个时间阈值(例如，一秒)的样本变体212可能不会形成有意义的说话者表示222。因此，可以限制片段化增强技术以防止给定片段214的大小小于时间阈值。不幸的是，对应于登记话语144或查询话语148的音频样本202通常只有几秒长。这意味着片段化技术只会生成几个说话者表示222而不是可能会增加验证器200的准确性的更大数量。

为了克服这个问题，变化器210可以将片段化技术与其他增强技术(例如，乱序技术(shuffle technique)和/或级联技术)组合。例如，如图2C所示，变化器210可以将两秒长的音频样本202分成三个片段214a-c(使得每个片段214大约为0.66秒)。此处，如果时间阈值等于一秒，则生成器220将为每个片段214生成说话者表示222，这不太可能提高验证器200的准确性。相反，在对音频样本202进行片段化之后，变化器210可以将多个片段214重建在一起(即，将一些片段214级联在一起)，使得级联的片段214的总长度大于时间阈值(例如，一秒)。这样，重构的样本变体212可以使得足够的片段214组合在一起以避免遭受较差的说话者特性。此外，该手段利用了生成器220可以为任何长度的音频生成说话者表示222这一事实。因此，变化器210不需要将片段214重构为具有与原始音频样本202的长度相等的长度，而是重构片段与原始音频样本202相比可以具有不同的时间长度。例如，图2C描绘了由两个片段214构建的每个样本变体212a-f，总长度为1.2秒，小于音频样本202的原始长度两秒。

此外，图2C图示了当将多于一个片段214重构在一起以形成样本变体212时，片段214可以以不同于片段214出现在音频样本202中的顺序的顺序被乱序。例如，变化器210从第二片段214b和第一片段214a的有序组合形成第三样本变体212c，这与由第一样本变体212a表示的音频样本202的原始顺序相反。在图2C中，变化器210能够利用片段214的重新乱序或混合以及片段214的级联在一起以形成六个样本变体212a-f。只要变化器210避免形成时间长度小于时间阈值的样本变体212，变化器210就能够以任何和所有排列来乱序和重构片段214。例如，如果样本音频202被切成五个片段214，则变化器210将能够形成一百二十个样本变体212，因为排列的数量可以表示为P(n，r)，其中，n是片段214的数量并且r等于级联在一起以形成样本变体212的片段214的数量。换句话说，变化器210将能够形成一百二十个样本变体212，因为n＝5且r＝5(即P(5，5))。

图2D是说话者验证过程的模型手段示例。这里，验证器200不包括比较器230，而是包括模型240，其被配置为生成关于第一音频样本202a的说话者10是否与第二音频样本202b是相同说话者10的预测242。在模型手段中，变化器210被配置为通过对音频样本202的频率表示执行若干增强技术来生成样本变体212。例如，变化器210对音频样本202的频谱图执行多重频谱图增强技术216、216a-n。频谱图通常是指对应于音频信号202的音频信号的频率频谱的视觉表示。频谱图有时也可以被称为声谱图、声纹或语音图。作为视觉表示，变化器210被配置为增强音频样本202的频谱图的视觉时间序列。频谱图增强技术216的一些示例包括时间掩蔽或添加216、216a，频率掩蔽216、216b，以及时间扭曲216、216c(即频谱图拉伸)。当执行时间掩蔽216a时，变化器210可以设置特定参数，例如初始偏移、对应于将从频谱图中移除的数据(例如，帧)量的移除宽度，以及指定频谱图中要保持不间断的一个或多个帧的保持宽度。相比之下，时间掩蔽包括指定要复制或添加到频谱图中的帧的参数。

如图2D所示，当变化器210接收到第一音频样本202a和第二音频样本202b时，变化器210对每个音频样本202执行相同的频谱图增强技术。例如，当变化器210对于对应于第一音频样本202a的频谱图执行时间掩蔽216a、频率掩蔽216和时间扭曲216c时，变化器210对对应于第二音频样本202b的频谱图执行相同的增强技术216，即时间掩蔽216a、频率掩蔽216和时间扭曲216c。通过对每个音频样本202执行相同的频谱图增强技术216，验证器200确保生成器220和/或模型240可以比较音频样本202a-b。作为每个频谱图增强技术216的结果，变化器210生成对应的样本变体212。

生成器220被配置为从变化器210接收所有样本变体212并且为每个频谱图增强技术216生成得分224。例如，生成器220比较由第一频谱图增强技术216a对于第一音频样本202a生成的第一样本变体212a和由第一频谱图增强技术216a对第二音频样本202b生成的第二样本变体212d。对于第二频谱图增强技术216b，生成器220将第二频谱图增强技术216b对第一音频样本202a生成的第三样本变体212b与第二频谱图增强技术216b对第二音频样本202b生成的第四样本变体212e进行比较。对于第三频谱图增强技术216c，生成器220将由第三频谱图增强技术216c对第一音频样本202a生成的第五样本变体212c与由第三频谱图增强技术216c对第二音频样本202b生成的第六样本变体212f进行比较。如图2D所示，生成器对第一频谱图增强技术216a的比较产生第一得分224a。生成器对第二频谱图增强技术216b的比较产生第二得分224b。生成器对第三频谱图增强技术216c的比较产生第三得分224c。根据使用的频谱图增强技术的数量，此过程可能会重复。例如，虽然变化器210正在执行三种技术216，但是变化器210可以按可扩展的方式执行四种甚至五种技术。在一些示例中，由生成器220确定的得分224是余弦相似度得分224。

模型240被配置为接收得分224作为输入，并且生成关于第一音频样本202a的说话者10是否与第二音频样本202b相同的说话者10的预测242作为输出。在一些实施方式中，预测242对应于第一音频样本202a和第二音频样本202b属于相同说话者10的概率。在一些配置中，模型240是机器学习模型或神经网络，其被配置为处理表征音频样本202的数据(例如，来自生成器220的得分224)。模型240可以包括一层或多层非线性单元以基于接收到的输入生成预测242。在一些实施方式中，模型240缺少softmax或其他分类层。在一些示例中，模型240是包括一个或多个LSTM存储块的长短期记忆(LSTM)神经网络。每个LSTM存储块可以包括一个或多个存储单元，并且每个存储单元可以包括输入门、遗忘门和输出门，这些门允许单元存储单元的先前状态，例如，用于生成电流激活或提供给模型240的其他组件。模型240可以是前馈神经网络、卷积神经网络、递归神经网络，或者可以是具有不同类型的若干部分的深度神经网络。

在模型240被部署用于实时或推理预测之前，模型240经历训练过程以教导模型240如何生成准确的预测242。模型240可以通过迭代更新在一系列训练周期上的内部参数(例如，其神经网络的)的当前值来学习如何生成预测242。在每个训练周期中，模型240处理一批训练示例。模型240在每个周期中的输出是已经为批次中的每个训练示例生成的一组预测242。在训练期间，可以训练模型240以优化损失函数或其他目标函数。损失函数通常被制定为最小化相同说话者的训练示例的输出或预测242之间的变化，同时最大化不同说话者的训练示例的预测242之间的差异。

图3是生成音频样本202的说话者表示222的方法300的示例操作布置的流程图。在操作302，方法300从第一说话者10、10a接收第一音频样本202、202a，并且从第二说话者10、10b接收第二音频样本202、202b。在操作304，方法300包括用于第一音频样本202a和第二音频样本202b的每个音频样本202的子操作304a-d。在操作304a，方法300将相应的音频样本202分成多个片段214。在操作304b，基于多个片段214，方法300生成候选声学嵌入232的集合，其中，每个候选声学嵌入232包括声学特征的向量表示222。在操作304c，方法300从候选声学嵌入232的集合中移除候选声学嵌入232的子集。在操作304d，方法300在移除候选声学嵌入232的子集后根据候选声学嵌入232的集合中的剩余候选声学嵌入232生成聚合声学嵌入234。

图4是可用于实施本文档中描述的系统(例如，说话者识别系统140和/或验证器200)和方法(例如，方法300)的示例计算设备400的示意图。计算设备400旨在表示各种形式的数字计算机，例如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。此处所示的组件、它们的联系和关系以及它们的功能仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备400包括处理器410(例如，数据处理硬件)、存储器420(例如，存储器硬件)、存储设备430、连接到存储器420和高速扩展端口450的高速接口/控制器440以及连接到低速总线470和存储设备430的低速接口/控制器460。每个组件410、420、430、440、450和460使用各种总线互连，并且可以安装在普通主板上或以其他适当的方式安装。处理器410可以处理用于在计算设备400内执行的指令，包括存储在存储器420中或存储设备430上以在诸如耦合到高速接口440的显示器480的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息的指令。在其他实施方式中，可以适当地使用多个处理器和/或多条总线以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备400，每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器420在计算设备400内非暂时性地存储信息。存储器420可以是计算机可读介质、易失性存储单元或非易失性存储单元。非暂时性存储器420可以是用于在临时或永久的基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备400使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，例如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备430能够为计算设备400提供大容量存储。在一些实施方式中，存储设备430是计算机可读介质。在各种不同的实施方式中，存储设备430可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备或设备阵列，包括在存储区域网络或其他配置中的设备。在另外的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，这些指令在执行时执行一种或多种方法，例如上述方法。信息载体是计算机或机器可读介质，例如存储器420、存储设备430或处理器410上的存储器。

高速控制器440管理计算设备400的带宽密集型操作，而低速控制器460管理较低带宽密集型操作。这种职责分配只是示范性的。在一些实施方式中，高速控制器440耦合到存储器420、显示器480(例如，通过图形处理器或加速器)，并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口450。在一些实施方式中，低速控制器460耦合到存储设备430和低速扩展端口490。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口490可以例如通过网络适配器耦合到一个或多个输入/输出设备，例如键盘、指向设备、扫描仪或联网设备(例如交换机或路由器)。

计算设备400可以以多种不同的形式实现，如图所示。例如，它可以实现为标准服务器400a或在一组这样的服务器400a中多次实现，实现为膝上型计算机400b，或实现为机架服务器系统400c的一部分。

本文描述的系统和技术的各种实施方式可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式，该程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用的或通用的，其耦合到存储系统、至少一个输入设备和至少一个输出设备以从其接收数据和指令并向其发送数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、用于向可编程处理器提供机器指令和/或数据的可编程逻辑设备(PLD)，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。例如，适合于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者可操作地耦合到其以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括：半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及，CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)并且选用地具有键盘和指示设备的计算机上实现本公开的一个或多个方面，指示设备例如是鼠标或轨迹球，用户可以通过其向计算机提供输入。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文件以及从用户使用的设备接收文件(例如，通过响应于从在用户客户端设备上的Web浏览器收到的请求，将网页发送到Web浏览器)来与用户进行交互。

已经描述了许多实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种方法(300)，包括：

在数据处理硬件(410)处接收来自第一说话者(10a)的第一音频样本(202)和来自第二说话者(10b)的第二音频样本(202)；

对于所述第一音频样本(202)和所述第二音频样本(202)中的每个音频样本(202)：

由所述数据处理硬件(410)将相应音频样本(202)划分为多个音频片段(214)；

基于所述多个片段(214)，由所述数据处理硬件(410)生成候选声学嵌入(232)的集合，每个候选声学嵌入(232)包括声学特征的向量表示；

由所述数据处理硬件(410)从所述候选声学嵌入(232)的所述集合中移除所述候选声学嵌入(232)的子集；以及

在移除所述候选声学嵌入(232)的所述子集之后，由所述数据处理硬件(410)根据所述候选声学嵌入(232)的所述集合中的剩余候选声学嵌入(232)来生成聚合声学嵌入(234)；以及

由所述数据处理硬件(410)基于为所述第一音频样本(202)和所述第二音频样本(202)中的每个音频样本(202)生成的所述聚合声学嵌入(234)，来识别所述第一说话者(10a)和所述第二说话者(10b)是相同说话者(10)还是不同说话者(10)。

2.根据权利要求1所述的方法(300)，其中，每个候选声学嵌入(232)包括相应的d向量。

3.根据权利要求1或2所述的方法(300)，还包括：

由所述数据处理硬件(410)确定为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)是否对应于为来自所述第二说话者(10b)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)；以及

当为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)对应于为来自所述第二说话者(10b)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)时，由所述数据处理硬件(410)识别所述第一说话者(10a)和所述第二说话者(10b)是相同说话者(10)。

4.根据权利要求1-3中任一项所述的方法(300)，还包括：

由所述数据处理硬件(410)确定在为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)与为来自所述第二说话者(10a)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)之间的距离是否满足距离阈值(236)；以及

当在为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)与为来自所述第二说话者(10b)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)之间的所述距离满足所述距离阈值(236)时，由所述数据处理硬件(410)识别所述第一说话者(10a)和所述第二说话者(10b)是相同说话者(10)。

5.根据权利要求1-4中任一项所述的方法(300)，其中，基于所述多个音频片段(214)生成所述候选声学嵌入(232)的所述集合包括：通过下述方式生成在所述候选声学嵌入(232)的所述集合中的每个候选声学嵌入(232)：

将从相应音频样本(202)划分的所述多个音频片段(214)中的音频片段(214)重新排序成与所述相应音频样本(202)不同的顺序；

将重新排序的音频片段(214)级联；以及

基于所述重新排序的音频片段(214)的所述级联，生成对应的候选声学嵌入(232)。

6.根据权利要求5所述的方法(300)，其中，与每个候选声学嵌入(232)相关联的所述重新排序的音频片段(214)的所述级联中的所述音频片段(214)的顺序是不同的。

7.根据权利要求5或6所述的方法(300)，其中，将所述重新排序的音频片段(214)级联包括：确定所述重新排序的音频片段(214)的所述级联满足时间阈值。

8.根据权利要求1-7中任一项所述的方法(300)，其中，从所述候选声学嵌入(232)的所述集合中移除所述候选声学嵌入(232)的所述子集包括：

对于所述候选声学嵌入(232)的所述集合中的每个候选声学嵌入(232)：

确定从相应候选声学嵌入(232)到所述候选声学嵌入(232)的所述集合中的每个其他候选声学嵌入(232)的距离；以及

基于从所述相应候选声学嵌入(232)到所述候选声学嵌入(232)的所述集合中的每个其他候选声学嵌入(232)的所确定的距离，为所述相应候选声学嵌入(232)生成距离得分(224)；以及

在所述候选声学嵌入(232)的所述集合中选择与最低距离得分(224)相关联的阈值数量的所述候选声学嵌入(232)。

9.根据权利要求1-8中任一项所述的方法(300)，其中，从所述候选声学嵌入(232)的所述集合中移除所述候选声学嵌入(232)的所述子集包括：

在所述候选声学嵌入(232)的所述集合中选择距离得分(224)未能满足距离得分阈值的每个候选声学嵌入(232)。

10.根据权利要求1-9中任一项所述的方法(300)，其中，生成所述候选声学嵌入(232)的所述集合包括：使用神经网络声学模型(240)生成所述候选声学嵌入(232)的所述集合，所述神经网络声学模型(240)被配置为接收音频数据作为输入并生成声学嵌入(222)作为输出。

11.一种系统，包括：

数据处理硬件(410)；以及

与所述数据处理硬件(410)通信的存储器硬件(420)，所述存储器硬件(420)存储指令，所述指令当在所述数据处理硬件(410)上执行时使所述数据处理硬件(410)执行操作，所述操作包括：

接收来自第一说话者(10a)的第一音频样本(202)和来自第二说话者(10b)的第二音频样本(202)；

将相应音频样本(202)划分为多个音频片段(214)；

基于所述多个片段(214)，生成候选声学嵌入(232)的集合，每个候选声学嵌入(232)包括声学特征的向量表示；

从所述候选声学嵌入(232)的所述集合中移除所述候选声学嵌入(232)的子集；以及

在移除所述候选声学嵌入(232)的所述子集之后，根据所述候选声学嵌入(232)的所述集合中的剩余候选声学嵌入(232)来生成聚合声学嵌入(234)；以及

基于为所述第一音频样本(202)和所述第二音频样本(202)中的每个音频样本(202)生成的所述聚合声学嵌入(234)，来识别所述第一说话者(10a)和所述第二说话者(10b)是相同说话者(10)还是不同说话者(10)。

12.根据权利要求11所述的系统(400)，其中，每个候选声学嵌入(232)包括相应的d向量。

13.根据权利要求11或12所述的系统(400)，其中，所述操作还包括：

确定为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)是否对应于为来自所述第二说话者(10b)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)；以及

当为来自所述说话者的所述第一音频样本(202)生成的所述聚合声学嵌入(234)对应于为来自所述第二说话者(10b)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)时，识别所述第一说话者(10a)和所述第二说话者(10b)是相同说话者(10)。

14.根据权利要求11-13中任一项所述的系统(400)，其中，所述操作还包括：

确定在为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)与为来自所述第二说话者(10a)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)之间的距离(10b)是否满足距离阈值(236)；以及

当在为来自所述第一说话者(10a)的所述第一音频样本(202)生成的所述聚合声学嵌入(234)与为来自所述第二说话者(10b)的所述第二音频样本(202)生成的所述聚合声学嵌入(234)之间的所述距离满足所述距离阈值(236)时，识别所述第一说话者(10a)和所述第二说话者(10b)是相同说话者(10)。

15.根据权利要求11-14中任一项所述的系统(400)，其中，基于所述多个音频片段(214)生成所述候选声学嵌入(232)的所述集合包括通过下述方式生成在所述候选声学嵌入(232)的所述集合中的每个候选声学嵌入(232)：

将从相应音频样本(202)划分的所述多个音频片段(214)中的音频片段(214)重新排序为与所述相应音频样本(202)不同的顺序；

将重新排序的音频片段(214)级联；以及

16.根据权利要求15所述的系统(400)，其中，与每个候选声学嵌入(232)相关联的所述重新排序的音频片段(214)的所述级联中的所述音频片段(214)的顺序是不同的。

17.根据权利要求15或16所述的系统(400)，其中，将所述重新排序的音频片段(214)级联包括：确定所述重新排序的音频片段(214)的所述级联满足时间阈值。

18.根据权利要求11-17中任一项所述的系统(400)，其中，从所述候选声学嵌入(232)的所述集合中移除所述候选声学嵌入(232)的所述子集包括：

基于从所述相应候选声学嵌入(232)到所述候选声学嵌入(232)的所述集合的每个其他候选声学嵌入(232)的所确定的距离，为所述相应候选声学嵌入(232)生成距离得分(224)；以及

19.根据权利要求11-18中任一项所述的系统(400)，其中，从所述候选声学嵌入(232)的所述集合中移除所述候选声学嵌入(232)的所述子集包括：

20.根据权利要求11-19中任一项所述的系统(400)，其中，生成所述候选声学嵌入(232)的所述集合包括：使用神经网络声学模型(240)生成所述候选声学嵌入(232)的所述集合，所述神经网络声学模型(240)被配置为接收音频数据作为输入并生成声学嵌入(222)作为输出。