CN117321678A

CN117321678A - 用于说话者标识的注意力评分功能

Info

Publication number: CN117321678A
Application number: CN202280035368.4A
Authority: CN
Inventors: 伊格纳西奥·洛佩斯·莫雷诺; 王泉; 杰森·佩莱卡诺斯; 黄易玲; 梅尔特·萨格拉姆
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-05-16
Filing date: 2022-05-05
Publication date: 2023-12-29
Also published as: US20220366914A1; US11798562B2; EP4330961A1; US20240029742A1; WO2022246365A1

Abstract

一种说话者验证方法(400)包括接收对应于话语(119)的音频数据(120)、处理该音频数据以生成表示话语的话音特性的评估注意力d向量(200E)、评估ad向量包括n_e个风格类(202)，每个风格类包括与对应路由向量(210)连结的相应值向量(220)。该方法还包括使用自注意力机制(160)生成至少一个多条件注意力分数(165)，其指示评估ad向量和与相应用户(10)相关联的参考ad向量(200R)相匹配的可能性。该方法还包括基于多条件注意力分数将话语的说话者标识为与相应参考ad向量相关联的相应用户。

Description

用于说话者标识的注意力评分功能

技术领域

本公开涉及用于说话者标识的注意力评分功能。

背景技术

在诸如家庭或汽车的启用语音的环境中，用户可以使用话音输入来访问信息和/或控制各种功能。信息和/或功能可以针对给定用户进行个性化。因此，从与启用语音的环境相关联的一组说话者当中标识给定说话者可能是有利的。

说话者标识(例如，说话者验证和话音认证)为用户设备的用户提供了获得对用户设备的访问的简单方法。说话者标识允许用户通过说出话语来解锁和访问用户的设备，而不需要用户手动输入(例如，经由打字或说出)密码来获得对用户设备的访问。说话者验证还允许数字助理从说出的话语标识授权用户，而无需用户提供授权凭据

发明内容

本公开的一个方面提供了一种用于说话者标识的计算机实现的方法，该方法在数据处理硬件上执行时，使得数据处理执行包括以下操作的操作：接收与由用户设备捕获的话语相对应的音频数据，以及使用说话者标识模型，处理音频数据以生成表示话语的话音特性的评估注意力d向量(ad向量)。评估ad向量包括n_e个风格类，每个风格类包括与对应路由向量连结的相应值向量。操作还包括使用自注意力机制生成至少一个多条件注意力分数，该多条件注意力分数指示评估ad向量和与相应用户相关联的相应参考ad向量匹配的可能性，以及基于该多条件注意力分数，将话语的说话者标识为与相应参考ad向量相关联的相应用户。参考ad向量包括n_r个风格类，每个风格类包括与对应的路由向量连结的相应值向量。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，标识话语的说话者包括确定多条件注意力分数是否满足阈值分数，并且当多条件注意力分数满足阈值分数时，确定话语的说话者包括与相应参考ad向量相关联的相应用户。每个值向量可以包括相同的第一维度，并且每个路由向量可以包括小于每个值向量的第一维度的相同的第二维度。这样，第二维度的大小可以是第一维度的大小的三分之一。

在一些示例中，评估ad向量和参考ad向量中的每一个中的n个风格类中的每个风格类的相应值向量包含相应说话者相关的信息，而评估ad向量和参考ad向量中的每一个中的n个风格类中的每个风格类的相应路由向量包含与评估ad向量或参考ad向量中的一个被从中提取的相应话语相关联的信道和/或场境信息。附加地或替代地，评估ad向量和参考ad向量中的路由向量可以被配置为标识与评估ad向量相关联的话语和与参考ad向量相关联的至少一个参考话语之间的匹配条件。

在一些附加实施方式中，生成至少一个多条件注意力分数包括使用自注意力机制以生成多个多条件注意力分数，每个多条件注意力分数指示评估ad向量与多个参考ad向量中的相应一个相匹配的相应可能性，而标识话语的说话者包括将话语的说话者标识为与对应于最大多条件注意力分数的相应参考ad向量相关联的用户设备的相应注册用户。每个参考ad向量与用户设备的一个或多个注册用户中的相应一个相关联。在这些附加实施方式中，由用户设备捕获的话语可以包括指定要执行的动作的查询，用户设备的一个或多个不同注册用户中的每一个可以具有访问不同的相应个人资源集的许可，并且执行由查询指定的动作可能需要访问与标识为话语的说话者的相应注册用户相关联的相应个人资源集。

说话者标识模型可以包括具有输入层、多个隐藏层和包括多个输出节点集的输出层的神经网络。输出层的多个输出节点集中的每个输出节点集被指定学习以生成特定于n个风格类中的相应一个的说话者相关的信息。这里，处理音频数据以生成评估ad向量可以包括使用神经网络处理音频数据以生成评估ad向量的n个风格类中的每一个作为从输出层的相应输出节点集的输出，该输出层被指定学习生成特定于相应风格类的说话者相关的信息。

在一些示例中，处理音频数据以生成参考ad向量包括：生成表示话语的话音特性的非注意力d向量，作为从包括神经网络的说话者标识模型的输出；以及应用线性和非线性变换集将非注意力d向量变换为参考ad向量。参考ad向量可以由说话者标识模型响应于接收到由相应用户说出的一个或多个先前话语而生成。n_r和n_e个风格类中的至少一个风格类可以取决于固定术语或短语。此外，数据处理硬件可以执行说话者标识模型和自注意力机制两者，同时驻留在用户设备或经由网络与用户设备通信的分布式计算系统中的一者上。

在一些实施方式中，参考ad向量通过以下操作生成：接收由相应用户说出的m个注册话语作为说话者标识模型的输入；对于m个注册话语中的每个注册话语，生成具有n_e个风格类的相应注册ad向量作为来自说话者标识模型的输出；以及将作为m个注册话语的说话者标识模型的输出而生成的注册ad向量的n_e个风格类的超集组合到参考ad向量中。在这些实施方式中，当生成指示评估ad向量和与相应用户相关联的相应参考ad向量相对应的可能性的至少一个多条件注意力分数时，自注意力机制可以自动对齐评估ad向量和多个参考ad向量当中的风格类。

本公开的另一方面提供了一种用于说话者标识的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储指令，所述指令在数据处理硬件上执行时，使数据处理硬件执行操作。操作包括接收与由用户设备捕获的话语相对应的音频数据，并使用说话者标识模型处理音频数据以生成表示话语的话音特性的评估注意力d向量(ad向量)。评估ad向量包括n_e个风格类，每个风格类包括与对应路由向量连结的相应值向量。操作还包括使用自注意力机制生成至少一个多条件注意力分数，该多条件注意力分数指示评估ad向量和与相应用户相关联的相应参考ad向量匹配的可能性，以及基于该多条件注意力分数，将话语的说话者标识为与相应参考ad向量相关联的相应用户。参考ad向量包括n_r个风格类，每个风格类包括与对应路由向量连结的相应值向量。

该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，标识话语的说话者包括确定多条件注意力分数是否满足阈值分数，并且当多条件注意力分数满足该阈值分数时，确定话语的说话者包括与相应参考ad向量相关联的相应用户。每个值向量可以包括相同的第一维度，并且每个路由向量可以包括小于每个值向量的第一维度的相同的第二维度。这样，第二维度的大小可以是第一维度的大小的三分之一。

在一些附加的实施方式中，生成至少一个多条件注意力分数包括使用自注意力机制以生成多个多条件注意力分数，每个多条件注意力分数指示评估ad向量与多个参考ad向量中的相应一个相匹配的相应可能性，而标识话语的说话者包括将话语的说话者标识为与对应于最大多条件注意力分数的相应参考ad向量相关联的用户设备的相应注册用户。每个参考ad向量与用户设备的一个或多个注册用户中的相应一个相关联。在这些附加的实施方式中，由用户设备捕获的话语可以包括指定要执行的动作的查询，用户设备的一个或多个不同的注册用户中的每一个可以具有访问不同的相应个人资源集的许可，并且执行由查询指定的动作可能需要访问与标识为话语的说话者的相应注册用户相关联的相应个人资源集。

说话者标识模型可以包括具有输入层、多个隐藏层和包括多个输出节点集的输出层的神经网络。输出层的多个输出节点集中的每个输出节点集被指定为学习以生成特定于n个风格类中的相应一个的说话者相关的信息。这里，处理音频数据以生成评估ad向量可以包括使用神经网络处理音频数据以生成评估ad向量的n个风格类中的每一个作为从输出层的相应输出节点集的输出，该输出层被指定为学习生成特定于相应风格类的说话者相关的信息。

在一些实施方式中，参考ad向量通过以下操作生成：接收由相应用户说出的m个注册话语作为对说话者标识模型的输入；对于m个注册话语中的每个注册话语，生成具有n_e个风格类的相应注册ad向量作为从说话者标识模型的输出；以及将作为从m个注册话语的说话者标识模型的输出而生成的注册ad向量的n_e个风格类的超集组合到参考ad向量中。在这些实施方式中，当生成指示评估ad向量和与相应用户相关联的相应参考ad向量匹配的可能性的至少一个多条件注意力分数时，自注意力机制可以自动对齐评估ad向量和多个参考ad向量当中的风格类。

本公开的一个或多个实施方式的细节在附图和下面的描述中阐述。其他方面、特征和优点将从描述和附图以及权利要求中变得显而易见。

附图说明

图1是具有应用注意力评分功能来标识说话者的说话者标识系统的示例语音环境的示意图。

图2A是具有彼此连结的n个风格类的注意力d向量的示意图。

图2B是连结从由同一说话者说出的多个注册话语导出的多个注意力d向量的参考注意力d向量的示意图。

图3是用于训练图1的说话者验证系统的示例训练过程的示意图。

图4是使用图1的说话者验证系统进行说话者验证的方法的示例操作布置的流程图。

图5是可以被用于实现本文中描述的系统和方法的示例计算设备的示意图。

各个附图中相同的附图标记指示相同的元件。

具体实施方式

在诸如家庭、汽车、工作场所或学校的启用语音的环境中，用户可以说出查询或命令，并且数字助理可以回答该查询和/或使得命令被执行。这样的启用语音的环境可以使用分布通过环境的各种房间或区域的连接的麦克风设备的网络来实现。通过麦克风网络，用户能够通过口头话语来查询数字助理，而不必须在他们面前具有计算机或其他接口。在一些实例中，启用语音的环境与多个注册用户相关联，例如居住在家庭中的人。当单个设备由多个用户共享时，诸如智能手机、智能扬声器、智能显示器、平板设备、智能电视、智能家电、车辆信息娱乐系统等，这些实例可能适用。这里，启用语音的环境可能具有有限数量的用户，例如，启用语音的家庭、办公室或汽车中的用户数量在二到六人之间。这样，期望确定正在说出查询的特定用户的身份。确定特定说话者/用户的身份的过程可以被称为说话者验证、说话者识别、说话者标识或话音识别。

说话者验证/标识可以允许用户发出代表特定用户的查询和/或在多用户环境中触发个性化响应。说话者验证/标识(例如，话音认证)为用户设备的用户提供了获得对用户设备的访问的简单方法。例如，用户可以通过说出话语来解锁并访问用户设备，而不需要用户手动输入(例如，经由打字或说出)密码来获得对用户设备的访问。

在一些场景中，用户查询与用户的个人信息相关的数字助理和/或需要访问来自与用户相关联的个人资源集中的资源。例如，特定用户(例如，注册了数字助理的用户)可能询问数字助理“when is my meeting with Matt(我什么时候与马特会面)”或查询数字助理“play my music playlist(播放我的音乐播放列表)”。这里，用户可以是各自具有对他们自己的相应个人资源集(例如，日历、音乐播放器、电子邮件、消息传送、联系人列表等)的访问的许可并且被限制访问其他注册用户的个人资源的一个或多个注册用户中的一个。例如，如果John和Meg两者都是数字助理的注册用户，则数字助理将需要辨别John或Meg是否说出了“我什么时候与马特会面”这句话，以便访问适当的注册用户的日历来确定何时安排了与马特的会议，并回复安排的与马特的会议的会议详细信息。类似地，数字助理需要辨别John或Meg中的哪一个说出了“播放我的音乐播放列表”的话语，以便访问音乐播放器并最终从适当的音乐播放列表中可听地输出曲目，因为John和Meg具有独特的音乐播放列表。

为了确定哪个用户在多用户、启用语音的环境中正在说话，启用语音的系统可以包括说话者标识系统(例如，说话者验证系统或话音认证系统)。说话者验证系统可以采用被训练以从与由特定用户说出的话语相对应的音频数据中提取评估向量的说话者标识(SID)模型，由此，所提取的评估向量表示特定用户的话音特性。评估向量可以包括d向量。SID模型可以是在机器或人类监督下训练以输出d向量的神经网络模型。为了解析特定用户的身份，比较器确定评估向量是否与用户设备的注册和/或授权用户的任何参考向量匹配。这里，每个参考向量可以与表示相应注册/授权用户的话音特性的声纹或唯一标识符相对应。每个注册和/或授权用户可以说出多个注册话语，并且对于每个注册短语，SID模型可以生成对应参考d向量，该参考d向量可以被组合——例如被平均或以其他方式累积——以形成注册/授权用户的相应参考d向量。

用于确定评估d向量是否与参考d向量匹配的传统技术包括计算表示评估d向量与参考d向量之间的余弦距离的余弦相似性分数。当计算余弦相似性分数时，参考d向量不以评估d向量为条件。此外，由于参考d向量包括基于多个注册话语的组合的平均d向量，因此有用的说话者相关的信息在组合期间可能丢失。

为了解决使用传统的d向量进行说话者标识任务的一些上述缺点，本文中的实施方式旨在提取评估注意力d向量(ad向量)来表示所捕获的话语的话音特性，并充分利用软注意力机制来应用注意力评分函数，该注意力评分函数计算评估ad向量和与相应授权/注册用户相关联的参考ad向量之间的多条件注意力分数(MCAS)。与余弦相似性分数类似，MCAS指示评估ad向量和与授权/注册用户相关联的参考ad向量匹配的可能性。例如，MCAS分数的范围可以是从-1.0到1.0，其中MCAS等于1.0指示评估ad向量和参考ad向量之间的完美匹配。然而，通过与计算评估d向量和参考d向量之间的余弦相似性分数的传统技术相比，软注意力机制在计算MCAS时以与Transformer调节网络输入的权重类似的方式将参考ad向量调节为评估ad向量。此外，软注意力机制可以在计算MCAS分数时进一步将从多个注册话语中提取的连结参考ad向量调节为评估ad向量，使得在计算用于标识话语的说话者的MCAS时，保留每个参考ad向量中包含的有用的说话者相关的信息。

下面更详细地描述，ad向量包括n个风格类，每个风格类包括与对应路由向量连结的相应值向量。每个风格类的值向量可以表示与每个ad向量中的其他风格类的值向量所表示的说话者相关的信息不同的说话者相关的信息。路由向量可以传达和与生成ad向量的话语相对应的音频数据相关联的环境/信道和/或场境信息。路由向量许可软注意力机制标识评估ad向量和参考ad向量之间的匹配条件。将变得显而易见的是，相应路由向量特定于其风格类，并在注意力机制计算MCAS时为相应值向量对于风格类有多重要进行加权。也就是说，路由向量使得注意力机制能够自动对齐评估ad向量和参考ad向量当中的风格类。

在说话者标识系统中，期望将评估说话者向量和参考说话者向量之间的用户简档和评分调节为来自说话者向量被从中导出的话语的属性，诸如音频长度、近场与远场音频、噪声条件以及其他可能有帮助的属性。在传统的说话者标识系统中，系统经由评估d向量和参考d向量之间的余弦相似性分数来执行说话者标识，上述属性可以通过预定义作为侧输入传递到说话者标识模型的场境类集来建模。然而，该技术需要预定义的粒度，这可能导致许多问题的传播，从而使得该技术在规模上不可行。例如，预定义的粒度可能需要使用额外的注册话语来覆盖所有不同的场境类、管理多个配置文件以及将每个评估话语映射到适当的场境类。值得注意的是，使用由本文中描述的软注意力机制应用的ad向量和注意力评分函数通过有效地学习表示期望属性的场境类来解决这些问题，而不曾预定义场境类。也就是说，由ad向量学习和表示的风格类的数量n可以被指定为超参数，使得风格类是数据驱动的而不是手动定义的。每个场境类可以在SID模型的训练期间被学习，使得每个场境类由n个风格类中的相应一个表示。特定于n个风格类的路由向量许可软注意力机制自动对齐评估ad向量和参考ad向量当中的风格类。

参照图1，在一些实施方式中，示例启用语音的环境包括与一个或多个用户10相关联并且经由网络104与远程系统111通信的用户设备102。用户设备102可以对应于计算设备，诸如移动电话、计算机(笔记本电脑或台式机)、平板电脑、智能扬声器/显示器、智能电器、智能耳机、可穿戴设备、车辆信息娱乐系统等，并配备有数据处理硬件103和存储硬件107。用户设备102包括一个或多个麦克风106或与一个或多个麦克风106通信，以用于捕获来自相应用户10的话语。远程系统111可以是单个计算机、多个计算机或具有可扩展/弹性计算资源113(例如，数据处理硬件)和/或存储资源115(例如，存储器硬件)的分布式系统(例如，云环境)。

用户设备102可以包括热词检测器(未示出)，其被配置为检测流式传输音频118中热词的存在而不对流式传输音频118执行语义分析或语音识别处理。用户设备102可以包括声学特征提取器(未示出)，其可以被实现为热词检测器的一部分或者被实现为用于从话语119中提取音频数据120的分离分量。例如，声学特征提取器可以接收由用户设备102的一个或多个麦克风106捕获的与由用户10说出的话语119相对应的流式传输音频118，并提取音频数据120。音频数据120可以包括声学特征，诸如梅尔频率倒谱系数(MFCC)或在音频信号的窗口上计算的滤波器库能量。在所示的示例中，由用户10说出的话语119包括“OkGoogle,Play my music playlist(好的Google，播放我的音乐播放列表)”。

热词检测器可以接收音频数据120以确定话语119是否包括由用户10说出的特定热词(例如，Ok Google)。即，热词检测器110可以被训练来检测热词(例如，Ok Google)或热词的一个或多个变体(例如，Hey Google(你好Google))在音频数据120中的存在，以使用户设备102从睡眠状态或休眠状态唤醒并触发自动语音识别(ASR)系统180对热词和/或跟随该热词的一个或多个其他术语执行语音识别，例如，跟随热词并指定要执行的动作的话音查询。在所示的示例中，跟随流式传输音频中捕获的话语119中的热词的查询包括“Play mymusic playlist”，其指定数字助理访问与特定用户(例如John)10a相关联的音乐播放列表的动作，并为用户设备10(和/或一个或多个指定的音频输出设备)提供包括来自John的音乐播放列表的音轨的响应190以从扬声器进行可听输出的播放。热词对于“永远在线”系统可能是有用的，所述“永远在线”系统可能潜在地拾取不指向启用语音的用户设备102的声音。例如，热词的使用可以帮助设备102辨别给定话语119何时指向设备102，而不是指向环境中存在的另一个个体的话语或背景话语。

启用语音的环境100包括说话者标识(SID)系统140，其被配置为通过处理音频数据120来确定正在说出话语119的用户10的身份。SID系统200可以确定所标识的用户10是否是授权用户，使得只有在用户被标识为授权用户的情况下才满足查询(例如，执行由查询指定的动作)。有利地，SID系统140允许用户通过说出话语来解锁和访问用户的设备102，而不需要用户手动输入(例如，经由打字)或说出密码或提供一些其他验证的手段(例如，回答挑战问题、提供生物特征验证数据等)以获得对用户设备102的访问。

在一些示例中，启用语音的环境100包括多用户、启用语音的环境，其中多个不同的用户10,10a-n各自向用户设备102注册并且具有对与该用户相关联的相应个人资源集(例如，日历、音乐播放器、电子邮件、消息传送、联系人列表等)的访问的许可。注册用户10被限制访问来自与其他注册用户相关联的相应个人资源集中的个人资源。每个注册用户10可以具有链接到与该用户相关联的相应个人资源集的相应用户简档，以及与该用户10相关联的其他相关信息(例如，用户指定的偏好设置)。因此，SID系统140可以被用于确定在多用户、启用语音的环境100中哪个用户正在说出话语119。例如，在所示的示例中，John和Meg两者都可以是用户设备102(或在用户设备上运行的数字助理界面)的注册用户10，并且数字助理需要辨别John或Meg是否说出了话语119“Ok Google，Play my music playlist”，以便访问音乐播放器并最终从适当的音乐播放列表中可听地输出曲目，因为Meg和John可能各自具有独特的音乐播放列表。这里，SID系统140处理与话语119相对应的音频数据120以标识John是话语119的说话者。

在所示的示例中，SID系统140包括SID模型150、自注意力机制160和验证器170。SID模型150可以处理音频数据120以生成注意力d向量200。例如，SID 150可以接收与话语119相对应的音频数据120作为输入，并生成表示由用户设备119捕获的话语119的话音特性的评估ad向量200,200E作为输出。软注意力机制160被配置为应用注意力评分函数，该注意力评分函数计算一个或多个多条件注意力分数(MCAS)165，每个多条件注意力分数指示评估ad向量200E与一个或多个参考ad向量200,200Ra-Rn中的相应一个相匹配的可能性。这里，每个参考ad向量200R与用户设备102的一个或多个注册用户10中的相应一个相关联。

图2A示出了示例ad向量200，其包括n个风格类202,202a-n，每个风格类包括与对应路由向量(R₁-R_n)210,210a-n连结的相应值向量(V₁-V_n)220,220a-n。每个值向量220包括相同的第一维度d_v并且每个路由向量210包括小于每个值向量220的第一维度d_v的相同的第二维度d_r。在一些示例中，第二维度d_r的大小是三分之一(1/3)第一维d_v的大小。

对于参考(注册)ad向量200R，路由向量210对应于键，n_e表示风格类210的数量，矩阵K表示n_e个路由(键)向量(R₁-R_n)210a-n的连结，并且矩阵E涵盖所有n_e个值向量(V₁-V_n)220a-n。对于评估(测试)ad向量200E，路由向量210对应于查询，n_t表示风格类210的数量，矩阵Q表示n_t个路由(键)向量(R₁-R_n)210a-n的连结，并且矩阵T涵盖所有n_t值向量(V₁-V_n)220a-n。如下文更详细描述的，风格类n_t、n_e的数量能够潜在地不同。

n个风格类中的每个风格类202的相应值向量220包含相应说话者相关的信息(例如，诸如元音、辅音和/或摩擦音的说话者相关发音分量。每个风格类202的相应路由向量210包括与相应ad向量200被从中提取的所捕获的话语相关联的环境、信道和/或场境信息。路由向量210被配置为标识与评估ad向量200E相关联的话语和与参考ad向量200R相关联的至少一个参考话语(例如，注册话语)之间的匹配条件，以允许软注意力机制160当计算MCAS165时将参考ad向量200R调节为ad向量200E。在一个示例中，当评估ad向量和参考ad向量两者均从由相同类型的用户设备和/或执行相同类型的操作系统的用户设备捕获的话语推导时，路由向量210可以对值向量220进行加权。

在一些示例中，ad向量200是从表征一个或多个特定术语——诸如例如预定义的热词——的音频数据中提取的文本相关的ad向量200。例如，评估ad向量200E可以从表征由用户说出的预定热词“Hey Google”的音频数据120的部分中提取。同样，每个参考ad向量200R可以从表征相同的预定热词“Hey Google”的由相应注册用户10说出的一个或多个注册话语的一部分中提取。也就是说，每个参考ad向量与表示说出预定热词的相应注册用户10的话音特性的声纹或唯一标识符相对应。

在其他示例中，ad向量200是从与话语中说出的术语/文本无关的话语生成的与文本无关的ad向量。例如，可以从表征由用户说出的查询“Play my music playlist”的音频数据120的查询部分提取文本无关的评估ad向量200E。音频数据120的热词部分可以进一步对文本无关的评估ad向量200E做出贡献，使得评估ad向量200E表示整个话语119的话音特性。同样，文本无关的参考ad向量200R可以根据由相应注册用户10在话音注册过程期间说出的一个或多个注册话语而生成。文本无关的参考ad向量200R可以和表示与注册话语中说出的文本/术语无关的相应注册用户的话音特性的声纹或唯一标识符相对应。

值得注意的是，ad向量200还可以被配置为表示文本无关的和文本相关的说话者相关的信息两者。例如，SID模型150可以学习生成具有n个风格类202的ad向量，由此风格类202中的至少一个取决于固定术语或短语，使得该风格类中的相应值向量220包括表示口头固定术语或短语的话音特性的说话者相关的信息。例如，固定术语或短语可以包括预定义热词。在训练期间，用于训练SID模型150的训练话语可以包括表征固定术语或短语的部分，使得SID模型150学习将n个风格类210中的至少一个取决于固定术语或短语。

ad向量200的使用不限于说话者标识任务，并且可以用在将评估嵌入与参考嵌入进行比较的其他技术中。例如，ad向量200可以被用于基于图像的任务，诸如面部标识，其中评估ad向量200E包括具有对应值向量220的n个风格类202，表示从个人面部图像中提取的相应面部特征相关的信息的每个风格类与参考ad向量200R进行比较，以通过计算评估ad向量200E和参考ad向量200R之间的相似性分数(例如，MCAS)来确定是否进行面部标识匹配。

返回参照图1，在一些实施方式中，用户设备102的每个注册用户10具有访问不同的相应个人资源集的许可，其中，执行以音频数据120的一部分为特性的查询需要访问与被标识为话语119的说话者的注册用户10相关联的相应个人资源集。这里，用户设备102的每个注册用户10可以进行话音注册过程，以从由注册用户10说出的多个注册短语的音频样本获得相应注册用户参考ad相量200R。注册用户10中的一个或多个可以使用用户设备102来进行话音注册过程，其中麦克风106捕获这些用户说出注册话语的音频样本，并且SID模型150生成相应参考ad向量200R。附加地，一个或多个注册用户10可以通过向用户设备102的现有用户帐户提供授权和认证凭证来向用户设备102注册。这里，现有用户账户可以存储从由相应用户利用也链接到该用户账户的另一设备进行的先前话音注册过程获得的参考ad向量200E。

参考ad向量200R不限于从明确进行注册过程并且其中用户10被提示说出预定义的注册短语的注册用户10获得。例如，可以从相应注册用户10的一个或多个音频样本中提取参考ad向量200R，相应注册用户说出诸如热词(例如，“Ok Google”或“Hey Google”)的预定术语，其用于在与用户设备102或链接到现有用户账户的另一用户设备102的先前交互期间调用用户设备从睡眠状态唤醒。类似地，注册用户10的参考ad向量200R可以从相应注册用户10说出具有不同术语/词和不同长度的短语的一个或多个音频样本来获得。例如，参考ad向量200R可以随时间从音频样本获得，音频样本是从用户10与用户设备102或链接到相同帐户的其他设备进行的语音交互获得的。换言之，参考ad向量200R可以由SID模型140响应于接收到由用户设备102和/或链接到相同账户的其他设备的注册用户10说出的一个或多个先前话语而生成。在一些示例中，注册用户10使用一个用户设备来捕获一个或多个注册话语的第一集，然后使用另一用户设备来捕获一个或多个注册话语的第二集。

与不属于注意力类型并且表示所提取的由特定说话者说出的多个注册短语的说话者相关的信息的平均值的传统参考d向量相比，图2B示出了为每个相应注册用户生成的参考ad向量200R能够包括多个ad向量200A-M的连结，每个ad向量200A-M是从由注册用户说出的多个M个注册话语A-M(或者从先前交互获得的其他先前话语)中的相应一个生成的。这里，多个ad向量中的每个单独的一个包括相应n个风格类202,202a-n，每个风格类包括与对应路由向量210Aa-Mn连结的相应值向量220,220Aa-220Mn。每个风格类202可以互换地称为“分量类”，使得202a表示第一分量类，202b表示第二分量类，……，并且202n表示第n分量类。因此，参考ad向量200R通过将多个ad向量连结成具有M×n风格类的单个、大得多的参考ad向量200R来组合来自所有注册话语A-M的风格类202的超集。对于来自相应注册说话者的每个注册话语，可以生成表示n个路由向量的连结的相应矩阵K_i，并且可以生成涵盖n个风格类的n个值向量的相应矩阵E_i。因此，将多个ad向量200A-M连结成具有M×n分量的单个、更长的参考ad向量R可以被表达如下。

这样，参考ad向量200R可以包括n_e个风格类，而评估ad向量200E包括较少n_t个风格类。值得注意的是，包括n_e个风格类210的参考ad向量200R保留从多个M个注册话语中提取的所有说话者相关的信息，并且如下文将更详细地描述的，当应用注意力评分函数来计算MCAS 165时，软注意力机制160以具有n_t个风格类210的评估ad向量200E和具有更大数量的n_e个风格类210的参考ad向量200R为条件。这样，参考ad向量200R许可通过将来自所有ad向量200R的n个分量的超集组合到参考ad向量200R中来组合多个注册话语，使得参考ad向量200R不表示各个ad向量的平均值。

参照图1、图2A和图2B，在一些实施方式中，软注意力机制160通过提供评估ad向量200E中的n_t个值向量220和被调节为话语119和注册话语的参考ad向量200R中的n_r个值向量210当中的软对齐来应用注意力评分函数以计算MCAS分数165。简单地说，注意力评分函数可以定义从两个独立的ad向量200——即评估ad向量200E和参考ad向量200R——生成单个相似性数——即MCAS 165——的过程。虽然下面的示例描述了计算MCAS 165的软注意力机制160的特定实施方式，软注意力机制160不限于计算MCAS 165，并且可以计算用于指示评估ad向量200E与一个或多个参考ad向量200,200Ra-Rn中的相应参考ad向量之间的相似性的其他类型的度量/分数。由于软注意力机制160非常类似于由Transformer使用的注意力机制，因此软注意力机制160可以如下计算MCAS：

其中等式(4)表示注意力权重α的经典等式，类似于Transformer中使用的等式，其包括值在0和1之间的矩阵以提供评估值向量和参考值向量220当中的软对齐。也就是说，注意力权重α被完全定义为矩阵K和矩阵Q，矩阵K表示n_e个路由(键)向量210的连结，矩阵Q表示n_t个路由(查询)向量210的连结。等式(4)中的分母是一个常数，并且根据超参数P控制sofmax与arg_max操作的可比较的程度。在由等式(4)表示的注意力权重矩阵中，n_t个列当中的每一列都经过其自己的softmax变换。在等式(4)中，操作tr(T E′α)∈R从注意力权重矩阵α访问n_e个权重，并在评估ad向量200E中的每个值向量220与矩阵E的α加权平均值之间计算内积，该矩阵E表示评估ad向量200E中的n_t个值向量220的连结。对于评估ad向量200E中的n_t个值向量220当中的每个剩余值向量220重复该过程，其中将结果求和以经由踪迹tr操作提供最终MCAS 165。

值得注意的是，使用等式3来计算MCAS 165的软注意力机制160导致针对不同的键向量和值向量的不同的权重矩阵α。换句话说，注意力机制160的权重被调节为输入ad向量200E、200R，从而许可参考ad向量200R中的参考值向量220的加权平均值以相应评估ad向量200E和参考ad向量200R被从中提取的评估(测试)和参考(评估)话语两者为条件。因此，当生成每个MCAS 165时，自注意力机制160以输入评估ad向量200E和参考ad向量200R两者为条件，并且参考ad向量200R被调节为评估ad向量200E。

附加地，由于由ad向量200表示的风格类202的数量“n”是任意的，所以MCAS非常适合对v的向量空间上的多变量分布进行建模，这在使用传统的余弦距离评分时是不可能的。计算MCAS时的注意力评分函数不需要可以以某种方式被描述为连体(Siamese)拓扑的一部分的附加参数，这对于分布式系统中的SID系统150的生产版本是最优的。

继续参考图1，SID系统140的验证器170被配置为接收从软注意力机制160输出的每个MCAS 165并且将话语119的说话者标识为相应注册用户10，其与对应于最大的MCAS165的相应参考ad向量200R相关联。在一些示例中，验证器170将每个MCAS 165与阈值分数进行比较，使得当与用户10相关联的相应参考ad向量200R满足阈值分数时，话语119的说话者仅被标识为相应注册用户10中的一个。每个MCAS 165可以包括在-1.0至1.0之间并且包括-1.0和1.0在内的值范围内的值，由此等于1.0的MCAS 165指示评估ad向量200E和参考ad向量200R之间的完美匹配。

在所示的示例中，当验证器170标识话语119的说话者时，验证器170可以向ASR系统180提供SID确认175，ASR系统180将话语119的说话者标识为与满足置信度阈值的MCAS165相关联的相应注册用户10。当由ASR系统180接收到SID确认175时，SID确认175可以指示ASR系统180发起由查询指定的动作的执行。在所示的示例中，ASR系统180可以包括ASR模型(未示出)，其被配置为对表征查询的音频数据120执行语音识别。ASR系统180还可以包括自然语言理解(NLU)模块，其被配置为对由ASR模型输出的语音识别结果执行查询解释。通常，NLU模块可以对语音识别结果执行语义分析以标识由查询指定的要执行的动作。在所示的示例中，NLU模块可以确定由查询“Play my music playlist”指定的动作的执行需要访问与用户设备102的相应注册用户10相关联的相应个人资源集。因此，NLU模块确定由查询指定的动作缺少执行该动作所需的必要参数，即用户的身份。因此，NLU模块使用将特定注册用户(例如John)10a标识为话语119的说话者的SID确认175，并因此通过提供输出指令185来发起查询的实现以执行由查询指定的动作。在所示的示例中，输出指令185可以指示音乐流式传输服务从注册用户John的音乐播放列表来流式传输音乐曲目。数字助理接口可以提供对查询的响应190，该响应190包括来自用户设备102和/或与用户设备102通信的一个或多个其他设备的可听输出的音乐曲目。

图3示出了用于训练SID系统140的示例SID训练过程300。训练过程300可以在图1的远程系统111上执行。训练过程300获得存储在数据存储301中的一个或多个训练数据集310，并在训练数据集310上训练SID模型150。数据存储301可以驻留在远程系统111的存储器硬件113上。每个训练数据集310包括由不同说话者说出的多个训练话语320,320a-n。每个对应训练话语320可以包括文本相关部分321和文本无关部分322。文本相关部分321包括表征训练话语320中说出的预定词(例如，“Hey Google”)或预定热词(例如，“Ok Google”)的变体的音频片段。在附加的实施方式中，一些训练话语320中的文本相关部分321包括表征代替预定词或其变体的其他术语/短语的音频片段，诸如定制热词或常用话音命令(例如播放、暂停、音量调高/调低、呼叫、消息、导航/方向等)。文本相关部分321是可选的，使得训练话语320的仅一部分可以包括文本相关部分，或者训练话语320都不可以包括文本相关部分321。

每个训练话语320中的文本无关部分322包括音频片段，该音频片段表征在由文本相关部分321表征的预定词之后的训练话语320中说出的查询语句。例如，对应训练话语320可以包括“Ok Google,What is the weather outside？(好的Google，外面天气如何)”，由此，文本相关部分321表征预定的“Ok Google”，而文本无关部分322表征查询语句“What isthe weather outside”。虽然每个训练话语320中的文本相关部分321在发音上受到相同的预定词或其变体的约束，由每个文本无关部分322表征的查询语句的词典不受约束，使得与每个查询语句相关联的持续时间和音素是可变的。

继续参考图3，训练过程300在训练话语320,320a-n上训练神经网络330，以为每个话语320生成相应ad向量200。在训练期间，关于每个话语320的附加信息可以作为输入提供给神经网络330。例如，与用于训练SID模型150以学习如何预测的真实值输出标签相对应的SID目标324，诸如SID目标向量，可以在利用话语329训练期间作为输入提供给神经网络330。因此，来自每个特定说话者的一个或多个话语320可以与特定SID目标向量324配对。

神经网络330可以包括深度神经网络，该深度神经网络包括用于输入训练话语320的输入层、用于处理训练话语的多个隐藏层、以及输出层338。在一些示例中，神经网络330直接从由神经网络330接收的输入训练话语320生成ad向量200。在这些示例中，输出层338的n个输出节点339集当中的每个相应集被指定为每个输入训练话语320生成n个风格类202中的相应一个。也就是说，n个输出节点339集的数量可以等于为ad向量200指定的n个风格类的数量。也就是说，输出节点339的每个相应集合被配置为生成特定于相应风格类的相应值向量220，该相应风格类也与特定于该风格类的对应路由向量210连结。换句话说，输出层338的n多个输出节点集中的每个输出节点集被指定学习生成特定于ad向量200的相应风格类202的说话者相关的信息。如前所述，至少一种风格类可以取决于固定术语或短语，诸如训练话语的文本相关部分321。与如果输出层338生成非注意力类型的传统d向量相比，采用神经网络330生成ad向量200作为来自输出层338的输出可能需要扩大输出层338以包括更大数量的输出节点339。

在其他示例中，线性和非线性变换集355被应用于神经网络330的输出以生成ad向量200。在这些示例中，神经网络300生成传统的非注意力d向量作为输出层338的输出，并且线性和非线性变换集355被应用于将非注意力d向量变换为表示n个风格类的连结的ad向量200。例如，使用x∈R^a来表示具有a维度非注意力d向量，可以如下计算矩阵K、Q、E、T以将非注意力d向量变换为ad向量200：

K＝W^Kx其中W^K∈R[n_e，d_r，a] (5)

Q＝W^Qx其中W^Q∈R[n_t，d_r，a] (6)

E＝g（W^Ex)其中W^E∈R[n_e，d_v，a] (7)

T＝g(W^Tx)其中W^T∈R[n_t，d_v，a] (8)

其中g()是一个变换函数，通常需要L2归一化来使训练过程稳定。对于K和Q矩阵，不需要函数g()，因为等式(4)中的softmax函数已经执行了尺度归一化。

SID模型150的训练可以通过向神经网络330提供训练话语320的序列开始。在一些示例中，使用成对训练技术来训练神经网络330，其中与特定SID目标向量324配对的第一训练话语320a被输入到神经网络330并被处理以生成相应第一ad向量200a。随后，与特定SID目标向量配对的第二训练话语320被输入到神经网络330并被处理以生成相应第二ad向量200b。然后，软注意力机制160比较第一ad向量200a和第二ad向量200b，以确定第一ad向量200a和第二ad向量200b是否是从同一说话者说的训练话语320a、320b导出的。如上所述，软注意力机制160可以计算指示第一ad向量200a和第二ad向量200b彼此匹配的可能性的MCAS165。来自软注意力机制160的MCAS 165输出提供训练话语320a、320b是否由同一说话者说出的指示。在一个示例中，MCAS 165可以简单地包括二进制值“0”或“1”，其中“0”指示该话语是由不同说话者说出的，而“1”指示该话语是由同一说话者说出的。然后可以基于MCAS165调整神经网络330的参数。可以以该方式处理多个训练数据集。一旦训练了SID模型150，远程系统111就可以通过网络104将SID模型150的副本发送到一个或多个相应用户设备，诸如用户设备102。训练后的SID模型150可以可选地在远程系统111上执行。

图4包括说话者标识方法400的示例操作布置的流程图。在操作402处，方法400包括接收与由用户设备102捕获的话语119相对应的音频数据120。在操作404处，方法400包括使用说话者标识模型150处理音频数据120以生成表示话语119的话音特性的评估注意力d向量(ad向量)200E。评估ad向量200E包括n_e个风格类202，每个风格类202包括与对应路由向量210连结的相应值向量220。

在操作406处，方法400包括生成至少一个多条件注意力分数(MCAS)165，其指示评估ad向量200E与相应参考ad向量200R匹配的可能性。参考ad向量200R包括n_r个风格类202，每个风格类202包括与对应路由向量210连结的相应值向量220。在操作408处，方法400包括基于至少一个MCAS 165将话语119的说话者标识为与相应参考ad向量200R相关联的相应用户10。

图5是可以被用于实现本文档中描述的系统和方法的示例计算设备500的示意图。计算设备500旨在表示各种形式的数字计算机，诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里所示的组件、它们的连接和关系以及它们的功能仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备500包括处理器510、存储器520、存储设备530、连接到存储器520和高速扩展端口550的高速接口/控制器540、以及连接到低速总线570和存储设备530的低速接口/控制器560。组件510、520、530、540、550和560中的每一个使用各种总线互连，并且可以被安装在通用主板上或以其他合适的方式安装。处理器510能够处理用于在计算设备500内执行的指令，包括存储在存储器520中或存储设备530上的指令，以在外部输入/输出设备——诸如耦合到高速接口540的显示器580——上显示用于图形用户界面(GUI)的图形信息。在其他实施方式中，可以酌情使用多个处理器和/或多条总线以及多个存储器和存储器类型。此外，可以连接多个计算设备500，每个设备提供必要操作的部分(例如，作为服务器库、一组刀片服务器或多处理器系统)。

存储器520将信息非暂时性地存储在计算设备500内。存储器520可以是计算机可读介质、易失性存储单元或非易失性存储单元。非暂时性存储器520可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备500使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在一些实施方式中，存储设备530是计算机可读介质。在各种不同的实施方式中，存储设备530可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储器设备、或设备阵列，包括在存储区域网络或其他配置中的设备。在附加的实施方式中，计算机程序产品有形地体现在信息载体中。该计算机程序产品包含指令，所述指令在被执行时，执行一个或多个方法，诸如上面描述的那些方法。信息载体是计算机或机器可读介质，诸如存储器520、存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集型操作，而低速控制器560管理较低带宽密集型操作。这样的职责分配仅是示例性的。在一些实施方式中，高速控制器540耦合到存储器520、显示器580(例如，通过图形处理器或加速器)，并且耦合到高速扩展端口550，高速扩展端口550可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器560耦合到存储设备530和低速扩展端口590。低速扩展端口590，其可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)，可以例如通过网络适配器将一个或多个输入/输出设备耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或诸如交换机或路由器的联网设备。

计算设备500可以以多种不同的形式来实现，如图所示。例如，它可以被实现为标准服务器500a或者在一组这样的服务器500a中多次实现、实现为膝上型计算机500b、或者实现为机架服务器系统500c的一部分。

本文中描述的系统和技术的各种实施方式能够以数字电子和/或光学电路系统、集成电路系统、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式能够包括在包括至少一个可编程处理器的可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，所述至少一个可编程处理器可以是专用的或通用的，其被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传送应用、媒体流式传输应用、社交联网应用和游戏应用。

非暂时性存储器可以是用于临时或永久存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。如本文中所使用的，术语“机器可读介质”和“计算机可读介质”指的是用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程能够由一个或多个可编程处理器——也称为数据处理硬件——执行，其执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程还能够由专用逻辑电路系统执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。举例来说，适合于执行计算机程序的处理器包括通用和专用微处理器两者，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合以从一个或多个用于存储数据的大容量存储设备——例如磁盘、磁光盘或光盘——接收数据或向其传输数据或两者都有。然而，计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内置硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路系统补充或并入专用逻辑电路系统中。

为了提供与用户的交互，本公开的一个或多个方面能够在计算机上实现，该计算机具有用于向用户显示信息的显示设备，例如，CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏，以及可选地具有键盘和指点设备，例如鼠标或轨迹球，用户可以通过它们向计算机提供输入。其他类型的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以任何形式接收，包括声音、语音或触觉输入。另外，计算机能够通过向由用户使用的设备发送文档以及从用户使用的设备接收文档来与用户交互；例如，通过响应于从Web浏览器接收到的请求而将网页发送到用户客户端设备上的Web浏览器。

已经描述了多种实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下可以做出各种修改。因此，其他实施方式也在所附权利要求的范围内。

Claims

1.一种用于说话者标识的计算机实现的方法(400)，所述方法在数据处理硬件(103、113)上执行时使得所述数据处理硬件(103、113)执行操作，所述操作包括：

接收与由用户设备(102)捕获的话语(119)相对应的音频数据(120)；

使用说话者标识模型(150)处理所述音频数据(120)以生成表示所述话语(119)的话音特性的评估注意力d向量(ad向量)(200E)，所述评估ad向量(200E)包括n_e个风格类(202)，每个风格类包括与对应路由向量(210)连结的相应值向量(220)；

使用自注意力机制(160)生成至少一个多条件注意力分数(165)，所述至少一个多条件注意力分数指示所述评估ad向量(200E)和与相应用户(10)相关联的相应参考ad向量(200R)匹配的可能性，所述参考ad向量(200R)包括n_r个风格类(202)，每个风格类包括与对应路由向量(210)连结的相应值向量(220)；以及

基于所述多条件注意力分数(165)将所述话语(119)的所述说话者标识为与所述相应参考ad向量(200R)相关联的相应用户(10)。

2.根据权利要求1所述的计算机实现的方法(400)，其中，标识所述话语(119)的所述说话者包括：

确定所述多条件注意力分数(165)是否满足阈值分数；以及

当所述多条件注意力分数(165)满足所述阈值分数时，确定所述话语(119)的所述说话者包括与相应参考ad向量(200R)相关联的相应用户(10)。

3.根据权利要求1或2所述的计算机实现的方法(400)，其中，每个值向量(220)包括相同的第一维度，并且每个路由向量(210)包括小于每个值向量(220)的所述第一维度的相同的第二维度。

4.根据权利要求3所述的计算机实现的方法(400)，其中，所述第二维度的大小是所述第一维度的大小的三分之一。

5.根据权利要求1-4中的任一项所述的计算机实现的方法(400)，其中：

所述评估ad向量(200E)和所述参考ad向量(200R)中的每一个中的n个风格类(202)中的每个风格类(202)的所述相应值向量(220)包含相应说话者相关的信息；以及

所述评估ad向量(200E)和所述参考ad向量(200R)中的每一个中的所述n个风格类(202)中的每个风格类(202)的所述相应路由向量(210)包含信道和/或场境信息，所述信道和/或场境信息与所述评估ad向量(200E)或所述参考ad向量(200R)中的一个被从中提取的相应话语相关联。

6.根据权利要求1-5中的任一项所述的计算机实现的方法(400)，其中，所述评估ad向量和所述参考ad向量(200R)中的所述路由向量(210)被配置为标识与所述评估ad向量(200E)相关联的话语(119)和与所述参考ad向量(200R)相关联的至少一个参考话语之间的匹配条件。

7.根据权利要求1-7中的任一项所述的计算机实现的方法(400)，其中：

生成所述至少一个多条件注意力分数(165)包括使用所述自注意力机制(160)以生成多个多条件注意力分数(165)，每个多条件注意力分数指示所述评估ad向量(200E)与多个参考ad向量(200R)中的相应一个相匹配的相应可能性，每个参考ad向量(200R)与所述用户设备(102)的一个或多个注册用户(10)中的相应一个相关联；以及

标识所述话语(119)的所述说话者包括将所述话语(119)的所述说话者标识为与对应于最高多条件注意力分数(165)的相应参考ad向量(200R)相关联的所述用户设备(102)的相应注册用户(10)。

8.根据权利要求7所述的计算机实现的方法(400)，其中：

由所述用户设备(102)捕获的所述话语(119)包括指定要执行的动作的查询；

所述用户设备(102)的一个或多个不同注册用户(10)中的每一个都具有访问不同的相应个人资源集的许可；以及

执行由所述查询指定的所述动作需要访问与被标识为所述话语(119)的所述说话者的相应注册用户(10)相关联的相应个人资源集。

9.根据权利要求1-8中的任一项所述的计算机实现的方法(400)，其中：

所述说话者标识模型(150)包括神经网络(330)，所述神经网络(330)具有输入层、多个隐藏层以及包括多个输出节点(339)集的输出层(338)，所述输出层(338)的n个输出节点(339)集中的每个输出节点(339)集被指定为学习生成特定于所述n个风格类(202)中的相应一个的说话者相关的信息；以及

处理所述音频数据(120)以生成所述评估ad向量(200E)包括使用所述神经网络(330)处理所述音频数据(120)，以为所述评估ad向量(200E)生成所述n个风格类(202)中的每一个，作为从被指定为学习生成特定于相应风格类(202)的所述说话者相关的信息的所述输出层(338)的相应输出节点(339)集的输出。

10.根据权利要求1-9中的任一项所述的计算机实现的方法(400)，其中，处理所述音频数据(120)以生成所述参考ad向量(200R)包括：

生成表示所述话语(119)的话音特性的非注意力d向量，作为来自包括神经网络(330)的所述说话者标识模型(150)的输出；以及

应用线性和非线性变换(355)集以将所述非注意力d向量变换成所述参考ad向量(200R)。

11.根据权利要求1-10中的任一项所述的计算机实现的方法(400)，其中，所述参考ad向量(200R)由所述说话者标识模型(150)响应于接收到由相应用户(10)说出的一个或多个先前话语而生成。

12.根据权利要求1-11中的任一项所述的计算机实现的方法(400)，其中，所述参考ad向量(200R)通过以下操作生成：

接收由相应用户(10)说出的m个注册话语作为对所述说话者标识模型(150)的输入；

对于所述m个注册话语中的每个注册话语，生成具有n_e个风格类(202)的相应注册ad向量作为来自所述说话者标识模型(150)的输出；以及

将作为针对所述m个注册话语的来自所述说话者标识模型(150)的输出而生成的所述注册ad向量的n_e个风格类(202)的超集组合到所述参考ad向量(200R)中。

13.根据权利要求12所述的计算机实现的方法(400)，其中，当生成指示所述评估ad向量(200E)和与相应用户(10)相关联的相应参考ad向量(200R)匹配的可能性的所述至少一个多条件注意力分数(165)时，所述自注意力机制(160)自动对齐所述评估ad向量(200E)和所述多个参考ad向量(200R)当中的所述风格类(202)。

14.根据权利要求1-14中的任一项所述的计算机实现的方法(400)，其中，n_r个和n_e个风格类(202)中的至少一个风格类(202)取决于固定术语或短语。

15.根据权利要求1-14中的任一项所述的计算机实现的方法(400)，其中，所述数据处理硬件(103、113)：

执行所述说话者标识模型(150)和所述自注意力机制(160)；以及

驻留在所述用户设备(102)或经由网络(104)与所述用户设备(102)通信的分布式计算系统(111)中的一个上。

16.一种系统(140)，包括：

数据处理硬件(103、113)；以及

与所述数据处理硬件(103、113)通信的存储器硬件(107、115)，所述存储器硬件(107、115)存储指令，所述指令在所述数据处理硬件(103、113)上执行时使所述数据处理硬件(103、113)执行操作，所述操作包括：

使用说话者标识模型(150)处理所述音频数据(120)以生成表示所述话语(119)的话音特性的评估注意力d向量(ad向量)，所述评估ad向量(200E)包括n_e个风格类(202)，每个风格类包括与对应路由向量(210)连结的相应值向量(220)；

使用自注意力机制(160)生成至少一个多条件注意力分数(165)，所述多条件注意力分数指示所述评估ad向量(200E)和与相应用户(10)相关联的相应参考ad向量(200R)匹配的可能性，所述参考ad向量(200R)包括n_r个风格类(202)，每个风格类包括与对应路由向量(210)连结的相应值向量(220)；以及

17.根据权利要求16所述的系统(140)，其中，标识所述话语(119)的所述说话者包括：

确定所述多条件注意力分数(165)是否满足阈值分数；以及

当所述多条件注意力分数(165)满足所述阈值分数时，确定所述话语(119)的所述说话者包括与所述相应参考ad向量(200R)相关联的相应用户(10)。

18.根据权利要求16或17所述的系统(140)，其中，每个值向量(220)包括相同的第一维度，并且每个路由向量(210)包括相同的第二维度，所述第二维度小于每个值向量(220)的所述第一维度。

19.根据权利要求18所述的系统(140)，其中，所述第二维度的大小是所述第一维度的大小的三分之一。

20.根据权利要求16-19中的任一项所述的系统(140)，其中：

所述评估ad向量(200E)和所述参考ad向量(200R)中的每一个中的n个风格类(202)中的每个风格类(202)的相应值向量(220)包含相应说话者相关的信息；以及

所述评估ad向量(200E)和所述参考ad向量(200R)中的每一个中的n个风格类(202)中的每个风格类(202)的相应路由向量(210)包含信道和/或场境信息，所述信道和/或场境信息与所述评估ad向量(200E)或所述参考ad向量(200R)中的一个被从中提取的相应话语相关联。

21.根据权利要求16-20中的任一项所述的系统(140)，其中，所述评估ad向量和所述参考ad向量(200R)中的所述路由向量(210)被配置为标识与所述评估ad向量(200E)相关联的所述话语(119)和与所述参考ad向量(200R)相关联的至少一个参考话语之间的匹配条件。

22.根据权利要求16-21中的任一项所述的系统(140)，其中：

23.根据权利要求22所述的系统(140)，其中：

24.根据权利要求16-23中的任一项所述的系统(140)，其中：

所述说话者标识模型(150)包括具有输入层、多个隐藏层以及包括多个输出节点(339)集的输出层(338)的神经网络(330)，所述输出层(338)的n个输出节点(339)集中的每个输出节点(339)集被指定为学习生成特定于所述n个风格类(202)中的相应一个的说话者相关的信息；以及

处理所述音频数据(120)以生成所述评估ad向量(200E)包括使用所述神经网络(330)处理所述音频数据(120)以为所述评估ad向量(200E)生成所述n个风格类(202)中的每一个，作为来自所述输出层(338)的相应输出节点(339)集的输出，所述输出层(338)被指定为学习生成特定于相应风格类(202)的所述说话者相关的信息。

25.根据权利要求16-24中的任一项所述的系统(140)，其中，处理所述音频数据(120)以生成所述参考ad向量(200R)包括：

26.根据权利要求16-25中的任一项所述的系统(140)，其中，所述参考ad向量(200R)由所述说话者标识模型(150)响应于接收到由相应用户(10)说出的一个或多个先前话语而生成。

27.根据权利要求16-26中的任一项所述的系统(140)，其中，通过以下操作生成所述参考ad向量(200R)：

接收由相应用户(10)说出的m个注册话语作为所述说话者标识模型(150)的输入；

28.根据权利要求27所述的系统(140)，其中，当生成指示所述评估ad向量(200E)和与相应用户(10)相关联的相应参考ad向量(200R)匹配的可能性的所述至少一个多条件注意力分数(165)时，所述自注意力机制(160)自动对齐所述评估ad向量(200E)和所述多个参考ad向量当中的所述风格类(202)。

29.根据权利要求16至28中的任一项所述的系统(140)，其中，所述n_r个和n_e个风格类(202)中的至少一个风格类(202)取决于固定术语或短语。

30.根据权利要求16-29中的任一项所述的系统(140)，其中，所述数据处理硬件(103、113)：

执行所述说话者标识模型(150)和所述自注意力机制(160)两者；以及