CN109564759B

CN109564759B - 说话人识别

Info

Publication number: CN109564759B
Application number: CN201780047190.4A
Authority: CN
Inventors: J·P·莱索; J·梅兰森
Original assignee: Cirrus Logic International Semiconductor Ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2016-08-03
Filing date: 2017-08-01
Publication date: 2023-06-09
Anticipated expiration: 2037-08-01
Also published as: US20190318745A1; GB2552722A; US20180040323A1; US11735191B2; GB2567339B; GB201622191D0; WO2018025024A1; GB201820517D0; CN109564759A; US10726849B2; GB2567339A

Abstract

本申请描述了用于说话人识别的方法和装置。根据一个实施方案的装置具有一个分析器(202)，用于分析与用户发出的言语声音对应的音频数据(A_IN)的帧的序列中的每个帧，以确定该帧的言语声音的至少一个特性。一个评估模块(203)，用于基于该言语声音的确定的特性为音频数据的每个帧确定音频数据的帧应被用于说话人识别处理的程度的贡献指标。以此方式，可以强调与对说话人区分最有用的言语声音对应的帧和/或可以不再强调与对说话人区分最没有用的言语声音对应的帧。

Description

说话人识别

技术领域

本公开内容的代表性实施方案的领域涉及与生物测定说话人识别相关或有关的方法、装置或实施方式。应用包括但不限于与说话人登记(enrolment)或验证相关的应用，尤其是在存在环境影响(诸如背景噪声)的情况下。

背景技术

提供语音(voice)用户接口以允许用户使用他们的语音与系统交互。此接口的一个优点(例如在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备的至少一些方面。言语(speech)识别技术(即从语音音频信号提取说出的单词的技术)可以例如被用来检测已经说出了特定的触发短语以将设备设定为预期说出的命令并且在说出时识别命令并且作出响应执行操作。例如，如果该说出的命令要求公开可得的信息，则该接口可以导致向互联网搜索引擎提交查询，以能够将该信息供应给用户。

然而，在其他情况下，例如如果说出的命令涉及个人信息或请求某种金融交易，则可能期望某种水平的认证以在按照任何命令行动之前验证用户的身份。

为了维持大致免手持的用户交互模式，语音用户接口可以包括某种形式的说话人识别(即对语音音频输入信号进行某种分析)，以提取与一个或多个用户中的一个不同的那个信号的特性。因此，可以以具有比口令(password)更高安全性的高置信水平(confidencelevel)并且比其他生物测定验证方法(诸如指纹或虹膜图案)更便利地验证用户的身份。

可以根据错误接受率(FAR)和错误拒绝率(FRR)来表征此用户验证的准确性。FAR量化了不同用户被错误地认证为授权用户的概率，对于特定用户具有明显的金融安全性风险和隐私风险。FRR量化了有效用户可能被拒绝的概率，这给用户带来了不便，然后用户可能不得不重复他的尝试或使用某种其他形式的认证。

说话人识别过程可以依赖于将当前的言语样本的频谱特性与先前登记的言语样本的频谱特性进行比较。然而，认证尝试期间的任何背景噪声可能被叠加在说话人的语音上并且可能隐藏或更改频谱特征并因此在比较中给出错误。登记期间的背景噪声可能相反地添加在安静环境中认证时不存在的特征。这些影响可能降低FAR或FRR，具有上文描述的不期望的安全性后果或用户不便后果。

使用信号处理以试图去除添加到信号的噪声的来减轻该问题的尝试可能影响所得到的补偿言语的频谱特性并且因此再次降低准确性。

根据一个实施方案，提供了一种用于在生物测定说话人识别中使用的装置，包括：

一个分析器，用于分析与由用户发出的言语声音对应的音频数据的帧的序列中的每个帧，以确定该帧的言语声音的至少一个特性；以及

一个评估模块，用于基于确定的该言语声音的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度(extent)的贡献指标(contribution indicator)。

在一些实施方案中，该装置可以包括一个说话人识别模块，该说话人识别模块被配置成将说话人识别处理应用于音频数据的帧，其中该说话人识别模块被配置成根据每个帧的贡献指标来处理音频数据的帧。

所述贡献指标可以包括在说话人识别处理中将被应用于每个帧的加权。在一些情况下，所述贡献指标可以包括对将不在说话人识别处理中使用的音频数据的帧的选择。

该说话人识别处理可以包括处理音频数据的帧以进行说话人登记。该说话人识别处理可以包括处理音频数据的帧以进行说话人验证。该说话人识别处理可以包括处理音频数据的帧用于生成说话人群体的广义模型。

言语声音的至少一个特性可以包括将该言语声音标识为多个预定义种类(class)的音素中的一个。言语声音的至少一个特性可以包括将该言语声音标识为特定音素。一个音素或一个种类的音素的贡献指标可以基于音频数据的先前帧中的相同的音素(phoneme)或相同种类的音素的先前实例(instance)的数目而变化。

言语声音的至少一个特性可以包括言语声音中的一个或多个话音素(formant)的至少一个特性。该特性可以包括至少一个话音素峰值(peak)的指示和/或至少一个话音素空值(null)的指示。

该评估模块可以被配置成接收该用户发出言语声音所在的声学环境的指示。该贡献指标还可以基于声学环境的指示。声学环境的指示可以包括该音频数据中的噪声的指示。噪声的指示可以包括以下中的至少一个的指示：噪声幅度水平；噪声频率和/或频谱；相对于由用户发声的声音的信号水平的噪声水平。

在一些实施方案中，言语声音的至少一个特性包括将该言语声音标识为多个预定义类别(category)的音素中的一个，并且对于所述预定义类别的音素中的至少一个，该评估模块应用贡献指标的值和噪声水平之间的传递函数。

该分析器可以被配置成分析该音频数据以确定噪声的所述指示。该分析器可以被配置成标识音频信号的不与由该用户发声的声音对应的帧，以从这样的帧确定噪声的指示。

在一些实施方案中，该评估模块被配置成使得如果噪声的指示在第一阈值水平以上，则该评估模块指示音频数据的帧不应被用于说话人识别处理。

在一些实施方案中，声学环境的指示包括该音频数据中的混响的指示。该分析器可以被配置成分析该音频数据以确认混响的指示。

在一些实施方案中，该评估模块被配置成接收用于生成音频数据的声学信道的参数的指示，并且该贡献指标还基于该声学信道的参数的所述指示。该声学信道的参数的指示可以包括用来接收由该用户发出的言语声音的麦克风的参数的指示。麦克风的参数可以包括麦克风共振。该声学信道的参数的指示可以包括音频信道的带宽的指示。

在一些实施方案中，该评估模块被配置成接收从先前由该用户发出的言语声音导出的言语特性的指示，并且其中该贡献指标还基于该言语特性的指示。该言语特性的指示可以包括该用户的音高的指示和/或该用户的鼻音的指示。

在一些实施方案中，该评估模块被配置成接收至少一个登记用户简档的指示，并且其中该贡献指标还基于登记用户简档的所述指示。至少一个登记用户简档的指示可包括与该说话人识别处理最相关的用户简档的指示。与该说话人识别处理最相关的用户简档的指示可以是从说话人识别处理导出的。

在一些实施方案中，该评估模块被配置成使得音频数据的帧的贡献指标基于该言语声音的确定的至少一个特性和音频数据的先前的帧的数目，其中确定的至少一个特性是类似的。

该说话人识别模块可以操作在验证模式中以处理音频数据的所述帧，从而确定数据的所述帧的言语声音的一个或多个特征并且将所述一个或多个特征与登记用户的至少一个用户模型比较以确定指示当前说话人是否是该登记用户的置信水平。该说话人识别模块可以被配置成为该音频数据的多个帧确定指示音频数据的该帧与至少一个用户模型之间的匹配程度的帧置信得分，并且组合多个帧置信得分以确定置信水平，其中帧置信得分的组合基于相关帧的贡献指标。该说话人识别模块可以操作以不处理数据的一些帧来生成一个帧置信得分和/或从组合中省略音频数据的至少一些帧的帧置信得分以形成基于音频数据的所述帧的贡献指标的置信水平。附加地或替代地，该说话人识别模块可以可操作以基于音频数据的所述帧的贡献指标对帧置信得分中的至少一些应用加权。

该所述说话人识别模块可以操作在登记模式中，以处理所述音频信号从而形成用于登记用户的用户模型。该说话人识别模块可以操作以基于音频数据的一些帧的贡献指标不处理处理音频数据的所述帧以形成所述用户模型。

所述装置还可包括一个言语识别模块，该言语识别模块被配置成分析音频数据的所述帧。

所述装置包括一个麦克风，用于生成与由该用户发出的言语声音对应的音频信号。

所述装置可以被实施为集成电路。

实施方案还涉及电子设备，所述电子设备包括如由上文概述的变体中的任何一个所描绘的设备。所述电子设备可以是以下中的至少一个：便携式设备；通信设备；移动电话；计算设备；膝上型计算机、笔记本计算机或台式计算机；游戏设备；可穿戴设备；语音可控设备；身份验证设备；可穿戴设备；或家用电器。

实施方案还涉及用于在生物测定说话人识别中使用的装置，包括：

一个评估模块，用于基于该言语声音的与一个帧相关的至少一个特性为与用户发出的言语声音对应的音频数据的帧的序列确定音频数据的该帧应被用于说话人识别处理的程度的贡献指标。

实施方案还涉及一种说话人识别方法，包括：

分析与由用户发出的言语声音对应的音频数据的帧的序列中的每个帧以确定该帧的言语声音的至少一个特性；以及

基于确定的该言语声音的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标。

实施方案还涉及一种非暂时性计算机可读存储介质，具有在其上存储的机器可读指令，当由处理器执行机器所述可读指令时，所述机器可读指令导致该处理器执行所描述的方法。多个方面还涉及一种装置，该装置包括一个处理器和这样的一个非暂时性计算机可读存储介质。

附图说明

为了更好地理解多个实施方案的原理和优点，现在将参考附图描述实施例，在附图中：

图1a和图1b例示了能够进行语音控制的电子设备；

图2例示了说话人识别系统的一个实施方案；

图3例示了说话人识别装置的另一个实施例；

图4例示了对应于言语声音的音频数据中的话音素的原理；

图5例示了对于不同种类的言语声音贡献指标与噪声的示例性传递函数；

图6例示了评估模块的一个实施例；以及

图7例示了根据本公开内容的方法的流程图。

具体实施方式

下文的描述阐述了根据本公开内容的示例性实施方案。另一些示例性实施方案和实施方式对于本领域普通技术人员来说是明显的。此外，本领域普通技术人员将认识到，可以应用多种等同技术来代替下文讨论的实施方案或与下文讨论的实施方案结合，并且所有这样的等同物应被视为被本公开内容包含。

实施方案涉及用于在生物测定说话人识别(即基于对与用户的言语声音(即话语)对应的音频信号的分析的说话人识别)中使用的方法和装置。

为了清楚起见，如在本说明书中所使用的，术语“说话人识别”至少指提供关于说话的人的身份的信息。例如，说话人识别可以从一组先前注册的(registered)个体之中确定说话人的身份。例如，如果Alice和Barbara都是注册用户，则说话人识别可以确定说话的当前用户是Alice还是Barbara。说话人识别还可以确定当前的说话人很可能不是该组先前注册的个体的成员，例如可能是犯罪者(malfeasor)或可能只是其语音已被无意捕获的无辜的旁观者。在一些实施方式中，说话人识别可以提供指示说话人是否是特定个体的信息，例如用于标识和/或认证的目的，例如，如果Alice是设备的注册语音用户，则说话人识别可以确认或验证当前的用户是否确实是Alice。在这样的说话人识别实施方式中，一个或多个用户通常提供语音样本作为登记过程的一部分，所述语音样本可以被处理以便导出关于用户的特性，所述特性可以稍后被用作标识和/或验证的一部分。至少一些说话人识别实施方式还可以利用基于(例如从来自代表性说话人语料库的语音样本导出的)整个群体的特性的广义说话人模型，诸如通用背景模型(UBM)。术语说话人识别处理至少指用于说话人识别目的而处理音频数据，其应包括标识和/或验证以及任何登记或注册和/或合适的广义说话人模型(诸如UBM)的生成。

如在本说明书中所使用的，术语说话人识别不同于术语“言语识别”。如本文所使用的，言语识别至少指确定所说的内容和/或含义，而不是识别说话的人。将理解，将可以实施言语识别，而不实施说话人识别，例如，如果用户的身份不重要或将在需要时以某种其他方式被建立。可能存在需要说话人识别(例如用于身份的生物测定验证)而不需要言语识别的一些实施方式。然而，在至少一些实施方式中，系统可以选择性地操作以根据需要同时地或单独地提供说话人识别和言语识别。

图1a和图1b示出了根据本发明的一个方面的设备100。图1a例示了该设备的立体视图，并且图1b例示了这样的设备内的典型功能模块中的一些，在此实施例中，该设备是便携式设备，诸如移动电话或平板计算机等。然而，应理解，该设备可以是可以使用说话人识别的任何类型的设备。这样的设备可以包括但不限于诸如平板计算机、游戏控制台、遥控设备、家用电器(其应被认为包括家用控制系统，诸如家用温度或照明控制系统)、玩具、机器(诸如机器人)等的设备。还应理解，设备100——尤其是当被实施为智能电话或平板计算机等时——可以通过合适的软件被用作用于控制任何其他另外的设备或系统的控制接口。

在此实施例中，设备100包括用于向用户显示信息的屏幕102、用于允许由麦克风检测声音的声音入口104、以及用于允许附件连接到该设备的连接器106，诸如插座插孔(jack socket)或其他端口或容座(receptacle)。

在此实施例中，设备100包括麦克风108，该麦克风可以例如靠近图1a中示出的声音入口14定位。由麦克风108生成的电子信号被传递到信号处理块110，该信号处理块执行信号的初始信号处理，例如将从麦克风108接收的模拟信号转换成数字信号。

在此实施例中，设备100还包括附件接口112，该附件接口可以例如靠近图1a中示出的插座插孔106定位。插座插孔106和接口112可以适合于允许音频附件(诸如头戴式送受话器(headset))与其连接，并且从这样的附件上的麦克风接收的信号也被传递到信号处理块110，该信号处理块可执行信号的初始信号处理。

信号处理块110被连接到说话人识别模块114。术语“模块”应被用来至少指功能单元，并且该功能单元可以至少部分地由专用硬件部件(诸如自定义电路系统)和/或至少部分地由一个或多个软件处理器或在合适的处理器上运行的适当代码实施，所述合适的处理器可以是通用处理器等。形成一个模块的一部分的任何电路系统部件或软件过程可以与另一个模块共享和/或相同的处理器可以实施多个模块。一个特定的模块本身可以包括多个部件模块。

说话人识别模块114可以被配置成实施如本文所描述的本公开内容的方法中的一个或多个。说话人识别模块114可以由合适的处理器来实施，并且可以基于存储在存储器116中的数据和程序指令来操作。应理解，用来实施说话人识别模块的处理器可以是被提供用于一系列任务并且可以被用于各种功能的通用处理器，例如设备100的应用处理器。然而，在一些实施方式中，说话人识别模块114可以包括出于说话人识别目的而特别提供的处理器和/或说话人识别模块114可以包括至少某个定制或专用电路系统。

在此实施例中，说话人识别模块114被连接到接口118，该接口本身被连接到天线120，允许信号通过外部网络传输到远程设备和从远程设备接收信号。

对于说话人识别，设备100的机载麦克风108或连接的附件的麦克风因此可以生成与设备的当前用户的话语(utterance)对应的音频信号。这样的麦克风信号可以通过信号处理块110受到某种初始处理，例如，被转换成合适的数字音频信号。替代地，可以经由某个其他信道(例如经由天线120)例如从作为经由某种无线协议(诸如Bluetooth^TM等)与设备100通信的附件的一部分的麦克风接收与用户的话语对应的音频信号。在一些实施方式中，与用户的话语对应的音频信号可以由合适的音频检测设备远程生成，并且经由任何合适的通信信道(无论是有线还是无线)传输到设备100。

在一些实施方式中，设备100可以以合适的形式接收与用户的话语对应的音频信号，而不需要执行任何在先信号检测或信号处理。在这样的实施方式中，设备可能不需要信号处理块110或麦克风108，因此可省略它们。在一些实施方案中，设备100可以被配置成经由麦克风108的子集、附件接口112或无线接口118或甚至经由某个其他输入路由接收音频信号，在此情况下冗余元件可以被省略，或至少未被耦合到说话人识别模块114。

图2例示了说话人识别模块114的一个实施方案。

说话人识别模块114具有用于接收与由用户发出的言语声音对应的、输入音频信号A_IN形式的音频数据的输入。如本文所使用的，言语声音至少指在讲话期间可以由用户发声或发出的任何声音。如本文所使用的，言语至少涉及用户产生不同的故意声音，但是这不一定需要具有任何特定的内容或含义，并且应被认为包括用户发出有声声音(诸如咳嗽)。在一些说话人识别应用中，用户可以背诵无意义的单词或短语或发出与特定的已知单词不对应的言语声音。言语应被认为至少包括以任何方式(即包括唱歌)发出言语声音。

如上文所描述的，音频信号输入信号A_IN可以是从主机设备的机载麦克风108或经由接口112连接到设备的外围设备的麦克风接收的或从远程设备传达的。音频输入信号A_IN可能已经受到某种初始处理，该初始处理可能例如已经检测到该音频信号对应于一个用户的言语。

该音频输入信号可以被提供给识别器201，出于说话人识别目的，该识别器可以处理该音频数据。取决于可以由接收的控制信号CTRL控制的操作模式，识别器201可以处理接收的音频数据，以确定该音频信号的可以用于说话人识别的特性。此确定可以是用于登记新用户的登记过程的一部分，或可以是用于确定或验证登记用户的身份的标识目的和/或验证目的的一部分。在一些情况下，对于接收的与用户的言语相对应的大体上任何音频数据可以启用和执行为了标识进行的说话人识别。例如，如果两个或更多个用户被注册为一个设备的用户，则可以在说出的命令被标识的任何时间确定或确认目前用户的身份，因此可以根据该用户的简档(profile)来定制设备操作的至少一些方面，但是在一些实施方案中，将说话人识别应用于第一说出的命令并且假设用户在特定时间内不改变和/或只要设备被连续地使用用户就不改变就足够了。然而，在一些实施方案中，可能在某些时间仅需要为了标识/验证进行的说话人识别，例如作为与被突出显示为需要认证许可的某些动作相关联的认证步骤，因此仅可以在某个合适的控制信号之后执行说话人识别。

如下文将更详细地描述的并且本领域技术人员将容易理解的，识别器201可以通过分析帧的序列中的音频数据A_IN以已知方式操作。

在图2的实施方案中，该说话人识别模块包括分析器202和评估模块203。分析器202被配置成分析对应于用户发出的言语声音的音频数据的帧的序列中的每个帧，以确定该帧的言语声音的至少一个特性。例如，分析器202可以确定言语声音是否对应于特定的预定言语声音，或是否在特定的预定义种类的言语声音内。例如，分析器202可以尝试将言语声音确定为特定的声音，例如特定的音素或多元音素(senone)等，或将言语声音标识为特定种类的声音，例如预定义种类的音素，例如元音、鼻音、爆破音、齿擦音等，或标识为浊音声音或清音声音。分析器202将针对一个帧的言语声音的特性的指示递送到该评估模块。评估模块203从该言语声音的特性(例如音素的身份)推导出当前帧将对说话人识别有用的可能性有多大，例如是否有可能对将该用户与其他用户区分开作出重大贡献。因此，评估模块203基于确定的言语声音的至少一个特性来确定音频数据的该帧应被用于说话人识别处理的程度的贡献指标。

说话人识别涉及确定说话人的身份，因此涉及基于言语的各种特性来确定给定的言语样本是否对应于已知用户。然而，已经理解，一些言语声音可能比其他言语声音更具说话人的特性。换句话说，一些言语声音可能比其他言语声音更好地用于区分话语是否是由特定用户发出。

例如，至少在一些操作条件下，涉及用户声道中的相对强的共振的言语声音(例如鼻音或元音或浊音言语)可以比诸如不存在这样的共振的爆破音或清音言语的言语声音提供更大的区分程度。人类的声道通常包括咽、口腔和鼻腔。涉及声道共振的声音将至少部分地取决于这些腔的物理尺寸，因此取决于个体的生理特性。个体用户的声道将可能在生理上是独特的，因此这样的共振可以提供对区分不同说话人有用的信息。相比之下，可能不包括任何强共振的言语声音(例如诸如爆破音)可能含有较少的对说话人识别有用的信息。事实上，在一些操作条件下，这样的言语声音实际上可能对说话人识别不利。

声音也可以被归类为浊音声音或清音声音，或浊音言语或清音言语。浊音声音是与声带振动相关联的声音，例如是使用声带清晰发音的声音。清音声音不倾向于涉及声带的振动。因此，浊音声音激发声道并且倾向于在声音中具有某种结构并且具有定义明确的话音素。浊音声音或浊音言语包括元音和鼻音。清音声音不显著地激发声道并且倾向于在声音中具有更随机的结构。浊音言语通常倾向于比清音言语具有更好的SNR，并且在至少一些环境中，可以为说话人识别提供良好区分。

因此，图2中例示的说话人识别模块114确定关于音频数据的特定帧的言语声音的特性的某个信息并且基于该特性(该特性可以是例如音素类型或声音是浊音还是清音)来确定目前的帧对说话人识别的有用程度，并且提供适当的贡献指标。该贡献指标可以指示该帧应在说话人识别处理中由识别器201使用的程度。说话人识别处理可以包括说话人验证，在该情况下，识别器201可以使用针对每个帧的贡献指标来确定如何处理音频数据的相关的帧以确定言语信号是否可能已经由一个或多个预先登记用户中的一个说出。替代地，在登记模式中，说话人识别处理可以包括说话人登记，例如基于针对每个帧的贡献指标处理音频数据的相关的帧，以对当前登记用户的授权说话人模型有贡献。

在一些实施方案中，分析器202可以针对给定的数据帧提取关于确切个体音素的信息，或在一些实施方案中，仅标识音素的种类(例如元音或爆破音或齿擦音等)或仅标识声音是浊音还是清音可能就足够了。在一些实施方案中，与一个帧有关的言语声音的特性可以附加地或替代地包括关于该言语声音中的话音素或其他指标(诸如多元音素)的信息。如本领域技术人员将理解的，话音素是言语声音中的声学能量在特定频率附近的集中，并且通常与声道的共振有关。该分析器可以例如提取关于主导格式峰值和/或空值的信息，以给出当前音素的性质的指示。如本领域技术人员还将理解的，在连续的言语中，特定的声音(例如音素)可能受到言语中在它之前和之后的声音的影响。可以基于电话的上下文标识三音素，并且多元音素是可以被用作用于三音素的开始的检测器的声音的一部分。

在一些实施方案中，除了接收针对当前帧的言语声音的至少一个特性之外，该评估模块还可以接收用来确定该帧的贡献指标的其他信息。这样的辅助信息可以包括发出言语声音的声学环境(例如背景噪声水平)的指示。

图3更详细地例示了一个实施方案，在该实施方案中，该评估模块可以使用这样的辅助信息确定音频数据的一个帧的贡献指标。

图3例示的是可以在两部分中执行说话人识别处理，并且识别器201可以包括前端特征提取模块301和后端处理模块302。在特征提取模块301中，语音信号通常可以被处理以降低其维数，同时通过提取指示言语的参数或特征(例如众所周知的MFCC(梅尔频率倒谱系数)或用于LPC(线性预测编码)模型的参数或TESPAR(时间编码信号处理和识别)参数)来维持说话人提取所期望的信息。后端处理模块302接收这些参数，并且为了说话人标识/验证，记分器303可以将这样的特征与来自用于一个或多个先前注册用户的模型304的参数进行比较。在一些实施方式中，还可以将所述特征与来自广义模型或大量说话人(例如代表整个群体的UBM)的参数进行比较。记分器303通常可以导出每个帧的得分，该得分以某种方式表示来自接收的音频输入信号的参数对应于预先登记用户的参数而不是整个群体中的某个人的参数的概率。来自许多帧的得分可以被组合以给出关于用户是否对应于预先登记用户中的一个的最终指示BioID。根据操作模式，指示BioID可以指示若干注册用户中的哪一个可能是当前用户，可能具有基于最终组合得分的置信水平，或可以简单地指示当前用户是否被验证为在某个置信水平以上的特定预注册用户。指示BioID可以被提供给设备的某个其他部分，诸如应用处理器。

可以在登记操作模式期间确定针对一个给定用户的说话人模型。在登记操作模式期间，可以接收与用户发出的言语声音对应的音频数据，并且可以如上文所讨论的由特征提取模块301提取特征。这些特征可以在登记模式中直接馈送到说话人模型304，并且可以使用已知技术与先前的特征数据组合以确定和/或存储用于该用户的模型的相关参数。

在一些情况下，可以在通用背景模型(UBM)操作模式期间生成或更新广义说话人模型，诸如UBM。除了音频数据取自代表整个群体的大型说话人语料库(或可能地使用不同性别或国籍或语言的单独语料库)之外，此操作模式可以类似于用户登记。可以接收与由每个说话人发出的言语声音对应的音频数据，并且如上文所讨论的由特征提取模块301提取特征。这些特征可以在模型生成模式中被直接馈送到UBM模型，并且可以使用已知技术与来自该说话人的先前特征数据和来自其他说话人的特征数据组合以确定和/或存储用于该说话人语料库的UBM的参数。本领域技术人员将理解，生成有用的UBM需要来自大量说话人的输入，因此通常可以以受控的方式执行此过程，例如使用代表性设备，以生成主模型，该主模型然后可以被复制并且被用在许多不同的产品中，例如在制造或初始化或稍后下载期间被安装在产品上。还可以通过将语料库音频数据供应给设备的模拟模型来生成UBM。

在图3的实施方案中，分析器202可以使用出于说话人识别目的由特征提取模块301提取的参数中的至少一些，而不是并行地生成类似的参数。在一些实施方案中，出于由后端模块302进行说话人识别处理的目的而由特征提取模块301提取的参数(例如MFCC系数等)可能足以使分析器确定关于该帧的言语声音的合适特性从而提供一个指示，该指示进而足以使评估模块203能够确定目前帧的贡献指标。换句话说，分析器可能不需要从音频信号导出附加参数，因此可能不需要接收音频信号本身，尽管可能存在对提取的参数的某种处理，例如参数可以被组合或可以与模板比较或以其他方式被分析器202处理以确定至少一个特性，例如音素的种类的指示，所述至少一个特性进而足以使评估模块203能够确定目前帧的贡献指标。在其他实施方案中，分析器202可以处理进来的表示言语声音的音频数据，以产生提取的参数或特征，附加于或代替由特征提取模块302提取的那些参数或特征，即提取以供记分器303或模型304使用的那些参数或特征。在另一些实施方案中，由特征提取模块301导出的特征参数也可以足以由评估模块203直接使用，因此特征提取模块301可以提供分析器202的用于将帧的言语声音的特性提供给评估模块203的功能。

在一些实施方案中，还可以存在用于确定说出的音频的内容的言语识别模块(未单独示出)。在一些实施方案中，说话人识别模块114的功能中的至少一些可以与这样的言语识别模块共享或由这样的言语识别模块实施。例如，用于言语识别的帧分析器可以确定关于与特定的言语声音对应的特定音素的信息。

相较于激发说话人声带的强共振的言语声音(诸如元音或鼻音或浊音声音)，诸如爆破音或清音声音的言语声音可能在对不同说话人之间进行说话人识别有用的参数上表现出较少变化(在群体水平上)。也就是说，如果相当多的个体中的每个都发出一些言语声音，则一般而言，在考虑整个群体时，相比于鼻音言语声音或元音言语声音，爆破音言语声音表现出的变化少，因此将不太能够区分开该群体的成员。

因此，从包括爆破音的音频数据的帧导出的任何得分可能是不可靠的。在常规的说话人识别中，如上文所描述的，与用户的言语对应的音频数据的多个帧的得分被组合以给出整体置信水平或有效地给出说话人是否是特定的注册用户的指示。对应于爆破音言语声音的音频数据的帧可以产生非常可变的置信得分，即使对于正确的说话人也是如此，这可能影响通过与来自包括更多不同音素的其他帧的分数结合而导出的总分数，从而导致不可接受的高的错误拒绝率(FRR)。

因此，在接收到当前帧包括爆破音音素的指示时，该评估模块可以生成指示相关的帧对说话人识别处理无用的贡献指标，或至少应使帧得分的加权低于其他帧的得分。

如先前所提及的以及接收由分析器202确定的当前帧的言语声音的特性，评估模块203可以接收其他辅助数据以帮助其决定音频数据的帧的贡献指标。这样的辅助数据可以包括指示当前帧的言语声音是否可能对说话人识别处理有用的其他信息。辅助数据可以与用于说话人识别的设备的操作条件有关。例如，关于用户发出言语声音所在的声学条件的数据可能是有用的，诸如关于背景噪声的信息。

用于说话人识别的音频信号中的噪声可以大大影响说话人识别处理的可靠性，此外对于不同的言语声音，噪声的影响可能是不同的。

通常，导致用户声道中的相对强的共振的言语声音可以允许更好的区分用户(在群体水平)，这是因为共振将取决于用户的生理属性。通常，这样的声音可以是浊音言语。两个这样的言语声音是元音和鼻音。这样的言语声音可以产生针对言语声音的频谱，该频谱表现出强话音素，即言语声音中的声学能量集中在特定频率周围。图4例示了言语声音的假设频谱以例示话音素的原理。图4示出了幅度包络，即言语声音的声学能量或声压水平与频率的关系，并且在此假设实施例中，存在三个清晰的话音素，这三个话音素可以例如与咽、口腔和鼻腔的共振有关，具有话音素峰值401和话音素空值402。实际上，对于给定的言语声音，可能存在清晰的峰值但是界定不太清晰的空值，或者可能存在界定不太清晰的峰值但是清晰的空值。

由于鼻腔中的强共振，因此鼻音可能对区分有用，鼻腔倾向于相对恒定，这是因为用户的鼻腔的形状可能不会随着时间的推移变化很大，而口腔的共振可能取决于嘴的形状，嘴的形状受在前的言语声音和在后的言语声音的影响。然而，对于鼻音，可能最常用于与说话人模型比较的特征是话音素空值的排列，即由于反共振引起的言语声音的频谱中的最小值的频率。因此，只要可以充分标识相关的话音素空值，鼻音就可以被有用地用于说话人识别目的。在低噪声条件下，话音素空值可能相对清晰，因此鼻音言语声音可以以相对高的置信被有用地用于说话人识别处理。然而，在存在噪声的情况下，尤其是在背景噪声频谱密度接近或高于这些空值周围的言语信号密度的情况下，可能更难以准确地确定话音素空值，并且鼻音对说话人识别有贡献的能力可能减小。例如，在存在由虚线403指示的相对宽频带的噪声频谱的情况下，可能难以准确地确定话音素空值的存在或位置，从而导致FFR和/或FAR增大。

元音也倾向于激发相对强的共振，但是对于元音，对区分不同说话人有用的指标是话音素峰值。相较于鼻音言语声音的话音素空值，元音言语声音的话音素峰值可能区分度不太强，但是话音素峰值的排列可以被相对准确地确定，即使在存在相对显著的噪声的情况下也是如此。

因此，辅助数据可以包括与由用户发出的言语声音对应的音频信号的噪声水平的指示。该评估模块可以基于噪声的指示针对某些言语声音或某些种类的言语声音改变帧的贡献指标。例如，如果存在低噪声，则该评估模块可以生成鼻音言语声音的第一贡献指标，指示相关的帧对说话人识别处理有用，而在存在显著噪声的情况下，该评估模块可以生成鼻音言语声音的第二贡献指标，指示相关的帧对说话人识别处理无用。在一些实施方式中，元音声音的贡献指标可以不随着噪声而变化，或可以用噪声调整鼻音言语声音和元音言语声音的贡献指标，使得在较低噪声水平处，优先使用与鼻音言语声音对应的帧，而在较高噪声水平处，至少一直到某个阈值噪声水平，与元音言语声音对应的帧是优选的，超过该阈值噪声水平，噪声可能如此之高以至于确定不能够执行足够精确的说话人识别处理。如果噪声在某个阈值水平以上，则可能无法准确地将任何言语声音用于说话人识别，并且该评估模块可以发信号通知在背景噪声水平降低之前不应使用帧来进行说话人识别。

可以由分析器确定音频信号中的噪声的指示。例如，在一些实施方案中，分析器可以包括耦合到音频信号输入的噪声估计模块(未单独示出)。此噪声估计模块可以例如监视信号水平低的帧中的信号水平，例如，由于言语中的短的或较长的间隙而导致明显的沉默。然而，在一些实施方案中，噪声的指示可以由某个或某些其他模块或部件确定并且被传达到该评估模块。

噪声的指示可以是噪声水平的指示，或以绝对项或相对于由用户发出的言语声音的信号水平，即信噪比的指示。附加地或替代地，噪声的指示可以包括噪声频率或频谱的指示。对于特定频率下的相对显著的噪声分量，噪声的频率和/或频率扩展可以对确定特定言语声音对言语识别处理是否有用是有用的。在一些实施方式中，噪声的指示可以包括各种类别的噪声的指示，例如噪声可以被分类为窄带噪声(例如干扰)、宽带噪声(例如一般噪声)或多路径噪声(例如混响)。

分析器和评估模块被配置成确定与用户发出的言语声音对应的音频数据的帧的贡献指标并且该贡献指标至少部分地基于相关的帧的言语声音的确定的特性。在一些说话人识别系统中，可能存在分析以标识与言语声音不对应的音频数据的帧，因此仅表示噪声，并且可以从进一步的说话人识别处理中去除这样的帧-这与本公开内容的方法不同。然而，可以为音频数据的都被标识为对应于言语声音的不同的帧确定不同的贡献指标。

然而，应理解，言语声音的特性可以指示音频数据的特定帧不对应于形成正常语音的一部分的声音，例如咳嗽声音等。在一些实施方案中，这样的声音对于说话人识别可能不是感兴趣的，因此这样的帧的贡献指标可以指示相关的帧将不被用于说话人识别。然而，在一些实施方案中，声音(诸如咳嗽)实际上可以对说话人识别有用，因为它可以激发感兴趣的类型的声道的强共振，因此音频数据的这样的帧的贡献指标可以指示这样的帧可以被有用地用于说话人识别。因此，本发明的实施方案可以确定与用户产生的有声声音(包括诸如咳嗽等的言语声音和其他言语声音)对应的音频数据中的任何帧的特性，并且确定数据的这样的帧的贡献指标。例如，该评估模块可以仅在低SNR下选择浊音语音并且在高SNR下使用浊音和清音。

评估模块203还可以包括用于数据的某个存储以帮助其决定贡献指标，例如存储各种音素或各种种类的音素的有用性得分与环境噪声的水平的关系列表。

贡献指标可以采取各种形式(在确定贡献指标时是否也考虑辅助数据，诸如噪声)。在一些实施方案中，贡献指标可以是关于该特定帧是否应完全用于说话人识别处理的标志。在这样的实施方案中，评估模块因此可以选择应被用于说话人识别处理的帧。出于标识/验证目的，因此，该评估模块可以选择不与用户模型进行比较的帧。此选择可以避免处理不感兴趣的帧。然而，在一些实施方式中，将所有帧与模型进行比较以确定帧的得分但是从最终组合中去除这样的得分可能更简单。出于登记目的，该评估模块可以选择不被用来对相关用户的用户模型有贡献的帧。类似地，如果用于UBM生成或适应目的，则评估模块可以选择不被用来对UBM模型有贡献的帧。

在一些实施方案中，贡献指标可以包括将在说话人识别处理中施加至相关的帧的加权，在该情况下，贡献指标可以包括在一个设定范围中的值，例如在0和1之间。该加权可以基于言语声音的特性和关于说话人识别处理的操作条件(诸如声学环境)的任何辅助数据。例如，评估模块203可以对特定音素或特定种类的音素应用在噪声水平和贡献指标之间的传递函数。

图5例示了可以应用的在贡献因子和确定的噪声水平(无论是绝对噪声还是与信号相关的噪声)之间的一些传递函数的一个实施例。如先前所提及的，只要鼻音的话音素空值可以被标识，则鼻音言语声音就可以是用于说话人识别的最佳言语声音中的一个。因此，用于鼻音言语声音的在贡献指标和噪声之间的传递函数可以具有例示的形式501，该形式在某个最大值处开始并且可能维持该最大值一直到第一噪声水平，之后减小到最小值，该最小值为第二噪声水平，在该第二噪声水平处，很可能是噪声太显著而无法准确地使用鼻音言语声音来用于说话人识别。虽然图5例示了第一噪声水平和第二噪声水平之间的线性减小，但是当然将理解，可以实施可包括至少某个逐步减小或根据某个曲线减小的任何期望的函数。此外，例示了用于元音声音的可能传递函数的指示502。对于低噪声水平该传递函数的贡献指标的值可以比鼻音言语声音的贡献指标的值低，使得在低噪声水平处，依附于与鼻音言语对应的音频数据的帧的置信大于依附于与元音言语声音对应的音频数据的帧。随着噪声水平增加，元音言语声音的贡献指标可以增大以反映事实——在存在噪声的情况下元音言语声音允许比其他言语声音更大的置信。在上阈值噪声水平处，噪声的量可能对于任何言语声音太大而不能够被准确地用于说话人识别，因此元音的贡献指标也可以被设定为超过此上噪声阈值的最小值。当然应理解，可以实施各种其他传递函数。例如，在较低的噪声水平处，元音言语声音的贡献指标的值可以比鼻音声音的贡献指标的值低，但是可以随着噪声增加而减小地更慢(如由线503所指示的)以反映噪声可能影响所有言语声音的准确性但是对元音声音影响小一些。例如，图5还例示了对于爆破音言语声音，贡献指标可以随着噪声水平的增加而快速减小，使得这样的言语声音仅在低噪声水平处对说话人识别处理有贡献。

识别器后端模块302可以以许多方式使用由贡献指标指示的加权，但是通常，对于说话人标识/验证，记分器303可以在组合来自各个帧的得分时考虑加权。为了登记，或在适当的情况下为了UBM生成，模型可以在将来自该帧的参数组合到模型中时应用加权。

存在可以用于评估特定言语声音对当时的说话人识别是否有用的各种其他辅助数据。指示特定言语声音或特定种类的言语声音或话音素数据类型是否将被掩蔽或是否将在音频信号中失真或是否可能与注册用户中的一个或多个特别相关或不相关的任何数据可以被有用地用于确定给定帧的贡献指标。

图6一般地例示了具有其他辅助输入的评估模块203。区分记分器601被布置成接收对于音频数据的当前帧由分析器202确定的言语声音的至少一个特性，并确定指示当前帧将对说话人识别多么有用(即它在区分不同用户时将多么有用)的区分得分，以形成用于登记的说话人模型或以验证当前说话人的身份。如下文将更详细地解释，的区分得分基于言语声音的确定的特性和一个或多个其他输入。区分得分可以基于在存储在存储器602中的查找表中存储的得分或基于存储在存储器602中的传递函数来确定得分。存储器602可以是用于评估模块203的专用存储器或通用目的存储器或与设备100的一些其他模块共享的存储器。在一些实施方案中，可以被标准化在一个设定范围内的区分得分可以被直接输出作为贡献指标。然而，在一些实施方案中，可以通过阈值器603将得分与阈值进行比较，其中该阈值器的输出被用作贡献指标并且指示是否应在说话人识别处理中使用当前帧。

在一些实施方案中，音频信号的各种属性可以被用来生成特定帧的区分得分。

如上文所提及的，音频信号中的噪声可以例如由分析器202或某个其他上游模块确定。可以在音频数据的例如通过分析器202或特征提取模块301或通过某个其他上游模块被标识为对应于言语的无声帧的帧中测量噪声。噪声的指示可以包括至少在一个或多个频带中的噪声水平，并且可以包括绝对水平和/或相对于信号幅度的指示的噪声水平，例如SNR。噪声的指示可以附加地或替代地包括噪声的频谱的指示，尤其是任何干扰音调或频带受限分量。同样地，从音频信号确定的辅助数据可以包括任何检测到的混响的指示。此检测可以指示某些特定的可能话音素可能难以检测，这可能指示在存在这样的噪声的情况下某些音素可能对说话人识别目的不太有用。

从音频信号获得的数据可以包括从用户先前发出的言语声音导出的言语特性的指示。一个这样的感兴趣的言语特性可以是音频数据中的言语声音的一般音高，即目前说话人的一般音高。知道当前说话人的音高再次可以指示某些言语声音的某些话音素是否可能是有用的。例如，对于通常有较高音高的说话人，某些言语声音可能导致通常将对区分有用的话音素位于音频信道的高频噪声中或与某个已知干扰音调对应。因此，可以基于音高的指示和特定言语声音或特定种类的言语声音的任何检测到的噪声来设定贡献指标，例如基于存储在存储器602中的查找表或传递函数。说话人的音高可以由分析器202从音频数据本身或从由特征提取模块301提取的特征来确定，或音高可以由特征提取模块301确定。

在一些实施方案中，分析器202可以分析音频数据和/或由特征提取模块301提取的特征数据，以确定当前说话人的一般言语的其他特性。例如，可以推导出鼻音的指示，其指示言语具有鼻音模式的程度。尤其是如果没有注册用户具有特别的鼻音语音特性，则这可以指示例如由于感冒或其他影响鼻腔的状况引起的鼻音失真。在这样的情况下，此情境可以促使区分得分向鼻音言语声音赋予较小的加权。

在一些实施方案中，关于说话人识别系统的配置的辅助信息可以由区分记分器使用。这样的配置数据可以至少部分地从某个外部部件接收，可能从系统控制器(例如应用处理器等)接收。对于由某些音频捕获装置远程捕获音频数据的应用，可以从这样的远程装置接收配置数据中的至少一些。对于特定的机载麦克风一直被用于生成音频信号并且麦克风和说话人识别模块之间的音频信道被固定的应用，配置数据的至少一些方面可以被存储在存储器602中。

这样的配置数据可以包括关于用于生成音频数据的声学信道的参数的信息。声学信道的参数可以包括用来捕获来自用户的言语声音的麦克风设备的参数或麦克风和说话人识别模块之间的信号路径的参数或经由声音入口从说话人到麦克风的声学路径的参数。声学信道的参数可以是用来捕获言语声音的麦克风的参数，例如麦克风的已知响应和/或与麦克风相关联的缺陷的知识。

麦克风的参数可以例如包括已知的麦克风共振。此共振可以增强某个频带中的噪声，因此使一些话音素信号对说话人区分不太可靠。附加地或替代地，由区分记分器考虑的麦克风的参数可以包括麦克风的带宽。低带宽可以再次增强噪声和/或衰减某些频带中的有用信号，这意味着某些言语声音将对准确的说话人识别不太有用。这些参数对于机载麦克风可能是已知的，因此当使用机载麦克风生成音频信号时，部件(诸如应用处理器)可以信号通知评估模块203。在一些情况下，可以与音频信号一起传达关于外部麦克风的参数。

声学信道的参数可以包括声学信道的数字部分的采样率。如果采样率为低，则此情况可能限制可用带宽/话音素，并且使较高的话音素信号在对区分用户的有用性方面价值较低。

因此，声学信道的参数可以影响针对与至少一些言语声音或至少一些种类的言语声音对应的音频数据的帧确定的区分得分。

在一些实施方案中，该指示可以是至少一个登记用户简档的指示。如上文所讨论的，用户将经历登记过程以随后使用说话人识别来进行标识/验证。为每个登记用户存储的数据可以包括该用户的用户简档。

在一些情况下，用于说话人识别目的的感兴趣的用户的身份可以是已知的，因此说话人识别处理最感兴趣的相关用户简档可以是已知的。例如，考虑诸如智能手机的设备。可能仅存在单个注册用户用于语音控制设备或者至少用于在设备上执行某些动作，并且语音验证可以被用作某些功能的认证级别。例如，如果用户发布语音命令，该语音命令涉及调用针对单个注册用户设定的许可，例如“示出Alice的私人日记”，识别器可以被设定为验证说话人是否确实是Alice。替代地，由于其他语境，用户的可能身份可以是已知的，例如用户可能登录到某个级别但是需要进一步的认证。在这样的情况下，希望被验证的人的身份是已知的，因此最相关的用户简档是已知的。因为该用户是登记用户，因此该用户的一般言语特性也将被已知为用户简档的一部分。可能的是，某些言语声音对区分该人和可能已经获取设备的其他人可能特别有用和/或某些言语声音对该个体的说话人识别可能特别差，例如如果该个体具有言语障碍，诸如口齿不清。因此，区分记分器601可以基于言语声音的特性和已知该言语声音将对验证说话人是否是该用户(即对相关用户简档)的有用程度来设定音频数据的给定帧的贡献指标。

即使在存在不止一个注册用户的情况下，也可以知道哪些言语声音或哪些种类的言语声音可能对基于用户简档区分这些注册用户最有用，因此注册用户的言语特性可以被用来设定适当的贡献指标，以强调言语声音的贡献。

在一些实施方案中，用于说话人识别的相关用户简档可能是预先已知的或可能不是预先已知的，但是作为说话人识别处理的一部分，特定用户简档可以被标识为与进一步处理最相关。说话人标识或验证的过程可能需要在识别器确定当前用户是否对应于任何特定用户之前处理一定量的音频数据。在说话人标识处理期间，可以在处理新的音频数据时确定并且更新每个注册用户的似然得分。来自识别器的反馈可以指示最可能的候选用户简档(或许多顶级候选用户简档)，并且关于这样的用户简档的言语特性的细节可以被用来确定对确定当前说话人是否匹配该用户简档最有用的音频数据的帧的贡献指标。此反馈可以帮助加速整个说话人识别过程，因为一旦可能的候选人被标识，就可以强调最有助于验证当前说话人是否是该用户的音频数据的帧。

在一些实施方案中，可以确定感兴趣的用户简档与特定类型的言语声音的当前言语数据之间的匹配程度。例如，如果到目前为止说话人识别处理指示除了可能由于用户感冒而可能失真的鼻音声音之外与相关用户简档的拟合良好，则可能不再强调对应于鼻音言语声音的帧，以对针对该用户的说话人识别做出判断，从而允许可能的鼻音失真。

在一些实施方案中，即使感兴趣的特定用户简档不是已知的，从识别器提供关于当前匹配结果的反馈也是有用的。关于特定言语声音或特定类型的言语声音的匹配结果的信息可以指示在当前操作条件下到目前为止已经证明哪些声音对说话人识别处理是有用的或无用的，因此可以指示在进一步处理中应强调或不再强调哪些言语声音。例如，如果针对特定种类的语音声音的识别器结果对于给定用户导致得分一致，则这样的结果可以指示这些言语声音对区分是有用的，尤其是如果得分是相对高的或相对低的。然而，如果某一种类的言语声音从一个发声到另一个发声具有显著变化的得分，则这样的得分变化可能指示该种类的言语声音实际上不利于在当前操作条件下进行区分。

在一些实施方案中，音频数据的帧的贡献指标可以基于言语声音的确定的至少一个特性和基于确定的至少一个特性是类似的音频数据的先前帧的数目。因此，一个言语声音或一个种类的言语声音(诸如一个种类的音素)的贡献指标可以基于音频数据的先前帧中的相同言语声音或相同种类的言语声音的先前实例的数目而变化。例如，如果已经存在特定言语声音的若干实例，则减小该特定言语声音的贡献指标以允许其他言语声音来贡献可能是有益的。对于说话人登记，模型基于一系列不同的言语声音可能是有益的，因此不再强调相同言语声音的多个重复实例可以帮助为该用户提供更牢靠的模型。对于说话人标识/验证，可能的是，两个不同的用户可以以一种在用于说话人识别的特征方面非常类似但在其他言语声音中变化的方式说一个特定的言语声音。因此，在一些情况下，增加对整体置信得分有贡献的言语声音的多样性可以改善说话人识别性能。

因此，音频数据的给定帧的贡献指标可以基于许多不同输入或因子的组合。一个实施方案可以实施一种或多种不同方法的组合。该组合可以被实施为由因子(例如算数平均数、几何平均数或均方根平均数)引起的相应的分量得分的一些加权平均数或平均值。该组合可以是某个非线性组合，例如其中任何个体因子的分量得分在相应的阈值以下的任何言语声音可以被有效地赋予最低贡献指标。这些因子可以被分配相应的优先级，并且筛选过程以最高优先级因子开始，并且按优先级降序顺序进行。例如，噪声水平可以被认为比用户语音的一般音高的优先级更高。

图7例示了根据本公开内容的方法的流程图。该方法涉及接收音频数据，如由框701所例示的，并且确定(框702)该音频数据的帧的特性。音频数据的帧的特性可以是言语声音的标识或种类(即音素)和/或关于言语声音中的话音素的指示。在一些实施方案中，该方法可以涉及接收从音频数据的帧提取的特征以确定特性，如在框703处所例示的。基于确定的特性并且在一些实施方案中还基于接收的辅助数据(诸如背景噪声，如由框705所例示的)来确定每个帧的贡献指标(框704)。在一些实施方案中，然后执行说话人识别处理，可以使用贡献指标(框706)，其中说话人识别处理被用来确定音频数据的个体帧对说话人识别处理的贡献的程度。

本公开内容的实施方案允许在存在噪声的情况下可能是稳健的的说话人识别。本公开内容的装置和方法可以通过强调言语的对说话人区分最有用的那些方面和/或不再强调不太有用的那些方面来改进用于说话人识别的登记过程。这些装置和方法可以改进每个登记用户的说话人模型并且改进后续标识。此外，在一些实施方案中，如果在有噪声时发生登记，则本公开内容的方法和装置可以减少或消除可能导致噪声中的错误的数据帧的贡献并且再次提高用户模型的有效性。同样地，在标识/验证期间，本公开内容的方法和装置可以强调言语的对说话人区分最有用的那些方面和/或不再强调不太有用的那些方面和/或基于噪声调整音频数据的帧的使用以便改进噪声稳健性。使用其他辅助数据还可以集中于对将被标识的可能用户最有用的言语声音，这可以提高信赖度，例如降低FRR和/或FAR和/或提高做决定的速度。本公开内容的方法还可以被应用于群体的广义说话人的模型(例如UBM)的形成或调整，并且可以提高将特定说话人与一般群体区分开的能力。

以上讨论提到了音频数据的帧。如本文所使用的，术语帧至少指音频数据的一个时间片段。在数字域中，音频数据的帧可以包括音频信号的许多连续样本。每个帧的持续时间可以一致，并且可以是预定义的。分析器202可以基于接收的音频信号的特性来标识帧，或更简单地以多组如此多的连续样本来处理音频数据。在一些情况下，帧可以由音频数据的格式定义，例如由某种上游处理(诸如信号处理模块110)应用的特定编码方案定义。然而，在一些实施方案中，帧可能潜在地在持续时间上变化并且可以至少部分地基于音频内容，例如对音频信号的处理，以标识音频数据的应被一起处理并且可能对应于特定言语声音的片段。在一些实施方案中，言语片段中的每个可标识的不同言语声音可以仅对应于音频信号的一个帧，但是在一些实施方案中，音频数据的不止一个帧可以对应于相同的言语声音。

以上的讨论还讨论了说话人识别模块，其包括识别器201和评估模块203和分析器202(不论该分析器的至少一些功能是否由特征提取模块301提供)。然而，在一些实施方案中，可以从该识别器和/或该分析器远程地实施该评估模块。例如，该识别器可以被实施在远程服务器上，以提供用于访问许多不同用户可能想要访问的某个服务的认证，而该评估模块可以被实施在本地设备上，因此可以在确定音频数据的对区分有用的帧中使用关于本地声学信道的信息。在一些实施方案中，可以存在不止一个评估模块，例如第一评估模块可以基于音素或一个种类的音素的个性和声学信道的已知特性来确定第一贡献指标，其中第二评估模块接收信息并且基于关于用户简档的信息来调整贡献指标。

因此，技术人员将认识到，上文描述的设备和方法的一些方面(例如由处理器执行的计算)可以被具体化为处理器控制代码，例如在非易失性载体介质(诸如磁盘、CD-或DVD-ROM)、编程的存储器(诸如只读存储器(固件)上，或在数据载体(诸如光信号载体或电信号载体)上。对于许多应用，本发明的实施方案将在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上实施。因此，代码可以包括常规的程序代码或微代码，或例如用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如可重新编程的逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如Verilog^TM或VHDL(超高速集成电路硬件描述语言))的代码。如技术人员将理解的，代码可以被分布在彼此通信的多个耦合的部件之间。在适当的情况下，还可以使用在现场可(重新)编程的模拟阵列或类似设备上运行以配置模拟硬件的代码来实施实施方案。

如本文所使用的，术语‘模块’应被用来至少指可以至少部分地由专用硬件部件(诸如自定义的电路系统)实施的和/或至少部分地由一个或多个软件处理器或在合适的通用处理器上运行的适当代码等实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。本公开内容的实施方案可以被布置为音频处理电路(例如可以设置在主机设备中的音频电路)的一部分。根据本公开内容的一个实施方案的电路可以被实施为集成电路。

实施方案可以被实施在主机设备中，例如该主机设备尤其是便携式的和/或电池供电的主机设备，诸如移动电话、音频播放器、视频播放器、PDA、移动计算平台(诸如膝上型计算机或平板计算机)和/或游戏设备。本公开内容的实施方案还可以被全部地或部分地实施在可附接到主机设备的附件中，例如被实施在有源扬声器或头戴式送受话器等中。实施方案可以以其他形式的设备(诸如远程控制器设备、玩具、机器(诸如机器人)、家庭自动化控制器等)来实施。

应理解，尤其是得益于本公开内容的本领域普通技术人员应理解，本文所描述的多种操作，特别是参考附图描述的多种操作，可以通过其他电路系统或其他硬件部件来实施。给定方法的每一操作执行的顺序可以被改变，且本文所例示的系统的多个元件可以被添加、被重排顺序、被组合、被省略、被修改等。本公开内容意在包含所有这样的修改和改变，因此，上文的描述应被认为具有例示性意义而非限制性意义。

类似地，尽管本公开内容参考了具体实施方案，但是在不背离本公开内容的覆盖范围的前提下，可以对这些实施方案进行修改和改变。此外，本文关于具体实施方案所描述的任何益处、优点或问题的解决方案不意在被理解为关键的、必需的或必须的特征和要素。得益于本公开内容，本领域普通技术人员同样将明了另一些实施方案，并且这样的实施方案应被视为包含在本文中。

Claims

1.一种用于在生物测定说话人识别中使用的装置，包括：

一个分析器，用于分析与用户发出的言语声音对应的音频数据的帧的序列中的每个帧，以确定该帧的言语声音的至少一个特性；以及

一个评估模块，用于基于该言语声音的确定的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标；

其中该言语声音的至少一个特性包括将该言语声音标识为特定音素，或者将该言语声音标识为多个预定义种类的音素中的一个；以及

其中该贡献指标基于音频数据的先前帧中的相同音素或相同种类的音素的先前实例的数目而变化。

2.根据权利要求1所述的装置，包括一个说话人识别模块，该说话人识别模块被配置成将说话人识别处理应用于音频数据的所述帧，其中该说话人识别模块被配置成根据每个帧的贡献指标来处理音频数据的帧。

3.根据权利要求1或2所述的装置，其中所述贡献指标包括在说话人识别处理中将被应用于每个帧的加权。

4.根据权利要求1所述的装置，其中所述贡献指标包括将不在说话人识别处理中使用的音频数据的帧的选择。

5.根据权利要求1所述的装置，其中该说话人识别处理包括处理音频数据的帧以进行说话人登记。

6.根据权利要求1所述的装置，其中该说话人识别处理包括处理音频数据的帧以进行说话人验证。

7.根据权利要求1所述的装置，其中该说话人识别处理包括处理音频数据的帧以生成说话人群体的广义模型。

8.根据权利要求1所述的装置，其中该言语声音的至少一个特性包括将该言语声音标识为浊音声音或清音声音。

9.根据权利要求1所述的装置，其中该言语声音的至少一个特性包括该言语声音中的一个或多个话音素的至少一个特性。

10.根据权利要求9所述的装置，其中所述至少一个特性包括至少一个话音素峰值的指示。

11.根据权利要求9所述的装置，其中所述至少一个特性包括至少一个话音素空值的指示。

12.根据权利要求1所述的装置，其中该评估模块被配置成接收用户发出言语声音的声学环境的指示，并且其中该贡献指标还基于声学环境的指示。

13.根据权利要求12所述的装置，其中声学环境的指示包括该音频数据中的噪声的指示。

14.根据权利要求13所述的装置，其中噪声的所述指示包括以下中的至少一个的指示：噪声幅度水平；噪声频率和/或频谱；相对于用户发声的声音的信号水平的噪声水平。

15.根据权利要求13所述的装置，其中该言语声音的至少一个特性包括将该言语声音标识为多个预定义类别的音素中的一个，并且其中，对于所述预定义类别的音素中的至少一个，该评估模块应用在贡献指标的值和噪声水平之间的传递函数。

16.根据权利要求12所述的装置，其中该分析器被配置成分析该音频数据以确定噪声的所述指示。

17.根据权利要求16所述的装置，其中该分析器被配置成标识音频数据的与用户发声的声音不对应的帧，以从这样的帧确定噪声的所述指示。

18.根据权利要求13所述的装置，其中该评估模块被配置成使得如果噪声的指示在第一阈值水平以上，则该评估模块指示音频数据的帧不应被用于说话人识别处理。

19.根据权利要求12所述的装置，其中声学环境的指示包括该音频数据中的混响的指示。

20.根据权利要求19所述的装置，其中该分析器被配置成分析该音频数据以确认混响的所述指示。

21.根据权利要求1所述的装置，其中该评估模块被配置成接收用于生成音频数据的声学信道的参数的指示，并且其中该贡献指标还基于声学信道的参数的所述指示。

22.根据权利要求21所述的装置，其中声学信道的参数的所述指示包括用来接收用户发出的言语声音的麦克风的参数的指示。

23.根据权利要求22所述的装置，其中麦克风的所述参数包括麦克风共振。

24.根据权利要求21所述的装置，其中声学信道的参数的所述指示包括音频信道的带宽的指示。

25.根据权利要求1所述的装置，其中该评估模块被配置成接收从用户先前发出的言语声音导出的言语特性的指示，并且其中该贡献指标还基于言语特性的指示。

26.根据权利要求25所述的装置，其中言语特性的指示包括用户的音高的指示。

27.根据权利要求25所述的装置，其中言语特性的指示包括用户的鼻音的指示。

28.根据权利要求1或2所述的装置，其中该评估模块被配置成接收至少一个登记用户简档的指示，并且其中该贡献指标还基于登记用户简档的所述指示。

29.根据权利要求28所述的装置，其中至少一个登记用户简档的所述指示包括与该说话人识别处理最相关的用户简档的指示。

30.根据权利要求29所述的装置，其中与该说话人识别处理最相关的用户简档的所述指示是从该说话人识别处理导出的。

31.根据权利要求1所述的装置，其中该评估模块被配置成使得音频数据的帧的贡献指标基于言语声音的确定的至少一个特性和音频数据的先前的帧的数目，其中确定的至少一个特性是类似的。

32.根据权利要求2所述的装置，其中该说话人识别模块能操作于验证模式以处理音频数据的所述帧，从而确定数据的所述帧的言语声音的一个或多个特征并且将所述一个或多个特征与登记用户的至少一个用户模型进行比较以确定指示当前说话人是否是该登记用户的置信水平。

33.根据权利要求32所述的装置，其中该说话人识别模块被配置成为该音频数据的多个帧确定指示音频数据的帧与至少一个用户模型之间的匹配程度的帧置信得分，并且组合多个帧置信得分以确定置信水平，其中帧置信得分的组合是基于相关帧的贡献指标。

34.根据权利要求33所述的装置，其中该说话人识别模块能操作以不处理数据的一些帧以生成一个帧置信得分和/或从组合中省略音频数据的至少一些帧的帧置信得分以形成基于音频数据的所述帧的贡献指标的置信水平。

35.根据权利要求33所述的装置，其中该说话人识别模块能操作以基于音频数据的所述帧的贡献指标对帧置信得分中的至少一些应用加权。

36.根据权利要求2所述的装置，其中该所述说话人识别模块能操作于登记模式，以处理所述音频数据从而形成针对登记用户的用户模型。

37.根据权利要求36所述的装置，其中该说话人识别模块能操作以基于音频数据的一些帧的贡献指标不处理音频数据的所述帧以形成所述用户模型。

38.根据权利要求1或2所述的装置，还包括一个言语识别模块，该言语识别模块被配置成分析音频数据的所述帧。

39.根据权利要求1所述的装置，包括一个麦克风，用于生成与用户发出的言语声音对应的音频数据。

40.根据权利要求1所述的装置，该装置被实施为集成电路。

41.一种电子设备，包括根据权利要求1所述的装置。

42.根据权利要求41所述的电子设备，其中该电子设备是便携式设备。

43.根据权利要求41所述的电子设备，其中该电子设备是通信设备。

44.根据权利要求41所述的电子设备，其中该电子设备是移动电话。

45.根据权利要求41所述的电子设备，其中该电子设备是计算设备。

46.根据权利要求41所述的电子设备，其中该电子设备是膝上型计算机。

47.根据权利要求41所述的电子设备，其中该电子设备是笔记本计算机。

48.根据权利要求41所述的电子设备，其中该电子设备是台式计算机。

49.根据权利要求41所述的电子设备，其中该电子设备是游戏设备。

50.根据权利要求41所述的电子设备，其中该电子设备是可穿戴设备。

51.根据权利要求41所述的电子设备，其中该电子设备是语音可控设备。

52.根据权利要求41所述的电子设备，其中该电子设备是身份验证设备。

53.根据权利要求41所述的电子设备，其中该电子设备是家用电器。

54.一种用于在生物测定说话人识别中使用的装置，包括：

一个评估模块，用于基于言语声音的与一个帧相关的至少一个特性为与用户发出的言语声音对应的音频数据的帧的序列确定音频数据的该帧应被用于说话人识别处理的程度的贡献指标；

55. 一种说话人识别方法，包括：

分析与用户发出的言语声音对应的音频数据的帧的序列中的每个帧以确定该帧的言语声音的至少一个特性；以及

基于该言语声音的确定的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标；

56.一种非暂时性计算机可读存储介质，具有存储在其上的机器可读指令，当由处理器执行所述机器可读指令时，所述机器可读指令使得该处理器执行权利要求55所述的方法。

57.一种包括一个处理器和一个根据权利要求56所述的非暂时性计算机可读存储介质的装置。