CN109997185A

CN109997185A - 用于电子设备中的生物测定认证的方法和装置

Info

Publication number: CN109997185A
Application number: CN201780073020.3A
Authority: CN
Inventors: M·佩奇; R·罗伯茨
Original assignee: Wolfson Microelectronics PLC
Current assignee: Cirrus Logic International UK Ltd; Cirrus Logic International Semiconductor Ltd
Priority date: 2016-11-07
Filing date: 2017-11-06
Publication date: 2019-07-09
Also published as: GB2555661A; US20180130475A1; GB201621721D0; WO2018083495A2; WO2018083495A3

Abstract

本公开内容的实施方案提供了将作为生物测定认证算法的结果所生成的生物测定认证分数与阈值进行比较的方法和装置，该阈值可以根据要求动态地变化以提供可变的安全水平。例如，该阈值可以根据语音信号的语义内容和/或获取语音信号的环境而变化。可以与话语识别并行地启动信号的认证，使得仅在认证已经开始之后才确定适当的阈值。

Description

用于电子设备中的生物测定认证的方法和装置

技术领域

本公开内容的实施例涉及用于电子设备中的生物测定认证的方法和装置，具体地涉及用于认证电子设备的用户的语音(voice)的方法和装置。

背景技术

在行业中对用于移动设备的更安全、更可靠和更方便的用户认证解决方案的不断增长的需求被接受并被宣传。

预期生物测定学(biometrics)将取代密码，特别是在移动平台上，因为长密码难以记忆并且难以在这样的设备上打字。例如，为了改善用户体验，许多移动电话制造商已经在它们的最近的设备中嵌入了指纹传感器，且预期用户将越来越多地采用生物测定学来访问他们的设备和/或设备上的特定功能。其他类型的生物测定认证包括虹膜识别和语音识别。可以组合多种不同类型的认证(例如，密码、指纹/虹膜/语音识别等)，以增加特定操作的安全性。

在行业中理解生物测定认证的两个障碍是认证过程应提供高安全水平同时仍然易于使用的要求。

例如，诸如智能电话等的电子设备的用户要求他们的设备反复正确操作。在生物测定认证领域，这以这样一种期望显露：如果用户确实是设备的授权用户，则该设备不应拒绝生物测定认证的尝试，即，该设备不应错误地拒绝授权用户。每次错误拒绝只会激怒用户，因此生物测定认证过程的错误拒绝率(FRR)应低。

相反，生物测定认证通常被用来保护设备内要求某种水平的授权并且不允许未授权用户对其进行访问的进程或功能。例如，可以采用生物测定认证来控制对设备的访问(即，将设备从锁定状态解锁)，或为由电子设备启动的金融交易提供授权。因此，生物测定认证不应对不是设备的授权用户的用户进行认证；错误接受率(FAR)也应低。

问题是这些要求相互冲突。生物测定认证涉及生物测定输入数据(例如，话语(speech)、指纹图像数据、虹膜图像数据等)的一个或多个方面与所存储的授权用户(例如，已经经历设备登记过程的用户)所特有的生物测定数据的对应方面的比较。生物测定认证算法的输出是指示输入数据和存储数据之间的类似性水平的分数。所使用的精确值可以任何方式定义；然而，为了方便起见，我们在本文中假设分数可以在值0(以指示生物测定输入不来源于授权用户的绝对置信度)和1(以指示生物测定输入数据和存储数据之间的完全类似性)之间变化。

实际上，即使生物测定输入数据来源于授权用户，生物测定输入数据也很少或永远不会达到值范围的极限。因此，生物测定认证过程的设计者通常指派预定阈值(其低于1)，在该预定阈值以上的分数被用来指示生物测定输入数据来自授权用户。为了提高可靠性(即，低FRR)，设计者可能希望将此阈值设定得相对低，以使得真正的用户不被错误地拒绝。然而，低阈值增加了未授权用户将被错误地认证的可能性，即FAR将相对高。

图1是示出了当阈值变化时FRR和FAR之间的此典型关系的示意图。注意，所例示的关系是近似的，且仅意在例示所涉及的基本原理。随着FAR降低，FRR增加，反之亦然。通过更改阈值来选择FAR-FRR关系上的特定操作点。相对高的阈值导致相对低的FAR但相对高的FRR；相对低的阈值导致相对低的FRR但相对高的FAR。

图1还示出了当认证算法的功效由于操作条件改变(例如，因为生物测定输入信号中的噪声增加，或用户和捕获生物测定输入的输入设备之间的距离增加)而降低时FAR-FRR关系的变化。将实线看作起始点。随着认证过程的性能变差，该关系在箭头的方向上向外朝向虚线移动。对于给定的阈值，FAR和FRR二者都增加。

发明内容

常规地，可靠性和安全性之间的冲突要求已经通过对于特定且固定的FAR配置生物测定认证系统得以解决，以实现指定的(高)安全水平。然而，不同的命令和用户操作可能对安全性具有不同的要求。所要求的安全水平也可能受其他环境信息(诸如，用户所处的环境或境况)影响。例如，在汽车内，声学条件(非常高的噪声水平)可能损害可靠性，而所要求的安全性可能相对良好(因为汽车是私人环境)。在该情境下，可能适当的是，以降低的安全性和增强的可靠性的操作点执行认证，以实现对用户有用的可靠性水平。

根据本公开的一个方面，提供了一种执行说话人的生物测定认证的方法，该方法包括：接收语音数据信号，该语音数据信号包括对应于该说话人的语音的数据；对该语音数据信号执行生物测定认证算法，该生物测定认证算法包括该语音数据信号中的一个或多个特征与对应于授权用户的语音的一个或多个存储模板的比较，且该生物测定认证算法被配置为生成生物测定认证分数；接收控制信号，该控制信号包括对错误接受率和错误拒绝率中的一个或多个的指示；基于错误接受率和错误拒绝率中的一个或多个来确定一个或多个阈值；以及，将该生物测定认证分数与所述一个或多个阈值进行比较，以确定该说话人是否对应于该授权用户。

本发明的另一方面提供了一种用于认证说话人的生物测定认证系统，包括：一个生物测定信号处理器，该生物测定信号处理器被配置为对语音数据信号执行生物测定认证算法，该语音数据信号包括对应于该说话人的语音的数据，该生物测定认证算法包括该语音数据信号中的一个或多个特征与对应于授权用户的语音的一个或多个存储模板的比较，且该生物测定认证算法被配置为生成生物测定认证分数；一个输入，被配置为接收控制信号，该控制信号包括对错误接受率和错误拒绝率中的一个或多个的指示；逻辑电路，被配置为基于错误接受率和错误拒绝率中的一个或多个来确定一个或多个阈值；以及，比较逻辑，用于将该生物测定认证分数与所述一个或多个阈值进行比较，以确定该说话人是否对应于该授权用户。

还提供了一种包括上文所描述的生物测定认证系统的电子设备。

本发明的又一方面提供了一种电子设备中的方法，包括：获取对应于该电子设备的用户的语音的语音数据信号；启动话语识别算法，以确定该语音数据信号的内容；确定与该语音数据信号的内容相关联的安全水平；确定当获取该语音数据信号时该电子设备的环境；以及，向生物测定认证系统提供对一个或多个阈值的指示，用于在确定该用户是否为该电子设备的授权用户时使用，其中根据与该内容相关联的安全水平以及当获取该语音数据信号时该电子设备的环境来确定对一个或多个阈值的指示，其中根据以下中的一个或多个来确定该环境：该电子设备的地理位置；该电子设备的速度；该电子设备的加速度；该语音数据信号中的噪声水平；与该电子设备连接的一个或多个外围设备；以及，与该电子设备连接的一个或多个网络。

在另一方面，提供了一种在电子设备中使用的信号处理器，该信号处理器包括：一个输入，被配置为接收对应于该电子设备的用户的语音的语音数据信号；一个话语识别接口，用于启动话语识别算法，以确定该语音数据信号的内容；逻辑电路，用于确定与该语音数据信号的内容相关联的安全水平，且用于确定当获取该语音数据信号时该电子设备的环境；以及，一个输出接口，用于向生物测定认证系统提供对一个或多个阈值的指示，用于在确定该用户是否为该电子设备的授权用户时使用，其中根据与该内容相关联的安全水平以及当获取该语音数据信号时该电子设备的环境来确定对一个或多个阈值的指示，且其中根据以下中的一个或多个来确定该环境：该电子设备的地理位置；该电子设备的速度；该电子设备的加速度；该语音数据信号中的噪声水平；与该电子设备连接的一个或多个外围设备；以及，与该电子设备连接的一个或多个网络。

还提供了一种包括上文所描述的信号处理器的电子设备。

附图说明

为了更好地理解本公开内容的实施例，且为了更清楚地示出如何有效实施所述实施例，现在将仅通过实施例的方式参考下面的附图，在附图中：

图1是示出了生物测定认证过程中的错误接受率(FAR)和错误拒绝率(FRR)之间的关系的示意图；

图2示出了根据本公开内容的实施方案的电子设备；

图3是根据本公开内容的实施方案的一种方法的流程图；

图4是根据本公开内容的实施方案的另一种方法的流程图；

图5例示了根据本公开内容的实施方案的语音输入的处理；

图6例示了根据本公开内容的其他实施方案的语音输入的处理；

图7是示出了根据本公开内容的实施方案的语音输入的处理的时序图。

具体实施方式

图2示出了电子设备100的一个实施例，该电子设备可以例如是移动电话或移动计算设备(诸如，膝上型计算机或平板计算机)。该设备包括：一个或多个麦克风112，用于从用户接收语音输入；说话人识别处理器(SRP)120，该说话人识别处理器被连接到麦克风112；以及，应用处理器(AP)150，该应用处理器被连接到SRP 120。SRP 120可以被设置在分立的集成电路上，例如如例示的。

设备100还包括允许该设备以有线方式或无线方式耦合到外部网络的一个或多个部件，诸如有线接口160(例如，USB接口)或无线传输器模块162，以提供与一个或多个网络(例如，蜂窝网络、本地蓝牙(RTM)或广域电信网络)的无线连接。设备100还可以包括一个或多个存储部件，以更大规模地提供存储器。这些部件在很大程度上是常规的，因此不再对其进行详细描述。

麦克风112被示出为定位在设备10的一端处。然而，所述麦克风可以被定位在该设备上的任何方便的位置处，且可以捕获比仅仅用户的语音更多的声音源。例如，一个麦克风可以被设置以主要捕获用户的语音，而一个或多个其他麦克风可以被设置以捕获周围的噪声，从而使得能够使用有源噪声消除技术。为了在移动电话或其他设备(例如，膝上型计算机)中启用扬声器电话模式，多个麦克风可以被布置在设备10周围且被配置为捕获用户的语音以及周围的噪声。

SRP 120包括用于从麦克风112接收音频数据的一个或多个输入122。与输入122相关联的电路可以包括用于从模拟麦克风接收信号的模-数转换器电路。在一些实施方案中，输入122中的一个或多个可以包括用于从数字麦克风接受信号的数字接口。这样的数字接口可以包括标准的1位脉冲密度调制(PDM)数据流，或可以包括其他数字接口格式。麦克风112中的一些或全部可以直接地或经由其他电路(例如，ADC或编解码器)耦合到输入122，但是在所有情况下，与用于其他目的的输入相比，这样的输入仍被定义为麦克风输入。在该例示中，单个输入122被提供用于来自每个麦克风112的数据。然而，在其他布置中，单个输入122可以被提供用于不止一个或甚至所有麦克风112，例如，如果采用时间复用的数字总线格式(诸如，Soundwire TM)。

SRP 120还包括路由模块124。路由模块124以是可配置的，以从所选定的一个或多个输入122接受音频数据，且将此数据路由到相应的路由模块输出。在一些实施方案中，路由模块124可以是可配置的，以在任何请求的一个或多个路由模块输出上提供来自输入122中的相应的所选定的任何两个或更多个的输入音频数据的混合，因此可以附加地包括混合模块或混合器。路由模块124可以是可配置的，以将相应的定义的增益应用于输入或输出音频数据。在其他实施方案中，数字信号处理器可以被设置并且被配置为提供路由模块124的功能。

在所例示的实施方案中，路由模块124包括两个路由模块输出。第一输出被耦合到音频接口(AIF)128，该音频接口为SRP 120提供音频输出接口且被耦合到AP 150。第二输出被耦合到包括生物测定认证模块(BAM)130的生物测定认证信号路径。

可以根据存储在路由寄存器(未例示)中的值来控制路由模块124的配置。例如，路由寄存器可以存储指定以下中的一个或多个的值：路由模块124在哪个输出处将输出音频数据，每个输出音频数据将基于哪个输入或输入122的组合，以及在混合之前或之后具有什么相应的增益。可以由AP 150(例如，由在AP 150上执行的驱动器软件)从路由寄存器中的每个明确地读出和由AP 150明确地写入路由寄存器中的每个，以便根据不同的使用实例的要求来控制音频数据的路由。

设备100的许多使用实例可能不要求对输入122上存在的数据的生物测定认证。例如，可能要求用户的语音的音频数据，以使设备10作为电话正常地操作。在该情况下，路由模块124可以被配置为将音频语音数据直接输出到音频接口128(例如，可以从该音频接口将它输出到AP 150)。其他使用实例还可能要求将音频数据直接输出到音频接口128。例如，当设备100附加地包括一个或多个摄像机时，它可以被用来记录视频。在该使用实例中，音频数据可以再次被直接路由到音频接口128以被输出到AP 150。

然而，除了AIF 128之外或作为AIF 128的替代，使用实例中的一个或多个可能要求将音频数据提供给生物测定认证信号路径。

该认证信号路径可选地包括数字信号处理器(DSP)126，该数字信号处理器被配置为以一种或多种方式增强音频数据。本领域技术人员将理解，许多算法可以由DSP 126执行，以增强和放大音频数据中对应于用户的语音的那些部分。本公开内容不限于任何特定算法或算法集。例如，DSP 126可以采用一种或多种降噪技术来减轻或消除背景噪声，从而增加音频数据的信噪比。DSP可以使用波束成形技术来改善音频数据的质量。通常，这些技术要求来自多个麦克风112的数据，因此路由模块124可以经由该信号路径将来自多个麦克风的音频数据输出到DSP 126。

因此，来自麦克风122的信号路径可以包括从麦克风到DSP 126的多个导线束。类似地，来自DSP的输出可以包括多个导线束，例如传送对应于不同音频信号频带的信息。因此，术语信号路径应被视为表示从可能地多个并行源到多个并行目的地的总体信息流，而不是必须例如是单个有线连接。在一些实施方案中，这样的信号路径的一部分可以根据从存储器中的第一组定义的存储器位置到第二组定义的位置的受控读出和写入来定义，输入数据已经被供应到第一组定义的存储器位置(例如，从麦克风112)，从所述第二组定义的位置可以由该信号路径中的下一部件(例如，由DSP 126)读出输出数据。

该信号路径还包括语音生物测定认证模块130。语音生物测定认证模块130可以被实施为例如DSP(或者与执行音频增强的DSP 126相同，或者一个不同的DSP)。语音认证模块130对预处理的音频数据执行生物测定认证，以生成认证分数。

生物测定模块130可以访问一个或多个数据库，以允许从音频数据识别用户的语音。例如，认证模块130可以与存储模块132通信，该存储模块含有一个或多个模板或其他数据(诸如，允许设备100的一个或多个授权用户的语音的识别的生物测定声纹(BVP))。在所例示的实施方案中，BVP被存储在设置于SRP 120上的存储器132中。然而，在其他实施方案中，BVP可以被存储在SRP 120外部的存储器132上，或可以被存储在完全远离设备100的服务器上。

在认证模块130中所执行的算法的精确性质与本发明的描述无关，且本领域技术人员将意识到用于执行语音生物测定认证的原理以及若干算法。通常，该过程可以涉及将从所获取的(以及可选地预处理的)音频数据所导出的参数与存储在存储模块132中的对应的参数进行比较。这些参数可以例如与音频数据的Mel频率倒谱系数(MFCC)相关。为了允许与一组其他用户进行并行相对比较，认证模块130还可以访问通用背景模型(UBM)和/或群模型作为认证过程的一部分，且这些可以与BVP一起存储在存储模块132内，该存储模块还可以存储用来运行SRP 120中的算法的固件。

生物测定认证模块的输出是指示音频信号内所含有的语音数据对应于设备100的授权用户的语音的可能性的分数。例如，该分数可以指示音频信号内所含有的语音数据对应于授权用户(与一般说话人(诸如，可以从UBM导出)完全不同)的语音的可能性。该分数可以取认证系统的设计者所要求的任何值，且可以取从下限(指示说话人不是授权人的绝对置信度)延伸到上限(指示说话人是授权人的绝对置信度)的值范围内的一个值。

例如，该分数可以包括对数似然比、后验概率和一个或多个距离度量(metric)中的一个或多个。对数似然比可以被定义为音频信号内所含有的语音数据对应于授权用户(与一般说话人(诸如，可以从UBM导出)完全不同)的语音(例如，BVP)的可能性之间的比率的对数。后验概率可以被定义为授权用户发出音频信号内所含有的语音数据的概率(例如，如果生物测定算法基于贝叶斯原理)。距离度量可以以表示音频信号内所含有的语音数据与存储模块132内所存储的BVP之间的距离的任何方式来定义。例如，距离度量可以包括BVP120内所存储的谱特征与从音频信号所提取的对应的特征之间的总距离。距离度量可以包括表示授权说话人(即，BVP内所含有的)的向量与表示音频信号的对应的向量之间的任何合适的距离(诸如，余弦距离、欧几里德距离等)。例如，矢量可以包括i-矢量或超矢量。

一旦被计算，分数就被输出且被存储在设置于SRP 120上的缓冲存储器134内。

SRP 120还包括用于接收控制信号(例如，从AP 150)和输出控制信号(例如，到AP150)的控制接口(CIF)136。根据本公开内容的实施方案，在CIF 136上所接收的控制信号包括对一个或多个阈值的指示，所述一个或多个阈值将在确定音频信号内所含有的语音是否为授权用户的语音时使用。此指示可以被传递到阈值解释模块138，该阈值解释模块生成在控制信号内指定的阈值，且然后所述阈值被输入到比较电路140。比较电路140将所述阈值与缓冲器134内所存储的生物测定分数进行比较，且生成生物测定认证结果，以指示音频信号内所含有的语音是否为授权用户的语音。例如，如果生物测定分数超过阈值，则比较电路140可以生成肯定结果，以指示音频信号内所含有的语音是授权用户的语音。

控制信号内所含有的数据含有期望的FAR值或FRR值。

从图1可以看出，随着认证算法的性能降低(例如，由于噪声水平增加)，FAR值和FRR值二者都增加。因此，为了实现期望的FAR值或FRR值(即，在控制信号内指定的值)，在一些实施方案中，阈值解释模块138可以基于控制信号内所指定的期望的FAR值或FRR值来确定适当的阈值。阈值解释模块138可以附加地考虑音频信号中的噪声水平的量度(measure)。如果存在语音，则在一个时间窗口上所测量的音频信号的幅度将相对大，且如果不存在语音且信号主要是噪声，则在一个时间窗口上所测量的音频信号的幅度将相对小。因此，一组时间窗口上的幅度范围可以指示相对于音频信号的语音分量的噪声水平。音频信号内的噪声水平的量度可以包括或基于音频信号内的幅度范围。也就是说，音频信号内的相对大的范围可以指示低噪声条件；音频信号内的相对小的范围可以指示高噪声条件。

在一些实施方案中，阈值解释模块138可以包括或访问用于多个不同噪声水平(例如，在查找表中)的相应的多组阈值。每组阈值可以包括期望的FAR值或FRR值与对于给定的噪声水平实现那些期望的FAR值或FRR值的对应的阈值之间的映射。这样的阈值可以凭经验根据大数据集预先确定，或在理论上计算出。

在一个实施方案中，可以根据一个数学模型将分数归一化。例如，可以应用归一化，以使得所有输入音频信号产生可比较的分数，其中噪声对比较的影响被减弱或被完全消除。一种实现这样的归一化的技术在本领域中被称为测试归一化或“TNorm”。

出于此目的，不包括授权用户的一群说话人被认为对输入音频信号评分。该群说话人可以选自存储在SRP 120上(例如，在存储模块132内)的一组示例说话人。该群可以随机地选自该组示例说话人。一旦已经使用性别检测系统(例如，该性别检测系统可以被实施在生物测定认证模块内)检测到这样的说话人的性别，该群就可以被选择成具有与存在于输入音频信号(或“测试”)中的说话人的性别相同的性别。

这产生了一组分数，该组分数提供对于该特定输入音频信号相同性别的冒充者分数(即，具有与输入音频信号相同的性别但不是授权用户)分布的近似值。此组分数被用来遵循此简单的公式表达来“归一化”用户的分数：

其中s_i是将输入音频与该群(i＝1...C)的i元素进行比较所获得的分数，C是该群中的元素的数目，μ和σ是该群的分数的平均值和典型偏差。S_USER是将输入音频与授权用户模型进行比较所获得的分数，且s_NORM是归一化分数。

假设(且对于该领域的技术人员而言其被称为良好近似)相同性别的冒充者分数分布遵循高斯分布，因此在使用该群评估其均值和典型偏差之后，归一化过程生成一个分数，如果是冒充者，该分数将遵循标准的正态分布：

s_NORM～N(0，1)

这样的正态分布可以被用来设定阈值以获得给定的FAR。

这可以通过找到满足以下式子的阈值以数学方式实现：

其中已经假设由与用户不同性别的人发出的音频信号将总是具有太低的分数而不被考虑(因此实际FAR是所建议的积分的一半)。替代地，不同性别的冒充者可以被同等地考虑，就好像它们与相同性别的冒充者一样具有竞争力，且可以在没有项的情况下应用相同的公式表述。

该阈值还可以通过运行实验(即，在开发阶段期间，获得冒充者分数的大数据集)且找到获得期望的FAR的阈值来以实验方式获得。可以在多种条件(例如，噪声、传输条件、记录条件等)下获得该数据集。令是N个归一化冒充者分数的集合(例如，其中N大于)。将遵循的步骤是以下：

1.将S_NORM排序，例如，排序成递降顺序

2.确定所排序的S_NORM中对于期望的FAR满足以下式子的分数

3.将阈值设置为分数

可以使用基于所请求的FAR值或FRR值确定适当的阈值的其他方法，如本领域中已知的。此外，可以采用不止一种方法，例如，以证实阈值并且给出它是适当的的某个置信度。例如，可以采用上文阐述的实验方法和理论方法二者来确定阈值。如果每种方法建议不同的阈值(即，彼此相差多于一个阈值量的阈值)，则可以生成错误消息并且中止该过程。

控制信号中所指示的阈值可以被限制于有限的一组离散值。例如，当控制信号明确地含有阈值本身时，阈值可以通过AP 150从有限数目的阈值中的一个选择。当控制信号含有对期望的FAR值或FRR值的指示时，那些FAR值或FAR值可以通过AP 150从有限数目的FAR值或FRR值中的一个选择。此实施方式的一个优点在于，AP 150不能够用递增地不同的阈值多次运行认证。例如，安装在AP 150上的恶意软件可以通过用递增地不同的阈值重复地运行认证来攻击认证系统，从而确定特定音频输入的细粒度(fine-grained)生物测定分数。这可以允许该软件单调地修改音频输入并且确定生物测定分数是否改变，最终使分数增加直到可以用恶意合成的音频输入假冒认证模块130。通过确保AP 150能够仅从有限的一组阈值选择，可以减轻此风险。

在其他实施方案中，控制信号可以含有多个预定义的标签中的一个或多个，所述多个预定义的标签可映射到特定阈值或特定FAR值或FRR值。在后一种情况下，FAR值和FRR值进而可以被映射到阈值。例如，认证系统可以在多个不同的设置(诸如，“低”、“中等”和“高”)下操作，所述多个不同的设置在控制信号中具有相应的指示。在阈值解释模块138中，这些设置被映射到特定FRR值或FAR值，且被映射到对应的阈值。例如，“低”设置可以指示相对高的FAR值，或相对低的FRR值，因此指示相对低的阈值；“高”设置指示相对低的FAR值，或相对高的FRR值，因此指示相对高的阈值；以及，“中等”设置指示这两个值中间的阈值。然而，实际上可以提供任何数目的设置。此实施方式的一个优点在于，AP 150可以被保持不知道在每种情况下所使用的特定阈值，因此在不同的安全设置下使算法的性能目标的细节模糊。

一旦被生成，生物测定认证结果就经由CIF 136从SRP 120输出并且被提供给AP150，例如以授权设备100的受限操作(诸如，解锁该设备、执行金融交易等)。生物测定认证结果可以被附加有对由比较电路生成该结果所使用的阈值的指示。因此，在控制接口136上接收的控制信号指定特定FAR/FRR值或标签的情况下，生物测定认证结果可以被附加有该相同的FAR/FRR值或标签。这使得AP 150能够检测中间人攻击以更改FAR/FRR操作点的任何尝试，用于计算或与该结果一起指示。

生物测定认证结果可以被认证(即，用数字签名)，以进一步防范试图假冒该结果的中间人攻击，包括防范重放攻击。例如，这可以通过AP 150向SRP 120发送含有一个随机数的生物测定验证结果请求(其可以是含有对将要使用的FAR/FRR值的指示的控制信号或一个不同的控制信号)来执行。然后，SRP 120可以将认证结果附加到此消息，用私人密钥对整个消息签名，且将它发送回AP。然后，AP 150可以用公共密钥证实签名，确保返回的随机数与所发送的随机数匹配，且直到那时才使用生物测定认证结果。

因此，图2公开了一种电子设备100，在该电子设备中，可以在说话人识别处理器120中执行生物测定认证，且操作FAR/FRR点可以由AP 150动态地控制。

一个或多个实施方案可能要求使用话语识别来确定语音数据信号的语义内容。因此，图2附加地含有话语识别模块170，该话语识别模块被配置为确定音频信号内所含有的语音的语义内容。注意，话语识别模块170可以被实施在远离电子设备100的服务器中(例如，在“云”中)，或被实施在AP 150本身中，或被实施在设备100中所设置的另一个电路(诸如，专用话语识别电路)中。在远离电子设备实施话语识别模块170的实施方案中，音频信号(或其相关部分)可以例如经由有线或无线接口160、162而被传达到模块170，且通过相同的机制返回话语识别结果。

如上文所述，设备100的一个或多个操作可能在它们被执行之前要求用户的生物测定认证。例如，以下中的一个或多个可能要求用户的生物测定认证：使用设备100执行金融交易(例如，经由安装在该设备上的银行应用或钱包应用)；访问加密通信，诸如加密电子邮件；改变该设备的安全设置；允许经由锁定屏幕访问该设备；将该设备开机，或以其他方式改变该设备的功率模式(诸如，从睡眠模式唤醒)。要求生物测定认证的一组操作可以是由用户可配置的，以便应用用户对其感到放心的安全水平。

电子设备的用户使用他们的语音来控制他们的设备变得越来越常见。例如，用户可以对他的或她的电子设备说话，以将该电子设备从锁定、睡眠状态唤醒。可能要求用户说出特定的密码或密码短语。关于此的一个众所周知的实施例是使用短语“OK Google”来唤醒运行由Google公司开发的软件的设备或运行由Google公司开发的软件的设备。然而，预期用户将越来越多地使用他们的语音来控制他们的设备以执行多种操作。这样的操作可能要求用户认证，因此期望的是，启用用户可以向他的或她的设备发出命令或密码短语/密码并且即使所请求的操作要求用户认证(即，没有另外的输入)也使设备执行该操作的使用实例。在这些实施方案中，从而在相同的音频输入上执行生物测定认证和话语识别。

图3示出了根据本公开内容的实施方案的一种方法的流程图。可以主要在上文图2中示出的SRP 120中执行该方法。最初，路由模块124可以由AP 150配置为将音频信号从输入122路由到认证信号路径和AIF 128。

在步骤200中，设备100的用户对麦克风112说话，且捕获音频信号并且将该音频信号提供在输入122处。根据路由模块124的配置，音频信号被提供给DSP 126和AIF 128二者。在替代实施方案中，音频信号可以仅被路由到DSP 126，但是DSP 126可以被配置为将音频信号提供给AP 150以及生物测定认证模块130。

SRP 120或AP 150可以包括语音触发检测模块，该语音触发检测模块可操作以在最初检测到音频信号内所含有的界定语音命令的开始的特定词语或短语(诸如，密码或密码短语)时触发认证和/或话语识别。例如，如果语音触发检测模块被设置在SRP 120中，则它可以被实施在DSP 126中，或替代地至少部分地实施在SRP 120内的专用电路上，其可以被设计用于低功率消耗从而被配置为即使在SRP 120的其他部件掉电时也是活动的。

在步骤202中，在检测到触发短语时，启动语音数据信号的生物测定认证。因此，如果存在，则DSP 126可以执行一个或多个算法，所述一个或多个算法可操作以便以一种或多种方式增强音频数据。本领域技术人员将理解，DSP 126可以执行许多算法，以增强和放大音频数据中对应于用户的语音的那些部分。例如，DSP 126可以采用一种或多种降噪技术来减轻或消除背景噪声，从而增加音频数据的信噪比。替代地，DSP 126可以使用波束成形技术来改善音频数据的质量。

然后，生物测定认证模块130接收(可选地增强的)语音数据信号并且启动该信号的生物测定认证，以确定该信号内所含有的语音是授权用户的语音的可能性。

如上文所述，在认证模块130中所执行的算法的精确性质与本发明的描述无关，且本领域技术人员将意识到用于执行语音生物测定认证的原理以及若干算法。通常，该过程可以涉及从所获取的(以及可选地预处理的)音频数据导出的参数与存储在存储模块132中的对应的参数或模板(例如，生物测定声纹(BVP))的比较。这些参数可以例如与音频数据的Mel频率倒谱系数(MFCC)相关。为了允许与一组其他用户进行并行相对比较，认证模块130还可以访问通用背景模型(UBM)和/或群模型作为认证过程的一部分，且其也可以被存储在存储模块132内。

在步骤204中，生物测定认证模块输出指示音频信号内所含有的语音数据对应于设备100的授权用户的语音的可能性的分数。例如，该分数可以指示音频信号内含有的语音数据对应于授权用户(与一般说话人(诸如，可以从UBM导出)完全不同)的语音的可能性。该分数可以取认证系统的设计者所要求的任何值，且可以取从下限(指示说话人不是授权人的绝对置信度)延伸到上限(指示说话人是授权人的绝对置信度)的值范围内的一个值。例如，该分数可以包括对数似然比、后验概率和一个或多个距离度量中的一个或多个。一旦被计算，就在步骤206中输出分数并且将其存储在缓冲存储器134内。

生物测定认证模块130还可以启动算法以确定语音数据信号是否为假冒信号。例如，已知通过记录用户的语音或合成音频信号以对应于用户的语音并且将记录的或合成的信号回放给认证模块以试图“假冒”生物测定认证算法来攻击生物测定认证算法。因此，生物测定认证模块130可以执行算法以确定语音数据信号是否为假冒信号，且生成指示语音数据信号是真实信号(即，不是假冒信号)的可能性的对应的分数。该算法可以确定指示假冒尝试(即，与通过扬声器重放记录或由于意外远场记录的音频造成的混响相关的特征)的谱伪像的存在。例如，生物测定认证模块130可以执行如欧洲专利申请EP2860706中所描述的一种或多种算法。

如上文所述，语音触发检测模块可以在检测到音频信号含有语音内容时触发生物测定认证和/或话语识别。因此，在步骤208中，对在步骤200中所接收的语音数据信号启动话语识别。这样的启动可以涉及SRP 120将音频数据发送到AP 150(例如，通过AIF 128)，且AP 150将音频数据发送到话语识别模块170。

在步骤210中，由SRP 120接收控制信号，该控制信号含有对一个或多个FAR/FRR值的指示，所述一个或多个FAR/FRR值将在确定音频信号内所含有的语音是否为授权用户的语音时使用。如上文所述，该指示可以是例如特定的FAR值或FRR值或预定的标签。

根据本公开内容的实施方案，可以基于语音信号的语义内容来确定FAR/FRR值。下文将关于图4更详细地描述本公开内容的此方面。然而，例如，语音输入可以含有与设备100的对应的受限操作相关联的命令、密码和密码短语中的一个或多个。该受限操作可以与预定安全水平相关联(例如，可由用户、设备100的制造商、设备100上所运行的软件的开发者、操作已经与设备100连接的服务的第三方等中的一个或多个配置)。不同的操作可以与不同的安全水平相关联。例如，金融交易可能要求相对高的(或最高的)安全水平，而解锁设备100可能与相对低的安全水平相关联。因此，可以由AP 150相应地设定FAR/FRR值，以便根据语音数据信号的内容实现期望的安全水平。

根据本公开内容的其他实施方案，FAR/FRR值可以基于获取语音数据信号的环境。例如，AP 150会能够确定以下中的一个或多个：电子设备100的位置；电子设备100的速度；电子设备100的加速度；语音数据信号中的噪声水平；与电子设备100连接的一个或多个外围设备；以及，与电子设备100连接的一个或多个网络。例如，这样的数据可以使得AP 150能够确定设备100是否在与授权用户的家位置或其他已知位置对应的地理位置处。如果所确定的环境与授权用户的预期环境匹配，则可以放宽安全性要求(即，可以将FRR值设定得相对低，而可以将FAR值设定得相对高)；如果所确定的环境与授权用户的预期环境不匹配，则可以维持或增加安全性要求(即，可以将FRR值设定得相对高，而可以将FAR值设定得相对低)。

注意，可以组合这些实施方案，使得基于语音数据信号的语义内容和获取语音数据信号的环境这二者来确定FAR/FRR值。

在所例示的实施方案中，话语识别与生物测定认证并行执行。也就是说，生物测定认证的启动和话语识别的启动可以大体上同时发生，或足够接近发生，使得生物测定认证模块130中所执行的生物测定认证的至少一部分与话语识别模块170中的话语识别的至少一部分同时进行。此并行处理的优点在于，减少了处理音频数据和生成认证结果所要求的时间量，特别是因为生物测定认证和话语识别这二者都是计算上复杂的任务。然而，在其他实施方案中，生物测定认证和话语识别可以顺序发生。

因此，在所例示的实施方案中，在步骤202中已经启动了话语生物测定认证之后，在步骤210中接收控制信号。实际上，在一些实施方案(和所例示的实施方案)中，在步骤204中已经完成了话语生物测定分数生成之后，在步骤210中接收控制信号。这将是预期的，因为根据当前可用的算法，话语识别过程通常比生物测定分数生成过程花费更长的时间。然而，这可能在将来改变，或如上文所述，可以在生物测定分数生成之前执行话语识别。因此，在一些实施方案中，可以在启动生物测定认证之前接收控制信号。

在步骤212中，阈值解释模块138基于FAR/FRR值来确定由控制信号所指示的阈值。在步骤214中，检索存储在缓冲器134中的生物测定分数，且在步骤216中，比较电路将生物测定分数与一个或多个阈值比较。如果生物测定分数在所述阈值以上，则语音数据信号被认证并且生成肯定认证结果，并且该肯定认证结果经由控制接口136传递到AP150。如上文所述，认证结果可以被附加有对比较电路用来生成该结果所使用的阈值的指示(例如，特别是在控制信号本身不含有阈值但是含有预定标签的实施方案中)。生物测定认证结果也可以被认证(即，具有数字签名)。

如果生物测定分数小于所述阈值(或在包括不止一个阈值的实施方案中，小于所述阈值中的至少一个)，则语音数据信号未被认证。否定认证结果可以由比较电路138生成并且经由控制接口136传递到AP 150。再次，该结果可以被附加有对所应用的阈值的指示，且可以被认证。

注意，在一些实施方案中，可以在控制信号中指示不止一个阈值，其中相应的阈值被指示用于与生物测定分数比较(用于确定语音数据信号内的语音是否属于授权用户)，并且被指示用于与抗假冒分数比较(用于确定语音数据信号是真实的还是记录的/合成的)。比较电路可以将个体比较结果组合，以生成总认证结果。例如，如果分数中的任何一个在其相应的阈值以下，则可以由比较电路138生成否定认证结果。在其他实施方案中，可以仅依赖于生物测定分数与其阈值的比较(例如，如果不执行抗假冒算法，或如果抗假冒被认为低风险)。

应注意，还可以以下面的方式指定和利用不止一个阈值。例如，控制信号可以指定上限FAR/FRR值和下限FAR/FRR值(对应于上限阈值和下限阈值)。如果生物测定分数超过上限阈值，则语音数据信号内的语音可以被认证为授权用户的语音。如果生物测定分数小于下限阈值，则可以提供否定认证结果，即，SRP 120确信音频信号内的语音不是授权用户的语音。然而，如果生物测定分数在上限阈值和下限阈值之间，则这指示SRP 120不确定语音是否为授权用户的语音。在该情况下，可以重复认证过程，例如，通过请求用户重复先前发出的密码或密码短语(可能地在较少噪声的环境中)和对不同的音频输入信号执行的认证过程，或通过更改在DSP 126中所执行的音频增强算法，以便更改输入到生物测定认证模块130的信号，从而更改生物测定分数。

图4示出了根据本公开内容的其他实施方案的一种方法的流程图。可以主要在上文图2中示出的AP 150中执行该方法。

在步骤300中，设备100的用户对麦克风112说话，且捕获语音信号并且将该语音信号提供在输入122处。根据路由模块124的配置，音频信号被提供给AP 150并且由AP 150(可能地以及DSP 126和生物测定认证模块130)接收。在替代实施方案中，该音频信号可以经由DSP126被提供给AP 150。

在步骤302中，AP 150对在步骤300中所接收的语音数据信号启动话语识别。这样的启动可以涉及AP 150将音频数据发送到话语识别模块170。如上文所述，话语识别模块170可以被实施在AP 150本身中、被实施在设备100内的分立的专用集成电路中，或被实施在远离设备100的服务器中(例如，在云中)。

在步骤304中，话语识别模块170确定话语内容(也被称为语义内容)并且将该内容返回到AP 150。例如，话语识别模块170可以采用神经网络和大型训练数据集来确定话语内容。替代地，特别是如果话语识别模块170被实施在设备100内，则它可以被配置为识别更有限的单词词语，而不要求连接到远程服务器。然后，AP 150确定话语内容与设备100以及在设备100上所运行的软件的相关性。例如，话语内容可以含有指令设备100执行特定操作的一个或多个命令。例如，该操作可能要求生物测定认证才能被授权。该命令可以是执行特定操作(例如，以获得对受限软件或存储器位置的访问，或以执行要求认证的功能，诸如，金融交易)的指令。替代地或附加地，该命令可以对应于向设备100注册、被用来获得对设备的访问(例如，被用来将设备从睡眠状态或锁定状态唤醒)的密码或密码短语。

假设话语内容含有请求受限操作(因此要求适当的认证)的命令或其他言语(utterance)，AP 150在步骤306中确定与该受限操作相关联的安全水平。可以定义多个不同的安全水平，其中不同的受限操作要求不同的安全水平(如由用户、设备制造商、软件开发者或与该设备连接的第三方(诸如，金融交易中的接收方)配置)。例如，某些操作可能要求相对高的安全水平，诸如，金融交易或在阈值金额以上的金融交易；相反，其他操作可能要求相对低的安全水平，诸如，将设备100从睡眠或锁定状态唤醒。一些所请求的操作可能与低安全要求或无安全要求相关联，但是尽管如此，仅由请求用户的设备100(而不由附近的任何其他设备)执行操作会是方便。例如，用户可以发出不具有安全要求的命令(诸如，核查下一个日程表事件，或天气预报)。尽管如此，仅用户的设备100响应和执行所请求的操作(即，在认证用户的语音时)而不是可能已经检测到用户的语音的任何其他设备响应和执行所请求的操作会是方便的。

在步骤308中，AP 150附加地确定获取语音数据信号的环境。在所例示的实施方案中，此步骤与话语识别并行发生。然而，在其他实施例中，例如，如果话语识别模块170被实施在AP 150本身内，则可以在步骤302和步骤304中的话语识别之后执行此步骤。

例如，AP 150会能够确定以下中的一个或多个：当获取语音数据信号时电子设备100的位置(例如，通过GPS或其他地理定位服务)；当获取语音数据信号时电子设备100的速度(再次，通过GPS或其他类似服务)；当获取语音数据信号时电子设备100的加速度(例如，通过与设备100中的一个或多个加速度计通信)；语音数据信号中的噪声水平(例如，通过分析信号的频率内容和语音噪声比)；当获取语音数据信号时与电子设备100连接的一个或多个外围设备(例如，通过分析设备100的有线接口162或其他接口上的连接)；以及，当获取语音数据信号时与电子设备100连接的一个或多个网络(例如，通过分析有线接口和无线接口160、162上的连接)。

当获取语音数据信号时，这样的数据可以使得AP 150能够确定设备100的环境。例如，AP 150会能够以高程度的确定性确定当获得语音数据信号时设备100位于授权用户的家位置处。许多不同的信息片段可以支持此确定，诸如，设备的地理位置、与一个或多个家庭网络的连接、低移动或零移动等。类似的原理可能适用于授权用户的常规工作场所。AP150会能够确定当获取语音数据信号时设备100是否在机动车辆内。例如，设备的速度、语音数据信号中的噪声分布以及与车载计算机的连接都可以支持这样的确定。

例如，这样的已知的环境可以由授权用户向电子设备100预先注册，或由该设备通过机器学习来学习。

在步骤310中，AP 150确定语音数据信号内含有的命令所要求的认证过程的适当安全水平。

根据本公开内容的实施方案，在步骤306中所确定的安全水平可以指示特定的安全水平。某些受限操作可能委任(mandate)特定安全水平(诸如，最高安全水平)，而不管环境如何。然而，在其他实施方案中，获取语音数据信号的环境可以被附加地用来确定适当的安全水平。例如，如果设备100位于是授权用户已知的环境的环境中，则可以针对某些受限操作降低安全水平，以便增加认证过程的可靠性(即，以降低FRR)。

应注意，在其他实施例中，所有受限操作可以与相同的安全水平相关联，使得获取语音数据信号的环境更改所要求的安全水平，但是受限操作本身不更改。

在步骤312中，AP 150向SRP 120传输控制信号，该控制信号含有对一个或多个FAR/FRR值的指示，所述一个或多个FAR/FRR值将在确定语音数据信号内所含有的语音是否为授权用户的语音时使用。如上文所述，SRP 120且特别是生物测定认证模块130对语音数据信号执行生物测定算法，且产生指示数据信号内的语音是授权用户的语音的可能性的生物测定分数。认证算法可以与步骤302和步骤304中的话语识别同时进行或在其之后进行。如上文所述，该指示可以是例如特定的FAR值或FRR值或预定的标签。

在步骤314中，SRP 120生成认证结果，且此结果由AP 150接收。可以用SRP 120的私人密钥通过签名来认证该认证结果，要求用AP 150内所含有的SRP 120的对应的公共密钥进行解密。

该认证结果还可以含有对用来生成认证结果的FAR/FRR值的指示。这应与步骤312中所传输的控制信号内含有的指示相同。然而，如果不同，则这可以指示“中间人”攻击已经试图通过使用较低的阈值来破坏认证过程，从而使未授权用户更容易获得对受限操作的访问。因此，在步骤316中，AP 150检查以查看认证结果内所含有的指示是否与控制信号内所含有的指示匹配。如果两者匹配，则可以在步骤318中使用认证结果来授权所请求的受限操作。如果两者不匹配，则可以丢弃认证结果并且拒绝所请求的受限操作。

图5例示了根据本公开内容的实施方案的语音输入的处理。

该处理在动作400中开始，在该动作400中，由电子设备的用户说出言语并且该言语由一个或多个麦克风捕获。对应的音频信号被提供给生物测定认证模块402，该生物测定认证模块402对该信号执行生物测定算法并且生成指示音频信号内所含有的语音对应于电子设备的授权用户的语音的可能性的生物测定分数。

在认证模块402中所执行的算法的精确性质与本发明的描述无关，且本领域技术人员将意识到用于执行语音生物测定认证的原理以及若干算法。通常，该过程可以涉及从所获取的(以及可选地预处理的)音频数据导出的参数与存储在与授权用户对应的存储器中的对应的参数或模板(诸如，可以在登记过程期间产生)的比较。这些参数可以例如与音频数据的Mel频率倒谱系数(MFCC)相关。为了允许与一组其他用户进行并行相对比较，认证模块402还可以访问通用背景模型(UBM)和/或群模型作为认证过程的一部分。

生物测定分数可以指示音频信号内所含有的语音数据对应于授权用户(与一般说话人(诸如，可以从UBM导出)完全不同)的语音的可能性。该分数可以取认证系统的设计者所要求的任何值，且可以取从下限(指示说话人不是授权人的绝对置信度)延伸到上限(指示说话人是授权人的绝对置信度)的值范围内的一个值。例如，该分数可以包括对数似然比、后验概率和一个或多个距离度量中的一个或多个。

音频信号还被传递到话语识别模块404，该话语识别模块404确定并且输出音频信号内的言语的内容(也被称为语义内容)。话语识别模块404可以被设置在电子设备中或在远程服务器中。

所确定的内容被传递到安全模块406，该安全模块406确定语义内容的相关性。如果语义内容含有能够在设备内被识别以与受限操作相关的命令(诸如，执行特定任务的指令，或密码或密码短语)，则安全模块406确定与受限操作相关联的安全水平并且输出含有对安全水平的指示的控制信号。安全模块406还可以附加地考虑在捕获言语时该设备的环境。

控制信号由映射模块408接收，该映射模块408将所要求的安全水平映射到用于在确定是否应将用户认证为设备的授权用户时所使用的阈值。然后将该阈值与生物测定分数一起传递到比较器模块410，该比较器模块410比较这两个值并且生成认证结果。如果生物测定分数超过该阈值，则可以将用户认证为设备的授权用户，即，认证结果是肯定的；如果生物测定分数没有超过该阈值，则用户可能未被认证，即，认证结果是否定的。

图6例示了根据本公开内容的其他实施方案的语音输入的处理。此模块化处理可能在电子设备主动监听由一个或多个麦克风所生成的持续的音频信号中的命令或密码短语/密码的存在的模式下是适当的。

该处理在动作500中开始，其中由电子设备的用户说出密码短语或密码，且由一个或多个麦克风捕获对应的音频信号。捕获音频信号并且将该音频信号存储在缓冲存储器中，该缓冲存储器可以是例如循环缓冲器，在该循环缓冲器中数据被写入并且然后在该缓冲器变满时被覆写。

语音触发检测模块502分析缓冲存储器的内容，且一旦检测到密码短语或密码，就向生物测定认证模块504和话语识别模块508发布激活信号。

将音频信号从缓冲器提供给生物测定认证模块504，该生物测定认证模块504对该信号执行生物测定算法并且生成指示音频信号内所含有的语音对应于电子设备的授权用户的语音的可能性的生物测定分数。然后将生物测定分数存储在缓冲存储器506中。

在认证模块504中所执行的算法的精确性质与本发明的描述无关，且本领域技术人员将意识到用于执行语音生物测定认证的原理以及若干算法。通常，该过程可以涉及从所获取的(以及可选地预处理的)音频数据导出的参数与存储在与授权用户对应的存储器中的对应的参数或模板(诸如，可以在注册过程期间产生)的比较。这些参数可以例如与音频数据的Mel频率倒谱系数(MFCC)相关。为了允许与一组其他用户进行并行相对比较，认证模块504还可以访问通用背景模型(UBM)和/或群模型作为认证过程的一部分。

音频信号还被传递到话语识别模块508，该话语识别模块508确定并且输出音频信号内的言语的内容(也被称为语义内容)。话语识别模块508可以被设置在电子设备中或在远程服务器中。

所确定的内容被传递到安全模块510，该安全模块510确定语义内容的相关性。如果语义内容含有在设备内能够被识别以与受限操作相关的命令(诸如，执行特定任务的指令，或密码或密码短语)，或在识别用户确保正确的设备(即，用户的设备)执行所请求的操作的情况下，安全模块406确定与受限操作相关联的安全水平，且输出含有对该安全水平的指示的控制信号。安全模块510可以附加地考虑当捕获言语时设备的环境。

该控制信号由映射模块512接收，该映射模块512将所要求的安全水平映射到在确定用户是否应被认证为设备的授权用户时所使用的阈值。然后将该阈值与生物测定分数一起传递到比较器模块514，该比较器模块514比较这两个值并且生成认证结果。如果生物测定分数超过该阈值，则可以将用户认证为设备的授权用户，即，认证结果是肯定的；如果生物测定分数未超过该阈值，则用户可能未被认证，即，认证结果是否定的。

图7是示出了根据本公开内容的实施方案的语音输入的处理的时序图。再次，所例示的处理可以在电子设备主动监听由一个或多个麦克风所生成的持续的音频信号中的命令或密码短语/密码的存在的模式下是适当的。

该处理开始于捕获音频信号且将该音频信号存储在缓冲存储器中，该缓冲存储器可以是例如循环缓冲器，在该循环缓冲器内数据被写入且然后在该缓冲器变满时被覆写。

与音频信号的缓冲并行地，语音触发检测模块分析缓冲存储器的内容，且一旦在音频数据内检测到触发短语或词语，就发布激活信号以启动缓冲器内所含有的音频信号的生物测定认证和话语识别。因此，可以大体上同时启动生物测定认证和话语识别。

可以立即执行生物测定认证算法，例如，使用上文所描述的认证模块中的任何一个。话语识别可能要求将音频数据传输到远程话语识别服务模块，因此数据的传输要求有限的时间周期。话语识别算法然后可以开始，其中话语识别和生物测定认证同时进行。

期望可以比话语识别更快地处理认证算法，特别是如果远离设备100执行话语识别，因此生物测定认证完成并且将生物测定分数存储在缓冲存储器中。话语识别算法然后完成并且将所确定的音频信号的语义内容传输回到电子设备。根据上文所描述的原理，可以基于所确定的语义内容(以及可选地设备的环境)来确定FAR/FRR值和对应的阈值，且在最后阶段将生物测定分数与该阈值进行比较，以生成认证结果。

因此，本公开内容的实施方案提供了将作为生物测定认证算法的结果而生成的生物测定认证分数与可以根据要求动态地变化以提供可变的安全水平的阈值进行比较的方法和装置。例如，该阈值可以根据语音信号的语义内容和/或获取语音信号的环境而变化。可以与话语识别并行地启动信号的认证，使得仅在认证已经开始(并且或许可能已经完成)之后确定适当的阈值。以此方式，减少了处理生物测定语音输入所要求的时间量。

技术人员将认识到，上文所描述的装置和方法的一些方面(例如，发现方法和配置方法)可以被具体化为处理器控制代码，例如，在非易失性载体介质(诸如，可编程存储器(诸如，闪存)、磁盘、CD-ROM或DVD-ROM)、被编程的存储器(诸如，只读存储器(固件)上，或在数据载体(诸如，光信号载体或电信号载体)上。对于许多应用，本发明的实施方案将在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上实施。因此，代码可以包括常规的程序代码或微代码，或例如用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如，可重新编程的逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如，Verilog^TM或VHDL(超高速集成电路硬件描述语言))的代码。如技术人员将理解的，代码可以被分布在彼此通信的多个耦合的部件之间。在适当的情况下，还可以使用在现场可(重新)编程的模拟阵列或类似设备上运行以配置模拟硬件的代码来实施该实施方案。

注意，如在本文中使用的，术语模块应被用来指代可以至少部分地由专用硬件部件(诸如，自定义电路)所实施的功能单元或块，和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当的代码所实施的功能单元或块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。

实施方案可以包括一个电子设备或被包括在一个电子设备中，所述电子设备尤其是便携式设备和/或电池供电的电子设备，诸如，移动电话、音频播放器、视频播放器、PDA、可穿戴设备、移动计算平台(诸如，智能手机、膝上型计算机或平板计算机)和/或游戏设备、远程控制设备或玩具，或替代地家用电器或其控制器，包括家庭音频系统或设备、家用温度或照明控制系统或安全系统或机器人。

应注意，上文所提及的实施方案例示而非限制本发明，且在不脱离所附权利要求的范围的前提下，本领域技术人员将能够设计许多替代实施方案。“包括”一词不排除权利要求中所列出的元件或步骤之外的元件或步骤的存在，“一”或“一个”不排除多个，且单个特征或其他单元可以实现权利要求中所记载的若干单元的功能。权利要求中的任何附图标记或标注不应被解释为限制其范围。术语(诸如，放大或增益)可能包括将小于“1”的缩放因子应用到信号。

Claims

1.一种执行说话人的生物测定认证的方法，该方法包括：

接收语音数据信号，该语音数据信号包括对应于该说话人的语音的数据；

对该语音数据信号执行生物测定认证算法，该生物测定认证算法包括该语音数据信号中的一个或多个特征与对应于授权用户的语音的一个或多个存储模板的比较，且该生物测定认证算法被配置为生成生物测定认证分数；

接收控制信号，该控制信号包括对错误接受率和错误拒绝率中的一个或多个的指示；

基于错误接受率和错误拒绝率中的一个或多个来确定一个或多个阈值；以及

将该生物测定认证分数与所述一个或多个阈值进行比较，以确定该说话人是否对应于该授权用户。

2.根据权利要求1所述的方法，其中对错误接受率和错误拒绝率中的一个或多个的指示基于该语音数据信号内的内容。

3.根据前述权利要求中任一项所述的方法，还包括：

对该语音数据信号启动话语识别算法，以确定该语音数据信号的语义内容。

4.根据权利要求3所述的方法，其中同时执行该话语识别算法和该生物测定认证算法。

5.根据前述权利要求中任一项所述的方法，还包括：

将该生物测定认证分数存储在缓冲存储器中；以及

在将该生物测定认证分数与所述一个或多个阈值进行比较的步骤之前，从该缓冲存储器读出该生物测定认证分数。

6.根据前述权利要求中任一项所述的方法，还包括：

基于错误接受率和错误拒绝率中的一个或多个以及该语音数据信号中的噪声水平的量度来确定所述一个或多个阈值。

7.根据前述权利要求中任一项所述的方法，其中对错误接受率和错误拒绝率中的一个或多个的指示基于获取该语音数据信号的环境。

8.根据权利要求7所述的方法，其中该环境包括以下中的一个或多个：获取该语音数据信号的电子设备的位置；该电子设备的速度；该电子设备的加速度；该语音数据信号中的噪声水平；与该电子设备连接的一个或多个外围设备；以及，与该电子设备连接的一个或多个网络。

9.一种用于认证说话人的生物测定认证系统，包括：

一个生物测定信号处理器，被配置为对语音数据信号执行生物测定认证算法，该语音数据信号包括对应于该说话人的语音的数据，该生物测定认证算法包括将该语音数据信号中的一个或多个特征与对应于授权用户的语音的一个或多个存储模板的比较，且该生物测定认证算法被配置为生成生物测定认证分数；

一个输入，被配置为接收控制信号，该控制信号包括对错误接受率和错误拒绝率中的一个或多个的指示；

逻辑电路，被配置为基于错误接受率和错误拒绝率中的一个或多个来确定一个或多个阈值；以及

比较逻辑，用于将该生物测定认证分数与所述一个或多个阈值进行比较，以确定该说话人是否对应于该授权用户。

10.根据权利要求9所述的生物测定认证系统，其中所述一个或多个阈值基于该语音数据信号内的内容。

11.根据权利要求9至10中任一项所述的生物测定认证系统，其中该生物测定认证系统还被配置为对该语音数据信号启动话语识别算法。

12.根据权利要求11所述的生物测定认证系统，其中同时执行该话语识别算法和该生物测定认证算法。

13.根据权利要求9至12中任一项所述的生物测定认证系统，还包括一个缓冲存储器，用于存储该生物测定认证分数。

14.根据权利要求9至13中任一项所述的生物测定认证系统，其中该逻辑电路还被配置为基于该语音数据信号中的噪声水平的量度来确定所述一个或多个阈值。

15.根据权利要求9至14中任一项所述的生物测定认证系统，其中对一个或多个阈值的指示基于获取该语音数据信号的环境。

16.根据权利要求15所述的生物测定认证系统，其中该环境包括以下中的一个或多个：该生物测定认证系统的位置；该生物测定认证系统的速度；该生物测定认证系统的加速度；该语音数据信号中的噪声水平；与该生物测定认证系统连接的一个或多个外围设备；以及，与该生物测定认证系统连接的一个或多个网络。

17.一种电子设备，包括：

根据权利要求9至16中任一项所述的生物测定认证系统。

18.根据权利要求17所述的电子设备，还包括：

一个应用处理器，被耦合到该生物测定认证系统。

19.根据权利要求18所述的电子设备，其中该应用处理器被配置为生成包括对错误接受率和错误拒绝率中的一个或多个的指示的控制信号。

20.根据权利要求17至19中任一项所述的电子设备，其中该电子设备是以下中的至少一个：便携式设备；电池供电设备；移动电话；音频播放器；视频播放器；个人数字助理；可穿戴设备；移动计算平台；膝上型计算机；平板计算机；游戏设备；远程控制设备；玩具；家用电器或其控制器；家用温度或照明控制系统；安全系统；以及，机器人。

21.一种电子设备中的方法，包括：

获取对应于该电子设备的用户的语音的语音数据信号；

启动话语识别算法，以确定该语音数据信号的内容；

确定与该语音数据信号的内容相关联的安全水平；

确定当获取该语音数据信号时该电子设备的环境；以及

向生物测定认证系统提供对一个或多个阈值的指示，用于在确定该用户是否为该电子设备的授权用户时使用，

其中根据与该内容相关联的安全水平以及当获取该语音数据信号时该电子设备的环境来确定对一个或多个阈值的指示，且

其中根据以下中的一个或多个来确定该环境：该电子设备的地理位置；该电子设备的速度；该电子设备的加速度；该语音数据信号中的噪声水平；与该电子设备连接的一个或多个外围设备；以及，与该电子设备连接的一个或多个网络。

22.根据权利要求21所述的方法，其中该内容包括命令，且其中与该语音数据信号的内容相关联的安全水平包括执行该命令所要求的安全水平。

23.根据权利要求21至22中任一项所述的方法，其中以下中的一个或多个适用：

根据该电子设备的地理位置来确定该环境，且其中确定该环境包括确定当获取该语音数据信号时该电子设备是否在该授权用户的家位置处；

根据该电子设备的速度和加速度中的至少一个来确定该环境，且其中确定该环境包括确定当获取该语音数据信号时该电子设备是否在车辆运输上；

根据该语音数据信号中的噪声水平来确定该环境，且其中确定该环境包括确定当获取该语音数据信号时该电子设备是否在多个人附近；

根据该语音数据信号中的噪声水平来确定该环境，且其中确定该环境包括确定当获取该语音数据信号时该电子设备是否在汽车内；

根据与该电子设备连接的一个或多个外围设备来确定该环境，且其中确定该环境包括确定是否用所述外围设备获取该语音数据信号；以及

根据与该电子设备连接的一个或多个网络来确定该环境，且其中确定该环境包括确定该电子设备是否连接到该授权用户的已知网络。

24.一种在电子设备中使用的信号处理器，该信号处理器包括：

一个输入，被配置为接收对应于该电子设备的用户的语音的语音数据信号；

一个话语识别接口，用于启动话语识别算法，以确定该语音数据信号的内容；

逻辑电路，用于确定与该语音数据信号的内容相关联的安全水平，且用于确定当获取该语音数据信号时该电子设备的环境；

一个输出接口，用于向生物测定认证系统提供对一个或多个阈值的指示，用于在确定该用户是否为该电子设备的授权用户时使用，

25.根据权利要求24所述的信号处理器，其中该内容包括命令，且其中与该语音数据信号的内容相关联的安全水平包括执行该命令所要求的安全水平。

26.根据权利要求24或25所述的信号处理器，其中，以下中的一个或多个适用：

27.一种电子设备，包括：

根据权利要求24至26中任一项所述的信号处理器。