CN115315699A

CN115315699A - 用于语音用户接口的耳内活性检测

Info

Publication number: CN115315699A
Application number: CN202180023313.7A
Authority: CN
Inventors: 珍·贾斯伯·范登伯格
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2020-03-30
Filing date: 2021-03-15
Publication date: 2022-11-08
Also published as: US11699449B2; US20230306971A1; WO2021200082A1; US12198702B2; TW202141469A; EP4127988A1; US20210304775A1; JP2023519221A; JP7563470B2; EP4127988B1

Abstract

这里介绍了基于输入的“活性”来对讲话者的身份进行认证的方法。为了防止假冒，认证平台可以确定语音样本表示由身份要被认证的讲话者说出的(一个或多个)单词的记录的可能性，然后基于该可能性来确定是否对该讲话者进行认证。

Description

用于语音用户接口的耳内活性检测

相关申请的交叉引用

本申请要求于2020年3月30日提交的题为“In-Ear Liveness Detection forVoice Interfaces”的美国临时申请No.63/002,051的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及计算机安全性中的生物计量认证，并且更具体地，涉及基于一个或多个相关生理特性来增强语音认证的安全性的技术。

背景技术

生物计量认证过程通过独特的生物计量特性来验证个体的身份。这些生物计量特性更难以假冒，并且更加方便，因为相应的个体不必记住密码或管理令牌。相反，认证符号(authenticator)是个体的一部分。

语音识别(也称为“语音认证”)涉及对语音样本进行分析以验证讲话者的身份。各种生理特征(例如，嘴、气道和软组织腔的形状)都会影响语音模式，因此可以为每个个体创建独特的声音简档(profile)。该声音简档可以被称为“声音指纹”或“语音印迹”。

语音认证有两种主要方法，即文本无关方法和文本相关方法。在文本无关方法中，可以使用任何密码短语来执行语音认证。在文本相关方法中，语音认证要求将同一密码短语用于登记和验证。这意味着讲话者将被请求说出预定短语以用于认证目的。然而，随着人工智能驱动(AI驱动)技术的普及，传统的文本无关方法和文本相关方法都遭受到假冒的影响。

附图说明

图1包括常规认证过程的高级图示，其中由电子设备提示未知讲话者说出密码短语，其中，该电子设备生成所说出的密码短语的记录(模拟音频数据的形式)

图2A包括可以被用来对讲话者身份进行认证的系统的高级表示。

图2B示出了图2A的系统的示意性实现方式。

图3A包括被设计用于密码短语认证的系统的高级表示。

图3B包括被设计用于监视发言(monitored speech)认证的系统的高级表示。

图3C包括被设计用于质询-响应认证的系统的高级表示。

图4示出了能够实现认证平台的电子设备的示例，该认证平台被设计为基于由麦克风生成的音频数据和由形状传感器生成的形状数据来对讲话者的身份进行认证。

图5A至图5B包括用于基于表示短语记录的音频数据和表示讲话者讲话时的耳道形状的形状数据来对讲话者进行认证的过程的流程图。

图6A至图6B包括根据密码短语认证方法来执行的认证过程的训练阶段和使用阶段的流程图。

图7A至图7B包括根据监视发言认证方法来执行的认证过程的训练阶段和使用阶段的流程图。

图8A至图8B包括根据质询-响应认证方法来执行的认证过程的训练阶段和使用阶段的流程图。

图9描绘了用于以生物计量的方式对讲话者的身份进行认证的过程的流程图。

图10描绘了用于基于耳道的变形来确定是否对讲话者的身份进行认证的过程的流程图。

图11是示出其中可以实现本文所述的至少一些操作的处理系统的示例的框图。

通过结合附图对具体实施方式进行学习，本领域技术人员将更清楚本文所描述的技术的各种特征。在附图中通过示例而非限制的方式示出了实施例，其中类似的附图标记可以指示类似的元件。虽然附图出于说明的目的描绘了各种实施例，但是本领域技术人员将认识到，在不脱离技术原理的情况下可以采用替代实施例。因此，尽管在附图中示出了特定实施例，但是该技术可以进行各种修改。

具体实施方式

为了在认证程序中进行登记，最初可以提示个体(也称为“用户”)提供被用来创建参考模板的语音样本，其中，未来的语音样本被与该参考模板进行比较以用于认证目的。在较高的层面上，该参考模板表示根据该语音样本确定的声音质量，例如，持续时间、强度、力度和音调等。

图1包括常规认证过程的高级图示，其中由电子设备提示未知讲话者说出密码短语，其中，该电子设备生成所说出的密码短语的记录(模拟音频数据的形式)。电子设备的示例包括移动电话、平板计算机和销售点(POS)系统。此后，可以将模拟音频数据转换为数字表示(例如，在频谱中)。这可以由该电子设备或与该电子设备通信地连接的另一电子设备(例如，计算机服务器)来完成。通过分析模拟音频数据的数字表示，能够识别表示未知讲话者的特征和/或模式。

通常，这些特征和/或模式被与一个或多个参考模板进行比较，以确定未知讲话者的身份。例如，如果未知讲话者试图通过提供语音样本来验证她作为给定个体的身份，则可以将该语音样本与先前为该给定个体创建的参考模板进行比较。如果该语音样本与参考模板匹配，则未知讲话者可以被认证为该给定个体。然而，如果该语音样本与参考模板不匹配，则电子设备可以确定未知讲话者没有成功地验证她的身份。

然而，无论采用哪种语音认证方法，这种技术都易受假冒的影响。就文本相关方法而言，如果未经授权的个体(也称为“假冒者”)能够访问说出密码短语的、被假扮的个体的记录，则假冒者可以简单地启动该记录的重放。尽管文本无关方法被认为可以更安全地应对重放攻击，但是能够创建语音样本的AI驱动的生成器程序造成了安全风险。利用给定个体的足够的语音样本，AI驱动的生成器程序能够生成新的、完全虚构的、非常逼真的语音样本。

因此，本文介绍了基于输入的“活性(liveness)”来对讲话者身份进行认证的方法。为了防止假冒，认证平台可以确定语音样本表示由身份要被认证的讲话者说出的(一个或多个)单词的记录的可能性，然后基于该可能性来确定是否对讲话者进行认证。更具体地，认证平台可以生成指示生物计量特性的“活性信号”，该生物计量特性能够被用来确定讲话者是否实际说出了密码短语。理想情况下，生物计量特性应该对讲话者是独特的，对密码短语是独特的，或者是难以推断/猜测的。

外耳(也称为“耳廓”或“耳郭”)是用于授权的有吸引力的选项，因为当人出生时耳廓和耳道几乎完全形成，并且在该人的整个生命中保持基本上相同的形状。耳道的形状可以被认为是独特的生物计量数据，其能够例如通过麦克风所检测到的探测信号的反射来测量。该生物计量数据可以以若干不同的方式而被使用。

第一，认证平台可以将耳道的变形视为语音样本是由讲话者所提供的证据。例如，假设在耳廓中佩戴电子设备的讲话者被提示说出用于认证的密码短语。在这种情况下，电子设备可以将探测信号发射到耳道中，然后生成表示被耳道反射的探测信号的数据。通过将该数据与指示密码短语的记录的语音样本进行比较，认证平台可以确定讲话者实际说出了该密码短语的可能性。更具体地，认证平台可以检验数据中与密码短语的发声相对应的部分，以确定该数据是否指示说话时耳道如所预期的那样变形。

第二，认证平台可以利用变形本身来进行认证。如上所述，当讲话者移动她的颚时，耳道将以能够被检测到的方式变形。因为耳道本身表示独特的生物计量数据，所以耳道的变形也能够表示独特的生物计量数据。从历史上看，在注册期间，个体可能已被提示说出若干密码短语，使得可能创建了多个参考模板，并且针对每个认证不都使用同一密码短语。本文可以采用类似的方法。然而，替代将在注册期间提供的语音样本转换为参考模板的是，当不同的密码短语被说出时，认证平台可以生成指示耳道的变形的模型。然后，当讲话者被提示说出用于认证为给定个体的密码短语时，认证平台可以确定讲话者说出密码短语时耳道的形状是否匹配与给定个体和密码短语相关联的模型。

出于说明的目的，实施例可以在如下的个体的上下文中进行描述，该个体可听见地说出例如能够被麦克风检测到的密码短语。然而，注意，不管声音是否实际从个体的嘴发出，耳道的变形都会发生。因此，本文使用的术语“说出”可以指可听见的发声，也可以指不可听见的发声。一些情况(例如，拥挤的商店)可能更适合于不可听见地说出或“对口型地说出”密码短语，而不是可听见地说出密码短语。

在下文中，实现方式在计算机可执行指令(例如，由诸如计算机服务器、POS系统、平板计算机或移动电话之类的通用电子设备执行的例程)的上下文中进行描述，但这并不是必需的。实际上，术语“电子设备”通常可以与术语“计算设备”互换使用，因此，“电子设备”可以涉及计算机服务器、POS系统、平板计算机、移动电话以及诸如耳机和助听器之类的各种其他电子设备。

虽然本技术的各种方面(例如某些模块)可以被描述为仅在单个电子设备上执行或主要在单个电子设备上执行，但一些实现方式是在分布式环境中的实践，其中模块在通过诸如局域网(LAN)、广域网(WAN)或互联网之类的网络而被链接的多个电子设备之间共享。例如，讲话者可以被在移动电话上执行的移动应用提示说出密码短语，但是密码短语的记录可以由驻留在通信地连接到该移动电话的计算机服务器上的认证平台来分析。在分布式计算环境中，模块可以位于本地存储器存储设备和远程存储器存储设备中。

术语

本说明书中对“一实施例”或“一个实施例”的引用意味着所描述的特定特征、功能、结构或特性被包括在至少一个实施例中。这些短语的出现不一定指同一实施例，并且它们也不一定指彼此互斥的替代实施例。

词语“包括”和“包含”应被解释为包含性意义，而不是排他性或穷举性意义(即，“包括但不限于”的意义)，除非上下文另有清晰规定。术语“基于”也应被解释为包含性意义，而不是排他性或穷举性意义。因此，术语“基于”旨在表示“至少部分地基于”，除非另有说明。

术语“连接”、“耦合”或其任何变体旨在包括两个或更多个元件之间的直接或间接的任何连接或耦合。连接/耦合可以是物理的、逻辑的或其组合。例如，多个对象可以彼此电耦合或通信地耦合，即使它们不共享物理连接。

术语“模块”泛指软件组件、固件组件和/或硬件组件。模块通常是基于(一个或多个)指定输入生成(一个或多个)输出的功能组件。计算机程序可以包括一个或多个模块。因此，计算机程序可以包括负责完成不同任务的多个模块或负责完成所有任务的单个模块。

术语“或”当参考包括多个项目的列表而被使用时，旨在涵盖所有以下解释：列表中的任何项、列表中的所有项、以及列表中的项的任何组合。

本文描述的任何过程中所执行的步骤的顺序是示例性的。然而，这些步骤可以以各种顺序和组合来执行，除非违背物理可能性。例如，可以向本文描述的过程中添加步骤，或从这些过程中去除步骤。类似地，步骤可以被替换或重新排序。因此，任何过程的描述都旨在是开放式的。

用于认证的活性检测的概述

本文介绍了认证平台，这些认证平台使用耳道的变形作为语音样本是实际由讲话者所提供的生物计量证据。如下面进一步讨论的，可以使用发射到耳道中的探测信号来收集证据，该信号(i)对于讲话者是独特的，并且(ii)对于由讲话引起的动态变形是独特的。该探测信号的反射可以由位于耳朵附近的耳道形状传感器(或简称为“形状传感器”)来检测。

认证平台可以被用来保护生物计量驱动的交易(例如，通过语音接口授权的支付)。因此，认证平台可以被配置为基于如下项来对语音样本进行认证：(i)音频数据的特性特征、和/或(ii)安全性得分，该安全性得分与所测量的耳道形状的特性变化相关联，该所测量的耳道形状的特性变化独特地与正在被认证的语音样本绑定。

下面更详细地讨论若干不同的认证方法。这些方法包括：

·密码短语认证：认证是基于当讲话者说出固定密码短语时的所测量的耳道变形特性的；

·监视发言认证：认证是基于当讲话者正常地与发言驱动的接口或环境进行交互(例如，与企业的职员通话)时的所测量的耳道变形特性的；以及

·质询-响应认证：认证是基于所测量的耳道变形特性的，其中，要认证的短语是在算法上选择的，并且每次执行认证过程时短语可以是不同的。

在一些实施例中，认证平台独立地进行操作以对讲话者的身份进行认证，而在其他实施例中，认证平台结合另一系统进行操作。例如，支付系统可以与认证平台接口连接，以确保支付过程以安全的方式完成。作为一个示例，认证平台可以参与促进按语音支付的支付过程，其中讲话者的语音被用来选择购买的产品或确认交易。作为另一示例，认证平台可以涉及“非语音”支付过程(例如，经由移动应用、web浏览器等完成的交易)，其中耳道的变形可以被用作安全协议的一部分。因此，本文所述的方法可以用于语音驱动的应用和不由语音驱动的应用的上下文中。

认证平台概述

图2A包括可以被用来对讲话者身份进行认证的系统200的高级表示。如图2A所示，系统200可以包括用户接口202、麦克风204、耳道形状传感器(或简称为“形状传感器”)206、处理器208、认证算法210和被存储在存储器(未示出)中的生物计量数据库212。如下面进一步讨论的，系统200的这些元件可以被嵌入在单个电子设备中或分布在多个电子设备中。

用户接口202表示这样的接口：讲话者通过该接口能够与系统200进行交互。用户接口202可以是在电子设备的显示器上示出的发言驱动的图形用户接口(GUI)。替代地，用户接口202可以是在电子设备的显示器上示出的非发言驱动的GUI。在这样的实施例中，用户接口202可以可视地指示出于认证目的而要说出的短语。

同时，麦克风204被配置为生成表示与讲话者的语音相对应的声波的音频数据。例如，假设用户接口202指示讲话者应该说出用于认证的短语。在这种情况下，麦克风204可以记录所说出的短语的语音样本。麦克风204还可以包括必要的模拟或数字信号处理元件(例如，电子电路、处理算法等)以改进声音质量、移除噪声或执行更高级的功能(例如发言识别)。

如上所述，麦克风204被嵌入在电子设备中。在一些实施例中，电子设备与讲话者相关联。例如，麦克风204可以被嵌入在耳机、头戴式耳机(例如，在头戴式耳机本身或连接到头戴式耳机的电缆中)、移动电话、平板计算机、可穿戴设备等中。在其他实施例中，电子设备不与讲话者相关联。例如，麦克风204可以被嵌入在这样的POS系统中：讲话者正试图通过该POS系统来完成交易。

形状传感器206可以是能够检测耳道形状的任何感测装置。理想情况下，该感测装置应该能够以足够高的空间分辨率来检测形状尺寸，以便能够区分许多不同的个体，以及区分在说话时由运动(例如，颚的运动)引起的单个个体的耳道的不同变形。在一个实施例中，形状传感器206是有源感测装置，其包括(i)信号发生器(也称为“声音发生器”或“声源”)和(ii)信号传感器。该信号发生器表示能够将探测信号发送到耳道中的元件。信号发生器的一个示例是振动发生器(例如，激励器)。通常，探测信号表示音频信号，但讲话者可能听不见该音频信号。例如，信号发生器可以被配置为生成频率随时间增大或减小的不可听见的啁啾信号。替代地，信号发生器可以被配置为生成表示白噪声或粉红噪声的音频信号，在这种情况下，脉冲响应可以被用来测量耳道的形状。作为另一个示例，信号发生器可以被配置为生成一时间间隔内的超声信号，该超声信号被发射到耳道中。该时间间隔可以基于例如超声信号的特性、个体的特性、或期望的认证水平的特性。注意，在其中形状传感器206的信号发生器能够发出声音的实施例中，信号发生器也可以充当用户接口202。同时，信号传感器(也称为“声音传感器”)表示这样的元件：该元件能够收集被耳道中的结构反射的探测信号的反射。在一些实施例中，形状传感器206还包括模拟信号处理元件或数字信号处理元件，用于执行诸如噪声去除和频谱滤波之类的功能。

生物计量数据库212可以存储表示所收集的信息的生物计量数据，该所收集的信息表示可以被用来独特性地标识讲话者的发言特性。如下面参考图3A至图3C进一步讨论的，生物计量数据库212中的生物计量数据可以根据系统200采用的认证方法而变化。例如，生物计量数据库212可以包括如下的模型：这些模型指示当不同短语由同一个体或不同个体说出时的耳道变形。每个模型可以表示一系列离散的位置，这些离散的位置指示：当相应短语被说出时相应个体的耳道形状如何随时间变化。这些模型可以被存储在与不同个体相关联的简档中。简档可以包括与单个短语相关联的单个模型、与单个短语相关联的多个模型、或与不同短语相关联的多个模型。

认证算法210当由处理器208执行时可以获得在认证过程期间从个体记录的各种数据作为输入，将该数据与生物计量数据库212中的相应数据进行比较，然后基于该比较输出安全性得分。安全性得分可以表示数字、单词或短语，所述数字、单词或短语指示由认证算法210执行的认证过程的结果。因此，安全性得分可以表示系统200能够将输入数据链接到被存储在生物计量数据库212中的生物计量数据的确定性。如参考图3A至图3C进一步讨论的，认证算法210可以基于取决于认证方法的不同原理来进行操作。

在一些实施例中，系统200的元件被嵌入在单个电子设备中。例如，系统200的所有元件可以被嵌入在可以佩戴在耳廓中或保持在耳廓附近的电子设备中。这样的设备(称为“耳内设备”)可以具有必要的传感器、处理能力和存储器存储库，以实现本文描述的方法。耳内设备的示例包括耳机和助听器。

在其他实施例中，系统200的元件分布在多个电子设备上。例如，系统200的一些元件可以被嵌入在能够被讲话者佩戴在耳廓中的第一电子设备中，而系统200的其他元件可以被嵌入在第二电子设备中。第二电子设备可以是例如移动电话、平板计算机、POS系统或计算机服务器。第二电子设备可以负责提示讲话者说出短语，然后记录表示所说出的短语的音频数据。附加地或替代地，第二电子设备可以负责分析：表示所发出的短语的音频数据、和/或表示从中可以确定耳道变形的形状数据。

图2B示出了图2A的系统的示意性实现方式。最初，电子设备可以指示未知讲话者252通过用户接口说出用于认证的短语。电子设备可以是由未知讲话者252佩戴在耳廓中的电子设备254，或者电子设备可以是位于未知讲话者252附近的另一电子设备256。电子设备256例如可以是与未知讲话者252相关联的移动电话、或与未知讲话者252正试图完成交易的商家相关联的POS系统。

当未知讲话者252说出短语时，可以生成两种类型的数据，即音频数据和形状数据。如上所述，形状数据可以指示当短语被说出时耳道的变形，而音频数据可以表示所说出的短语的记录。如图2B所示，形状数据可以通过由未知讲话者252佩戴在耳廓中的电子设备254来生成。同时，音频数据可以由佩戴在耳廓中的电子设备254或位于未知讲话者252附近的电子设备256来生成。因此，音频数据和形状数据可以由相同的电子设备或不同的电子设备生成。

此后，认证平台258可以检验音频数据和/或形状数据，以确定是否将未知讲话者252认证为给定个体。具体地，认证平台258可以实现认证算法258，该认证算法258被设计为基于以下项来产生安全性得分：(i)根据形状数据所确定的耳道形状是否与为给定个体创建的简档匹配、或者(ii)根据形状数据所确定的耳道形状是否与根据音频数据所确定的短语的发声匹配。如下面进一步讨论的，认证平台258可以在位于耳廓中的电子设备254或位于未知讲话者252附近的电子设备256上实现。替代地，认证平台258可以被完全地实现在某个其他电子设备(例如，通信地连接到电子设备254和/或电子设备256的计算机服务器)上。

在确定未知讲话者252是否应该被认证为她声称的给定个体之后，认证平台258可以生成指示认证状态的通知。这里，该通知被呈现在电子设备256上，以可视地指示认证成功完成。然而，该通知可以由电子设备254呈现，在这种情况下，该通知可以可听见地指示认证成功完成。在一些实施例中，可以不明确地通知未知讲话者252认证成功完成。例如，如果未知讲话者252试图在电子设备256上与商家完成需要认证的交易，则认证平台258可以将通知发送到负责代表商家促进交易的支付处理器。

虽然电子设备254可以说成是位于“耳廓中”，但实际上可以是电子设备254的仅一部分位于耳廓中。例如，电子设备254的一部分可以位于耳廓中，而电子设备254的其余部分可以位于耳廓外。替代地，整个电子设备254可以位于耳廓中，如一些耳机和助听器的情况。在其他实施例中，电子设备254被放在耳廓附近而不是在耳廓中。例如，当认证被执行时，未知讲话者252可以选择将电子设备保持在耳廓附近。

图3A至图3C包括图2A中所示的系统200的变体的高级表示，这些变体被设计用于特定的认证方法。下面更详细地描述这些变体中的每一个。

图3A包括被设计用于密码短语认证的系统300A的高级表示。如图3A所示，系统300A可以包括类似于图2A的系统200的用户接口302、麦克风304、形状传感器306和处理器308。然而，此处，认证是基于密码短语来执行的。本文中使用的术语“密码短语”是指用作基于发言的认证的基础的短语。密码短语可以包括单个单词，或者密码短语可以包括多个单词。当系统300A被设计用于密码短语认证时，生物计量数据库312A可以包括若干形式的生物计量数据，即密码短语音频数据和密码短语耳道形状数据(或简称为“密码短语形状数据”)，其中，密码短语音频数据表示关于个体说出(一个或多个)密码短语的记录的信息，并且密码短语耳道形状数据表示关于当个体说出那些(一个或多个)密码短语时形状传感器306的动态读数的信息。

当系统300A被设计用于密码短语认证时，认证算法310A可以被配置为针对每个说出的密码短语产生安全性得分。例如，假设个体被指示说出密码短语，那么系统300A获得由麦克风304生成的音频数据和由形状传感器306生成的形状数据。在这种情况下，认证算法310A可以将音频数据与被存储在生物计量数据库312A中的密码短语音频数据进行比较，将形状数据与被存储在生物计量数据库312A中的密码短语形状数据进行比较，然后基于这些比较来计算安全性得分。例如，认证算法310A可以基于音频数据和密码短语音频数据之间的相似性水平来生成安全性得分，然后基于形状数据和密码短语形状数据之间的相似性水平来确定是否需要调整。作为一个示例，认证算法310A可以将安全性得分乘以基于形状数据和密码短语形状数据之间的相似性水平确定的因子(例如，1.0、0.8、0.6)。通常，这确保了只有当认证算法310A确定形状数据基本上与密码短语形状数据匹配(并且因此确定个体实际说出了密码短语)时，安全性得分才会保持为高。

密码短语认证提供了优于其他认证方法的若干优点。第一，认证过程是鲁棒的，这是因为每次需要认证时使用相同的短语(或相同的短语集合)。第二，如果密码短语以某种方式被泄露，则假冒者难以猜测密码短语与充当生物计量认证符号的耳道形状之间的一般关系。第三，可以将不同的密码短语用于不同的认证措施，因此认证过程可以被独立地用于不同的应用，而不会在这些应用之间泄漏生物计量认证符号。

图3B包括被设计用于监视发言认证的系统300B的高级表示。如图3B所示，系统300B可以包括类似于图2A的系统200的用户接口302、麦克风304、形状传感器306和处理器308。然而，此处，认证是基于个体说出的任何给定短语与个体耳道的相关动态形状之间的一般关系来执行的。这可以是如下的认证的基础：该认证是通过当个体与用户接口302进行交互时进行连续监视而执行的。在这样的实施例中，生物计量数据库312B可以包括表示上述关系的音频-形状传递函数。音频-形状传递函数可以被系统300B用来预测针对由个体说出的发言的任何给定音频记录的随时间变化的耳道形状。替代地，可以使用音频-形状传递函数的反函数。换句话说，对于耳道的给定形状，系统300B可以预测由个体说出的发言的相应音频记录。

当系统300B被设计用于监视发言认证时，认证算法310B可以被配置为基于当个体与用户接口302或某个其他设备、系统或人进行交互时所记录的音频数据和形状数据来产生安全性得分。例如，假设个体正试图通过由商家管理的POS系统完成交易。在这样的场景中，POS系统可以记录由个体说出的发言(例如，在与商家的雇员交谈时，在评论POS系统中示出的内容时)。作为另一个示例，个体所佩戴的耳机可以负责记录所说出的发言。与密码短语认证相比，监视发言认证表示记录由个体出于认证目的而说出的发言的更自然的选项。

由于预定的密码短语不被用于监视发言认证，因此可以使用音频-形状传递函数来确定讲话者是她声称的人的可能性。因此，系统300B可以包括传递函数计算算法314A，该算法当由处理器308执行时基于训练示例集合来计算传递函数。每个训练示例可以表示相应的一组音频数据和形状数据，它们一起指示当给定个体说出(一个或多个)单词时耳道的形状如何变化。因此，由传递函数计算算法314A计算的传递函数可以指示音频与给定个体的耳道形状的相关性情况。当系统300B随后获得讲话者的音频数据和形状数据时，可以将音频数据和形状数据与为讲话者声称的个体创建的传递函数进行比较，以产生安全性得分。

监视发言认证提供了优于其他认证方法的若干优点。第一，因为每次需要认证时使用不同的短语，认证过程对于重复攻击(也称为“重放攻击”)是鲁棒的，在重复攻击中，生物计量认证符号被盗并且随后由试图欺骗认证系统的假冒者呈现。第二，该方法由于其适配监视持续时间的能力而允许实现增加的安全性。一些情况可能要求延长的监视持续时间(例如，几分钟的长度)，而其他情况可能要求较短的监视持续时间(例如，几秒的长度)。第三，监视往往是非打扰性的(non-intrusive)，因为它可以在个体正常地与她的电子设备和/或环境进行交互时执行，而不需要个体专门启动认证过程。

图3C包括被设计用于质询-响应认证的系统300C的高级表示。如图3C所示，系统300C可以包括类似于图2A的系统200的用户接口302、麦克风304、形状传感器306和处理器308。然而，此处，认证是基于质询和响应之间的一般关系来执行的。这里使用的术语“质询”指的是经由用户接口302呈现给个体的输入，而这里使用的术语“响应”指的是响应于/反应于输入而说出的短语。在这样的实施例中，生物计量数据库312C可以包括质询-形状传递函数，其表示任何质询与当个体说出响应短语时耳道的动态形状的读数之间的一般关系。此外，生物计量数据库312C可以包括质询-音频传递函数，其表示任何质询与由个体说出的响应短语的音频记录之间的一般关系。

当系统300C被设计用于质询-响应认证时，认证算法310C可以被配置为基于当个体说出对给定质询的响应短语时所记录的音频数据和形状数据来产生安全性得分。非常类似于监视发言认证，传递函数可以被用在质询-响应认证中，以确定讲话者是她声称的人的可能性。因此，系统300C可以包括传递函数计算算法314B，该传递函数计算算法314B当由处理器308执行时基于训练示例集合来计算多个传递函数。每个训练示例可以表示相应的一组音频数据和形状数据，它们一起指示当给定个体说出响应短语时，其耳道的形状如何变化。因此，由传递函数计算算法314B计算的传递函数可以包括：(i)质询-形状传递函数，其指示耳道形状与给定个体的质询的相关性情况；以及(ii)质询-音频传递函数，其指示音频与给定个体的质询的相关性情况。当系统300C随后获得讲话者的形状数据和音频数据时，可以将该形状数据和该音频数据分别与质询-形状传递函数和质询-音频传递函数进行比较以产生安全性得分，其中，该质询-形状传递函数和该质询-音频传递函数是为讲话者声称的个体创建的。

在一些实施例中，系统300C还包括质询生成算法316，其能够生成随后呈现给要被认证个体的质询。可以对质询生成算法316进行编程，使得每次执行认证过程时(例如，针对给定个体、由给定电子设备执行等)质询是不同的，以提高安全性。例如，每次个体要被认证时，可以向个体呈现不同的质询。计算设备(例如，与商家相关联的POS系统)可以向不同的个体呈现相同的质询，或者计算设备可以在每次音频数据将出于认证目的而被记录时呈现不同的质询。此外，质询生成算法316可以基于所需的安全性水平来适应性调整质询的特性。例如，如果在敏感上下文中寻求认证(例如，访问个人信息或金融信息)，则质询生成算法316可以要求响应短语具有增加的长度或复杂度。

质询-响应认证提供了优于其他认证方法的若干优点。第一，认证过程对于重复攻击是鲁棒的，因为每次需要认证时，用于认证的响应短语可以是不同的。第二，该方法由于其适配诸如响应短语的长度和复杂度的参数的能力而允许实现增加的安全性。

图4示出了能够实现认证平台的电子设备400的示例，该认证平台被设计为基于由麦克风408生成的音频数据和由形状传感器410生成的形状数据来对讲话者的身份进行认证。如上所述，形状传感器410可以将探测信号发射到耳道中，然后基于由耳道中的结构对探测信号的反射来生成形状数据。在一些实施例中，探测信号是声学信号(例如，啁啾信号)，因此在那些实施例中，形状数据也可以是音频数据。

在一些实施例中，认证平台414被体现为由电子设备400执行的计算机程序。例如，认证平台414可以驻留在能够获得音频数据和形状数据的耳机或助听器上，并且随后基于音频数据和形状数据来确定是否对讲话者进行认证。在其他实施例中，认证平台414被体现为由与电子设备400通信地连接的另一电子设备执行的计算机程序。在这样的实施例中，电子设备400可以将音频数据和形状数据发送到其他电子设备以进行处理。本领域技术人员将认识到，认证平台的各方面也可以分布在多个电子设备上。

电子设备400可以包括处理器402、存储器404、用户接口(UI)输出机构406、麦克风408、形状传感器410和通信模块412。通信模块412例如可以是无线通信电路，其被设计为与其他电子设备建立通信信道。无线通信电路的示例包括被配置用于蓝牙、Wi-Fi以及NFC等的集成电路(也称为“芯片”)。处理器402可以具有类似于通用处理器的通用特性，或者处理器402可以是向电子设备400提供控制功能的专用集成电路(ASIC)。如图4所示，出于通信目的，处理器402可以直接或间接地耦合到电子设备400的所有组件。

存储器404可以包括任何适当类型的存储介质，例如，静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、或寄存器。存储器404除了存储可以由处理器402执行的指令之外，还可以存储由麦克风408生成的音频数据、由形状传感器410生成的形状数据、以及由处理器402生成的数据(例如，当执行认证平台414的模块时)。注意，存储器404仅仅是存储环境的抽象表示。存储器404可以包括实际的存储器芯片或模块。

如上所述，麦克风408可以被配置为生成表示与讲话者的语音相对应的声波的音频数据。在一些实施例中，麦克风408是“常开”的。因此，麦克风408可以连续地记录音频数据，而不管是否正在执行认证过程。在其他实施例中，响应于确定要执行认证过程，由处理器402激活麦克风408。例如，处理器402可以在确定认证平台414已指示用户接口(UI)模块420通过UI输出机制406致使内容的呈现后激活麦克风408。

形状传感器410可以是能够检测耳道形状的任何感测装置。如上所述，形状传感器可以被配置为将探测信号发送到耳道中，然后收集被耳道中的结构反射的探测信号的反射。这些反射可以表示形状数据，从该形状数据可以确定耳道的形状。

通信模块412可以管理电子设备400的组件之间的通信。通信模块412还可以管理与其他电子设备的通信。电子设备的示例包括耳机、头戴式耳机、助听器、移动电话、平板计算机、个人计算机和包括(一个或多个)计算机服务器的网络可访问服务器系统。例如，在其中电子设备400是耳机的实施例中，通信模块412可以通信地连接到负责检验分别由麦克风408和形状传感器410生成的音频数据和形状数据的网络可访问服务器系统。

为方便起见，认证平台414可以被称为驻留在存储器404中的计算机程序。然而，认证平台414可以包括在电子设备400中实现的软件、固件和/或硬件组件，或包括能够由电子设备400访问的软件、固件和/或硬件组件。根据本文所述的实施例，认证平台414可以包括处理模块416、认证模块418和UI模块420。这些模块可以是认证平台414的组成部分。替代地，这些模块可以在逻辑上与认证平台414分离，但在其“旁边”进行操作。这些模块一起可以使认证平台414能够基于对分别由麦克风408和形状传感器410生成的音频数据和形状数据的分析来对讲话者的身份进行认证。

处理模块416可以负责将操作应用于由认证平台414获得的数据。例如，如上所述，当讲话者被提示说出(一个或多个)单词以用于认证目的时，麦克风408可以随时间生成音频数据。处理模块416可以对此音频数据进行处理(例如，降噪、过滤或以其他方式更改)，使得其能够由认证平台414的其他模块使用。类似地，处理模块416可以负责对由形状传感器410生成的形状数据进行处理，使得其能够由认证平台414的其他模块使用。作为一个示例，处理模块416可以检验形状数据，以去除离群值和/或形成表示耳道随时间的变形的模型。

认证模块418可以负责根据需要实现本文描述的算法，以实现各种认证方法。例如，认证模块418可以被配置为执行图3A至图3C的认证算法310A-C、传递函数计算算法314A-B、或质询生成算法316。因此，对于每个认证过程，认证模块418可以产生安全性得分，该安全性得分可以被用来基于分别从麦克风408和形状传感器410获得的音频数据和形状数据来确定认证是否适当。

其他模块也可以被包括作为认证平台414的一部分。例如，UI模块420可以负责生成要由UI输出机构406输出以呈现给讲话者的内容。内容的形式可以取决于UI输出机制406的性质。例如，如果UI输出机构406是扬声器，则内容可以包括可听见的指令，用于指示说出用于认证目的的短语。作为另一示例，如果UI输出机制406是显示器，则内容可以包括可视指令，用于指示说出用于认证目的的短语。

用于认证的方法

图5A至图5B包括用于基于表示短语记录的音频数据和表示讲话者讲话时的耳道形状的形状数据来对讲话者进行认证的过程的流程图。图6A至图6B、图7A至图7B和图8A至图8B分别包括在密码短语认证、监视发言认证和质询-响应认证的上下文中的这些过程的流程图。注意，除非另有说明，否则这些过程的步骤可以与其他过程的步骤组合。

如图5A至图5B所示，认证过程具有两个短语，即训练阶段500和使用阶段550。

在训练阶段500中，用户接口最初可以提示个体执行测试记录(步骤501)。例如，在指示对参与认证程序的兴趣后，个体可以被请求完成注册过程。作为注册过程的一部分，个体可以被请求说出包括一个或多个单词的短语。取决于认证程序的要求，该短语可以是密码或某个其他词。当个体说出短语时，麦克风可以记录音频数据(步骤502)，并且形状传感器可以记录形状数据(步骤503)。音频数据可以表示由个体说出的短语的一部分或全部的记录，并且形状数据可以表示当短语被个体说出时的关于耳道形状的信息(并且因此表示关于耳道变形的信息)。总之，音频数据和形状数据可以被称为个体的“生物计量数据”。该生物计量数据的至少一部分可以被存储在生物计量数据库中(步骤504)，使得其可以在随后的认证过程中使用。如上所述，生物计量数据库的实际内容可以取决于要使用生物计量数据的认证方法而变化。

在使用阶段550中，作为认证过程的一部分，发起对讲话者的记录(步骤551)。例如，电子设备(例如，图4的电子设备400)可以通过生成通知来提示讲话者说出短语，以便对她的身份进行认证。该通知可以是可听到的、可视的或可触知的。作为一个示例，由讲话者佩戴在耳廓中的耳机可以发出指示说出短语的口头命令。作为另一示例，与讲话者相关联的移动电话可以发出指示说出短语的可视命令。

当讲话者说出短语时，麦克风可以记录音频数据(步骤552)，并且形状传感器可以记录形状数据(步骤553)。认证过程的使用阶段550一旦开始，麦克风和形状传感器就可以生成数据，或者在电子设备提示讲话者说出短语之后，麦克风和形状传感器可以立即生成数据。

如上所述，在一些实施例中，麦克风和形状传感器都不被嵌入在提示讲话者说出短语的电子设备中。例如，电子设备可以是讲话者试图在其上完成交易的移动电话，并且麦克风和形状传感器可以被嵌入在由讲话者佩戴在耳廓中的耳机内。在其他实施例中，麦克风被嵌入在电子设备中，但是形状传感器被嵌入在另一电子设备中。使用上述示例，麦克风可以被嵌入在讲话者试图完成交易的电子设备中，而形状传感器可以被嵌入在耳机中。在其他实施例中，麦克风和形状传感器被嵌入在提示讲话者说出短语的电子设备中。例如，麦克风和形状传感器可以被嵌入在也提示讲话者说出短语的耳机中。

音频数据和形状数据共同表示讲话者的生物计量数据。认证算法可以将该生物计量数据(也称为“记录数据”)与生物计量数据库进行比较(步骤554)。可以根据例如认证方法以若干种方式执行该比较。一种方式涉及将讲话者的记录数据与被存储在生物计量数据库中的生物计量数据直接进行比较，以试图找到匹配条目。该选项可以用于密码短语认证的上下文中。替代地，可以将记录数据与使用被存储在生物计量数据库中的传递函数创建的预测生物计量数据(或简称为“预测数据”)进行比较。该选项可以在监视发言认证或质询-响应认证的上下文中使用。

此外，认证算法可以产生安全性得分(步骤555)。安全性得分可以被用来确定讲话者是否应该被认证为特定个体。通常，只有当安全性得分(基于记录数据与所存储的与特定个体相关联的生物计量数据(或简称为“存储数据”)的比较而确定)超过阈值时，才将讲话者认证为特定个体。

在一些实施例中，认证算法被配置为计算记录数据和存储数据之间的相关系数、或记录数据和预测数据之间的相关系数。除了相关系数之外或代替相关系数，可以计算其他指标。这些指标可以涉及更先进的数据分析和操纵技术，例如，特征提取和比较、频谱分析、或可以指示记录数据与存储数据或预测数据之间的相似性的其他数学函数。

基于该比较，认证算法可以计算安全性得分，该安全性得分被提供作为输出。例如，认证算法可以利用指示(一个或多个)指标和相应的安全性得分之间的关系的函数或查找表。作为一个示例，假设生物计量数据库已经存储了十个模型(也称为“实例”)，这些模型指示当个体说出短语时的耳道变形。然后将指示当未知讲话者说出相同短语时的耳道变形的记录数据与这十个模型进行比较。这种比较产生被与阈值(例如，0.950)相比较的平均相关系数(例如，0.992)。如果平均相关系数超过阈值，则认证算法可以输出这样的安全性得分：该安全性得分指示未知讲话者“通过”并且因此被认证为该个体。然而，如果平均相关系数没有超过阈值，则认证算法可以输出这样的安全性得分：该安全性得分指示未知讲话者“未通过”并且因此不被认证为该个体。

图6A至图6B包括根据密码短语认证方法来执行的认证过程的训练阶段600和使用阶段650的流程图。如可以在图6A至图6B中看到的，认证过程的训练阶段600和使用阶段650可以在很大程度上类似于图5A至图5B的训练阶段500和使用阶段550。

在训练阶段600中，用户接口最初可以提示个体说出密码短语(步骤601)。例如，作为认证程序的注册过程的一部分，个体可以被请求说出密码短语，该密码短语随后将被用于认证。密码短语可以是单个单词或单词的集合(例如，覆盖大的发音音域、包括字母表中的大部分字母等的句子)。本领域技术人员将认识到，注册过程可能需要个体多次说出相同的密码短语和/或说出不同的密码短语。因此，训练阶段600可以连续地完成多次。

当个体说出密码短语时，麦克风可以记录音频数据(步骤602)，并且形状传感器可以记录形状数据(步骤603)。总之，音频数据和形状数据可以被称为个体的“生物计量数据”。该生物计量数据的至少一部分可以被存储在生物计量数据库中(步骤604)，使得其可以在随后的认证过程中被使用。该生物计量数据可以包括原始传感器测量结果或那些测量结果的表示(例如，对多个测量结果取平均的值、压缩数据、或从那些测量结果提取的特征/指标)。

在使用阶段650，用户接口最初可以提示讲话者说出密码短语作为认证过程的一部分(步骤651)。例如，电子设备(例如，图4的电子设备400)可以提示讲话者说出密码短语以便对她的身份进行认证。当讲话者说出密码短语时，麦克风可以记录音频数据(步骤652)，并且形状传感器可以记录形状数据(步骤653)。认证过程的使用阶段650一旦开始，就可以由麦克风和形状传感器生成数据，或者可以在电子设备提示讲话者说出密码短语之后立即由麦克风和形状传感器生成数据。

音频数据和形状数据共同表示讲话者的生物计量数据。认证算法可以将该生物计量数据(也称为“记录数据”)与生物计量数据库进行比较(步骤654)。例如，如果讲话者试图将她的身份认证为特定个体，则认证算法可以直接将记录数据与生物计量数据库中与该特定个体相关联的生物计量数据进行比较。此外，认证算法可以产生安全性得分(步骤655)。安全性得分可以被用来确定讲话者是否应该被认证为特定个体。如上所述，如果安全性得分超过阈值，则讲话者可以被认证为特定个体。安全性得分可以是相关系数或某个其他指标。

图7A至图7B包括根据监视发言认证方法来执行的认证过程的训练阶段700和使用阶段750的流程图。

在训练阶段700中，用户接口最初可以提示个体执行测试记录(步骤701)。例如，作为认证程序的注册过程的一部分，个体可以被提示阅读所选择的文本段落，或者可以在个体自然地与语音驱动接口或其周围环境(例如，与一些其他设备、系统或个体)进行交互时记录个体。本领域技术人员将认识到，测试记录可以持续几秒或几分钟，这取决于记录发言的期望量。当个体执行测试记录时，麦克风可以记录音频数据(步骤702)，并且形状传感器可以记录形状数据(步骤703)。总之，音频数据和形状数据可以被称为个体的“生物计量数据”。

传递函数计算算法然后可以基于音频数据和形状数据来计算音频-形状传递函数(步骤704)。例如，传递函数计算算法可以获得与给定短语相关联的音频数据作为输入，并且然后使用表示回归模型或预测机器学习(ML)模型等的音频-形状传递函数来预测相应的形状数据。然后，传递函数计算算法可以基于预测形状数据和由形状传感器记录的实际形状数据之间的相似性，来调整音频-形状传递函数的变量。在较高的层面上，传递函数计算算法可以改变变量，以试图使所预测的形状数据基本上与所记录的形状数据匹配。传递函数计算算法可以对共同定义一个集合的多个短语重复该过程。可以基于例如检测到的声音质量、讲出的单词/字母、音调、速度等的变化来选择该集合中的短语。然后可以将音频-形状传递函数作为生物计量数据存储在生物计量数据库中(步骤705)。

使用阶段750可以简单地开始于讲话者说出短语(步骤751)。与图5B和图6B的使用阶段550、650相比，可以不提示讲话者说出特定短语。替代地，短语可以简单地是当讲话者与负责促进认证过程的电子设备或与其周围环境进行交互时由讲话者说出的任何短语。当讲话者说出短语时，麦克风可以记录音频数据(步骤752)，并且形状传感器可以记录形状数据(步骤753)。认证过程的使用阶段750一旦开始，就可以由麦克风和形状传感器生成数据。例如，可以由麦克风和形状传感器响应于检测到讲话者自然地说出了预定词(例如，“认证”或“验证”)或短语(例如，“需要认证”)而生成数据。作为另一示例，可以由麦克风和形状传感器响应于确定讲话者试图完成需要认证的动作而生成数据。

音频数据和形状数据共同表示讲话者的生物计量数据。认证算法可以使用音频-形状传递函数，来确定该生物计量数据之间的相似性(步骤754)。例如，认证算法可以使用音频-形状传递函数，来预测与所记录的音频数据相对应的形状数据。然后，认证算法可以确定所预测的形状数据和由形状传感器针对讲话者所记录的实际形状数据之间的相似性。例如，认证算法可以针对所预测的形状数据和所记录的形状数据，来计算相关系数或一些其他相似性指标。此外，认证算法可以产生安全性得分(步骤755)。安全性得分可以被用来确定讲话者是否应该被认证为她声称的个体。如果安全性得分低和/或具有高度不确定性，则可以继续监视讲话者。例如，使用阶段750可以在几秒、几分钟或几小时内的过程中执行多次，直到认证算法以足够的确定性确定了讲话者是否应该被认证。

图8A至图8B包括根据质询-响应认证方法来执行的认证过程的训练阶段800和使用阶段850的流程图。

在训练阶段800中，用户接口最初可以通过收集对一个或多个质询的响应短语来提示个体执行测试记录(步骤801)。例如，作为认证程序的注册过程的一部分，个体可以被请求对由质询生成算法(例如，图3C的质询生成算法316)创建的质询集合进行响应。例如，质询生成算法可以从质询标准数据库中随机选择每个质询。作为另一示例，质询生成算法可以确定所需的安全性水平(例如，对于需要认证的要执行的动作的类型、对于要采用的认证方法的类型)，然后从质询标准数据库中选择满足这些安全要求的质询。通常，与更长和/或更复杂的响应短语相关联的那些质询被认为是更安全的(并且因此导致更鲁棒的认证)。当个体说出响应短语时，麦克风可以记录音频数据(步骤802)，并且形状传感器可以记录形状数据(步骤803)。总之，音频数据和形状数据可以被称为个体的“生物计量数据”。

传递函数计算算法然后可以基于音频数据来计算质询-音频传递函数(步骤804)。附加地或替代地，传递函数计算算法可以基于形状数据来计算质询-形状传递函数(步骤805)。这些传递函数可以被设计为针对给定质询的响应短语产生音频数据或形状数据。质询及其相应的响应短语的示例包括：

·一个或多个单词被可听见地传达作为质询，并且讲话者被请求重复那些(一个或多个)单词；

·数字方程被可视地传达作为质询，并且讲话者被请求说出答案；以及

·众所周知的人或项目的图像被可视地传达作为质询，并且讲话者被询问以识别该人(例如，通过名或姓)或项目。

传递函数计算算法可以按照与上面参考图7A描述的音频-形状传递函数所描述的类似方法，来确定质询-音频传递函数和/或质询-形状传递函数。然而，此处，输入是所需的响应短语，而输出是相应音频数据或相应形状数据的预测。

如上所述，作为训练阶段800的一部分，可以向个体呈现一系列质询。因此，传递函数计算算法可以对整个质询序列重复步骤804和/或步骤805。一旦完成，所有的传递函数可以作为生物计量数据被存储在生物数据库中(步骤806)。

在使用阶段850中，用户接口最初可以向寻求将其自身认证为特定个体的讲话者呈现唤起相应的响应短语的发声的质询(步骤851)。质询生成算法可以从如上所述的注册过程期间由特定个体完成的一系列质询中选择质询。当讲话者说出响应短语时，麦克风可以记录音频数据(步骤852)，并且形状传感器可以记录形状数据(步骤853)。认证过程的使用阶段850一旦开始，就可以由麦克风和形状传感器生成数据，或者可以在向讲话者呈现质询之后立即由麦克风和形状传感器生成数据。

此后，在给定呈现给讲话者的质询的情况下，认证算法可以使用质询-音频传递函数和/或质询-形状传递函数来分别预测音频数据或形状数据(步骤854)。认证算法可以按照与上面参考图7B描述的音频-形状传递函数所描述的类似方法来预测音频数据或形状数据。然后，认证算法可以确定预测数据和记录数据之间的相似性(步骤855)。例如，认证算法可以确定质询-音频传递函数所输出的预测音频数据与所记录的音频数据之间的相似性、和/或质询-形状传递函数所输出的预测形状数据与所记录的形状数据之间的相似性。此外，认证算法可以产生安全性得分(步骤856)。安全性得分可以被用来确定讲话者是否应该被认证为她声称的个体。如果安全性得分低和/或具有高度不确定性，则可以向讲话者呈现另一质询。该另一质询可能更困难、具有不同的特性等。

为了提高安全性，图6A至图6B、图7A至图7B和图8A至图8B中的至少部分步骤可以在加密域中执行。例如，可以在加密域中执行所有数据记录、操纵、计算或存储。即使不在加密域中执行，这些步骤也可以以安全的方式执行，以最小化认证过程被泄密的风险。

图9描绘了用于以生物计量的方式对声称是某个个体的人类讲话者的身份进行认证的过程900的流程图。最初，认证平台可以获取第一音频数据，该第一音频数据是由第一电子设备组件响应于人类讲话者被请求说出短语而生成的(步骤901)。可以可听见地(例如，通过可听见的命令的呈现)或可视地(例如，通过可视命令的呈现)提示未知讲话者说出短语。然后，认证平台可以识别第一音频数据的一部分，在该部分中，该短语由人类讲话者在一时间间隔内说出(步骤902)。认证平台可改变第一音频数据，以确保相关部分可以被更容易地处理。例如，认证平台可以从第一音频数据中提取该部分，或者认证平台可以编辑(例如，剪切、过滤或以其他方式更改)第一音频数据。

认证平台还可以获取第二音频数据，该第二音频数据表示被人类讲话者的耳道反射的探测信号(步骤903)。探测信号的反射可以由第二电子设备组件检测。如上所述，在一些实施例中，第一电子设备组件和第二电子设备组件是同一电子设备的一部分，而在其他实施例中，第一电子设备组件和第二电子设备组件是不同电子设备的部分。

在其中认证平台被体现在位于人类讲话者的耳廓中的电子设备上的实施例中，认证平台使探测信号被发射到耳道中。因此，第二电子设备组件可以将探测信号发射到人类讲话者的耳道中，然后记录表示被耳道中的结构反射的探测信号的第二音频数据。在一些实施例中，第二电子设备组件被配置为响应于确定未知讲话者已被请求说出短语而将探测信号发射到耳道中。替代地，由人类讲话者说出的短语可以充当探测信号。因此，探测信号可以是由第二电子设备组件生成的独特信号，或者探测信号可以表示人类讲话者的发言。然后，认证平台可以识别第二音频数据中与人类讲话者说出短语的时间间隔相对应的部分(步骤904)。换句话说，认证平台可以识别第二音频数据中的这样的部分：该部分在时间上与第一音频数据中在步骤902中所识别的部分相对应。例如，可以使用第二音频数据中的时间戳来识别第二音频数据的该部分。作为另一示例，可以使用滤波器来识别第二音频数据的该部分(例如，这些滤波器指示第二音频数据中检测到耳道变形的部分)。

此后，认证平台可以基于对第二音频数据的该部分的分析来确定该个体是人类讲话者的可能性(步骤905)。例如，认证平台可以被配置为基于第二音频数据的该部分来建立在该时间间隔内的耳道的形状。耳道的形状可以用若干不同的方式表示(然后与生物计量数据库进行匹配)。

在一些实施例中，耳道的形状被表示为简档，例如，具有设定的分辨率的形状向量或一组简单的三维(3D)坐标，从而表示耳道的拓扑。该简档可以表示短语被说出时的耳道形状。在这样的实施例中，可以通过变换与参考生物计量数据(例如，参考耳道)相关联的拓扑数据以最小化参考生物计量数据和所测量的耳道之间的平均坐标位置差，来执行比较。可能需要变换来说明在记录第二音频数据时电子器件在耳廓中的位置变化。然后可以将最小平均坐标差与预定阈值进行比较，以确定所测量的耳道是否与参考生物计量数据相匹配。在其中生物计量数据库中的参考生物计量数据高度详细的实施例中，认证平台可以选择不针对每个参考生物计量数据执行完全匹配。替代地，认证平台可以使用所选择的坐标来完成初始的“预匹配”，在所选择的坐标处不同参考生物计量数据之间显示出最高程度的差异(并且因此不同的个体显示出最高程度的差异)。然后预匹配之后可以进行更详细的匹配过程，在该更详细的匹配过程中，多于一个参考生物特征被识别为候选项。

在一些实施例中，耳道的形状完全在音频域中表示。在这样的实施例中，耳道的物理形状可以与探测信号的声学传递函数相对应。因此，可以将耳道的“形状”存储为应用于音频数据的频率值和幅度值的已知函数。在其最简单的形式中，声学传递函数指示在频谱上的各个点处探测信号发生什么变化。因此，个体的生物计量签名可以包括与不同频率相关联的一组幅度变换值。在这样的实施例中，当将探测信号与参考生物计量数据进行比较时，可以为幅度值和频率值计算平均不同得分。

此外，认证平台可以基于形状来产生安全性得分(或简称为“得分”)，该安全性得分指示人类讲话者是她声称的个体的可能性。在一些实施例中，该得分被与预定阈值进行比较，并且人类讲话者是该个体的可能性进一步基于该比较。如果得分超过阈值，则认证平台可以指示人类讲话者已被授权为该个体。然而，如果得分未超过阈值，则认证平台可以指示人类讲话者未被认证为该个体。

在一些实施例中，该得分是基于以下操作来产生的：将耳道形状与生物计量数据库进行比较，以确定是否找到匹配条目。该生物计量数据库中的条目可以包括表示不同人的耳道形状的参考简档。所属领域的技术人员将认识到，单个人可以与多个参考简档相关联，例如，针对左耳的一个参考简档以及针对右耳的一个参考简档。在认证过程期间，认证平台可以利用一个或两个参考简档。例如，如果在敏感上下文中寻求认证，则认证平台可以并发地执行过程900的多个实例，从而可以针对左耳和右耳产生安全性得分。在此类实施例中，认证平台可以基于针对左耳产生的安全性得分、针对右耳产生的安全性得分或两个安全性得分，来确定是否对未知讲话者进行认证。类似的方法可以涉及将耳道的变形(或变形的模型)与生物计量数据库进行比较，以确定是否找到匹配条目。当不同的人说出相同短语或不同短语时，该生物计量数据库中的条目可以包括表示耳道变形的参考简档。附加地或替换地，认证平台可以将第一音频数据的部分与另一生物计量数据库进行比较，以确定是否找到匹配条目。该生物计量数据库中的条目可以包括不同人的参考语音样本。认证平台能够基于是否在这些生物计量数据库中的任何一个中发现了匹配条目，来确定是否对人类讲话者进行认证。例如，认证平台可以基于以下项来确定人类讲话者是她声称的个体的可能性：(i)生物计量数据库中包括耳道形状的参考简档的匹配条目(如果有的话)、(ii)生物计量数据库中包括耳道变形的参考简档的匹配条目(如果有的话)、和/或(ii)生物计量数据库中包括参考语音样本的匹配条目(如果有的话)。

图10描绘了用于基于耳道变形来确定是否对人类讲话者的身份进行认证的过程1000的流程图。最初，认证平台可以确定已由人类讲话者在一时间间隔内说出短语，作为用于认证的生物计量凭证(步骤1001)。该短语可以作为密码短语认证、监视发言认证或质询-响应认证的手段来说出。然后，认证平台可以获取由个体在耳廓中佩戴的电子设备所生成的形状数据(或简称为“数据”)(步骤1002)。该电子设备可以被配置为将一系列探测信号发射到耳道中，并且该数据可以表示由一系列探测信号在耳道表面上的反射所生成的一系列返回信号。在一些实施例中，探测信号系列表示频率随时间增大或减小的信号。

认证平台然后可以基于该数据建立该时间间隔内的耳道形状(步骤1003)。此外，认证平台可以(i)基于耳道的形状来产生第一得分，该第一得分指示个体是人类讲话者的可能性；和/或(ii)产生第二得分，该第二得分指示根据数据确定的耳道的实际变形与预期变形之间的对应关系，该预期变形为在给定短语的情况下耳道的预期变形(步骤1004)。第一得分可以通过以下操作来产生：对数据进行检验，以发现在该间隔内耳道是否如个体是人类讲话者的情况下所预期的那样变形。替代地，可以通过确定耳道的形状是否匹配生物计量数据库中与个体相关联的条目，来产生第一得分。同时，可以通过应用预测在给定短语的情况下的预期变形的传递函数(例如，音频-形状传递函数或质询-形状传递函数)，来产生第二得分。

基于第一得分和/或第二得分，认证平台可以确定是否将人类讲话者认证为该个体(步骤1005)。如果认证平台确定人类讲话者应该被认证为该个体，则可以执行(一个或多个)附加动作。例如，认证平台可以通知支付处理器对人类讲话者的生物计量认证已经成功完成。类似地，如果认证平台确定人类讲话者不能被认证为该个体，则可以执行(一个或多个)附加动作。在这样的场景中，认证平台可以请求人类讲话者说出另一短语以用于认证目的，或者认证平台可以防止或禁止涉及人类讲话者的交易的完成(例如，通过通知支付处理器对人类讲话者的生物计量认证未成功完成)。

除非与物理可能性相反，否则设想上述步骤可以以各种顺序和组合来执行。例如，认证平台可以同时执行针对一个个体的认证过程的训练阶段和针对另一个个体的认证过程的使用阶段。作为另一示例，认证平台可以使用与左耳和右耳相关联的数据同时执行认证过程的多个实例。在这样的实施例中，相同的音频数据可以用于两只耳朵，但认证平台可以获得针对左耳的第一形状数据集合和针对右耳的第二形状数据集合。

在一些实施例中还可以包括其他步骤。作为一个示例，假设认证平台致使第一通知被呈现，该第一通知提示个体在将电子设备放置在耳廓附近时说出短语。例如，第一通知可以请求个体在电子设备被放置在耳廓中时(例如，在耳机的情况下)说出短语，或者第一通知可以请求个体在电子设备被放置在耳廓附近时(例如，在移动电话的情况下)说出短语。在这种情况下，认证平台可以选择通过用另一种形式的生物计量认证补充认证过程来增加安全性。例如，认证平台可以致使生成第二通知，该第二通知提示个体将手指放在电子设备的指纹传感器附近，在这种情况下，可以将指纹的图像与相关的生物计量数据库进行比较。作为另一示例，认证平台可以致使生成第二通知，该第二通知提示个体将眼睛放在电子设备的相机附近，在这种情况下，可以将眼睛的图像与相关的生物计量数据库进行比较。

处理系统

图11是示出其中可以实现本文所述的至少一些操作的处理系统1100的示例的框图。例如，处理系统1100的组件可以被托管在如下的电子设备上：该电子设备包括麦克风(例如，图2A的麦克风204)、形状传感器(例如，图2A的形状传感器206)、或能够进行操作以执行认证算法的处理器(例如，图2A的处理器208)。作为另一示例，处理系统1100的组件可以被托管在包括认证平台(例如，图4的认证平台414)的电子设备上。

处理系统1100可以包括处理器1102、主存储器1106、非易失性存储器1110、网络适配器1112(例如，网络接口)、视频显示器1118、输入/输出设备1120、控制设备1122(例如，键盘、定点设备或诸如按钮之类的机械输入)、包括存储介质1126的驱动单元1124、或通信地连接到总线1116的信号生成设备1130。总线1116被示出为抽象概念，其表示由适当的桥接器、适配器或控制器连接的一个或多个物理总线和/或点对点连接。因此，总线1116可以包括系统总线、外围组件互连(PCI)总线、PCI-Express总线、超传输总线、工业标准体系结构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、集成电路间(I²C)总线、或符合电气和电子工程师协会(IEEE)标准1394的总线。

处理系统1100可以共享与如下项类似的计算机处理器体系结构：计算机服务器、路由器、台式计算机、平板计算机、移动电话、视频游戏控制台、可穿戴电子设备(例如，手表或健身跟踪器)、网络连接(“智能”)设备(例如，电视机或家庭助理设备)、增强或虚拟现实系统(例如，头戴式显示器)、能够执行指定要由处理系统1100采取的(一个或多个)动作的一组指令(顺序地或以其他方式)的另一电子设备。

虽然主存储器1106、非易失性存储器1110和存储介质1124被示为单个介质，但是术语“存储介质”和“机器可读介质”应该被理解为包括存储一个或多个指令集1126的单个介质或多个介质。术语“存储介质”和“机器可读介质”还应该被理解为包括能够存储、编码或承载由处理系统1100执行的指令集合的任何介质。

通常，被执行以实现本公开的实施例的例程可以被实现为操作系统或特定应用、组件、程序、对象、模块或指令序列(统称为“计算机程序”)的一部分。计算机程序通常包括在计算设备中的各种存储器和存储设备中在各种时间设置的一个或多个指令(例如，指令1104、1108、1128)。指令当由处理器1102读取和执行时使得处理系统1100执行操作以执行本发明的各个方面。

虽然已在全功能计算设备的上下文中描述了各种实施例，但本领域的技术人员将理解，各种实施例能够作为各种形式的程序产品来分配。不管用于实际引起分配的机器或计算机可读介质的特定类型如何，本公开都适用。机器和计算机可读介质的其他示例包括可记录型介质，例如，易失性和非易失性存储器设备1110、可移动盘、硬盘驱动器、光盘(例如，光盘只读存储器(CD-ROMS)和数字多功能盘(DVD))、基于云的存储装置、以及诸如数字通信链路和模拟通信链路之类的传输型介质。

网络适配器1112使处理系统1100能够通过被处理系统1100和外部实体支持的任何通信协议在具有位于处理系统1100外部的实体的网络1114中传递数据。网络适配器1112可以包括网络适配器卡、无线网络接口卡、交换机、协议转换器、网关、网桥、集线器，接收器、中继器、或包括集成电路的收发器(例如，使得能够通过蓝牙或Wi-Fi进行通信)。

这里介绍的技术可以使用软件、固件、硬件或这些形式的组合来实现。例如，可以使用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)等形式的专用硬连线(即，不可编程)电路来实现本公开的各方面。

备注

已经为了说明和描述的目的提供了所要求保护的主题的各种实施例的上述描述。并不意图是详尽的并且不意图将所要求保护的主题限制到所公开的精确形式。许多修改和变化对于本领域技术人员来说将是明显的。选择和描述这些实施例以最好地说明本发明的原理及其实际应用，从而使得相关领域的那些技术人员能够理解所要求保护的主题、各种实施例、以及适于设想的特定用途的各种修改。

尽管具体实施方式描述了某些实施例和设想的最佳模式，但是无论具体实施方式被描述得多么具体，都可以以多种方式实践该技术。实施例在其实现细节上可能有很大不同，但仍被说明书所涵盖。在描述各种实施例的某些特征或方面时使用的特定术语不应被理解为暗示该术语在本文中被重新定义为限于与该术语相关联的技术的任何特定特性、特征或方面。一般来说，在以下权利要求书中所使用的术语不应被解释为将技术限制为本说明书中所公开的具特定实施例，除非在本文中明确定义了那些术语。因此，本技术的实际范围不仅包括所公开的实施例，还包括实践或实施实施例的所有等同方式。

本说明书中使用的语言主要是出于可读性和教学目的而选择的。它可能没有被选择来描述或限制主题。因此，意图是本技术的范围不被该具体实施方式所限制，而是由在基于本文的应用的基础上发布的任何权利要求来限制。因此，各种实施例的公开旨在说明而非限制如所附权利要求中阐述的本技术的范围。

工业实用性

本公开可以应用于计算机安全性中的生物计量认证。

Claims

1.一种用于基于生物计量对身份进行认证的方法，所述方法包括：

由佩戴在耳朵的耳廓中的电子设备将探测信号发射到耳道中；

由所述电子设备获取音频数据，所述音频数据表示被所述耳道反射的所述探测信号；

由所述电子设备识别所述音频数据中与一时间间隔相对应的部分，在该时间间隔内，人类讲话者说出用于认证为给定个体的短语；以及

由所述电子设备基于对所述音频数据的所述部分的分析，来确定所述人类讲话者是所述给定个体的可能性。

2.根据权利要求1所述的方法，其中，所述确定包括：

基于所述音频数据的所述部分来建立简档，所述简档表示所述时间间隔内的所述耳道的形状，以及

基于所述简档来产生得分，所述得分指示所述人类讲话者是所述给定个体的可能性。

3.根据权利要求2所述的方法，还包括：

将所述得分与阈值进行比较，

其中，所述人类讲话者是所述给定个体的可能性进一步基于所述比较的结果。

4.根据权利要求2所述的方法，还包括：

由所述电子设备将所述简档与生物计量数据库进行比较，以确定是否找到匹配条目，

其中，所述生物计量数据库中的条目包括不同人的耳道的参考简档。

5.根据权利要求4所述的方法，还包括：

由所述电子设备获取第二音频数据，所述第二音频数据是响应于所述人类讲话者被请求说出用于认证的所述短语而生成的；

由所述电子设备识别所述第二音频数据中的一部分，在该部分中，所述短语被所述人类讲话者说出；以及

由所述电子设备将所述第二音频数据的所述部分与第二生物计量数据库进行比较，以确定是否找到匹配条目；

其中，所述第二生物计量数据中的条目包括不同人的参考语音样本；

其中，所述人类讲话者是所述给定个体的可能性基于：(i)所述生物计量数据库中的匹配条目，如果存在的话；以及(ii)所述第二生物计量数据库中的匹配条目，如果存在的话。

6.根据权利要求5所述的方法，其中，所述音频数据和所述第二音频数据是由所述电子设备生成的。

7.根据权利要求1所述的方法，其中，所述发射是响应于以下操作而执行的：所述电子设备确定所述人类讲话者已被请求说出用于认证的所述短语。

8.根据权利要求1所述的方法，其中，所述人类讲话者所说出的所述短语充当所述探测信号。

9.一种非暂时性计算机可读介质，其上存储有指令，所述指令当由处理器执行时使所述处理器执行包括以下项的操作：

确定已由讲话者在一时间间隔内说出短语，作为用于认证的生物计量凭证；

获取由个体佩戴在耳朵的耳廓中的电子设备生成的数据，

其中，所述电子设备被配置为将一系列探测信号发射到耳道中，并且

其中，所述数据表示一系列返回信号，所述一系列返回信号是由所述一系列探测信号相对于所述耳道的表面的反射生成的；

基于所述数据，来建立所述时间间隔内的所述耳道的形状；

基于所述耳道的形状来产生第一得分，所述第一得分指示所述个体是所述讲话者的可能性，并且产生第二得分，所述第二得分指示以下二者之间的对应关系：根据所述数据确定的所述时间间隔内的所述耳道的实际变形、给定所述短语的情况下所述时间间隔内的所述耳道的预期变形；以及

基于所述第一得分和所述第二得分，来确定是否将所述讲话者认证为所述个体。

10.根据权利要求9所述的非暂时性计算机可读介质，其中，所述第一得分是通过以下操作来产生的：确定所述耳道的形状是否匹配生物计量数据库中与所述个体相关联的条目。

11.根据权利要求9所述的非暂时性计算机可读介质，其中，所述第二得分是通过以下操作来产生的：应用计算机实现的模型，所述计算机实现的模型在接收到作为输入的所述数据后，输出所述预期变形。

12.根据权利要求9所述的非暂时性计算机可读介质，还包括：

从短语列表中选择所述短语；以及

请求由所述讲话者说出所述短语。

13.根据权利要求12所述的非暂时性计算机可读介质，其中，所述短语具有如下特性：该特性使得所述短语比所述列表中的其他短语更有可能导致更鲁棒的认证。

14.根据权利要求12所述的非暂时性计算机可读介质，其中，所述一系列探测信号表示频率随时间增大或减小的信号。

15.根据权利要求9所述的非暂时性计算机可读介质，还包括：

响应于确定所述讲话者已经被认证为所述个体，通知支付处理器对所述讲话者的生物计量认证已经成功完成。

16.根据权利要求9所述的非暂时性计算机可读介质，还包括：

响应于确定所述讲话者未被认证为所述个体，请求所述讲话者说出另一个短语。

17.一种方法，包括：

由认证平台致使生成通知，所述通知提示个体在耳朵的耳廓中佩戴电子设备的同时说出短语；

由所述认证平台获取表示一系列返回信号的数据，所述一系列返回信号是由所述电子设备发射到耳道中的一系列探测信号的反射生成的；

由所述认证平台基于所述一系列返回信号产生模型，所述模型指示所述短语被所述个体说出时所述耳道的变形；以及

由所述认证平台将所述模型存储在生物计量数据库中的与所述个体相关联的简档中。

18.根据权利要求17所述的方法，其中，所述模型表示一系列离散位置，所述离散位置指示当所述个体说出所述短语时所述耳道的形状如何随时间变化。

19.根据权利要求17所述的方法，其中，所述模型是被存储在与所述个体相关联的所述简档中的多个模型中的一个，并且其中，每个模型与不同短语相关联。

20.根据权利要求17所述的方法，其中，所述认证平台驻留在服务器系统上，所述服务器系统在网络上通信地连接到所述电子设备。

21.根据权利要求17所述的方法，其中，所述认证平台驻留在所述电子设备上。

22.根据权利要求17所述的方法，其中，所述生物计量数据库被托管在网络能够访问的服务器系统上。

23.一种非暂时性计算机可读介质，其上存储有指令，所述指令当由处理器执行时使所述处理器执行包括以下项的操作：

致使生成第一通知，所述第一通知提示个体在将电子设备放置在耳朵的耳廓附近的同时说出短语；

获取表示返回信号的数据，所述返回信号是由所述电子设备发射到耳道中的探测信号的反射生成的；以及

基于当所述短语被说出时所述耳道的变形来确立是否对所述个体进行认证，所述耳道的变形是从所述数据推断出的。

24.根据权利要求23所述的非暂时性计算机可读介质，

其中，所述第一通知是由所述电子设备发出的能够听见的指令，并且

其中，所述探测信号具有随时间变化的频率。

25.根据权利要求23所述的非暂时性计算机可读介质，还包括：

致使生成第二通知，所述第二通知提示所述个体将手指放在所述电子设备的指纹传感器附近；

获取由所述指纹传感器生成的指纹的图像；以及

致使所述图像被与生物计量数据库进行比较，以确定是否找到匹配条目。

26.根据权利要求25所述的非暂时性计算机可读介质，其中，所述确立是基于以下项的：(i)从所述数据推断出的所述耳道的变形、以及(ii)所述生物计量数据库中的所述匹配条目。

27.根据权利要求23所述的非暂时性计算机可读介质，还包括：

致使生成第二通知，所述第二通知提示所述个体将眼睛放在所述电子设备的相机附近；

获取由所述相机生成的所述眼睛的图像；以及

28.根据权利要求27所述的非暂时性计算机可读介质，其中，所述确立是基于以下项的：(i)从所述数据推断出的所述耳道的变形、以及(ii)所述生物计量数据库中的所述匹配条目。