CN111492357A

CN111492357A - 用于生物识别用户认证的系统和方法

Info

Publication number: CN111492357A
Application number: CN201880082773.5A
Authority: CN
Inventors: G.D.斯米茨
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-12-21
Filing date: 2018-12-21
Publication date: 2020-08-04
Also published as: US11210376B2; US20190197224A1; WO2019125084A1; EP3729309A1; JP2021508870A; KR20200091389A; EP3729309A4

Abstract

提供了使用诸如用户的微表情的检测的生物识别特征进行用户认证的公开。一种用于利用电子设备来对用户进行认证的方法包括：向用户提供预先确定的情绪刺激；针对提供预先确定的情绪刺激的时间的至少一部分来利用3维视频相机来捕获用户的面部的运动检测；处理捕获的运动检测以识别用户的情绪响应，以及将所识别的情绪响应与存储的数据相比较以确定是否对用户进行认证。

Description

用于生物识别用户认证的系统和方法

技术领域

本公开涉及用户认证，并且更具体地，涉及生物识别(biometric)用户认证。

背景技术

当前，做出各种努力来对用户进行认证，但是这些方法可能无法可靠地识别用户。

通过将这样的系统与如在参考附图在本申请的其余部分中阐述的本公开的一些方面的比较，常规和传统方式的各种限制和缺点对于本领域技术人员将变得明显。

发明内容

技术问题

本发明的目的是提供用于利用电子设备对用户进行认证的系统、设备和方法。

对问题的解决方案

用于生物识别用户认证的系统和/或方法基本上如至少一个附图中所示的和/或结合至少一个附图所描述的。

将从以下描述和附图更加全面地理解本公开的各种优点、方面和新颖特征，以及其说明的实施例的细节。

根据本发明的示例实施例，一种用于利用电子设备来对用户进行认证的方法包括：向用户提供预先确定的情绪刺激；对于提供预先确定的情绪刺激的时间的至少一部分，利用3维视频相机来捕获用户的面部的运动检测；处理捕获的运动检测以识别用户的情绪响应；以及将所识别的情绪响应与所存储的数据相比较以确定是否对用户进行认证。

根据本发明的示例实施例，一种被配置为对用户进行认证的电子设备包括：一个或多个输出设备，被配置为向用户提供预先确定的情绪刺激；3维视频相机，被配置为对于提供预先确定的情绪刺激的时间的至少一部分来捕获用户的面部的运动检测；以及处理器，被配置为处理所捕获的运动检测以识别用户的情绪响应，并且将所识别的情绪响应与存储器中的存储的数据相比较以确定是对用户进行认证还是不进行认证。

根据本发明的示例实施例，一种用于利用电子设备来对用户进行认证的方法包括：从用户接收语音输入；在用户说出语音输入时，经由3维视频相机来接收用户的面部运动的视频输入；将面部运动与接收的语音输入相关联；以及将关联的面部运动与存储的数据相比较以确定是对用户进行认证还是不进行认证。

根据本发明的示例实施例，一种被配置为对用户进行认证的电子设备包括：麦克风，被配置为从用户接收语音输入；3维相机系统，被配置为捕获用户的面部运动；以及处理器，被配置为将面部运动与所接收的语音输入相关联，并且将关联的面部运动与存储的数据相比较以确定是对用户进行认证还是不进行认证。

本发明的有利效果

根据本发明的各种实施例，可以看出，通过处理面部的微表情(micro-expression)和/或诸如面部形状和面部的各部分的相对大小/关系的其他生物识别特征，可以准许认证的安全性方面的非常高级别的置信度。

附图说明

根据结合附图所采取的以下详细描述，本公开的以上和其他目的、特征和优点将变得更加明显：

图1A是根据本公开的实施例的包括用户认证的示例电子设备的图。

图1B是根据本公开的实施例的包括用户认证的另一示例电子设备的图。

图2是根据本公开的实施例的包括用户认证的电子设备的示例高层级框图。

图3是根据本公开的实施例的通信网络中的电子设备的图示。

图4是根据本公开的实施例的训练电子设备辨识用户的示例的流程图。

图5是根据本公开的实施例的电子设备辨识用户的示例的流程图。

图6是根据本公开的实施例的训练电子设备辨识用户的示例的另一流程图。

图7是根据本公开的实施例的电子设备辨识用户的示例的另一流程图。

用于执行本发明的最佳模式

图2是图示出用于体现本发明的最佳模式的图。

具体实施方式

本实施例不应当被解释为受限于在本文阐述的描述。确切的讲，作为示例来提供这些实施例，使得本公开将是充分的和完整的，并且将向本领域普通技术人员完全地传达本实施例的概念。所附权利要求说明本公开的一些实施例。

贯穿说明书，相同的附图标记指代相同的元件。包括在本文使用的描述性的或技术性的术语的所有术语应当被解释为具有对本领域普通技术人员明显的意义。当术语由于语言的演化、先例或新技术的出现而具有不明确的意义时，在本公开中使用的术语的意义应当首先通过其在本公开中的使用和/或定义来澄清。然后，因为本领域普通技术人员将理解在本公开时的术语，术语应当被澄清。

当部分“包括”或“包含”元件时，除非存在与其相反的特定描述，否则该部分可以进一步包括其它元件。在本公开的实施例中的术语“单元”意指执行特定功能的软件组件或硬件组件。硬件组件例如可以包括现场可编程门阵列(FPGA)或专用集成电路(ASIC)。

软件或软件组件可以指代由可寻址存储介质中的可执行代码和/或由可执行代码使用的数据。因此，软件例如可以是面向对象的软件组件、类组件以及任务组件，并且可以包括进程、函数、属性、过程、子例程、程序代码片段、驱动程序(driver)、固件、应用程序、微代码/电路、数据、数据库、数据结构、表格、阵列或变量。

通过“单元”提供的功能可以被划分为附加的组件和“单元”。

现在将详细地参考在附图中图示出了其示例的实施例。在这方面，本实施例可以具有不同的形式，并且不应当被解释为限于在本文阐述的描述。

在以下描述中，不详细地描述熟知的功能或构造，以便不通过不必要的细节使实施例模糊。

图1A和图1B是根据本公开的各种实施例的包括用户认证特征的示例电子设备的图。图1A和图1B示出了利用用于用户认证的本公开的实施例的电子设备100的两个非限制性示例。如所示地，电子设备100可以是，例如，包括显示器102、控制模块110、传感器模块120和电池130的图1A中的智能电话100A。电子设备100也可以是，例如，类似地包括显示器102、控制模块110、传感器模块120(具有第一传感器122、第二传感器124和处理器112)和电池130的图1B中的智能手表100B。

可以注意到，电子设备100可以具有可以特定于电子设备的该类型的其他特征，包括作为传感器模块120的一部分的、没有具体公开的各种传感器。为简单起见简化图1A和图1B中的电子设备100的附图。

通常，电子设备100可以能够与其他电子设备通信。例如，电子设备100可以能够与智能电话、智能手表、膝上计算机/PC、服务器等进行通信。将关于图3更加详细地描述这点。

显示器102可以例如输出用户是否被识别并且被给予对电子设备100的功能的访问。电子设备100可以具有相机作为第一传感器122，并且具有麦克风作为第二传感器124。因此，用户可以制造被第二传感器(麦克风)124捕获的特定声音，同时第一传感器(相机)122在用户制造声音时捕获用户的面部。声音和视频然后可以例如由处理器112和/或可以处于电子设备100中的其他处理器处理和关联，并且然后由处理器112和/或其他处理器比较以存储将声音与面部画面/视频相关联的信息。传感器122可以包括3-D(3维)相机和/或2-D(2维)相机。因此，如在本文所描述的视频可以由动态视频和/或静止图片组成。在成功匹配时，可以针对用户将电子设备100解锁。关于图4和图5来更加详细地讨论该处理。

本公开的各种实施例可以使用术语“相机”的宽泛使用。也就是说，相机可以用于指代能够绘制表面的任何种类的运动传感器系统，诸如像超声波、声纳、光学散斑/干涉、雷达、Lidar、飞行时间设备、扫描系统等。

在另一实施例中，电子设备100可以具有相机作为第一传感器122，当向用户提供刺激时，该第一传感器122可以捕获用户的视频。刺激可以是喜爱的人的语音和/或喜爱的人的图片/视频。在该情况下，刺激可以被称为情绪刺激，其中，情绪刺激将与用户有关，并且因此，用户将利用情绪响应进行响应。情绪刺激是可以在认证处理的设置期间已经例如由用户选择的预先确定的情绪刺激。在其他情况下，可以已经由认证应用从例如用户的存储的视频和/或录音(voice recording)中选择了预先确定的情绪刺激。

因此，在提供情绪刺激时，第一传感器(相机)122可以用于捕获用户的面部中的运动检测。在一些实施例中，运动检测可以被称为用户对情绪刺激的情绪响应。运动检测可以例如包括微表情，该微表情可以包括用户的面部中的随意和/或不随意的肌肉动作。这些微表情可以包括例如可能对于观察者用肉眼不是可辩别的肌肉动作。这可能是因为运动太快和/或太小。然而，可以处理捕获的运动检测以能够识别这些微表情。

图片/视频可以例如由处理器112和/或可以处于电子设备100中的其他处理器处理，并且然后由处理器112和/或其他处理器比较以存储对于各种实施例可以被称为期望的面部运动或期望的情绪响应的信息(数据)。在成功匹配时，可以对于用户将电子设备100解锁或应用可以允许用户完成交易(transaction)。例如，认证可以允许从ATM(自动出纳机)中取款或允许将钱从一个帐户转移到另一账户等。将关于图6和图7更加详细地讨论这点。

控制模块110也可以具有可以用于处理记录的声音和图片/视频以确定用户是否被识别的处理器200(图2)。传感器模块120可以包括其他传感器，诸如像加速度计、地磁仪、光传感器、接近传感器等。电池130可以被配置为提供用于电子设备100的电力。可以使用有线充电系统或无线充电系统对电池130进行充电。

此外，尽管对两个特定电子设备100A和100B进行描述，但本公开的各种实施例不需要受限于此。各种其他电子设备也可以用于本公开的实施例。非限制的列表例如可以包括PC、膝上计算机、平板机、ATM、可以用于对用户进行认证的认证模块、可以能够提供刺激并且捕获用户的眼睛和/或其他面部区域的视频/图像以及用户制造的声音的智能眼镜等。因此，无论在哪里人需要被识别，本公开的各种实施例都是可适用的，并且可以通过可以执行用于用户对进行认证的所描述的功能的任何设备(可佩戴是不可佩戴)来执行认证。尽管认证系统可以用于识别用户，但在某些情况下，可能在不了解用户的身份的情况下仅使用认证系统来准许对设备的访问。例如，可能没有对移动式电话给出电话的授权的所有者的身份的细节，但是可能仍然使用认证系统以对已经被训练进行辨识的该所有者准许访问。

图2是根据本公开的实施例的电子设备的高层级框图。参考图2，示出了电子设备100，其包括控制模块110、传感器模块120、电池130、通信接口230以及输入/输出(IO)模块240。控制模块110可以包括处理器200、存储器210以及电力管理单元(PMU)220。IO模块240可以包括显示器102、输入设备242和输出设备244。

处理器200可以总体上对电子设备100进行控制，包括处理来自传感器模块120的监视的信号、与IO模块240进行通信以及经由通信接口230与其他电子设备进行通信。存储器210可以包括非易失性存储器216和易失性存储器218。可以将操作系统212和应用214存储在非易失性存储器216中。本公开的各种实施例可以使用设计和/或实施相关的不同的存储器架构。

PMU 220可以控制从外部源接收电力、对电池130进行充电以及向电子设备100的不同的部分来分配电力。通信接口230可以经由例如诸如USB、以太网、火线等的有线协议，或诸如蓝牙、近场通信(NFC)、WiFi等的无线协议允许电子设备100与其他设备进行通信。

处理器200可以与IO模块240进行通信以经由输入设备242接收输入信息，并且输出将在显示器102以及其他输出设备244上显示的信息。输入设备242可以例如包括按钮242a、可以是显示器102的一部分的触敏屏242b、麦克风242c等。输出设备244可以例如包括显示器102、扬声器244a、LED244b等。

在不同的实施例中，处理器112可以使用不同的架构进行操作。例如，处理器112可以使用存储器210来存储要执行的指令，或处理器112可以具有用于其指令的其自己的存储器(未示出)。尽管一些实施例具有单独的处理器200和112，但各种实施例不需要受限于此。可能存在控制电子设备100的功能的一个处理器200，或可能存在用于电子设备100的多个处理器。

各种实施例可以使用不同的功能被不同地分组的其他架构。例如，分组可以处于不同的集成电路芯片中。或分组可以将诸如IO模块240和通信接口230的不同的设备组合在一起，或麦克风242c可以被分组为传感器模块120的一部分等。

图3是根据本公开的实施例的通信网络中的电子设备的图示。参考图3，示出了智能电话100A和电子设备300。智能电话100A可以使用通信接口230与电子设备300进行通信。通信可以经由电子设备300和智能电话100A之间的通信信号302。通信信号302可以经由有线通信协议或无线通信协议。尽管未示出，可以经由电子设备300和智能电话100A之间的一个或多个通信单元来发送通信信号302。例如，电子设备300和智能电话100A可以属于向相同的网络或不同的网络。

图4是根据本公开的实施例的训练电子设备辨识用户的示例的流图。参考图4，示出了用于训练诸如像智能电话100A的电子设备100的示例流程图400。在框402，从用户接收开始训练处理的输入。输入例如可以是用户轻敲在智能电话100A上显示的适当的键、适当的口头命令等，以开始训练处理。在框404，智能电话100A可以提供语音输入的提示。也就是说，提示用户制造特定声音。特定声音可以是密码短语或可以包括词语和/或声音的其他可重复的语音声音。术语“密码短语”可以用于指示通常由用户为认证提供的一个或多个词语和/或声音。密码短语例如可以是任意的。提示可以例如指示将由用户重复的密码短语，或可以要求用户提供密码短语。

在一些情况下，不需要特定声音，而是替换地提示可以引导用户在一时间量连续地说话，其中时间可以是设置的持续时间，使得可以收集足够数据以允许用户的认证；或直到超时发生(在此点，可以指示用户不能被认证)。在框406，智能电话100A然后可以准备好利用第二传感器(麦克风)124来捕获用户制造的声音并且利用第一传感器(相机)122来捕获制造声音的用户的面部。

在框408，诸如像处理器200和/或处理器112的处理器可以对所捕获的音频和视频进行处理。不同类型的相机系统可以用于捕获用户的面部运动(面部动作(movement))。例如，可以使用3-D相机，或可以使用能够以高帧率提供运动捕获的高速相机。如先前陈述地，也可以使用其他类型的相机，诸如像超声波、声纳、光学散斑/干涉、雷达、Lidar、飞行时间设备、扫描系统等。在许多情况下，当使用3-D运动数据时，可以获取更高级别的安全性。然而，在实施例中，仅面部的2-D运动捕获可以足以在相对较低级别的安全性对用户进行认证。处理可以包括使用视频流来建立用户的面部的动态模型。通常，动态模型可以包括面部的表面的3-D表示的记录，但是另外，还可以包括在整体地以及详细地两方面关于面部如何运动的细节。单独的肌肉和/或肌肉群的运动以及皮肤的相关联的运动对用户的特定生理可以是独特的。在一些情况下，同时地，除3-D运动捕获之外还可以使用2-D运动捕获。在那里，2-D视频可以拾取3-D相机可能不显示的纹理或其他表面细节，因此提高认证级别。

处理可以例如包括在时间上将用户制造的声音与用户在制造声音时制造的面部运动(面部表情)相关联。处理可以匹配例如对于每个用户可以在位置、持续时间等中不同的特定肌肉动作，其中，肌肉可以位于用户的嘴上或周围。也可以将面部的其他区域中的运动关联到所捕获的音频的各种频率和特征。在语音期间的肌肉动作可以是随意的和/或不随意的，并且可以对两种类型进行捕获并且与面部相关联。语音和视频之间的关联可能是必要的，但是对于一些级别的安全性，可能不是完全足够的。例如，语音和视频之间的关联可能对于最高级别的安全性是必要的，但是其可能不是足够的。尽管语音和视频可以彼此很好地关联，但如果未被授权的用户尝试将设备解锁，未被授权的用户的脸型和面部运动可能不匹配授权的用户的面部的动态模型和/或语音可能不匹配授权的用户。一个或多个这些肌肉动作也可以是不随意的并且持续时间还非常短。一些这些运动可能对于察看用户的人而言不是特别明显的，但是可以在视频流中被捕获并且可以用于进一步与授权的用户关联。

在框410，可以存储处理的数据以供将来使用。在一个实施例中，认证系统可以具有用于用户讲出的各种声音的用户的典型的面部运动(面部动作(movement))的库。各种实施例可以指定用于密码短语的语言作为用于设备的语言集，而其他实施例可以不指定用于密码短语的专用语言。库可以用于将运动和声音与用户讲出的词语关联，其中词语/声音可以是任意的。然而，如果选择特定声音或密码短语作为认证的一部分，知识(knowledge)或语言或相关联的面部运动可能是不必要的。在该情况下，能够一起捕获特定声音和相关联的面部运动并且将其关联。通过使一般运动与声音的音量改变匹配，关联可能不合理，但是可能更完善。例如，通过声音系统的各个部分主动地调制气流来制造元音和辅音。这些调制是可重复的，然而细节可能对于特定人是独特的。在产生每个声音时，每个调制引起面部的可测量的改变。

做出的一些调制实际上是被动的。鼻窦和其他人体腔(cavity)不仅在讲出词语时而且也在调整音色、音调和/或其他特性时改变产生的声音的性质。这些特性能够帮助用户的语音的音频识别。面部的其他部分也被动地对声音和运动进行反应。具体地，大气运动以及语音的音高引起嘴中以及周围的各种振动。依赖于接近表面的皮肤、肌肉、脂肪和/或骨头的厚度，较高的频率振动可能是可见的或可能被抑制。较高频率的振动也可以在牙齿中是可察觉的。当以高速获取面部动作的3-D视频时，面部周围的这些各个区域的深层动作的测量将呈现对用户的生理是独特的高和低频率动作的该组合。

出于对相同的刺激所生成的处理的数据的连续的重复(iteration)，可以考虑用于最新近的重复的处理的结果，在需要时，更新存储的数据。

在框412，可以做出关于用户是否应当制造相同的声音的另一个重复的确定。如果将再次制造相同的声音，则在框404可以给出对于该声音的提示。反复分析可以识别更为一致地发生的特定肌肉动作，并且这些可以优选地使用或至少被给予更大的权重。确定特定肌肉动作以用于将来的认证可以依赖于例如那些肌肉动作如何可靠地发生。声音的输入的反复也可以是故意的，因为存在如何讲出特定短语或声音的自然变化。通过比较和对比相同的输入声音的多个重复，能够生成包络，其中不需要以精确的精度讲出期望的输入以便被辨识为来自认证的所有者，然而仍然提供非常高级别的安全性。

认证处理也可以例如定位从未具有与它们相关联的任何微表情的局部区域。也可以针对认证的目的指定这些局部区域中的一些或所有。

确定用户是否被识别可以使用许多不同的算法之一，例如包括匹配类别一特征的至少第一百分比。其他实施例也可以要求匹配类别二特征的至少第二百分比等。类别一特征可以是每次被可靠地检测到的那些肌肉动作或小动态表情。类别二特征可以是大多数时间被检测到的那些肌肉动作或动态表情。尽管第一百分比和第二百分比可以是相同的，但它们也可以是不同的。此外，特定应用可以要求其自己的匹配率。例如，银行服务器可以提供针对特定交易的认证用户的匹配率百分比。

如果不需要用户再制造相同的声音，则在框414，可以关于是否应当由用户制造不同的声音来做出确定。通过使用多个不同的声音，可以更准确地识别用户。如果用户将制造另一声音，则在框404对于该声音给出提示。如果用户不需要制造另一声音，则训练结束并且在框416智能电话100A可以输出指示训练会话完成的消息。

尽管面部的动态模型能够在面部的多个区域中直接地与在高和低频率两者的声音关联，但在单独实施例中，该关联可能没有被明确地布置在算法中。多次重复的声音和视频两者的特征集合的整体能够被馈送到神经网络或其他类型的机器学习中，以针对用户的面部、面部动作和语音以及面部动作和语音之间的关联来进行训练。因此，在训练处理期间，电话可以看起来与用户“联系(bond)”，使得电话将仅对该特定组合进行响应。也就是说，电话和用户可以是成对的或被唯一地锁定在一起。利用足够关联，仍然可以将认证安全性保持在极其高的级别。可以同时对用户的面部动作和形状、语音的全部三个，以及所有两者之间的动态关联同时地训练机器学习。在这方面，在没有显式其他模型的情况下，机器学习部分本身能够充当用户的动态模型。

本公开的各种实施例可以使用其中用户讲话以进一步完善认证处理的一个或多个场合。这例如可以包括，当用户讲话并且用户的面部对于智能电话100A的适当的相机所可看见时，包括当用户被识别时的那些场合。可以认为这是制造相同的声音的附加的重复或在训练会话期间反复的声音的集合。

在训练智能电话100A识别用户之后，智能电话100A可以使用户说出包括用户在训练会话期间制造的声音的一个或多个词语。这可以是使用户说话的更自然的形式，并且因此，使得对于用户更容易。智能电话100A也可以允许用户从包括声音的若干不同的短语中进行选择以允许认证用户时的进一步个性化。因此，如果用户没有使用正确的短语，则智能电话100A可以指示认证失败。在认证没有要求特定密码短语的情况中，可以仍然通过引导用户在足够长的时间继续对电话讲话以使得认证系统达到对用户进行认证的足够高的置信级别来实现高级别的安全性。

因此，通过使用户讲出用户的选择的特定密码短语、讲出通过诸如智能电话100A的电子设备所指示的密码短语、重复通过电子设备所指示的密码短语或仅针对某时间量讲话来识别用户。

各种实施例可以具有用于处理捕获的音频和视频的不同的架构。例如，一个架构可以具有通用处理器运行特定软件用于处理所捕获的语音和/或视频。另一架构可以具有用于处理视频的专用处理器，而又一架构可以具有用于处理视频的专用数字信号处理器和用于处理音频的另一专用数字信号处理器。因此，不存在关于本公开的实施方式所使用的处理器的类型和/或处理器的数量的限制。

另外地，可以训练智能电话100A辨识多于一个用户。因此，在此类情况中，用户可以选择用户的名称并且在框408的处理可以要求处理声音和视频输入以尝试匹配到特定用户。在其他情况下，用户可以不必须选择用户的名称，并且在做出匹配之前，处理可以尝试匹配不同的用户中的每个，或者不存在匹配。在一个实施例中，智能电话100A可以允许具有变化级别的安全性的登录和访问。例如，可以对主要认证的用户允许对智能电话的所有功能的完全访问，而可能仅对次要(secondary)用户允许设备上的有限的子集的功能。即使设备只有单个认证的用户，分等级的级别的安全性也可以具有其他益处。用户可能尝试使用面部动作来登录，但是位于不能大声讲话的位置。通过无声地讲出密码短语，认证系统可以能够确定面部运动(面部动作)的匹配以利用较低级别的置信度对用户进行认证，允许至少有限的子集的功能被访问。

此外，尽管描述了训练智能电话100A，但各种实施例可以允许另一电子设备100下载用于辨识用户的信息。电子设备100可能已经针对辨识用户被训练，并且因此，具有需要能够与语音和视频捕获的用户输入相比较的信息。这可以要求例如通过在下载认证信息之前例如使用登录/口令方法在电子设备100以及智能电话100A对用户进行认证。其他实施例可以具有服务器(未示出)控制远程认证模块(未示出)，并且因此，按需要来下载用户信息。例如，远程认证模块可以具有使用下载的用户信息来识别用户的能力。在用户不能被识别的情况下，如果服务器可以识别用户，则远程认证模块可以联系服务器。如果是这样的话，该信息然后可以被下载到远程认证模块以供将来使用。

应当进一步强调的是，语音输入(或密码短语)可以包括与语音输入的音调或语调无关的词语和/或声音。例如，语音输入可以被唱出、用约德尔唱法歌唱(yodeled)、耳语等。在用于密码短语的无声的开口运动非常类似于大声讲出语音输入的开口运动的情况下，各种实施例也可以接受密码短语的无声的开口。

图5是根据本公开的实施例的电子设备辨识用户的示例的流程图。参考图5，示出了利用智能电话100A的用户的示例流程图500。在框502中，接收识别用户的指示。这可以是由于例如通过检测到电话在安静之后被拾取的运动、使用诸如按压按钮或切换/移动开关的触觉动作、用户的语音输入等的用户对于开始认证处理的选项的选择。

应用也可以指示对于认证的需要。例如，如果用户想要转账，或购买产品，所使用的应用可以发起认证。或者，银行服务器或零售商服务器可以命令应用对用户进行认证。

在框504，智能电话100A可以向用户提供经由麦克风242c输入一个或多个声音的提示。依赖于可用的选项，可以提示用户制造特定声音，提示讲出用户所知的密码短语，或说话一段时间。尽管密码短语可能对用户是秘密的，即使其被偷听并且由第二人使用，智能电话也将不对第二人进行认证——如果他们不能匹配认证的用户的动态模型的话。

在框506，智能电话100A可以接收用户制造的声音以及在用户制造声音时捕获用户的面部的视频。在框508，可以处理声音和视频以确定需要与存储的数据相比较的处理的数据以用于用户对进行认证。可以识别声音，使得可以进行适当的比较用于运动检测。处理的数据，或例如包括用户的微表情的捕获的面部运动可以用于运动检测。处理可以使用来自存储的数据的信息，诸如像局部区域的数量和局部区域的尺寸以及面部或其他模型的其他细节。

在框510，可以将处理的数据与存储的数据相比较。如果在框512发现匹配，则可以在518指示成功。如果没有在框512做出匹配，则在框514可以做出关于允许数量的尝试是否已经被满足的确定。可以通过用户和/或诸如像请求用户的认证的银行服务器的外部设备来设置允许数量的尝试。

如果已经满足了尝试的数量，则框516可以向请求了认证的用户和/或外部设备指示失败。如果还没有满足尝试的数量，则可以在框504提示用户再次尝试。一些实施例可以允许用户讲出其他密码短语，而其他实施例可以仅允许用户重复先前讲出的密码短语。

随着时间推移，小的生理改变可以导致将导致认证的困难的面部和/或用户的动态模型的改变。为了避免这点，必要时，认证系统可以提示用户通过重复图4中示出的处理来刷新用户数据。替选地或另外地，当用户使用图5的处理针对设备认证时，认证系统可能更新用户的动态模型以考虑用户的小的改变(如果它们小于允许的阈值)。

此外，处理也可以不仅检查面部的微表情，而且也可以将面部形状、部分(诸如面部的鼻子、眼睛、嘴等的特征)的相对尺寸/关系以及面部的运动与动态模型相比较。因此，各种实施例可以匹配面部运动(微表情)以及还有用户的生物识别面部特征以得到认证的安全性方面的非常高级别的置信度。

图6是根据本公开的实施例的训练电子设备辨识用户的示例的另一个流图。参考图6，示出了用于训练诸如像智能电话100A的电子设备100的示例流程图600。

在框602，接收开始训练处理的输入。输入例如可以是用户轻敲在智能电话100A上显示的适当的键、适当的口头响应等，以开始训练处理。在框604，智能电话100A可以提供用于用户的刺激。刺激可以是喜爱的人的图片或喜爱的人制造的声音，并且可以被称为情绪刺激。用户可以从多个情绪刺激中选择可以可用于认证处理的情绪刺激。情绪刺激可以来自智能电话1001A中可用的或对智能电话100A可用的视频、图片和/或录音。

在框606，智能电话100A可以利用第一传感器(相机)122在刺激的持续时间期间捕获用户的面部。这可以被称为捕获用户的面部的运动检测。捕获时间可以较短并且不一定针对刺激的整个持续时间。可以通过分析用户的视频来确定捕获时间，其中可以确定已经在某一时间段内捕获到期望的肌肉动作或微表情。

在框608，诸如像处理器200和/或处理器112的处理器可以对捕获的视频进行处理。处理可以例如包括确定可以是不随意的并且通常对于察看用户的人不可见的面部中的特定微表情。尽管如在本文所使用的，术语“微表情”能够用于表示时间上快照(snapshotin time)中随着面部的构成所发生的短暂的表情，但术语还可以不仅包括快照，而是包括表情发生之前、在表情发生期间以及在表情发生之后的面部的全部动态。也就是说，情绪响应可以包括当提供情绪刺激时的面部运动动力学。微表情可以包括随意的和不随意的肌肉动作。这些微表情可以在看见喜爱的人和/或听见喜爱的人的语音时发生。在不同的用户对于由设备给出的相同的情绪刺激中，该情绪响应不可能足够类似地发生，并且因此可以充当“情绪密码短语”。

不同类型的相机系统可以用于捕获用户的面部动作(运动检测)。例如，可以使用3-D视频相机，或能够以高帧率提供运动捕获的高速2-D相机。然而，与通过3-D相机提供的数据相比，2-D相机可以提供较低置信级别的认证。处理可以匹配例如对于每个用户可以在位置、持续时间等中不同的与讲出密码短语关联的特定微表情，其中肌肉可以位于用户的嘴和/或眼睛中或周围。因此，可以能够通过将情绪响应的特定微表情关联到情绪刺激来识别用户。注意的是，用户的情绪响应可以是必要的，但对于完全授权不是足够的。类似于在图4中所使用的处理，视频的处理还可以包括构建授权的用户的面部和面部运动的动态模型。

在框610，与密码短语关联的微表情可以被存储为数据，并且可以被称为期望的情绪响应。识别微表情的简单的示例例如可以是识别嘴区域并且然后将嘴区域映射到较小的区域。例如，嘴区域可以被形成到局部区域中，其中，局部区域可以与嘴的宽度的百分比有关。这将允许相对于用户的嘴形成局部区域而不用必须确定用户的嘴的绝对长度。这些局部区域然后可以在不同的时间关于彼此被映射至微表情。例如，体素可以提供局部区域的3维映射以在微表情的3维和持续时间中给出关于微表情的信息。当不使用3维映射时，高速相机可以能够捕获微表情以关于持续时间和位置来映射微表情。因此，处理可以包括关于其他微表情来指示特定局部区域中的微表情的量和持续时间。

各种实施例可以具有是恒定集合局部区域，其中局部区域的数量是预先确定的并且局部区域的尺寸是相同的。在需要时，其他实施例可以变化局部区域的数量和每个局部区域的尺寸。一些实施例可以使用上述两种方法，其中，最初可以存在恒定尺寸的默认数量的局部区域，并且然后随着训练进行，可以改变局部区域的数量以及每个局部区域的尺寸。

例如，可以对视频进行处理和分析以确定感兴趣的微表情。这些微表情可以发生在嘴中的某些部分中和/或嘴周围，其中部分可以尺寸不同。当对于用户训练智能电话100A时，所确定的信息的一部分可以是局部区域的数量，以及局部区域的尺寸。然后，当用户被认证时，认证处理可以使用指定的局部区域(在数量和每个局部区域的尺寸方面)以寻找特定微表情。

尽管嘴的区域被用作用于检测用户的微表情的示例，但各种实施例不需要受限于此。例如，可以存在也可以对提供微表情有用的诸如像眼睛周围的面部的其他区域，或面部的更大的区域，或者甚至整个面部。

处于对相同的刺激所生成的处理的数据的连续的重复，可以考虑用于最新的重复的处理的结果，在需要时，更新存储的数据。

在框612，可以做出关于用户是否应当被给再次给予相同的情绪刺激来的确定。如果将再次给予相同的情绪刺激，则可以在框604提供情绪刺激。反复分析可以提供更为一致地发生的特定微表情，并且这些可以用于认证，或至少被给予更大的权重。确定特定微表情以用于将来的认证可以依赖于例如那些微表情如发生的可靠程度。

确定用户是否被识别可以使用许多不同的算法之一，例如包括匹配类别一特征的至少第一百分比。其他实施例也可以要求匹配类别二特征的至少第二百分比等。类别一特征可以是每次被可靠地检测到的那些微表情。类别二特征可以是大多数时间被检测到的那些微表情。尽管第一百分比和第二百分比可以是相同的，但它们也可以是不同的。此外，特定应用可以要求其自己的匹配率。例如，银行服务器可以提供针对特定交易的认证用户的匹配率百分比。

如果不需要对用户给予相同的刺激，则在框614，可以关于是否应当对用户给予不同的刺激来做出确定。通过使用多个不同的刺激，可以更准确地识别用户。如果将给予用户另一刺激，则在框604可以提供另一个刺激。如果用户不需要被给予另一刺激，则训练结束并且在框616智能电话100A可以输出指示训练会话完成的消息。

各种实施例可以具有用于处理捕获的视频的不同的架构。例如，一个架构可以具有用于处理捕获的视频的通用处理器运行特定软件，并且另一架构可以具有用于处理视频的专用处理器。因此，不存在关于本公开的实施方式所使用的处理器的类型和/或处理器的数量的限制。

另外地，可以训练智能电话100A辨识多于一个用户。因此，在此类情况中，用户可以选择用户的名称并且在框608的处理可以要求处理视频输入以尝试匹配到特定用户。在其他情况下，用户可以不必须选择用户的名称，并且在做出匹配之前，处理可以尝试匹配不同的用户中的每个，或者不存在匹配。

此外，尽管描述了训练智能电话100A，但各种实施例可以允许另一电子设备100下载用于辨识用户的信息。电子设备100可能已经针对辨识用户被训练，并且因此，具有需要能够与用户的捕获的视频相比较的信息。这可以要求例如通过在下载认证信息之前例如使用登录/口令方法在电子设备100以及智能电话100A对用户进行认证。因此，电子设备100可以将情绪刺激和对应的期望的情绪响应下载到智能电话100A。

另外地，一些实施例也可以将诸如像面部形状、部分(诸如面部的鼻子、眼睛、嘴等的特征)的相对尺寸/关系等的生物识别特质相比较。因此，授权的用户的生物识别面部特征和微表情的附加的匹配可以准许认证的安全性方面的非常高级别的置信度。

图7是根据本公开的实施例的电子设备辨识用户的示例的另一个流程图。参考图7，示出了利用智能电话100A的用户的示例流程图700。在框702中，接收识别用户的指示。这可以是由于例如通过检测到电话在安静之后被拾取的运动、使用诸如按压按钮、切换开关的用户的触觉输入、用户的语音输入等的用户对于开始认证处理的选项的选择。指示也可以例如是由应用做出的识别用户开始或完成与外部设备的交易的请求。例如，如果用户登录到在线银行帐户，则用户的智能电话100A上的银行应用可以请求在连接到银行之前进行认证，或银行服务器可以请求在完成大笔交易之前识别用户等。

在框704，智能电话100A可以向用户提供情绪刺激。在框706，智能电话100A可以在提供情绪刺激时，或在参考图6所描述的训练期间所确定的捕获时间内捕获用户的面部的视频。在框708，捕获的运动检测可以被处理以确定需要与期望的情绪响应的存储的数据相比较的处理的数据，以用于对用户进行认证。处理可以使用来自存储的数据的信息，诸如像局部区域的数量和局部区域的尺寸。处理也可以不仅检查面部的微表情，而且还可以将面部形状、部分(诸如面部的鼻子、眼睛、嘴等的特征)的相对尺寸/关系，以及面部的运动与动态模型相比较。尽管可以极小可能使未被授权的用户对给定刺激呈现非常类似的不随意反应，但对授权的用户的生物识别面部特征和面部运动的附加的匹配可以准许认证的安全性方面的非常高级别的置信度。

在框710，可以将处理的数据与存储的数据相比较。如果在框712发现对期望的情绪响应的匹配，则可以在框718指示成功。如果没有在框712做出匹配，则在框714可以做出关于允许数量的尝试是否已经被满足的确定。可以通过用户和/或诸如像请求用户的认证的银行服务器的外部设备来设置允许数量的尝试。

如果已经满足了尝试的数量，则框716可以向请求了认证的实体(用户或外部设备)指示失败。如果请求实体是外部设备，则也可以向用户通知失败。如果还没有满足尝试的数量，则可以在框704向用户提供情绪刺激，其中情绪刺激可以是先前提供的相同的一个情绪刺激，或不同的情绪刺激。

尽管公开了本公开的各种实施例，应当注意到，如果可适用，也可以在其他的实施例中使用已经关于一个特定实施例所描述的特定任务。也就是说，本公开的范围不仅仅局限于被描述的那些实施例。

因此，能够看出，本公开的各种实施例涉及用于用户认证的方法和系统，其可以例如用于对访问各种设备和/或进行包括财务交易的各种的用户进行认证。

本公开的实施例可以公开一种用于利用电子设备来对用户进行认证的方法，可以包括：向用户提供预先确定的情绪刺激；利用3维视频相机，针对提供预先确定的情绪刺激的时间的至少一部分来捕获用户的面部的运动检测；处理捕获的运动检测以识别用户的情绪响应，以及将所识别的情绪响应与存储的数据相比较以确定是否对用户进行认证。

识别的情绪响应可以包括用户的微表情，其中，微表情可以包括随意的和不随意的肌肉动作。这些微表情可能有时不能够被肉眼区分。

用户的认证可以包括接收开始用户的认证的输入。输入可以是用户发起的输入或应用发起的输入之一。输入可以是用户选择的命令、检测到的电子设备的运动、来自用户的语音输入、来自电子设备上的应用的请求或来自另一个电子设备的请求等之一。

当基于比较确定不对用户进行认证时，通过提供相同的预先确定的情绪刺激或另一(不同的)预先确定的情绪刺激，可以重试用户的认证。

向用户提供的预先确定的情绪刺激可以是预先记录的声音和预先记录的视频中的一者或两者。可能已经例如由用户在用于认证处理的先前的设定期间选择了情绪刺激。将在那时用户对情绪刺激的情绪响应存储为对于该情绪刺激的期望的情绪响应。可能存在由用户选择的若干情绪刺激，以及因此，存储在存储器/存储装置中的若干预期情绪响应。

因此，存储的数据包括与一个或多个预先确定的情绪刺激相对应的来自用户的一个或多个期望的情绪响应，并且一个或多个期望的情绪响应是从对被示出预先确定的情绪刺激所的用户的先前的情绪响应处理而来的。在一些情况下，可以从其中可能已经设立了认证处理的另一电子设备下载存储的预期情绪响应。

本公开的另一实施例可以包括被配置为对用户进行认证的电子设备。电子设备可以包括：一个或多个输出设备，被配置为向用户提供预先确定的情绪刺激；3维视频相机，被配置为针对提供预先确定的情绪刺激的时间的至少一部分来捕获用户的面部的运动检测；以及处理器，被配置为处理捕获的运动检测以识别用户的情绪响应并且将识别的情绪响应与存储器中的存储的数据相比较以确定是对用户进行认证还是不进行认证。

被配置为处理捕获的运动检测的处理器可以被配置为识别用户的微表情。处理器可以被配置为通过检测随意的和不随意的肌肉动作来识别用户的微表情。电子设备可以被配置为接收开始用户的认证的输入，其中，输入可以是用户发起的输入或应用发起的输入。

输入可以来自由用户(通过诸如触敏屏、按钮等的触摸，或通过诸如开关、按压按钮等的操纵之一)激活的触觉输入设备、被配置为检测电子设备的运动的运动传感器、被配置为接收来自用户的语音输入、来自电子设备上的应用的请求的麦克风、被配置为从另一个电子设备接收请求的收发器之一。

当处理器基于比较确定不对用户进行认证时，处理器可以被配置为通过提供相同的预先确定的情绪刺激或不同的预先确定的情绪刺激来重试用户的认证。预先确定的情绪刺激可以是预先记录的声音以及预先记录的视频中的一者或两者。

存储的数据可以包括与一个或多个预先确定的情绪刺激相对应的来自用户的一个或多个期望的情绪响应，并且一个或多个期望的情绪响应可以是来自被示出预先确定的情绪刺激所示出的用户的先前的情绪响应。

本公开的另一实施例可以是用于利用电子设备来对用户进行认证的方法，包括：接收由用户讲出的语音输入；在用户说出语音输入时，经由3维视频相机来接收用户的面部运动的视频输入；将面部运动与所接收的语音输入关联，以及将关联的面部运动与存储的数据相比较以确定是对用户进行认证还是不进行认证。

存储的数据可以包括期望的面部运动，并且当用户先前说出语音输入时——例如，当认证方法被设立时，期望的面部运动可能已经被捕获。

认证可以包括提示用户说出预先确定的语音输入。面部运动可以包括微表情，该微表情可以包括随意的和不随意的肌肉动作。

当接收到开始用户的认证的输入时，认证可以启动。输入例如可以是用户发起的输入或应用发起的输入。输入例如可以是用户选择命令、电子设备中的传感器检测电子设备的运动、来自用户的口头输入、来自电子设备上的应用的请求、来自另一电子设备的请求等。

当基于比较确定不对用户进行认证时，通过提示用户说出相同的语音输入或另一(不同的)语音输入，可以重试对用户认证。

在本公开中提供的另一实施例可以包括：被配置为对用户进行认证的电子设备，包括被配置为接收用户说出的语音输入的麦克风、被配置为捕获用户的面部运动的3维相机系统，以及被配置为将面部运动与所接收的语音输入关联并且将关联的面部运动与存储的数据相比较以确定是对用户进行认证还是不进行认证的处理器。

存储的数据可以包括与语音输入关联的先前捕获的预期面部运动。期望的面部运动是当例如用户先前讲出语音输入时所捕获的面部运动。这可能已经存在用于认证处理的设定期间。面部运动可以包括微表情，该微表情可以包括随意的和不随意的肌肉动作。

电子设备可以例如包括输出设备，该输出设备被配置为向用户输出说出预先确定的语音输入的提示。输出设备例如可以是扬声器和/或视觉显示器。

处理器被配置为处理所接收的语音输入以确定语音输入是否是预先确定的语音输入，其中语音输入包括一个或多个词语。语音输入还可以包括声音。

电子设备可以被配置为接收开始用户的认证的输入，其中输入是用户发起的输入或应用发起的输入。输入例如可以是由用户激活的触觉输入设备(例如包括触敏屏/按钮/等，或拨动开关、被按压的按钮等)、被配置为检测电子设备的运动的运动传感器、被配置为接收来自用户的语音输入、来自电子设备上的应用的请求的麦克风，或被配置为从另一电子设备接收请求的收发器。

当基于比较确定不对用户进行认证时，处理器可以被配置为通过提示用户说出语音输入来重试用户的认证。语音输入可以是相同的语音输入或不同的语音输入。

因此，能够看出，通过处理面部的微表情和/或诸如面部形状和面部的各部分的相对尺寸/关系之类的其他生物识别特征，可以准许认证的安全性方面的非常高级别的置信度。

因此，能够看出，能够通过关于可靠性、速度，以及安全性针对许多目的对用户进行认证来在许多应用中使用本公开的各种实施例。

本公开的各种实施例的各个部分可以被编写为计算机程序并且可以被使用非暂时性机器可读存储介质执行程序的处理器实施。非暂时性机器可读存储介质例如可以包括磁存储介质(例如，ROM、软盘、硬盘等)，光存储介质(例如，CD-ROM，或DVD)、闪盘驱动等。

尽管已经参考图描述了本公开的各种实施例，但本领域技术人员将理解的是，在不背离如所附权利要求所限定的本公开的精神和范围的情况下，可以在其中做出形式和细节方面的各种改变。因此，以上实施例以及其所有方面仅仅是示例并且不进行限制。

本发明涉及用户认证，并且更具体地，涉及生物识别用户认证。

Claims

1.一种用于利用电子设备来对用户进行认证的方法，包括：

向所述用户提供预先确定的情绪刺激；

利用3维视频相机，针对提供预先确定的情绪刺激的时间的至少一部分来捕获用户的面部的运动检测；

处理捕获的运动检测以识别用户的情绪响应；以及

将识别的情绪响应与存储的数据相比较以确定是否对用户进行认证。

2.根据权利要求1所述的方法，其中，识别的情绪响应包括用户的微表情。

3.根据权利要求2所述的方法，其中，微表情包括随意的和不随意的肌肉动作。

4.根据权利要求1所述的方法，包括接收开始用户的认证的输入。

5.根据权利要求4所述的方法，其中，输入是以下之一：用户发起的输入或应用发起的输入。

6.根据权利要求4所述的方法，其中，输入是以下之一：用户选择的命令、检测到的电子设备的运动、来自用户的语音输入、来自电子设备上的应用的请求或来自另一电子设备的请求。

7.根据权利要求1所述的方法，包括，当基于比较确定不对用户进行认证时，通过提供预先确定的情绪刺激或另一预先确定的情绪刺激来重试用户的认证。

8.根据权利要求1所述的方法，其中，预先确定的情绪刺激是以下中的一者或两者：预先记录的声音和预先记录的视频。

9.根据权利要求1所述的方法，其中：

存储的数据包括与一个或多个预先确定的情绪刺激相对应的来自用户的一个或多个期望的情绪响应，以及

一个或多个期望的情绪响应是从对被示出预先确定的情绪刺激的用户的先前的情绪响应处理而来的。

10.一种被配置为对用户进行认证的电子设备，包括：

一个或多个输出设备，被配置为向用户提供预先确定的情绪刺激；

3维视频相机，被配置为针对提供预先确定的情绪刺激的时间的至少一部分来捕获用户的面部的运动检测；以及

处理器，被配置为：

处理捕获的运动检测以识别用户的情绪响应；以及

将识别的情绪响应与存储器中的存储的数据相比较以确定是对用户进行认证还是不进行认证。

11.根据权利要求10所述的电子设备，其中，被配置为处理捕获的运动检测的处理器被配置为识别用户的微表情。

12.根据权利要求11所述的电子设备，其中，处理器被配置为通过检测随意的和不随意的肌肉动作来识别用户的微表情。

13.根据权利要求10所述的电子设备，其中，电子设备被配置为接收开始用户的认证的输入。

14.根据权利要求13所述的电子设备，其中，输入是以下之一：用户发起的输入或应用发起的输入。

15.根据权利要求13所述的电子设备，其中，输入来自以下之一：由用户激活的触觉输入设备、被配置为检测电子设备的运动的运动传感器、被配置为从用户接收语音输入的麦克风、来自电子设备上的应用的请求或被配置为从另一电子设备接收请求的收发器。

16.根据权利要求10所述的电子设备，其中，当处理器基于比较确定不对用户进行认证时，处理器被配置为通过提供预先确定的情绪刺激或另一预先确定的情绪刺激之一来重试用户的认证。

17.根据权利要求10所述的电子设备，其中，预先确定的情绪刺激是以下中的一者或两者：预先记录的声音和预先记录的视频。

18.根据权利要求10所述的电子设备，其中：

一个或多个期望的情绪响应来自被示出预先确定的情绪刺激的用户的先前的情绪响应。

19.一种用于利用电子设备来对用户进行认证的方法，包括：

从用户接收语音输入；

在用户说出语音输入时，经由3维视频相机来接收用户的面部运动的视频输入；

将面部运动与接收的语音输入相关联；以及

将关联的面部运动与存储的数据相比较以确定是对用户进行认证还是不进行认证。

20.根据权利要求19所述的方法，其中：

存储的数据包括期望的面部运动，以及

从先前说出语音输入的用户捕获期望的面部运动。

21.根据权利要求19所述的方法，包括提示用户说出预先确定的语音输入。

22.根据权利要求19所述的方法，其中，面部运动包括微表情。

23.根据权利要求19所述的方法，包括处理接收的语音输入以确定语音输入是否是预先确定的语音输入。

24.根据权利要求23所述的方法，其中，预先确定的语音输入包括一个或多个词。

25.根据权利要求23所述的方法，包括接收开始用户的认证的输入。

26.根据权利要求25所述的方法，其中，输入是以下之一：用户发起的输入或应用发起的输入。

27.根据权利要求25所述的方法，其中，输入是以下之一：用户选择命令、检测电子设备的运动、来自用户的口头输入、来自电子设备上的应用的请求或来自另一电子设备的请求。

28.根据权利要求19所述的方法，包括，当基于比较确定不对用户进行认证时，通过提示用户说出语音输入或另一语音输入来重试用户的认证。

29.一种被配置为对用户进行认证的电子设备，包括：

麦克风，被配置为从用户接收语音输入；

3维相机系统，被配置为捕获用户的面部运动；以及

处理器，被配置为：

将面部运动与接收的语音输入相关联；以及

30.根据权利要求29所述的电子设备，其中，存储的数据包括与语音输入相关联的先前捕获的期望的面部运动。

31.根据权利要求29所述的电子设备，包括输出设备，所述输出设备被配置为输出用于用户说出预先确定的语音输入的提示。

32.根据权利要求29所述的电子设备，其中，面部运动包括微表情。

33.根据权利要求29所述的电子设备，其中，处理器被配置为处理接收的语音输入以确定语音输入是否是预先确定的语音输入。

34.根据权利要求33所述的电子设备，其中，预先确定的语音输入包括一个或多个词。

35.根据权利要求33所述的电子设备，其中，电子设备被配置为接收开始用户的认证的输入。

36.根据权利要求35所述的电子设备，其中，输入是以下之一：用户发起的输入或应用发起的输入。

37.根据权利要求35所述的电子设备，其中，输入来自以下之一：由用户激活的触觉输入设备、被配置为检测电子设备的运动的运动传感器、被配置为从用户接收语音输入的麦克风、来自电子设备上的应用的请求或被配置为从另一电子设备接收请求的收发器。

38.根据权利要求29所述的电子设备，其中，当基于比较确定不对用户进行认证时，处理器被配置为通过提示用户说出语音输入或另一语音输入来重试用户的认证。