CN110178179A

CN110178179A - 用于向电子设备用户认证的语音签名

Info

Publication number: CN110178179A
Application number: CN201780083096.4A
Authority: CN
Inventors: 塞尔焦·奥拉亚; 德米特里·夏皮罗
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-02-13
Filing date: 2017-10-17
Publication date: 2019-08-27
Anticipated expiration: 2037-10-17
Also published as: WO2018147908A8; US10522154B2; CN110178179B; US20180233152A1; EP3580753A1; WO2018147908A1

Abstract

验证应用接收音频输入，检测音频输入是否与已知的密码短语匹配并处理音频输入以确定音频输入是否与已知的语音签名一致。在确定音频输入与已知的语音签名一致时，应用将识别与语音签名相关联的用户。设备将输出音频提示，接收口头答复并分析口头答复以确定口头答复是否对应于预期响应。可以响应于确定在阈值时间段内用户未向设备或应用认证或者如果安全威胁被发布到用户的简档而输出提示。在系统确定口头答复对应于预期响应时，系统将认证用户并向用户提供对设备或应用的访问。

Description

用于向电子设备用户认证的语音签名

相关申请与优先权要求

本专利文档要求2017年5月18日提交的美国专利申请号15/598,998的优先权，该申请要求2017年2月13日提交的美国临时专利申请号62/458,146的优先权。每个优先权申请的公开内容通过引用完全合并于本文档。

背景技术

电子设备的语音激活越来越普及。目前，语音激活要求训练每个电子设备以识别用户的语音。尽管用户的语音提示可以被存储在远程服务器上，但是可能存在由远程处理引起的认证的延迟和额外数据使用。此外，一些用户可能更喜欢根本不发生他们录制的语音的远程存储。

尽管存在能够存储生物特征数据并使用所存储的数据来向电子设备认证用户的物理密钥，但是物理密钥可能被错放或丢失。此外，存在有限的用于在许多类型的电子设备上使用物理密钥来验证用户的方法。

此外，诸如数字家庭助理的某些电子设备可以由多个用户访问，其中一些用户可以使用相同或相似的密码短语。在不同的用户访问相同的设备时，期望知道哪个用户正在访问该设备，使得系统能够访问正确的用户的简档并向用户提供个性化的使用体验。

本公开描述了用于通过跨多个电子设备的语音来验证账户用户的身份的改进的方法和系统。

发明内容

在多个方面，一种向电子设备认证用户的方法包括，由电子设备的处理器通过以下各项来执行认证应用：(a)使电子设备的麦克风接收口头音频输入；(b)分析口头音频输入以检测音频输入是否与已知的密码短语匹配；以及(c)处理口头音频输入以确定音频输入是否与已知的语音签名一致。在确定了口头音频输入与已知的语音签名一致时，处理器将识别与已知的语音签名相关联的用户。

系统可以确定在阈值时间段内用户先前是否已经向电子设备或电子设备的应用认证。或者或另外，系统可以确定安全威胁是否已经被发布到用户的系统使用简档。如果处理器确定在阈值时间段内用户先前未向电子设备或应用认证、或者如果安全威胁的指示已经被发布到用户的简档、或者在检测到其他确定的条件时，则系统将：(i)使电子设备输出具有预期响应的音频提示；(ii)使麦克风接收响应于音频提示的口头答复；(iii)分析口头答复以确定口头答复是否对应于预期响应；以及(iv)在确定了口头答复对应于预期响应之后，认证用户并向用户提供对电子设备或应用的访问。

在向用户提供访问之前，响应于检测到口头答复对应于预期响应，处理器可以处理音频输入以确定口头答复是否与已知的语音签名一致。如果是，则如果口头答复与已知的语音签名一致，处理器可以向用户提供访问。

在一些方面，处理口头音频输入以确定口头音频输入是否与已知的语音签名一致可以包括：识别包括口头音频输入的一个或多个用户简档，选择与所识别的一个或多个用户简档中的一个相关联的每个用户作为候选用户并将口头音频输入与候选用户中的每一个的语音签名相比较以识别其语音签名与口头音频输入一致的候选用户。

可选地，在处理口头音频输入以确定音频输入是否与已知的语音签名一致之前，系统可以执行语音签名生成应用来生成已知的语音签名，该语音签名生成应用：(a)请求用户说出已知的文本段落；(b)接收已知的文本段落的口头音频实例；(c)处理口头音频实例以生成已知的语音签名；(d)向远程服务器传送已知的语音签名以用于存储；以及(e)删除或不保存口头音频实例的任何音频记录。

可选地，在处理口头音频输入以确定音频输入是否与已知的语音签名一致之前，系统可以通过执行语音签名生成应用来生成已知的语音签名，该语音签名生成应用：(a)输出查询；(b)接收对查询的口头响应；(c)处理口头响应以产生已知的语音签名；(d)向远程服务器传送已知的语音签名以用于存储；(e)删除或不保存口头响应的任何音频记录使得口头音频实例不保存在电子设备上(尽管它可以保存在远程服务器上)。

可选地，执行认证应用的电子设备和执行语音签名生成应用的电子设备可以是单独的物理设备。或者它们可以是相同的设备或相同的设备的部件。

可选地，在分析口头答复以确定口头答复是否对应于预期响应之前，系统可以通过以下各项来为用户生成简档：输出查询，接收对查询的回复，处理回复以识别包含在回复中的每一个中的文本，并将包括与回复的对应的查询相关联的每个回复的所识别的文本的简档保存到远程服务器。在使电子设备输出音频提示时，系统可以从简档中随机选择查询中的一个。在分析口头答复以确定口头答复是否对应于预期响应时，系统可以确定口头答复是否对应于与所选择的查询对应的回复的所识别的文本。

为了确定用户的系统使用简档是否包括安全威胁的指示，系统可以确定系统使用简档是否包括以下中的一个或多个：(a)同时在多于阈值数量的设备上同时访问应用的尝试；(b)同时在不同地理位置同时使用多个设备的尝试；或(c)访问与用户的典型使用模式不一致的应用或服务的尝试。

在其他方面，电子设备用户认证系统包括具有麦克风、扬声器和包含认证应用的存储器的电子设备。认证应用在被执行时，将使电子设备的麦克风接收口头音频输入，使一个或多个处理器分析音频输入以检测音频输入是否与口头密码短语匹配，并使一个或多个处理器处理音频输入以确定音频输入是否与已知的语音签名一致。在确定音频输入与口头密码短语匹配并与已知的语音签名一致时，系统将识别与已知的语音签名相关联的用户。系统可以访问用户的简档以确定简档是否包括(a)安全威胁的指示，或(b)在阈值时间段内用户先前未向电子设备或电子设备的所选择的应用认证的指示。电子设备的扬声器将输出具有预期响应的音频提示。可选地，响应于确定系统使用简档包括安全威胁的指示或者在阈值时间段内用户先前未被认证的指示而完成输出音频提示。在麦克风接收到对音频提示的口头答复之后，系统将分析口头答复以确定口头答复是否对应于预期响应。如果系统能够确定口头答复对应于预期响应，则系统将认证用户，使得用户可以访问电子设备的一个或多个功能。

可选地，处理音频输入以确定音频输入是否与已知的语音签名一致的系统的部分可以是远离电子设备并与电子设备通信的服务器的一个或多个部件。如果是，则不需要将已知的语音签名存储在电子设备上。

系统还可以包括被配置为使电子设备的扬声器输出用户说出已知的文本段落的查询或请求的语音签名生成应用。系统可以经由麦克风接收口头响应，处理口头音频实例以生成已知的语音签名，并向远程服务器传送已知的语音签名以用于存储。然后电子设备可以删除或至少不保存口头音频实例的任何音频记录。因此口头音频实例将不会保存在电子设备上。

在替换的方面，一种向电子设备认证用户的方法包括确定电子设备的麦克风已经接收到口头音频输入，并使用口头音频输入来识别用户。方法还包括使电子设备输出与预期响应相关联的音频提示。在确定麦克风已经接收到对音频提示的口头答复时，系统将分析口头答复以确定口头答复是否对应于预期响应。在确定口头答复对应于预期响应之后，系统将认证用户并向用户提供对电子设备或电子设备的应用的访问。

可选地，在使电子设备输出音频提示之前，系统可以确定在阈值时间段内用户先前未向电子设备或应用认证。

可选地，使用口头音频输入来识别用户可以包括：(a)分析口头音频输入以检测口头音频输入是否与已知的密码短语匹配，并识别与已知的密码短语相关联的用户；或者(b)处理口头音频输入以确定口头音频输入是否与已知的语音签名一致，并识别与已知的语音签名相关联的用户。

可选地，在识别用户之后，系统可以访问用户的系统使用简档以确定系统用户简档是否包括安全威胁的指示。如果系统确定系统用户简档包括安全威胁的指示，则作为响应系统可以实现使电子设备输出音频提示的步骤。访问系统使用简档可以包括确定系统使用简档是否包括以下中的一个或多个：(a)同时在多于阈值数量的设备上同时访问应用的尝试；(b)同时在不同地理位置同时使用多个设备的尝试；或(c)访问与用户的典型使用模式不一致的应用或服务的尝试。

可选地，在向用户提供访问之前，并且响应于检测到口头答复对应于预期响应，系统可以处理口头答复以确定口头答复是否与已知的语音签名一致。如果是，则如果口头答复与已知的语音签名一致，系统可以向用户提供访问。

根据一个方面，提供了一种包括编程指令的非暂时性计算机可读介质，该编程指令在被一个或多个处理器执行时执行本文描述的方法中的一个。

根据另一方面，提供了一种包括编程指令的计算机程序，该编程指令在被一个或多个处理器执行时执行本文描述的方法中的一个。

方法、系统、非暂时性计算机可读介质、计算机程序和计算机程序产品提供用于通过跨多个电子设备的语音来验证账户用户的身份的改进的技术。

附图说明

图1图示出根据实施例的用于向任何数量的电子设备验证账户用户的示例系统。

图2是使用两步语音认证过程认证用户的示例方法的流程图。

图3图示出生成语音签名的过程。

图4图示出认证应用如何构建具有二级认证问题和预期响应的用户简档。

图5描绘了可用于包含或实现程序指令的硬件的框图。

具体实施方式

与本公开相关的术语包括：

在本文中，除非上下文另有明确规定，单数形式“一”、“一个”和“该”包括复数指代。术语“包括”表示“包括但不限于”。类似地，术语“包含”表示“包含但不限于”。除非另有定义，否则本文档中使用的所有技术和科学术语具有与本领域的普通技术人员通常理解的相同的含义。

“电子设备”或“计算设备”指的是包括处理器和存储器的设备或系统。每个设备可以具有其自己的处理器和/或存储器，或者处理器和/或存储器可以如在虚拟机或容器布置中与其他设备共享。存储器将包含或接收编程指令，在该编程指令由处理器执行时，使电子设备根据编程指令执行一个或多个操作。编程指令可以是包括这些编程指令、计算机可读数据或两者的计算机程序的一部分。

电子设备的示例包括个人计算机、服务器、大型机、虚拟机、容器、游戏系统、电视、数字家庭助理和诸如智能电话、健身追踪设备、可穿戴虚拟现实设备、诸如智能手表和智能眼镜的互联网连接的可穿戴计算机、个人数字助理、相机、平板电脑、笔记本电脑、媒体播放器等的移动电子设备。电子设备还可以包括能够在物联网布置中通信的电器和其他设备，诸如智能恒温器、冰箱、连接的灯泡和其他设备。电子设备还可以包括车辆的部件，诸如仪表板娱乐和导航系统、以及车载车辆诊断和操作系统。在客户端-服务器布置中，客户端设备和服务器是电子设备，其中服务器包含客户端设备经由一个或多个通信网络中的一个或多个通信链路访问的指令和/或数据。在虚拟机布置中，服务器可以是电子设备，并且每个虚拟机或容器也可以被认为是电子设备。在下面的讨论中，为简洁起见，客户端设备、服务器设备、虚拟机或容器可被简称为“设备”。可以被包括在电子设备中的附加元件将在下面在图5的上下文中讨论。

术语“处理器”和“处理设备”指的是被配置为执行编程指令的电子设备的硬件部件。除非另有明确说明，否则单数的术语“处理器”和“处理设备”旨在包括单个处理设备实施例和多个处理设备一起或共同在其中执行处理的实施例两者。

术语“存储器”、“存储器设备”、“数据存储”、“数据存储设备”、“计算机程序产品”等均指的是其上存储计算机可读数据、编程指令或两者的非暂时性设备。除非另有明确说明，否则术语“存储器”、“存储器设备”、“数据存储”、“数据存储设备”、“计算机程序产品”等旨在包括单个设备实施例、多个存储器设备一起或共同在其中存储数据或指令集合的实施例、以及这类设备内的单独的扇区。

图1图示出根据实施例的用于向多种电子设备验证账户用户的示例系统。如图1所图示的，诸如智能电话102、诸如所示的平板计算设备的计算设备103、诸如仪表板内的娱乐和导航系统的车载设备104、诸如智能手表105的可穿戴电子设备、以及诸如家庭语音助理106、智能灯泡107和智能恒温器108的连接的物联网设备的任何数量的客户电子设备，经由通信网络110彼此通信和/或与远程服务器101通信。通信网络110可以是局域网(LAN)、广域网(WAN)、移动或蜂窝通信网络、外联网、内联网、互联网等。

客户端电子设备102-108中的每一个将包括设备通过其接收来自设备用户的音频输入并且特别是语音提示的麦克风。客户端电子设备和/或服务器101中的一个或多个可以包括一个或多个数据存储112或与一个或多个数据存储112通信。每个数据存储可以包括一个或多个能够在其中存储数据或其他信息的非暂时性计算机可读介质扇区。

在多种实施例中，用户能够使用他或她的语音作为认证密钥来访问电子设备或电子设备执行的一个或多个应用。为了做到这一点，系统通过在单个电子设备上提示用户响应提示集合并且还向电子设备说出密码短语来为用户生成语音签名。语音签名是包括关于用户语音的某些特征的数据的独特的代码集合，但是它不包括用户语音本身的实际记录。在本文档中，术语“声纹(voice print)”和“语音签名(voice signature)”可互换使用以指代语音签名。语音签名和密码短语可以被存储在电子设备的存储器中。或者为了避免对语音签名和密码短语的潜在复制和访问，可以将语音签名和密码短语中的一个或两个上传并存储到云服务中的远离电子设备的数据存储。

稍后，在用户希望访问应用或电子设备时，为了验证用户的身份，设备收听(或应用使设备收听)要说出的独特的密码短语。在检测到密码短语时，处理接收到的音频信号以识别音频信号的某些特征，并且这些特征与用户的语音签名交叉引用。

如果确认了认证，则电子设备可以允许用户访问电子设备或所请求的应用。然而，如果用户先前未访问过特定的应用或设备，或者在阈值时间段内用户未访问过特定设备，或者潜在安全威胁已与用户的系统使用简档相关联(诸如因为从用户上次被验证之后在用户的账户上检测到安全问题)，则在准予许可之前验证过程将执行第二验证步骤并请求用户说出对问题的响应。然后系统将解析用户的口头响应并将响应与用户的语音签名相比较。如果响应与用户的语音签名一致，则系统将向设备认证用户。或者第二验证步骤(或附加验证步骤)可以是使用设备的近场通信(NFC)接收器，通过确定已知与用户相关联的另一设备是否可以从相关联的设备接收信号来检测相关联的设备是否在NFC接收器的检测范围内。

图2中示出了用于向电子设备认证用户的示例处理流程。在多种实施例中，电子设备的处理器将执行认证应用，该认证应用是包括用于确定用户是否被准予访问电子设备或一个或多个在电子设备上用户可用的应用的规则集合和/或参数的编程指令集合。该方法将包括使电子设备的麦克风接收口头音频输入201。可选地，在使麦克风接收口头音频输入之前，系统可输出视觉或音频提示以请求用户提供口头音频输入201，或者系统可以从用户接收物理命令，诸如触摸屏激活区域、电源按钮和/或语音激活开关的触摸。或者系统可以简单地将其它的频扬声器保持在“始终开启”模式使得系统连续地收听密码短语而不需首先提示用户或从用户接收物理命令。

设备可能在向设备或它的应用认证用户之前要求用户说出已知的密码短语。如果是，则系统可以分析音频输入以检测音频输入是否与已知密码短语匹配202。系统可以通过——诸如通过使用语音到文本转换器并将所产生的单词或短语与先前已经用于访问电子设备或应用的已知密码短语的数据集合相比较——任何合适的语音识别过程来进行此操作。例如，系统的音频输入可以包括收集用户的口头语音的音频信号的麦克风并且系统可以生成接收到的信号的声谱图。声谱图表示一段时间内口头语音的频率，相对幅度由阴影指示。因此，可以针对多种辅音和元音检测并记录说话者的语音的声学特征。系统可以将接收到的信号的声谱图与已知用户的存储的声谱图数据相比较以识别其发音特征与当时正在讲话的用户的发音特征匹配的用户。

为了向设备认证用户，系统可以要求(在其他标准中)口头密码短语与已知的密码短语中的一个匹配。已知的密码短语可以本地存储在设备上，或者已知的密码短语可以远程存储在运行认证应用的服务器上。已知的密码短语可以与用户简档组合存储，使得系统能够识别候选用户(或候选用户集合)作为分析的第一级203。候选用户是具有包括口头密码短语或与口头密码短语相关联的用户简档的那些用户。

如果音频输入与已知的密码短语不匹配，则设备将继续经由麦克风监测环境直到设备检测到已知的密码短语204。

在系统检测到与已知的密码短语匹配的音频输入时，系统还将处理音频输入以生成音频输入的声纹205。然后系统将确定音频输入的声纹是否与存储在用户简档中的已知的语音签名一致206。系统可以生成声纹并确定口头短语是否与声纹一致。生成声纹和确定一致性的方法是本领域技术人员已知的，诸如美国专利号9,595,260和9,398,128中公开的那些，其公开内容通过引用合并于本文档中。本公开的实施例可以使用任何现在或以后已知的声纹生成和匹配过程。系统最初可以将声纹与在步骤203中被识别为候选用户的那些用户的语音签名相比较。如果候选用户集合中没有匹配，则系统还可以将声纹与系统针对其具有包含语音签名的用户简档的一个或多个其他用户的语音签名相比较。系统可以使用任何合适的标准来选择其他用户，诸如电子设备的已知的优先用户。

如果系统不能识别具有与音频输入的音纹匹配的语音签名的任何用户，则系统可以拒绝220用户对应用或设备的访问，直到用户向设备认证他自己或她自己，诸如通过物理地输入或说出用户名和密码、或者通过向电子设备的扫描仪呈现诸如指纹或视网膜扫描的生物识别标识符、或者通过呈现物理令牌。

另一方面，如果系统确定音频输入与已知的语音签名一致206，则系统可以识别其简档包括已知的语音签名的用户。系统还可以从用户简档或数据存储的另一个存储器段中提取数据并使用该数据基于存储在简档或其他存储器段中的用户的使用历史来确定在阈值时间段内用户上次是否执行了一个或多个合格的访问事件207。合格的访问事件可以包括使用(可选地具有相同的应用或不同的应用的)相同的电子设备、或者使用不同的已知电子设备上的相同的应用、或者一些其他动作。如果其简档包括已知的语音签名的用户在阈值时间段内执行了合格的访问事件，则系统可以准予用户访问对应用或电子设备的217，并因此允许用户访问设备或应用。如果系统不能识别与已知用户对应的语音签名，或者如果存在匹配但在阈值时间段内用户未执行合格的访问事件，则系统可能要求用户执行将在下面描述的二级认证过程。

可选地，系统可以实现一个或多个建立用于决定是否准予用户访问或要求用户执行二级认证过程的标准的附加规则。例如，认证应用可以从用户的系统使用简档中提取数据以确定系统使用简档是否指示潜在的安全威胁已经发布到用户的系统使用简档或者在阈值时间段内发生208。能够导致发布安全威胁的安全问题的示例包括：检测到同时在多于阈值数量的设备上访问应用的尝试、检测到同时在不同地理位置使用多个设备的尝试或者检测到访问与用户的典型使用模式不一致的应用或服务的尝试(诸如检测到在用户先前未访问的国家中的访问尝试)。系统使用简档可以是上述用户简档的部件，或者它可以是存储在单独的存储器段或存储器设备中的单独的简档。

如果系统确定在准予用户访问之前用户应该经历二级认证过程，则系统可以选择音频提示并使电子设备的扬声器向用户输出音频提示210。提示将是与预期响应相关联的问题、陈述或短语并将被存储在用户的简档中或基于用户简档中包含的数据。例如，提示可以是诸如“你最喜欢的电影是什么”或“你的第一个宠物的名字是什么”的问题，并且响应可以存储在用户的简档中。可以从候选问题集合中随机选择问题，或者可以使用诸如选择在阈值时间段内的或阈值数量的最近的先前问题中先前未被问过的问题的任何合适的标准来从候选集合中选择问题。该问题可能要求用户执行口头任务，诸如说出附加的密码短语或安全码。

系统可以经由电子设备的麦克风接收对提示的口头响应211。然后认证应用将使用诸如前面描述的任何合适的语音识别技术处理口头响应以确定口头响应是否与预期响应匹配212。在一些实施例中，系统可以输出多个提示并且用户可能被要求选择提示中的一个或多个或者选择全部提示。

如果对每个被呈现的提示的口头响应与预期响应匹配，则系统可以认证用户并允许用户访问设备或应用217。如果口头响应与预期响应不匹配，则认证应用可以拒绝220用户访问应用或设备直到用户提供附加的认证凭证。或者认证应用可以选择并输出一个或多个不同的问题直到用户提供正确的预期响应(在这种情况下认证应用将准予访问)或者已经呈现阈值数量的问题并且未正确答复(在这种情况下认证应用将拒绝访问)。

可选地，系统还可以在二级认证过程中生成用户对每个提示的答复的声纹并且系统可以将声纹与包含在用户简档中的语音签名相比较213。如果发生这种情况，认证应用在它准予用户访问之前还可能要求响应的声纹与语音签名匹配214。否则，它可以拒绝220用户访问应用或设备直到用户提供附加的有效认证凭证。

在实现图2中描述的过程之前，系统可以生成并存储语音签名，以及提示和提示的相关的预期响应。图3描述了系统可以遵循以做到这一点的过程。参考图3，电子设备的处理器执行输出请求用户说出已知的文本段落的提示的语音签名生成应用301。电子设备可以是如图2的认证过程中所使用的那些设备的相同设备或不同设备。文本段落将从语音签名生成应用可访问的存储器中检索或者包含在语音签名生成应用的规则集合中。语音签名生成应用可以通过在电子设备的显示屏幕上显示文本段落、通过使电子设备的扬声器将文本段落作为口头的词输出、通过使打印机打印文本段落、通过在电子消息中将文本段落发送到用户的消息收发系统地址或通过一些其他方式来输出该文本段落。然后系统将接收已知的文本段落的口头音频实例302并使用诸如上述描述的现在或以后已知的过程处理口头音频实例303以生成已知的语音签名304。然后电子设备将向远程服务器传送已知的语音签名以用于存储，使得其他电子设备能够访问语音签名以用于其他电子设备认证过程305。语音签名可以被保存为用户的用户简档的一部分或与用户简档相关联。系统将不会向远程服务器传送用户说出文本段落的任何音频记录。在一些实施例中，在处理完成之后电子设备甚至可以删除口头响应，使得用户说出的实际音频记录被存档。

可选地，在分析口头音频输入之前系统还可以生成或补充用户简档以获取提示和预期响应集合。这可以使用任何合适的方法来完成。例如参考图4，认证应用可以使电子设备用户界面401输出列表、下拉菜单或包含候选问题的其他结构。用户可以从候选集合中选择问题并提供将被保存并用作预期答复的答复。系统将每个答复的文本保存到用户的简档中。或者系统可以基于存储在用户的系统使用简档中的数据生成问题和预期答复，诸如“你上次使用此应用是什么时间？”或“你在此电子设备上收听的最后一首歌是什么？”作为另一选择，系统可以向用户提供以自由形式的文本或口头的词输入问题和答复的能力。

图5描绘了可用于包含或实现——诸如托管服务、用于托管服务的监测服务、正访问托管服务的电子设备或以任何这些角色服务的虚拟机或容器的那些程序指令的——程序指令的硬件的框图。总线500用作连接硬件的其他图示出的部件的信息高速公路。总线可以是系统或者是系统的各种元件经由其共享数据的有线或无线通信系统的元件之间的物理连接。处理器505是执行运行程序所需的计算和逻辑运算的系统的处理设备。处理器505单独或与图5中公开的一个或多个其他元件结合，是如在本公开内容中使用这些术语的处理设备、计算设备或处理器的示例。处理设备可以是物理处理设备、包含在另一处理设备内的虚拟设备或包括在处理设备内的容器。

存储器设备510是其上可以存储编程指令、数据或两者的硬件元件或硬件元件的段。只读存储器(ROM)和随机存取存储器(RAM)与云存储服务一起构成存储器设备的示例。

可选的显示器接口530可以允许信息以音频、视觉、图形或字母数字格式被显示在显示器535上。使用诸如通信端口或天线的各种通信设备540可以发生与诸如打印设备的外部设备的通信。通信设备540可以通信地连接到通信网络，诸如互联网或内联网。

硬件还可以包括诸如键盘或小键盘550的用户输入、或诸如鼠标、触摸板、触摸屏、遥控器、定点设备或视频输入设备的其他输入设备。硬件还可以包括用于接收语音和其他音频输入的麦克风555。还可以从诸如数码相机或摄像机的图像捕获设备520接收数据。可以包括位置传感器560和/或运动传感器570以检测设备的位置和移动。运动传感器570的示例包括陀螺仪或加速计。诸如全球定位系统(GPS)传感器设备的位置传感器560的示例从外部GPS网络接收位置数据。

根据实施例，提供了一种认证应用，该认证应用接收音频输入，检测音频输入是否与已知的密码短语匹配并处理音频输入以确定音频输入是否与已知的语音签名一致。在确定音频输入与已知的语音签名一致时，应用将识别与语音签名相关联的用户。设备将输出音频提示，接收口头答复并分析口头答复以确定口头答复是否对应于预期响应。可以响应于确定在阈值时间段内用户未向设备或应用认证或者如果安全威胁被发布到用户的简档而输出提示。在系统确定口头答复对应于预期响应时，系统将认证用户并为用户提供对设备或应用的访问。

上述过程能够帮助电子设备向账户认证用户而无需用户输入密码或使用物理密钥。替换的用途可以是用于对建筑物或车辆解锁或激活物理安保措施。上述过程还可用于在处理医疗或财务信息时通过电话验证某人的身份。可以将多个密钥存储在数据存储中，使得随机选择的挑战问题可以被用户作为二级认证而解决。只要每个用户的声纹由认证系统生成和存储，语音识别的使用还能够使多个用户能够向单个设备认证。

上述特征和功能以及替换方案可以组合到许多其他不同的系统或应用中。本领域技术人员可以进行各种替换、修改、变化或改进，每个替换、修改、变化或改进也旨在被所公开的实施例包含。

权利要求书(按照条约第19条的修改)

1.一种向电子设备认证用户的方法，所述方法包括：

通过电子设备的处理器，通过以下各项执行认证应用：

使所述电子设备的麦克风接收口头音频输入；

分析所述口头音频输入以检测所述口头音频输入是否与已知的密码短语匹配；

处理所述口头音频输入以确定所述口头音频输入是否与已知的语音签名一致；

在确定所述口头音频输入与所述已知的密码短语匹配并且与所述已知的语音签名一致时，识别与所述已知的语音签名相关联的用户；

实现用于决定是否要求所述用户经历二级认证过程的一个或多个规则；以及

响应于确定所述用户应该经历所述二级认证过程，通过以下各项执行所述二级认证过程：

使所述电子设备输出与预期响应相关联的音频提示，

使所述麦克风接收对所述音频提示的口头答复，以及

分析所述口头答复以确定所述口头答复是否对应于所述预期响应，以及

在确定所述口头答复对应于所述预期响应之后，认证所述用户并向所述用户提供对所述电子设备或所述认证应用的访问。

2.根据权利要求1所述的方法，其中：

实现用于决定是否要求所述用户经历所述二级认证过程的规则包括：确定在阈值时间段内所述用户先前是否已经向所述电子设备或所述电子设备的所选择的应用认证；以及

确定所述用户应该经历所述二级认证过程包括：确定在所述阈值时间段内所述用户先前未向所述电子设备或所选择的应用认证。

3.根据权利要求1所述的方法，其中：

实现用于决定是否要求所述用户执行二级认证过程的规则包括：访问所述用户的系统使用简档以确定所述系统使用简档是否包括安全威胁的指示；以及

其中，使所述电子设备输出所述音频提示是响应于确定所述系统使用简档包括安全威胁的指示而执行的。

4.根据权利要求3所述的方法，其中，访问所述用户的所述系统使用简档以确定所述系统使用简档是否包括安全威胁的指示包括确定所述系统使用简档是否包括以下中的一个或多个：

同时在多于阈值数量的设备上同时访问应用的尝试；

同时在不同地理位置同时使用多个设备的尝试；或

访问与所述用户的典型使用模式不一致的应用或服务的尝试。

5.根据权利要求1所述的方法，进一步包括，在向所述用户提供所述访问之前：

响应于检测到所述口头答复对应于所述预期响应，处理所述口头答复以确定所述口头答复是否与所述已知的语音签名一致；以及

仅如果所述口头答复与所述已知的语音签名一致，向所述用户提供所述访问。

6.根据权利要求1所述的方法，其中，处理所述口头音频输入以确定所述口头音频输入是否与所述已知的语音签名一致包括：

识别包括所述已知的密码短语的一个或多个用户简档；

选择与所识别的一个或多个用户简档中的一个用户简档相关联的每个用户作为候选用户；以及

将所述口头音频输入与所述候选用户中的每一个候选用户的语音签名相比较以识别与所述口头音频输入一致的候选用户语音签名。

7.根据权利要求1所述的方法，进一步包括，在处理所述口头音频输入以确定所述口头音频输入是否与所述已知的语音签名一致之前，通过以下各项生成所述已知的语音签名：

通过电子设备的处理器，执行语音签名生成应用，所述语音签名生成应用：

请求所述用户说出已知的文本段落，

接收所述已知的文本段落的口头音频实例，

处理所述口头音频实例以生成所述已知的语音签名，

向远程服务器传送所述已知的语音签名以用于存储，以及

删除或不保存所述口头音频实例的任何音频记录。

8.根据权利要求1所述的方法，进一步包括，在处理所述口头音频输入以确定所述口头音频输入是否与所述已知的语音签名一致之前，通过以下各项生成所述已知的语音签名：

输出查询，

接收对所述查询的口头响应，

处理所述口头响应以产生所述已知的语音签名，

向远程服务器传送所述已知的语音签名以用于存储，以及

删除或不保存所述口头响应的任何音频记录，使得所述口头音频实例不保存在所述电子设备上。

9.根据权利要求7所述的方法，其中，执行所述认证应用的所述电子设备和执行所述语音签名生成应用的所述电子设备是单独的物理设备。

10.根据权利要求1所述的方法，进一步包括：

在分析所述口头答复以确定所述口头答复是否对应于所述预期响应之前，通过以下各项为所述用户生成简档：

由电子设备的处理器：

输出多个查询，

接收对所述查询的多个回复，

处理所述回复以识别所述回复中的每一个回复中包含的文本，以及

将包括与所述回复的对应的查询相关联的每个回复的所识别的文本的简档保存到远程服务器；以及

在使所述电子设备输出所述音频提示时，从所述简档中随机选择所述查询中的一个查询；以及

在分析所述口头答复以确定所述口头答复是否对应于所述预期响应时，确定所述口头答复是否对应于与所选择的查询对应的所述答复的所识别的文本。

11.一种电子设备用户认证系统，包括：

一种电子设备，所述电子设备包括麦克风、扬声器和包含认证应用的存储器，所述认证应用在被一个或多个处理器运行时，被配置为：

使所述麦克风接收音频输入；

使所述一个或多个处理器分析所述音频输入以检测所述音频输入是否与已知的密码短语匹配；

使所述一个或多个处理器处理所述音频输入以确定所述音频输入是否与已知的语音签名一致；

在确定所述音频输入与所述已知的密码短语匹配并且与所述已知的语音签名一致时，使所述一个或多个处理器识别与所述已知的语音签名相关联的用户；

实现用于决定是否要求所述用户经历二级认证过程的一个或多个规则；

使所述电子设备的所述扬声器输出与预期响应相关联的音频提示，以及

在所述麦克风接收到响应于所述音频提示的口头答复之后，使所述一个或多个处理器分析所述口头答复以确定所述口头答复是否对应于所述预期响应；以及

在确定所述口头答复对应于所述预期响应之后，使所述一个或多个处理器认证所述用户，使得所述用户能够访问所述电子设备的一个或多个功能。

12.根据权利要求11所述的电子设备用户认证系统，其中：

用于决定是否要求所述用户经历所述二级认证过程的所述一个或多个规则包括：用于访问所述用户的简档以确定所述简档是否包括在阈值时间段内所述用户先前未向所述电子设备或者所述电子设备的所选择的应用认证的指示的规则；以及

确定所述用户应该经历所述二级认证过程包括：确定所述简档包括在所述阈值时间段内所述用户先前未被认证的指示。

13.根据权利要求11所述的电子设备用户认证系统，其中：

用于决定是否要求所述用户经历所述二级认证过程的所述一个或多个规则包括：使所述一个或多个处理器访问所述用户的简档以确定所述简档是否包括安全威胁的指示的规则；以及

确定所述用户应该经历所述二级认证过程包括：确定所述简档包括安全威胁的指示。

14.根据权利要求11所述的电子设备用户认证系统，其中：

处理所述音频输入以确定所述音频输入是否与已知的语音签名一致的所述一个或多个处理器是远离所述电子设备并且与所述电子设备通信的服务器的一个或多个部件；以及

所述已知的语音签名未存储在所述电子设备上。

15.根据权利要求11所述的电子设备用户认证系统，进一步包括附加指令，所述附加指令被配置为使所述一个或多个处理器在向所述用户提供所述访问之前：

响应于检测到所述口头答复对应于所述预期响应，处理所述音频输入以确定所述口头答复是否与所述已知的语音签名一致；以及

16.根据权利要求11所述的电子设备用户认证系统，其中，用于处理所述音频输入以确定所述音频输入是否与所述已知的语音签名一致的所述指令包括用于以下的指令：

识别包括所述音频输入的一个或多个用户简档；

将所述口头密码短语与所述候选用户中的每一个候选用户的语音签名相比较以识别与所述音频输入一致的候选用户语音签名。

17.根据权利要求11所述的电子设备用户认证系统，进一步包括语音签名生成应用，所述语音签名生成应用被配置为使所述电子设备：

使所述电子设备的所述扬声器输出所述用户说出已知的文本段落的查询或请求；

经由所述麦克风接收口头响应；

处理所述口头响应以生成所述已知的语音签名；

向远程服务器传送所述已知的语音签名以用于存储，以及

删除或不保存口头音频实例的任何音频记录，使得所述口头音频实例不保存在所述电子设备上。

18.一种向电子设备认证用户的方法，所述方法包括：

由处理器：

确定电子设备的麦克风已经接收到口头音频输入；

使用所述口头音频输入来识别用户；

使所述电子设备输出与预期响应相关联的音频提示，

确定所述麦克风已接收到对所述音频提示的口头答复，以及

分析所述口头答复以确定所述口头答复是否对应于所述预期响应；以及

在确定所述口头答复对应于所述预期响应之后，认证所述用户并且向所述用户提供对所述电子设备或所述电子设备的应用的访问。

19.根据权利要求18所述的方法，其中：

实现用于决定是否要求所述用户经历所述二级认证过程的所述一个或多个规则包括：确定在阈值时间段内所述用户先前未向所述电子设备或所述应用认证。

20.根据权利要求18所述的方法，其中，使用所述口头音频输入来识别用户包括：

分析所述口头音频输入以检测所述口头音频输入是否与已知的密码短语匹配，并且识别与所述已知的密码短语相关联的用户；或者

处理所述口头音频输入以确定所述口头音频输入是否与已知的语音签名一致，并且识别与所述已知的语音签名相关联的用户。

21.根据权利要求18所述的方法，其中，实现用于决定是否要求所述用户经历所述二级认证过程的所述一个或多个规则包括：

访问所述用户的系统使用简档以确定所述系统使用简档是否包括安全威胁的指示；以及

确定所述系统使用简档包括安全威胁的指示。

22.根据权利要求21所述的方法，其中，访问所述用户的所述系统使用简档以确定所述系统使用简档是否包括安全威胁的指示包括确定所述系统使用简档是否包括以下中的一个或多个：

同时在多于阈值数量的设备上同时访问应用的尝试；

同时在不同地理位置同时使用多个设备的尝试；或

23.根据权利要求18所述的方法，进一步包括，在向所述用户提供所述访问之前：

响应于检测到所述口头答复对应于所述预期响应，处理所述口头答复以确定所述口头答复是否与已知的语音签名一致；以及

24.一种包括指令的非暂时性计算机可读介质，所述指令在被一个或多个处理器执行时执行权利要求1至10和18至23中的一个所述的方法。

25.一种包括指令的计算机程序，所述指令在被一个或多个处理器执行时执行权利要求1至10和18至23中的一个所述的方法。

Claims

1.一种向电子设备认证用户的方法，所述方法包括：

通过电子设备的处理器，通过以下各项执行认证应用：

使所述电子设备的麦克风接收口头音频输入；

使所述电子设备输出与预期响应相关联的音频提示；

使所述麦克风接收对所述音频提示的口头答复；

2.根据权利要求1所述的方法，进一步包括：

在使所述电子设备输出所述音频提示之前，确定在阈值时间段内所述用户先前是否已经向所述电子设备或所述电子设备的所选择的应用认证；以及

其中，使所述电子设备输出所述音频提示是响应于确定在所述阈值时间段内所述用户先前未向所述电子设备或所选择的应用认证而执行的。

3.根据权利要求1所述的方法，进一步包括：

在使所述电子设备输出所述音频提示之前，访问所述用户的系统使用简档以确定所述系统使用简档是否包括安全威胁的指示；以及

同时在多于阈值数量的设备上同时访问应用的尝试；

同时在不同地理位置同时使用多个设备的尝试；或

识别包括所述已知的密码短语的一个或多个用户简档；

请求所述用户说出已知的文本段落，

接收所述已知的文本段落的口头音频实例，

处理所述口头音频实例以生成所述已知的语音签名，

向远程服务器传送所述已知的语音签名以用于存储，以及

删除或不保存所述口头音频实例的任何音频记录。

输出查询，

接收对所述查询的口头响应，

处理所述口头响应以产生所述已知的语音签名，

向远程服务器传送所述已知的语音签名以用于存储，以及

10.根据权利要求1所述的方法，进一步包括：

由电子设备的处理器：

输出多个查询，

接收对所述查询的多个回复，

11.一种电子设备用户认证系统，包括：

使所述麦克风接收音频输入；

使所述电子设备的所述扬声器输出与预期响应相关联的音频提示；

12.根据权利要求11所述的电子设备用户认证系统，其中：

所述认证应用还被配置为使所述一个或多个处理器访问所述用户的简档以确定所述简档是否包括在阈值时间段内所述用户先前未向所述电子设备或者所述电子设备的所选择的应用认证的指示；以及

使所述电子设备的所述扬声器输出所述音频提示的指令包括：响应于确定所述简档包括在所述阈值时间段内所述用户先前未被认证的指示而使所述电子设备的所述扬声器输出所述音频提示的指令的指令。

13.根据权利要求11所述的电子设备用户认证系统，其中：

所述认证应用还被配置为使所述一个或多个处理器访问所述用户的简档以确定所述简档是否包括安全威胁的指示；以及

使所述电子设备的所述扬声器输出所述音频提示的指令包括：响应于确定所述简档包括安全威胁的指示而使所述电子设备的所述扬声器输出所述音频提示的指令。

14.根据权利要求11所述的电子设备用户认证系统，其中：

所述已知的语音签名未存储在所述电子设备上。

16.根据权利要求11所述的电子设备用户认证系统，其中，用于处理所述音频输入以确定口头密码短语是否与所述已知的语音签名一致的所述指令包括用于以下的指令：

识别包括所述口头密码短语的一个或多个用户简档；

将所述口头密码短语与所述候选用户中的每一个候选用户的语音签名相比较以识别与所述口头密码短语一致的候选用户语音签名。

经由所述麦克风接收口头响应；

处理所述口头响应以生成所述已知的语音签名；

向远程服务器传送所述已知的语音签名以用于存储，以及

18.一种向电子设备认证用户的方法，所述方法包括：

由处理器：

确定电子设备的麦克风已经接收到口头音频输入；

使用所述口头音频输入来识别用户；

使所述电子设备输出与预期响应相关联的音频提示；

确定所述麦克风已接收到对所述音频提示的口头答复；

19.根据权利要求18所述的方法，进一步包括，由所述处理器：

在使所述电子设备输出所述音频提示之前，确定在阈值时间段内所述用户先前未向所述电子设备或所述应用认证。

21.根据权利要求18所述的方法，进一步包括，由所述处理器：

在识别所述用户之后，访问所述用户的系统使用简档以确定所述系统使用简档是否包括安全威胁的指示；以及

确定所述系统使用简档包括安全威胁的指示；

其中，使所述电子设备输出与所述预期响应相关联的所述音频提示的步骤是响应于确定所述系统用户简档包括安全威胁的指示而执行的。

同时在多于阈值数量的设备上同时访问应用的尝试；

同时在不同地理位置同时使用多个设备的尝试；或