CN105324784A

CN105324784A - 语音交易处理

Info

Publication number: CN105324784A
Application number: CN201480034614.XA
Authority: CN
Inventors: J·F·希茨; K·R·瓦格纳; M·A·内尔森
Original assignee: Visa International Service Association
Current assignee: Visa International Service Association
Priority date: 2013-06-17
Filing date: 2014-06-16
Publication date: 2016-02-10
Anticipated expiration: 2034-06-16
Also published as: US10402827B2; EP3011515A1; US20190050864A1; CN105324784B; EP3564887A1; EP3011515B1; US20190340620A1; HK1215614A1; SG10201900178WA; US10134039B2; EP3011515A4; US9754258B2; SG11201510186RA; AU2014281770B2; WO2014204855A1; US20170270530A1; US20140372128A1; KR20160019924A; AU2014281770A1

Abstract

本发明的各实施例涉及用于语音交易处理的系统和方法。可以确定与用户相关联的设备的位置。可以至少部分地基于该位置来检索对存储在数据库内的与用户相关联的话音模型的引用。可以接收来自用户的话音段。使用该引用，可以将话音段与存储在数据库内的话音模型进行比较。可以基于比较步骤来作出用户是否经认证以进行交易的确定。

Description

语音交易处理

相关申请的交叉引用

本申请要求2014年6月13日提交的、题为“语音交易处理”(“SPEECHTRANSACTIONPROCESSING”)的美国非临时申请No.14/304,681(代理人档案号：79900-906869)的优先权，该美国非临时申请要求2013年6月17日提交的、题为“语音交易处理”(“SPEECHTRANSACTIONPROCESSING”)的美国临时申请No.61/835,992(代理人档案号：79900-876103)的优先权，出于所有目的，这两项申请的全部内容通过引用被结合在本文中。

背景技术

本发明的各实施例涉及允许在销售点(POS)终端处进行的用户验证的系统和方法。存在着用户可能希望在销售点终端处利用他们的移动设备来完成交易的许多实例。在一些情况下，可通过例如使用分配给用户的个人标识号(PIN)来实现对用户的验证。然而，PIN经常是遭损害的。如此，PIN的作为安全防护以及对于用户验证的有效性大大地降低。另外，作为结果，用户对验证系统的信任和舒适度会降低。

本发明的诸实施例单独地并共同地解决这些以及其他问题。

发明内容

本发明的各实施例涉及用于认证用户进行交易的系统和方法。更具体而言，本发明的各实施例涉及用于在用户处于指定的位置内时进行确定并从数据库获取用于访问与该用户相关联的话音模型的引用的系统和方法。随后，可以使用对话音模型的引用以便通过将接收到的话音段与话音模型进行比较来认证用户。由于用户的话音和语音模式可以是该用户所特有的，因此，欺骗者将难以模仿其他人的话音来欺骗性地进行交易。如此，利用用户的话音来认证用户进行交易可以提供比可能容易受损害的其他认证技术(诸如，PIN)更好的安全性。

本发明的一些方面涉及用于提高搜索数据库的效率的技术。在一些实施例中，这些数据库可以存储多个用户的话音模型，这些话音模型可以用于在交易的发起期间进行话音认证。这些数据库可包括数千或数百万条目，这些条目可能会花费大量的时间来搜索。在事件(例如，用户进入商家位置)发生时，可以获取对存储在数据库内的与该用户相关联的话音模型的引用。引用可以是指向数据库内的话音模型的位置的指针。可以基于与用户的通信设备相关联的属性(例如，序列号、国际移动设备标识(IMEI)号、订户标识模块(SIM)卡号、电话号码、与数字钱包应用相关联的主帐号或令牌，等等)来标识该用户。用户可以在发起交易时经由通信设备来提供话音段(例如，话音样本)。随后，可以使用获取的引用，将所提供的话音段与存储在数据库内的与用户相关联的话音模型进行比较。这些技术可以消除或减少在交易点处搜索整个数据库以获取用户的话音模型的需求或时间，因为在事件(例如，用户进入商家位置)发生时，可能已经获取了对话音模型的引用。

一些实施例涉及用于对于认证用户进行交易的方法。该方法包括：在服务器计算机处，接收指示与用户相关联的通信设备的位置的通信。该方法还包括，响应于接收到该通信，经由服务器计算机来检索用于访问与该用户相关联的话音模型的引用，其中，话音模型存储在数据库中。该方法进一步包括：在服务器计算机处，接收来自该用户的话音段。该方法另外还包括：使用该引用来访问存储在数据库中的话音模型。该方法还包括：将接收到的话音段与话音模型进行比较。该方法进一步包括：至少部分地基于将接收到的话音段与话音模型进行比较来确定用户是否经认证以进行交易。

本发明的一些实施例涉及服务器计算机，该服务器计算机包括：处理器以及耦合到该处理器的计算机可读介质。计算机可读介质包括代码，该代码可由处理器执行，并且用于实现上文所描述的方法。

附图说明

图1是根据一些实施例的支付系统的框图。

图2是根据一些实施例的通信设备的框图。

图3是根据一些实施例的服务器计算机的框图。

图4示出根据一些实施例的包括商家位置的示例性环境。

图5示出根据一些实施例的使用引用来访问话音(voice)数据库内的话音模型的框图。

图6示出根据一些实施例的、包括话音模型的示例性话音数据库。

图7示出根据一些实施例的、用于认证用户进行交易的示例性方法的流程图。

图8示出根据一些实施例的示例性计算机装置的框图。

具体实施方式

在讨论本发明的特定的实施例之前，为了获得对本发明的各实施例的更好的理解，可以提供对一些术语的进一步的描述。

“支付设备”可包括能够进行支付交易的任何合适的设备。例如，支付设备可包括卡，诸如，信用卡、借记卡、签帐卡、礼品卡或它们的任何组合。作为另一示例，支付设备可以是用于进行支付交易的通信设备。

“支付处理网络”(例如，VisaNet^TM)可包括用于支持并提供支付相关的服务(例如，认证服务、授权服务、异常账户文件服务，以及清算和结算服务，等等)的数据处理子系统、网络和操作。示例性支付处理网络可以包括VisaNet^TM。诸如VisaNet^TM之类的支付处理网络能够处理信用卡交易、借记卡交易和其他类型的商业交易。具体而言，VisaNet^TM包括处理授权请求的VIP系统(Visa集成的支付系统)以及执行清算和结算服务的BaseII系统。

“服务器计算机”可以是强大的计算机或计算机集群。例如，服务器计算机可以是大型机，微型计算机集群或充当一个单元的服务器组。在一个示例中，服务器计算机可以是耦合到web服务器的数据库服务器，并且可包括数据库或可耦合到数据库。

“访问设备”可以是配置成用于处理支付交易的任何合适的设备。例如，访问设备(例如，销售点(POS)终端等)可用于处理支付交易(诸如，信用卡或借记卡交易、或电子结算交易)，并且可以具有用于从其他便携式通信设备读取数据的光、电或磁读取器，其他便携式通信设备诸如，智能卡、钥匙链设备、蜂窝电话、支付卡、安全卡、赊购卡(accesscard)等。

“收单方”(“acquirer”)可以是通常与商家具有业务关系的业务实体(例如，商业银行)。收单房可以从该商家接收一些或全部交易。

“发行方”可以是发行可用于进行交易的支付帐户的业务实体。通常，发行方是金融机构。

“帐户持有人”可以是经授权以与支付帐户进行交易的用户。帐户持有人可以是例如与支付设备相关联的帐户的帐户所有者，或是经授权以代表帐户所有者使用该帐户的个人。在以下描述中，术语“帐户持有人”和“用户”可以可互换地使用。

如本文中所述，“通信设备”可以是可以执行和/或支持电子通信(包括但不仅限于支付交易)的任何电子通信设备。一些示例包括个人数字助理(PDA)、智能电话、平板计算机、笔记本计算机，等等。

“授权请求消息”可以是被发送以请求对交易的授权的电子消息。授权请求消息可以例如被发送到支付处理网络和/或支付设备的发行方。根据一些实施例的授权请求消息可以符合(国际标准化组织)ISO8583，ISO8583是针对交换与由消费者使用支付设备或支付帐户作出的支付相关联的电子交易信息的系统的标准。授权请求消息可以包括可以与支付设备或支付帐户相关联的发行方帐户标识符。授权请求消息也可以包括对应于“标识信息”的附加数据元素，包括(仅作为示例)：服务代码、CVV(卡验证值)、dCVV(动态卡验证值)、到期日期等。授权请求消息也可以包括“交易信息”，诸如，与当前的交易相关联的任何信息，诸如，交易量、商家标识符、商家位置，等等，以及可以用于判断是否标识和/或授权交易的任何其他信息。

“授权响应消息”可以是对授权请求消息的电子消息回复。授权响应消息可以由发行金融机构或支付处理网络生成。仅作为示例，授权响应消息可以包括下列状态指示符中的一个或多个：批准——交易被批准；拒绝——交易未被批准；或呼叫中心——响应挂起更多信息，商家必须呼叫免费通话的授权电话号码。授权响应消息也可以包括授权代码，该授权代码可以是发行方响应于电子消息中的授权请求消息(直接地或通过支付处理网络)而返回到商家的访问设备(例如，POS设备)的、指示对交易的批准的代码。该代码可以充当授权的证明。如上文所指出，在一些实施例中，支付处理网络可以生成授权响应消息或将其转发给商家。

如本文中所使用，“通信信道”可以是指用于在两个或更多个实体之间的通信的任何合适的路径。合适的通信信道可以直接存在于诸如支付处理网络和商家或发行方计算机之类的两个实体之间，或可包括多个不同的实体。任何合适的通信协议可用于生成通信信道。在一些实例中，通信信道可以包括“安全通信信道”，该安全通信信道能以任何已知的方式来建立，已知的方式包括使用相互认证和会话密钥以及建立安全套接字层(SSL)会话。然而，可以使用创建安全信道的任何方法。通过建立安全信道，与支付设备相关的敏感信息(诸如，帐号、CVV值、到期日期等)可以在两个或更多个实体之间安全地传输，从而促进交易。

“数字钱包提供方”可包括提供数字钱包服务的任何合适的实体。数字钱包提供方可以提供存储了代表账户持有人的帐号(账号包括包括唯一的标识符)或账号的表示(例如，令牌)的软件应用以促进在多于一个的不相关的商家处的支付，执行面对面(person-to-person)支付，或将财务值加载进数字钱包。

“生物计量数据”包括可用于基于一个或多个固有的身体的或行为特征来唯一地标识个人的数据。例如，生物计量数据可包括指纹数据和视网膜扫描数据。生物计量数据的进一步的示例包括数字照相数据(例如，面部识别数据)、脱氧核糖核酸(DNA)数据、掌纹数据、手部几何数据以及虹膜识别数据。在本公开的上下文中，生物计量数据可包括话音数据。

“说话者识别”是基于用户的话音特性(话音生物特征)对用户进行的标识。说话者识别使用语音的声特征，已经发现语音的这些声特征在个体之间有所不同。这些声模式反映解剖(例如，咽喉和嘴的尺寸与形状)和习得行为(learnedbehavioral)模式(例如，话语音高、说话风格)两者。

“语音识别”是说出的单词向计算机系统可理解的文本的转换。与说话者识别相结合的语音识别可以简化在用于作为安全过程的部分的认证或验证说话者的身份的系统中转换语音的任务。

“话音识别”可用来描述“说话者识别”和“语音识别”。

如本文中所描述，“话音模型”可以是由从用户处接收到的先前的话音样本构建的用户话音的模型。话音模型可用于确定与用户相关联的风险因素。话音模型可以包含关于用户向验证系统进行的当前和先前的用户认证的信息。例如，话音模型可以包含与用户向验证系统进行的每一个特定的话音认证相关联的时间、位置、话音数据和匹配分数。可以使用话音模型内的、关于先前的认证的信息的组合来确定与用户相关联的风险因素。

如本文中所述，“提示”可以是按特定顺序安排的多个单词的组合。可以请求用户为了认证目的而重复提示。在以下描述中，术语“提示”和“字串”可以可互换地使用。

如本文中所述，“话音样本”可以是用户话音的被捕捉的音频数据。例如，话音样本可以是希望向交易系统认证的用户的话音的被捕捉的音频信号。可以请求用户重复某个提示。话筒可以捕捉由用户重复的提示，并且将音频数据传递到另一模块，以便进行说话者验证。在以下描述中，术语“话音样本”、“话音数据”、“话音段”以及“音频段”可以可互换地使用。

如本文中所述，“匹配分数”可以是接收到的输入数据与所存储的数据之间的关系。在本公开的上下文中，接收到的输入数据可以是被捕捉的话音样本。所存储的数据可以是先前被捕捉的且经存储的话音样本或话音模型。匹配分数可以表达接收到的输入数据与所存储的数据彼此相关(例如，来源于同一个个体)的置信度。可以将匹配分数传递到风险评分机制的其他部分，使得该匹配分数与其他风险参数一起有助于总体决策，该总体决策可以用于例如批准或拒绝交易。可以设置合适的阈值以确保可接受的准确性等级。此概念可以应用于除话音样本以外的其他生物计量数据(例如，视网膜扫描、面部识别数据，等等)。

I.示例性系统

图1是根据一些实施例的支付系统100的框图。系统100包括通信设备110、访问设备120、商家125、收单方130、支付处理网络140、发行方150、经互连的网络160以及服务器计算机300。收单方130还可以包括收单方计算机(未示出)。支付处理网络140可包括授权和结算服务器和/或用于执行本文中所描述的各种交易的附加服务器(未示出)。在一些实施例中，服务器计算机300可以驻留在支付处理网络140或发行方150内。

在一些实施例中，通信设备110可以与访问设备120进行电子通信。通信设备110可以是可以执行和/或支持与支付系统100进行的支付交易的个人数字助理(PDA)、智能电话、平板计算机、笔记本计算机等。通信设备110可以结合支付设备使用，支付设备诸如，信用卡、借记卡、签帐卡、礼品卡、或其他支付设备和/或上述各项的任何组合。出于说明性目的，支付设备(例如，信用卡)和通信设备110(例如，智能电话)的组合可被称为通信设备110。在一些实施例中，通信设备110可以结合货币或积分(point)(例如，在特定软件应用程序中累积的积分)的交易一起使用。在一些实施例中，通信设备110可以是无线设备、无接触设备、磁设备，或其他类型的支付设备。在一些实施例中，通信设备110包括用于如下文中进一步所述的执行各种支付交易并捕捉用户话音数据的软件(例如，应用)和/或硬件。

访问设备120可以配置成经由商家125来与收单方130进行电子通信。在一个实施例中，访问设备120可以是服务点(POS)设备。或者，访问设备120可以是配置成处理诸如信用卡或借记卡交易之类的支付交易或电子结算交易、并且可以具有用于从便携式电子通信设备读取数据的光、电或磁读取器的任何合适的设备，所述便携式电子通信设备诸如，智能卡、钥匙链设备、蜂窝电话、支付卡、安全卡、赊购卡等。在一些实施例中，访问设备120可以位于商家处，并且可由商家控制。例如，访问设备120可以是杂货店付款处的POS设备。在一些实施例中，在用户正在进行远程交易的情况下，访问设备120可以是客户端计算机或移动电话。

收单方130(例如，收单银行)可包括收单方计算机(未示出)。收单方计算机可以配置成将数据(例如，银行标识号码(BIN)等)和财务信息传送到支付处理网络140。在一些实施例中，收单银行130不需要为了使通信设备110将财务和用户数据传送到支付处理网络而存在于系统100中。在一个非限制性示例中，收单方130可以另外对照观察列表来检查用户凭据以防止诈骗和洗钱阴谋。

在一些实施例中，支付处理网络140是VisaNet^TM，其中，Visa内部处理(VIP)执行各种支付处理网络140或本文中所描述的多边交换(multi-lateralswitch)功能。支付处理网络140可包括授权和结算服务器(未示出)。授权和结算服务器(“授权服务器”)执行支付授权功能。授权服务器进一步配置成向发行方150发送和接收授权数据。此外，如下文中进一步描述的那样，支付处理网络140还可以接收用户的话音样本(例如，来自支付设备110、访问设备120或收单方130)以确定与交易相关联的风险因素。

在一些实施例中，发行方150是向持卡者发行卡的业务实体。通常，发行方是金融机构。发行方150配置成从支付处理网络140(例如，授权服务器)接收授权数据。发行方150从授权服务器接收认证数据，并且基于用户是否经标识系统认证来确定该用户是否经授权以执行给定的金融交易(例如，现金存款/取款、资金转帐、余款查询)。

在一些实施例中，通信设备110可以经由经互连的网络160连接到支付处理器网络140，并与该支付处理器网络140进行通信。经互连的网络160的一个示例是因特网。当支付已被成功地处理时，支付处理网络140可以通知通信设备110。在一些实施例中，支付处理器网络140可以经由经互连的网络160连接到访问设备120，并与访问设备120进行通信。当支付已被成功地处理时，支付处理器网络140可以通知访问设备120。访问设备120可转而完成与通信设备110之间的交易。

图1中还示出了服务器计算机300，并且该服务器计算机300与经互连的网络160可操作地通信。服务器计算机300可包括话音数据库(下文所述)，该话音数据库包括用于认证目的的用户的被存储的话音模型。在向认证系统注册时，可以为用户创建话音模型。随后，随着在利用认证系统执行的后续的用户认证期间捕捉到附加的话音样本，话音模型随时间的推移而被更新。在一些实施例中，服务器计算机300内的话音数据库可包括大量的用户的话音模型。也就是说，话音数据库可包括数千或数百万话音模型。以下提供关于话音数据库的进一步的细节。

经互连的网络160可以包括以下一项或多项：局域网、广域网、城域网(MAN)、内联网、因特网、公共陆地移动网(PLMN)、电话网络(诸如，公用交换电话网(PSTN)或蜂窝电话网络(例如，无线全球移动通信系统(GSM)、无线码分多址(CDMA)，等等)，带有移动和/或固定位置的VoIP网络)、有线线路网络，或网络的组合。

在一些实施例中的典型的支付交易中，用户可以与访问设备120进行交互(例如，利用诸如支付卡、通信设备之类的支付设备，或通过输入支付信息)以与商家125进行交易。商家125可以操作商家计算机，该商家计算机可以经由支付处理网络140将授权请求消息路由到收单方130，并最终路由到发行方150。

随后，发行方140将确定交易是否被授权(例如，通过检查是否是诈骗和/或是否有足够的资金或信用度)。然后，发行方经由支付处理网络140将授权响应消息传输到终端120和收单方130。

例如，在一天结束时，由支付处理网络140清算并结算在收单方130与发行方150之间的交易。

以下描述提供了对系统中的其他组件的描述，以及基于接收到的话音样本来认证用户进行交易的认证方法。认证方法可以在上文所描述的交易流程中的任何合适的点处执行。

图2是根据一些实施例的通信设备110的框图。通信设备110包括处理器210、位置传感器220、显示器230、输入设备240、扬声器250、存储器260和计算机可读介质270。

处理器210可以是可操作以在通信设备110上执行指令的任何合适的处理器。处理器210耦合到通信设备110的其他单元，其他单元包括位置传感器220、显示器230、输入设备240、扬声器250、存储器260和计算机可读介质270。

位置传感器220可以是能够获取与通信设备110相关联的位置数据的任何传感器。位置传感器220可以与同通信设备110相关联的移动网络或全球定位系统(GPS)(或其他类似的系统)进行通信以获取通信设备110的位置数据。例如，位置传感器220可以是GPS接收机或可用于对通信设备110的位置进行三角测量的无线通信天线(例如，蜂窝式天线，WiFi天线，等等)。位置传感器也可以与基于位置的服务兼容，所述基于位置的服务利用所获取的位置数据来控制特征和信息服务。

显示器230可以是将信息显示给用户的任何设备。示例可包括LCD屏幕、CRT监视器，或七段式显示器。

输入设备240可以是接受来自用户的输入的任何设备。示例可包括键盘、小键盘、鼠标或话筒。在话筒的情况下，该话筒可以是将声音转换为电信号的任何设备。在一些实施例中，可以使用话筒来从用户处捕捉话音数据。

扬声器250可以是将声音输出给用户的任何设备。示例可包括响应于电音频信号而产生声音的内嵌式扬声器或任何其他设备。在一些实施例中，可以使用扬声器250向用户请求话音样本，用于认证目的。

存储器260可以是任何磁、电子或光存储器。存储器260包括两个存储器模块，即模块1262和模块2264。可以理解，存储器260可包括任意数量的存储器模块。存储器260的示例可以是动态随机存取存储器(DRAM)。

计算机可读介质270可以是任何磁、电子，光或其他计算机可读存储介质。计算机可读存储介质270包括话音数据捕捉模块272和话音数据传输模块274。计算机可读存储介质270可以包括易失性和/或非易失性存储器的任何组合，易失性和/或非易失性存储器诸如例如，单独地或与其他数据存储设备组合的缓冲器存储器、RAM、DRAM、ROM、闪存或任何其他合适的存储器设备。

话音数据捕捉模块272配置成经由输入设备240从用户处捕捉话音数据以用于话音认证目的。在一些实施例中，话音数据捕捉模块272可以捕捉用户的话音数据，用于在最初第一次注册用户以进行后续的话音认证。在一些实施例中，话音数据捕捉模块272可以经由输入设备240来捕捉话音数据，以用于认证用户从而完成交易。例如，通信设备110可以通过在显示器230上显示重复(通过向话筒中说话)特定的提示的提示来请求用户注册或认证他/她的话音数据。在一些实施例中，也可以在扬声器250上输出提示。在经由话筒捕捉到用户的话音数据时，可以经由话音数据传输模块274将对应于被提示的提示的话音数据传输到服务器计算机，从而将话音数据存储起来供未来的用户认证，或基于下文所述的所存储的话音模型来认证用户。在一些实施例中，可以将捕捉到的话音数据数字化。

话音数据传输模块274配置成将捕捉到的话音数据传输到服务器计算机。在一些实施例中，捕捉到的话音数据可以是在用户注册和/或认证期间由上文所描述的话音数据捕捉模块272捕捉到的话音数据。在一些实施例中，捕捉到的话音数据可以是在后续的使用从用户处接收到的话音数据进行的认证期间捕捉到的话音数据，如下文中更详细地所述。

图3是根据本发明的一些实施例的服务器计算机300的框图。服务器计算机300包括输入/输出接口310、存储器320、处理器330、话音数据库350和计算机可读介质360。在一些实施例中，服务器计算机300可以驻留在经互连的网络160(图1)内。在一些实施例中，服务器计算机300可以驻留在支付处理器网络140(图1)内。

输入/输出(I/O)接口310配置成接收和发送数据。例如，I/O接口310可以接收来自收单方130(图1)的授权请求消息。I/O接口310也可以用于与服务器计算机300之间的直接交互。I/O接口210可以接受来自输入设备的输入，输入设备诸如但不限于，键盘、小键盘或鼠标。此外，I/O接口310还可以在显示设备上显示输出。I/O接口310也可以接收来自通信设备110(图1)的通信，诸如，来自用户的话音样本。

存储器320可以是任何磁、电子或光存储器。可以理解，存储器320可包括任意数量的存储器模块，这些存储器模块可以包括任何合适的易失性或非易失性存储器设备。存储器320的示例可以是动态随机存取存储器(DRAM)。

处理器330可以是可操作以在服务器计算机300上执行指令的任何合适的处理器。处理器330耦合到服务器计算机300的其他单元，其他单元包括输入/输出接口310、存储器320、话音数据库350和计算机可读介质360。

话音数据库350配置成存储用户的话音模型。用户的话音模型可以由从对应的用户接收到的一个或多个先前的话音样本构成。随着从用户处接收到后续的话音样本，话音模型可以随着时间的推移而改善，并且话音模型数据可以更准确地表示用户的话音。话音模型也可以包括诸属性，诸如但不仅限于，认证/支付交易的时间、用户或支付持卡人的姓名、与支付交易相关联的话音数据、支付持卡人验证/认证的结果以及音频数据的匹配分数。在图6中详细地描述了支付用户的诈骗简档的这些属性。

计算机可读介质360可以是任何磁、电子，光或其他计算机可读存储介质。计算机可读存储介质360包括地址指针生成模块362、话音模型检索模块364和匹配分数模块366。计算机可读存储介质360可以包括易失性和/或非易失性存储器的任何组合，易失性和/或非易失性存储器诸如例如，单独或结合其他数据存储设备的缓冲器存储器、RAM、DRAM、ROM、闪存或任何其他合适的存储器设备。

地址指针生成模块362可以配置成应通信设备110在某个位置内的指示而生成对存储在话音数据库350内的话音模型的引用(reference)。在一些实施例中，位置可以是商家位置。可以围绕商家位置来建立虚拟周边(例如，地理围栏)。在通信设备110进入虚拟周边时，服务器计算机300可以接收指示，并且地址指针生成模块362可以生成对存储在话音数据库350内的、与通信设备110的用户相关联的话音模型的引用。在一些实施例中，引用可以是指向话音模型存储在话音数据库350内所在的存储器位置的指针。在一些实施例中，引用可以是与用户相关联的用户ID，等等。

话音模型检索模块364可以配置成使用由地址指针生成模块362生成的引用来从话音数据库350中检索话音模型。在一些实施例中，对话音模型的检索可包括使用引用来访问话音数据库350。在一些实施例中，对话音模型的检索还可以包括将话音模型从话音数据库350复制到另一位置(下文中更详细地描述)。

匹配分数模块366配置成使用所提供的话音样本来计算与每一个用户话音验证尝试的捕捉到的话音数据相关联的匹配分数。匹配分数可以基于数值分数(例如，在0与100之间)，其中，分数表达捕捉到的话音样本与先前从用户处捕捉到并存储的话音样本匹配且最终得出正在被认证的用户是真正的用户的置信度。可以将此分数传递到风险评分机制的其他部分，使得该分数与其他风险参数一起有助于对批准或拒绝交易的总体决策。

可以理解，在一些实施例中，服务器计算机200可以驻留在支付处理网络140(图1)或发行方150(图1)内。

图4示出根据一些实施例的包括多个用户和商家位置的示例性环境400。该环境还包括商家商店430。该商家商店430可以是商家的任何物理位置。例如，商家商店430可以是杂货店、鞋店、花店、餐厅、咖啡馆等等。多个用户可以包括商家商店230的边界内的用户420和商家商店430的边界外部的用户410。每一个用户410，420都可能正在携带通信设备。商家商店430的边界可以由诸如地理围栏之类的虚拟周边440限定。在一些实施例中，可以通过使用安装在商家商店430处的基于位置的硬件来建立虚拟周边440。在一些实施例中，可以通过服务器侧实现来建立虚拟周边440，例如，通过监视各种通信设备的位置并当通信设备在虚拟周边440内时进行感测。

本文中所描述的技术提供通过通信设备来进行出于认证目的的说话者验证。更具体而言，本发明的各实施例涉及通过使用通信设备进行的交易，所述通信设备用于在商家商店430处的亲自(in-person)交易，所述通信设备诸如，移动电话或个人计算机。说话者验证可以使用任何话音生物计量技术来实现，例如，独立于所提示文本的说话者验证。

本文中所描述的系统和方法允许对商家商店430内的通信设备(以及进而对用户420)的位置感知。位置感知可以使用诸如地理围栏操作(geofencing)之类的技术来完成，其中，围绕商家商店430来创建虚拟周边。当基于位置的服务(LBS)用户的位置感知通信设备进入或离开地理围栏时，通信设备可以接收位置通知(本文中也称为“地理围栏通告”)。此位置通知可以包含有关设备的位置的信息。可以将地理围栏通告发送到支付处理器网络140(图1)或发行方150(图1)。在一些实施例中，通信设备可以在位置感知中承担主动的角色，并且在通信设备感测到它已经进入或离开围绕商家商店430虚拟周边440时将通知发送到支付处理器网络140(图1)或发行方150(图1)。

一旦支付处理器网络140(图1)或发行方150(图1)接收到地理围栏通告，就可以检索对与商家商店430的边界内的用户相关联的话音模型的引用。话音模型可以存储在话音数据库350(图3)内。引用可以是指向话音数据库350(图3)内的用户的话音模型的位置的引用指针。在一些实施例中，通过具有数千或数百万话音模型的大型数据库来搜索用户的特定话音模型可能是费时、处理密集且低效的。结果，用户的对于认证系统的体验可能会降低。由此，地理围栏技术可极大地减少需要被搜索来获取仅在商家商店430的虚拟周边内的用户420的话音模型的集合。此外，通过用户一进入虚拟周边就检索对商家商店430的边界420内的用户的话音模型的引用，可在用户仍在购物时就检索到该用户的话音模型，从而改善POS处的付款时间。当用户进入商家商店430，并且地理围栏通告被发送到支付处理器网络140(图1)或发行方150(图1)时，可以获取对话音模型的引用。在一些实施例中，在由用户发起交易时，或当用户进入付款区域(这指示该用户即将发起交易)时，可以在进行时(on-the-fly)获取该引用。

例如，当用户约翰·多伊带着他的位置感知通信设备进入商家商店430时，地理围栏通告可以发送到支付处理器网络140(图1)或发行方150(图1)。一旦支付处理器网络140(图1)或发行方150(图1)证实了约翰·多伊是设置为进行话音认证的用户，就可以检索对话音数据库350(图3)内的约翰·多伊的话音模型的引用。当约翰·多伊准备发起交易时，他可以与他的通信设备进行交互，并对由通信设备提供的说话者验证提示作出响应。例如，约翰·多伊可以响应于由通信设备显示的提示而说出“我的名字叫约翰”。此时，可能已经检索到对约翰·多伊的话音模型以及商家商店430内的其他用户420的话音模型的引用。由此，可高效地完成将接收到的约翰·多伊的话音输入与话音数据库350(图3)中的话音模型进行的比较，因为可能没有大量的话音模型要搜索并比较。在一些实施例中，引用可以是指向话音数据库350(图3)内的存储了话音模型的存储地址的指针。在一些实施例中，如下文中更详细地所述，可以将话音模型从话音数据库350(图3)复制到第二数据库。

图5示出根据一些实施例的、使用引用来访问话音数据库350内的话音模型的框图。图5中的图示描绘了通信设备110、服务器计算机200和商家125。通信设备110、服务器计算机200和商家125经由经互连的网络160来互连。在一些实施例中，经互连网络160可以是因特网。如上文中所述，通信设备110可以与用户相关联，并且包括位置感知功能。当通信设备110进入虚拟周边440(图4)时，可以将通知发送到服务器计算机350。通知可包括用户标识数据，该用户标识数据可以允许服务器计算机200来标识通信设备110的用户。在一些实施例中，可以经由数字钱包应用来发送用户标识数据，该用户钱包应用在通信设备110上运行，并且与数字钱包提供方相关联。

在接收到通知时，服务器计算机200可以检索对存储在话音数据库350内的用户的话音模型的引用。在一些实施例中，引用可以是指向话音数据库350内的话音模型的存储位置的指针。例如，话音模型可以存储在话音数据库350内的地址2F6A处，并且引用可以是指向地址2F6A的指针。在一些实施例中，与用户相关联的标识(例如，序列号、国际移动设备标识(IMEI)号、订户标识模块(SIM)卡号、电话号码、与数字钱包应用相关联的主账号或令牌，等等)可以被映射到引用。然后，标识可以用于检索指向话音数据库350内的存储器位置(例如，地址2F6A)的引用。相应地，指针可以指向包含话音数据库350内的用户的话音模型的地址2F6A。

当用户使用通信设备110来发起交易时，服务器计算机200可能已经检索到对存储在话音数据库350内的用户的话音模型的引用(例如，当用户进入虚拟周边440(图4)时就检索到)。一旦用户经由通信设备110提供了话音样本，通信设备110就可以经由经互连的网络160来将该话音样本传输到服务器计算机200。随后，服务器计算机200可以通过将接收到的话音样本与检索到的该用户的化音模型进行比较来授权该用户。由于可能已经检索到对话音模型的引用，因此，服务器计算机200可能能够快速地访问话音模型，并且比较从用户处接收到的话音样本。这与在用户发起交易之后服务器计算机200必须搜索话音数据库350中的数千或数百万条目以找到与交易时的用户相关联的对应的话音模型形成对照。这些技术可以导致提高的认证效率和改善的用户体验(例如，减少POS处的交易处理)。

在一些实施例中，服务器计算机200可以将用户的话音模型从话音数据库350复制到第二数据库或队列中。第二数据库或队列可以本地地驻留在商家125内或与商家125相关联。例如，在图5中，临时话音模型队列340驻留在商家125的位置内。在如上文所述接收到通信设备110在虚拟周边440(图4)内的通知时，并且在检索到对存储在话音数据库350内的用户的话音模型的引用之后，服务器计算机200可以将话音模型(使用检索到的引用)复制到临时话音模型队列340。可以为在虚拟周边440(图4)内的每一个用户的通信设备110进行此过程。相应地，临时话音模型队列340可以包含给定时刻商家商店430(图4)内的每一个用户的话音模型的副本。当用户已准备好在商家商店430(图4)处结账时，该用户的话音模型可能在商家125本地的临时话音模型队列340内已经是可用的。相应地，访问设备120(图1)可以具有对临时话音模型队列340内的该用户的话音模型的更快的访问。这可以提供在交易时认证用户的高效方法。

在一些实施例中，话音数据库350可以与支付处理网络外部的实体相关联。例如，话音数据库350可以与移动网络运营商相关联。在此类情况下，可以将与用户相关联的话音模型从驻留在移动网络运营商内的话音数据库350复制到驻留在支付处理网络内的临时话音模型队列340。这可以通过将话音模型复制到支付处理器网络内的数据库来提供更快的交易认证和授权。

图6示出根据本发明的一些实施例的示例性话音数据库350，该示例性话音数据库350包括由多个话音样本创建的话音模型520。话音数据库350可包括具有每一个用户的话音样本的话音模型520。话音样本可以是在交易认证过程中来自用户的所存储的先前的话音输入。话音模型520可包括诸属性，诸如但不仅限于，支付交易的日期、支付交易的时间、支付用户的姓名、用于验证并与支付交易相关联的捕捉到的话音数据，支付用户验证/认证的结果，以及用户的可变的匹配分数。话音模型520可以表示由先前的接收到的(并且经认证的)话音样本构成的用户话音的“签名”。随着从用户处接收到更多的话音样本，话音模型520的准确度可以改善。

话音模型520示出了与名为“约翰·多伊”的用户的九个不同的支付授权请求有关的数据集。九个支付授权请求数据集中的每一个都包括上文所提及的属性信息。九个数据集的组合形成约翰·多伊的话音模型。

话音模型520的日期属性指示用户使用通信设备发起支付交易的日期。在此示例中，第一个经记录的日期(2012年1月4日)指示在向系统注册之后由该用户发起的第一笔支付交易。每一个后续的日期都表示由该用户发起的后续的支付交易。

话音模型520的时间属性指示用户发起特定的支付交易的那天中的时间。

话音模型520的用户属性指示真正的用户的注册名称。在此示例中，注册名称“约翰·多伊”对于每一个支付授权请求都相同。可以理解，话音模型520将每一个用户的经记录的支付授权请求存储在数据库内的唯一的存储位置中。在此示例中未示出的话音模型520内的其他存储位置可以包含诈骗简档。

话音模型520的话音样本数据可以是进行在对用户的话音认证时由通信设备捕捉到的话音信号的数字表示，该数字表示随后被发送到话音生物计量匹配服务器。如上文所提及，在一些实施例中，由用户发起的每一个单个的支付交易请求的话音数据可以是唯一的，并且可以是所请求的提示(例如，在特定认证中使用的单词的序列)。在一些实施例中，一个或多个特定的提示可以多于一次地用于认证。

话音模型520示出由用户“约翰·多伊”发起的九笔支付交易中的每一笔的九个不同的捕捉到的话音数据表示。如图所示，话音数据表示中的每一个都是唯一的。由于每次从用户处接收到的每一个话音数据表示将完全相同是不可能的，因此，对于每一笔交易，话音数据表示可以是唯一的。例如，用户每次都以话音生物计量的相同音调说话是不太可能的，或者所请求的话音提示每次都相同是不太可能的。

在此示例中，当用户在利用通信设备注册之后执行他们的第一个支付授权请求时，生成第一话音数据表示(2012年1月4日存储)。在后续的支付授权请求时，生成第二话音数据表示。如果接收到的话音数据表示与话音模型520中的先前接收并存储的话音数据表示显著地不同，则可以将相对低的匹配分数分配给接收到的话音数据表示，并且可因诈骗者希望发起支付交易请求的可能性来拒绝该支付交易请求。

随着接收并存储了更多的话音数据表示，对后续接收到的话音数据表示的更多比较点是可用的。例如，可以将第九个接收到的话音数据表示(2012年12月24日存储)与先前的八个存储的话音数据表示(或从那八个话音数据记录的集合生成的模型)进行比较以确定其匹配分数。话音数据表示也用于创建用户的话音模型。接收到的每一个后续的话音数据表示都改进用户的话音模型。

话音模型520的风险分数属性指示与用户的特定认证请求相关联的风险分数。在此示例中，风险分数可以在从0–100的尺度上，100为最高(风险最大)。随着用户随时间推移更多地向认证系统认证并变得更加“可信任”，匹配分数可以随着时间的推移而减小。

如在图6中所演示，对于由用户“约翰·多伊”发起的每一个随后的支付交易请求，风险分数都改变。在一些实施例中，第一交易请求可能没有风险分数，因为它是用于由该用户进行的初始注册的第一个接收到的话音数据表示。如上文所述，每一个后续的接收到的且经验证的话音数据表示结果都会导致更低的风险分数。可以基于预定公式来确定对风险分数的确定。风险分数可以是批准支付交易的风险可能有多大的指示。

图7是根据本发明的一些实施例的、用于认证用户进行交易的示例性方法的流程图700。在框710中，接收指示与用户相关联的通信设备的位置的通信。如上文所描述，结合地理围栏操作来使用基于位置的服务可能已确定了通信设备的位置。

在框720中，检索用于访问与用户相关联的话音模型的引用。话音模型可以存储在数据库(例如，远程数据库)中。例如，如果基于地理围栏操作而确定了用户在商店内，则可以检索对存储在话音数据库内的用户的话音模型的引用。

在框730中，从用户处接收话音段。可以由用户的通信设备经由内部或外部的话筒输入来接收话音段。话音段可以响应于所提示的文本说话者验证提示。

在框740中，引用用于访问存储在数据库中的话音模型。引用可以是指向话音模型的指针。

在框750中，将接收到的话音段与话音模型进行比较。例如，可以通过使用指向数据库内的话音模型的位置的引用指针，将接收到的话音段与话音数据库内的用户的话音模型进行比较。这可以作出更高效的比较。

在框750中，可以至少部分地基于比较步骤来进行用户是否经认证来进行交易的判断。如果从用户处接收到的话音段匹配话音数据库中的话音模型，则用户可以经认证以完成交易。

现在参考图8，示出了根据本发明的一个实施例的示例性计算机系统800。系统800可用于实现上文所描述的计算机系统中的任何一个(例如，客户端计算机、卡协会处的服务器计算机、发行方处的服务器计算机、商家处的计算机装置，等等)。计算机系统800示出为包括可以经由总线824电耦合的硬件元件。硬件元件可以包括一个或多个中央处理单元(CPU)802、一个或多个输入设备804(例如，鼠标、键盘等)，以及一个或多个输出设备806(例如，显示设备、打印机等)。计算机系统800也可以包括一个或多个存储设备808。作为示例，存储设备808可包括：诸如盘驱动器、光存储设备之类的设备，诸如随机存取存储器(“RAM”)和/或只读存储器(“ROM”)之类的固态存储设备，它们可以是可编程的，可闪速更新的，等等。

计算机系统800可以另外包括计算机可读存储介质读取器812、通信系统814和工作存储器818，该工作存储器818可包括如上文所描述的RAM和ROM设备。通信系统可包括例如，调制解调器、网卡(无线的或有线的)、红外通信设备等。在一些实施例中，计算机系统800还可以包括处理加速单元816，诸如，数字信号处理器(DSP)、专用处理器，等等。

计算机可读存储介质读取器812可进一步连接到计算机可读存储介质810(并可任选地与存储设备808相结合)，从而共同广泛地表示远程的、本地的、固定的和/或可移动的存储器设备以及用于临时地和/或较永久地包含、存储、传输和检索计算机可读信息的存储介质。通信系统814可以允许与网络和/或上文参考系统800所描述的任何其他计算机来交换数据。

计算机系统800也可以包括软件元件，该软件元件示出为位于工作存储器818内，并且包括操作系统820和/或应用程序822，该应用程序822包括代码，应用程序822诸如，客户端应用、web浏览器、中间层应用、RDBMS，等等。应当理解，计算机系统800的替换实施例可以具有与上文所描述的那些实施例不同的很多变体。例如，定制硬件也可被使用和/或特定的元件可以在硬件、软件(包括诸如小程序之类的轻便软件)或这两者中实现。此外，还可以采用到其他计算设备(诸如，网络输入/输出设备)的连接。

用于包含代码或代码的多个部分的存储介质和计算机可读介质可包括本领域中已知或已使用的任何合适的介质，包括存储介质和通信介质，诸如但不仅限于以任何方法或技术实现的用于诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的存储和/或传输的易失性和非易失性、可移动和不可移动介质，包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、数据信号、数据传输，或可用于存储或传输期望的信息并可由计算机访问的任何其他介质。基于本文中提供的公开和教导，本领域普通技术人员将理解实现各实施例的其他方式和/或方法。

上文的描述仅是说明性的，而不是限制性的。在本领域技术人员阅读了本公开之后，本发明的许多变体对于他们会变得显而易见。因此，可不参考以上描述来确定本发明的范围，相反，可以参考待审查的权利要求书以及它们的完整范围或等效方案来确定本发明的范围。

可以理解，能以模块或集成的方式、使用计算机软件、以控制逻辑的形式来实现上文所述的本发明。基于本文中提供的公开和教导，本领域普通技术人员可以知晓并理解使用硬件以及硬件和软件的组合来实现本发明的其他方式和/或方法。

本申请中所描述的软件组件或功能中的任何一个都可以实现为软件代码，处理器使用例如常规的或面向对象的技术，并使用任何合适的计算机语言(诸如例如，Java、C++或Perl)来执行的这些软件代码。软件代码可以作为一系列指令或命令被存储在计算机可读介质上，计算机可读介质诸如，随机存取存储器(RAM)、只读存储器(ROM)、诸如硬驱动器或软盘之类的磁介质，或诸如CD-ROM之类的光介质。任何此类计算机可读介质都可以驻留在单个的计算装置上或单个的计算装置内，并可以存在于系统或网络内的不同的计算装置上或不同的计算装置内。

来自任何实施例的一个或多个特征可以与任何其他实施例的一个或多个特征相结合而不背离本发明的范围。

对“一”(“a”、“an”)或“所述”(“the”)的引用旨在是指“一个或多个”，除非特别指示为相反的情况。可以用于本发明的各实施例中的合适的说话者验证技术也可以在2013年5月21日提交的美国专利申请No.13/899,496，以及2013年5月21日提交的13/899,470中找到，这两项申请通过引用被整体结合在此，用于各种目的。

Claims

1.一种认证用户进行交易的方法，所述方法包括：

在服务器计算机处，接收指示与所述用户相关联的通信设备的位置的通信；

响应于接收到所述通信，经由所述服务器计算机来检索用于访问与所述用户相关联的话音模型的引用，其中，所述话音模型存储在数据库中；

在所述服务器计算机处，接收来自所述用户的话音段；

使用所述引用来访问存储在所述数据库中的所述话音模型；

将接收到的话音段与所述话音模型进行比较；以及

至少部分地基于将接收到的话音段与所述话音模型进行比较来确定所述用户是否经认证来进行交易。

2.如权利要求1所述的方法，其特征在于，所述数据库是第一数据库，所述方法进一步包括：

使用所述引用，将所述话音模型从所述第一数据库复制到第二数据库，其中，与接收到的话音段进行比较的所述话音模型是从所述第二数据库中检索的。

3.如权利要求1所述的方法，其特征在于，所述比较步骤进一步包括：至少部分地基于所述比较来确定匹配分数。

4.如权利要求1所述的方法，其特征在于，指示与所述用户相关联的通信设备的位置的所述通信指示了所述通信设备在虚拟周边内。

5.如权利要求4所述的方法，其特征在于，所述虚拟周边是围绕商家位置建立的。

6.如权利要求1所述的方法，其特征在于，所述引用是指向所述数据库内的存储地址的指针。

7.如权利要求1所述的方法，进一步包括：利用接收到的话音段来更新所述话音模型。

8.如权利要求1所述的方法，其特征在于，指示与所述用户相关联的通信设备的位置的所述通信来源于所述通信设备。

9.如权利要求1所述的方法，其特征在于，所述话音模型基于先前从所述用户接收到的多个话音段。

10.如权利要求1所述的方法，进一步包括：

至少部分地基于将接收到的话音段与所述话音模型进行比较来计算匹配分数；以及

基于所述匹配分数来批准或拒绝交易。

11.一种服务器计算机，包括：

处理器；以及

非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括代码，所述代码可由所述处理器执行以实现用于认证用户进行交易的方法，所述方法包括：

接收指示与所述用户相关联的通信设备的位置的通信；

响应于接收到所述通信，检索用于访问与所述用户相关联的话音模型的引用，其中，所述话音模型存储在数据库中；

接收来自所述用户的话音段；

使用所述引用来访问存储在所述数据库中的所述话音模型；

将接收到的话音段与所述话音模型进行比较；以及

至少部分地基于将接收到的话音段与所述话音模型进行比较来确定所述用户是否经认证以进行交易。

12.如权利要求1所述的服务器计算机，其特征在于，所述数据库是第一数据库，所述方法进一步包括：

13.如权利要求1所述的服务器计算机，其特征在于，所述比较步骤进一步包括：至少部分地基于所述比较来确定匹配分数。

14.如权利要求1所述的服务器计算机，其特征在于，指示与所述用户相关联的通信设备的位置的所述通信指示了所述通信设备在虚拟周边内。

15.如权利要求4所述的服务器计算机，其特征在于，所述虚拟周边是围绕商家位置建立的。

16.如权利要求1所述的服务器计算机，其特征在于，所述引用是指向所述数据库内的存储地址的指针。

17.如权利要求1所述的服务器计算机，进一步包括：利用接收到的话音段来更新所述话音模型。

18.如权利要求1所述的服务器计算机，其特征在于，指示与所述用户相关联的通信设备的位置的所述通信来源于所述通信设备。

19.如权利要求1所述的服务器计算机，其特征在于，所述话音模型基于先前从所述用户接收到的多个话音段。

20.如权利要求1所述的服务器计算机，进一步包括：

基于所述匹配分数来批准或拒绝交易。