CN102222190A

CN102222190A - 通过多模态基于web的界面的用户验证

Info

Publication number: CN102222190A
Application number: CN2011101602527A
Authority: CN
Inventors: D·哈拉米略; G·麦柯布
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2005-02-22
Filing date: 2006-01-19
Publication date: 2011-10-19
Also published as: CN101120350B; TWI358223B; TW200637331A; JP4871885B2; US20140249819A1; JP2008532116A; EP2273414B1; US8725514B2; WO2006089822A1; US10818299B2; EP2273412A1; CN101120350A; US20060190264A1; EP2273412B1; EP1854039A1; EP2273414A1

Abstract

一种使用基于Web的多模态界面来验证用户身份的方法可以包括：将多模态标记语言文档发送到远程计算设备，所述多模态标记语言文档当由所述远程计算设备呈现时向用户查询用户标识符并使得用户话音被发送到多模态基于Web的应用。所述用户标识符和所述音频可以大约同时从客户端设备接收。所述音频可以与关联于所述用户标识符的话音印迹进行比较。根据从所述比较步骤获得的结果，位于所述远程计算设备的用户可以被选择性地准许对系统的访问。

Description

通过多模态基于WEB的界面的用户验证

本申请是申请日为2006年01月19日、国际申请号为PCT/EP2006/050308、国家申请号为200680004895.X、发明名称为“通过多模态基于WEB的界面的用户验证”的发明专利申请的分案申请。

技术领域

本发明涉及使用多模态(multimodal)基于Web的界面验证用户身份。

背景技术

多模态界面允许用户通过可视和口语方式与应用或其它系统通信。例如，用户可通过图形用户界面(GUI)进行通信，这可以通过发出一个或多个口头言词或通过提供GUI输入和话音输入的组合。多模态交互可以向用户提供与系统通信的更多直觉方式。

关于便携式计算设备，诸如智能电话、个人数字助理、以及其它具有小型表格要素的设备，多模态界面允许用户基于情况选择交互方式。在某些情形中，使用GUI可能是有利的，而在其它情形中，话音数据输入可能更有利或更方便。例如，在通常情况下，用户可以选择话音交互，因为这是直觉性和迅捷的。话音数据输入进一步免除了用户不得不使用微型小键盘或小型GUI，所述二者在使用上都可能是麻烦并缓慢的。

不过，在嘈杂环境中，话音数据输入也许是不可能的。周围的噪声级可能掩盖用户话音输入，以至于对用户语音的精确识别是不可能的。在其它情况下，诸如当验证用户身份时，用户也可能选择小键盘输入或非口语交互。典型地，使用用户名和口令来实施用户验证。因为将这样的信息说出到多模态界面中可能允许其他人无意听到机密信息，所以用户通常使用GUI或小键盘输入这样的信息。不过，如所述，在便携式计算设备上以此方式输入这样的信息可以是麻烦并缓慢的。

使用口令还有其它缺点。典型地，口令难于记住并且不太安全。考虑到用户拥有的过多的帐户，其中每个帐户都需要用户名和口令，则记住口令可能是特别困难的。为避免不得不记住每个口令，用户倾向于对于多个帐户使用一个通用口令、将口令写在访问卡(即ATM卡)的背面、或所使用的口令与用户对于该帐户的用户名相同。这些行为中的任一种都可能将用户帐户的安全置于危险中。

而且，由于诸如银行、航线预订、产品购买等等的功能开始迁移到多模态基于Web的界面，用户验证将变得越来越重要。这样的系统仅在交易是安全的并且系统确保该用户是用户所声明的那个人之时才可以是成功的。因此，提供一种克服了上述缺陷的、通过多模态界面验证用户的技术将是有利的。

发明内容

本发明提供了一种在通信网络上验证用户身份的解决方案。本发明的一实施例可以包括一种使用多模态基于Web的界面来验证用户身份的方法。所述方法可以包括：将多模态标记语言文档发送到远程计算设备，所述多模态标记语言文档当由所述远程计算设备呈现时向用户查询用户标识符并使得用户话音的音频发送到多模态基于Web的应用。所述用户标识符和记录可以大约同时从客户端设备接收。所述音频可以与关联于所述用户标识符的话音印迹进行比较。因此，根据从所述比较步骤获得的结果，位于所述远程计算设备的用户可以被选择性地准许对联机系统的访问。

本发明的另一实施例可以包括一种用于验证用户身份的系统。所述系统可以包括：具有包括多个话音印迹的话音印迹数据库的验证系统，每个话音印迹关联于用户标识符。所述系统还可以包括：多模态应用，其被配置发送多模态标记语言文档到客户端设备。所述多模态标记语言文档可以指定随机脚本，并当执行时使得用户标识符和包括大声读出所述随机脚本的说话者的数字表示的音频被发送回所述多模态应用。所述多模态应用可以将所述脚本、所述记录和所述用户标识符提交给所述验证系统，用于通过比较所述记录和从关联于所述用户标识符的多个话音印迹中选择的话音印迹来验证说话者的身份。

本发明的其它实施例可以包括机器可读存储装置，其被编程以使得机器实施这里描述的各种步骤。

附图说明

现在将仅通过示例并参考附图来描述本发明的实施例，在附图中：

图1是说明了根据这里公开的发明方案的使用多模态基于Web的界面来实施用户验证的系统的示图；

图2是说明了根据这里公开的发明方案的出于用户验证目的对用户进行登记的方法的流程图；以及

图3是说明了根据这里公开的发明方案的实施用户验证的方法的流程图。

具体实施方式

以下是对用于通过使用多模态基于Web的界面来验证用户身份的示例性技术和系统的描述。用户身份可以通过使用话音识别技术来验证。可以向用户示出从多模态基于Web的应用接收的多模态文档。所述多模态文档(即网页类型的界面)可以请求用户提供用户标识符或用户名(下文为“用户ID”)以及话音样本。用户ID和话音样本可以被提供回多模态基于Web的应用。可以依据话音样本并参考用户ID实施话音验证。基于话音验证的结果，用户可以被准许对联机系统的访问或被拒绝进入。

图1是说明了根据这里公开的发明方案的使用多模态基于Web的界面来实施用户验证的系统100的示图。如图所示，系统100可包括客户端设备105、包括多模态应用120的服务器110、以及具有话音印迹数据库130的验证系统125。

在一实施例中，客户端设备105可以是多种计算设备中的任一种，诸如台式计算机、服务器等等。在另一实施例中，计算设备105可以是便携式和/或移动计算设备，诸如膝上型计算机、或者有线或者无线的被配置用于因特网通信的个人数字助理(PDA)、移动电话等等。在任意情形中，客户端设备105可以包括适当的软件，其用于发送请求到服务器110和从服务器110接收信息。例如，客户端设备105可以包括能够呈现标记语言文档(包括多模态标记语言(MML)文档)的适当的浏览器。

MML文档可以指定用于用户交互的可视和话音组件。因此，MML文档可包括基于任意标记语言的文档或文件，当其被呈现时允许用户通过可视方式(诸如图形用户界面(GUI))以及通过可听方式(通过说出或提供双音多频输入)来提供输入。这样的标记语言的一个示例是X+V标记语言。X+V是所提出的用于开发多模态网页的标记语言，其结合了可扩展超文本标记语言(XHTML)和话音可扩展标记语言(VoiceXML)的子集。

一般而言，XHTML是已被调整为符合可扩展标记语言(XML)的规则的HTML 4.0的一版本。VoiceXML是通过万维网协会(W3C)开发的基于XML的语言。VoiceXML提供用于构造基于语音的应用的标准化格式。XHTML和VoiceXML(X+V)共同使得Web开发者能够将话音输入和输出添加到传统的基于图形的网页。

MML的另一示例是基于将语音应用语言标志(SALT)添加到宿主标记语言，所述宿主标记语言诸如XHTML、超文本标记语言(HTML)或者可缩放向量图形(SVG)。SALT是所提出的可以用于开发支持可视和语音模式的用户交互的多模态网页的标记语言。SALT是通过SALT论坛开发的基于XML的语言。

服务器110可以是多种能够在通信网络上回复请求并提供信息的信息处理系统中的任一种，例如Web服务器。如图所示，服务器110和客户端设备105可以在通信网络115上通信，所述通信网络115诸如因特网、局域网(LAN)、广域网(WAN)、移动或蜂窝式网络、另外的多种通信网络、或它们的任意组合。

多模态应用120可以在服务器110内执行。因此，多模态应用120可以从客户端设备105接收请求和信息，并作为回复提供诸如标记语言文档(多模态的或非多模态的)的信息。尽管未示出，多模态应用120还可以包括或访问音频处理服务，诸如文本到语音(TTS)、语音识别、和/或双音多频处理。这些服务可以位于服务器110内或者可以位于与多模态应用120在通信上链接的不同计算系统内。

验证系统125可以通过比较用户话音的记录和存储在话音印迹数据库130中的话音印迹来验证用户身份。话音印迹数据库130可以包括来自已经在验证系统125中进行登记的用户的多个不同的话音印迹。每个话音印迹可以对应于或者关联于用户ID。当接收到话音记录时，验证系统125可以比较所述话音记录和话音印迹数据库130中的话音印迹，以确定是否存在匹配。

在操作中，客户端设备105可以发送请求MML文档的请求135到多模态应用120。多模态应用120可以通过发送MML文档140(即多模态网页)进行响应。在呈现MML文档140之时，客户端设备105可以在MML文档的指示下请求来自用户的用户ID和话音样本。在一实施例中，所述文档可以提供当用户提供话音样本时将由用户读出的脚本。需要注意，任意提示可以是音频提示(已记录音频或TTS)或者在客户端设备105的显示屏幕上显示的文本提示。

客户端设备105例如当用户大声读出脚本时可以产生对用户话音的数字记录。一旦用户话音的记录和用户ID已经由客户端设备105获得时，客户端设备105可以在MML文档140的指示下发送上述二者到多模态应用120。记录145和用户ID 150可以几乎同时被发送。在接收到用户ID 150和记录145之时，多模态应用120可以将上述二者提供给验证系统125进行处理。验证系统125可以使用所提供的用户ID 150在话音印迹数据库130中定位话音印迹。验证系统125接着可以比较话音印迹和记录150，以确定记录150是否匹配该话音印迹。如果匹配，则用户可以被准许对联机系统的访问，所述联机系统诸如用于银行、预订等等的网站。如果不匹配，访问可以被拒绝。

在另一实施例中，音频不需要在客户端设备105中进行记录，而是在数据连接上从客户端设备105流向多模态应用120。诸如支持在数据信道上的话音(被称为IP上的话音(VoIP))的蜂窝式电话的移动设备可以支持音频的流动。在音频从客户端设备105流出的情形中，音频可以被多模态应用120记录。

图2是说明了根据这里公开的发明方案的出于用户验证目的对用户进行登记的方法200的流程图。方法200可以由参考图1描述的系统或者另一适当的系统来实施。方法200可以在步骤205开始，其中对于联机系统是新用户的用户可以访问多模态基于Web的应用。用户可以通过客户端设备访问多模态基于Web的应用。

在步骤210中，多模态基于Web的应用可以提供安全的MML文档给位于客户端设备的用户。如所述，MML文档可以指定基于Web的多模态界面或网页。这样，其可以指定用于接收用户ID以及其它可能是必要的个人信息(诸如电话号码、地址、电子邮件地址等等)的字段。MML文档可以进一步指定登记脚本。登记脚本可以包括文本、数字、符号、字母等等。

在步骤215，在呈现MML文档之时，客户端设备可以提示用户大声读出登记脚本。所述提示可以是基于文本的，即网页中的书面指令，或者可以是可听提示，或者是TTS或者是预先记录的音频。登记脚本可以在客户端设备的显示屏幕上作为文本显示。在步骤220，用户可以大声读出登记脚本，即说出登记脚本。在步骤225，客户端设备记录大声读取登记脚本的用户，并获得用户ID和用户提供的任意其它个人信息。根据本发明的一实施例，MML文档内的记录指令可以指示客户端设备产生对用户语音的数字记录。例如，在用X+V编写的MML文档内，可以使用记录(record)标志。

在步骤230，当用户已结束大声读出登记脚本时，客户端设备可以将所记录的音频转发到在服务器上执行的多模态应用。除了所记录的音频之外，被输入到MML文档的字段中的任意信息(特别是用户ID)可以被发送到多模态基于Web的应用。应该理解，从MML文档的字段获得的数据和所记录的音频可以同时或几乎同时被发送。客户端设备转发当MML文档被执行时由其所指定的这样的信息。

如所述，在另一实施例中，登记和/或验证音频可以从客户端设备流向多模态基于Web的应用。在这样的实施例中，音频可以由多模态基于Web的应用所记录。在此情形中，MML文档中的流指令可以指示客户端设备将用户语音的音频流向多模态基于Web的应用。

在步骤235，多模态基于Web的应用可以接收音频以及在客户端设备被输入到MML文档中的任意其它信息，诸如用户ID。在步骤240，多模态基于Web的应用发送用户ID、音频和登记脚本到验证系统。在步骤245，验证系统可以通过登记脚本的文本和音频创建用户的唯一话音印迹。得到的话音印迹可以关联于用户ID并存储在话音印迹数据库中。在成功的用户登记之后，在步骤250，多模态基于Web的应用可以发送安全的欢迎页给用户，并允许用户访问该服务器或另一服务器内的其它安全页。

图3是说明了根据这里公开的发明方案的实施用户验证的方法300的流程图。方法300可以通过使用参考图1描述的系统或者另一类似的系统来实施。在步骤305，已注册用户可以经由客户端设备访问多模态基于Web的应用，以请求网页或对系统的登录。在步骤310，多模态应用可以发送MML文档，在此情形中是安全的基于Web的登录页，其可以在步骤315中由客户端设备呈现。

安全的登录页可以指定用于接收诸如用户ID的用户输入的一个或多个字段。安全的登录页可以进一步指定脚本。脚本可以是字母、数字和/或字词的随机序列。脚本可以由多模态基于Web的应用例如通过从所述文本的集合中选择字词、字母和/或数字而生成。在一实施例中，脚本可以包括从登记脚本中随机选择的任意字词、字母或数字。

随机生成的脚本防止冒充者试图欺骗验证系统。如果冒充者尝试播放已注册用户的语音的预先记录的部分，则预先记录的语音将不会匹配将在话音印迹比较中使用的预期的用户语音。预先记录的用户语音将包括不同于在随机生成的脚本中所指定的字词。因此，用户验证将失败。因此，根据本发明的一实施例，除话音验证之外还可以使用语音识别，以防止冒充者使用预先记录的用户语音来欺骗系统。

在步骤320，用户可以将他或她的用户ID输入到当前呈现在客户端设备的显示器上的MML文档的适当字段中。用户可以使用语音、小键盘输入、指示笔输入等来输入用户ID。用户输入用户ID的具体方式并不意味着限制本发明。在任意情形中，用户ID可以被临时存储在客户端设备中。

在步骤325，用户可以被指示大声读出在客户端设备的显示器上示出的脚本。用户可以通过TTS提示、音频提示或通过在所示出的MML文档中显示的文本指令而被提示。在步骤330，客户端设备可以产生对大声读出脚本的用户的数字记录。在一实施例中，数字记录可以被存储为PCM数据。不过，应该理解，数字音频文件的具体格式化并不意味着限制本发明，在音频在数据连接上流向多模态基于Web的应用的情形中，可以使用多种不同的数字音频格式中的任一种，诸如ADPCM、MP3、AAC或压缩DSR。

在步骤335，当用户结束说话时，客户端设备可以发送脚本和用户ID到多模态基于Web的应用。用户ID和音频(即验证音频)可以几乎同时从客户端提交，并几乎同时由多模态基于Web的应用接收，或者作为整个记录或者作为流式音频。在步骤340，多模态基于Web的应用可以接收音频和用户ID。在步骤345，多模态基于Web的应用可以将音频、脚本和用户ID转发给验证系统。

在步骤350，验证系统通过使用用户ID作为参考从话音印迹数据库中定位或检索用户的话音印迹。在步骤355，验证系统可以比较音频和匹配用户ID的话音印迹，以确定所述音频是否匹配所述话音印迹。如果匹配，则所述方法可以进行到步骤360，其中安全的欢迎页可以从多模态基于Web的应用提供给位于用户设备的用户，所述安全的欢迎页可以是传统的可视网页或多模态网页。已经被验证的用户可以被允许访问站点和其它安全的网页。如果所记录的音频不匹配话音印迹，则在步骤365用户被多模态基于Web的应用拒绝访问。

本发明提供了一种使用基于Web的多模态界面来验证用户身份的解决方案。根据本发明，说话者验证系统基于说话者话音的物理特性来验证说话者的身份。通过多模态界面，用户既可以进行注册，也可以稍后被验证系统进行验证。登记变得更便利在于，登记脚本作为可视文本被示出给用户，所以用户不需要必须记住长的文本段落。

说话者验证部分要求用户说出由多模态应用提供的随机脚本。随机脚本防止冒充者试图播放在尝试欺骗验证系统时另一用户说出的预先记录的部分。预先记录的语音将不匹配由随机生成的脚本所指定的预期的用户语音。用来验证用户身份的脚本(类似于登记脚本)也可以被可视地示出。使用多模态界面的验证可以比仅使用一种模态更安全，因为可以同时要求可视口令和语音验证。

本发明可以以硬件、软件或软硬件的组合来实现。本发明可以在一个计算机系统中以集中的方式实现，或者以分布的方式(其中不同的单元跨若干互连计算机系统分布)实现。适于执行这里所描述的方法的任何种类的计算机系统或其它装置是适合的。典型的软硬件组合可以是具有计算机程序的通用计算机系统，所述计算机程序在被加载和执行时控制该计算机系统，使得该计算机系统执行这里所描述的方法。

本发明还可以嵌入在计算机程序产品中，所述计算机程序产品包括使能这里描述的方法的实现的所有特征，并且当其被加载到计算机系统中时能够执行这些方法。本上下文中的计算机程序、软件应用和/或这些术语的其它变体指的是指令集以任何语言、代码或符号形式的任何表示法，所述指令集能够使具有信息处理能力的系统直接地或在下述两种方式之一或两者完成之后来实施特定功能，所述两种方式包括：a)转换到另一种语言、代码或符号；或者b)以不同的物质形式再现。

本发明可以用其它形式实现而不会背离其基本属性或精神。因此，在指示本发明的范围时，应该参考权利要求而不是前述说明书。

Claims

1.一种使用多模态基于Web的界面来验证用户身份的方法，包括：

从远程计算设备接收对于多模态标记语言文档的请求；

将多模态标记语言文档发送到远程计算设备，所述多模态标记语言文档当由所述远程计算设备呈现时向用户查询用户标识符和用户话音的音频，所述多模态标记语言文档指定将由用户大声读出的脚本；

在所述多模态标记语言文档的控制下，在多模态基于Web的应用处接收所述用户标识符和所述音频；

比较所述音频和关联于所述用户标识符的话音印迹；以及

根据从所述比较步骤获得的结果选择性地准许位于所述远程计算设备的用户对联机系统的访问。

2.根据权利要求1所述的方法，其中所述多模态标记语言文档包括使所述音频流动的指令，所述方法进一步包括：响应于呈现所述多模态标记语言文档和解释所述使所述音频流动的指令，所述远程计算设备使所述音频流向所述多模态基于Web的应用。

3.根据权利要求1所述的方法，其中所述多模态标记语言文档包括记录所述音频的指令，所述方法进一步包括：响应于呈现所述多模态标记语言文档和解释所述记录指令，所述远程计算设备产生对用户话音的数字记录。

4.根据权利要求1所述的方法，其中所述音频是用户大声读出所述脚本的数字表示。

5.根据权利要求4所述的方法，所述比较步骤进一步包括所述多模态基于Web的应用首先将所述音频、所述脚本和所述用户标识符发送到验证系统。

6.根据前面任一权利要求所述的方法，进一步包括：

首先将指定登记脚本的多模态标记语言文档发送到所述远程计算设备；

接收所述用户标识符和包括用户说出所述登记脚本的数字表示的音频；以及

通过确定来自用户说出所述登记脚本的音频的话音印迹以及将所述话音印迹关联于所述用户标识符，将所述用户登记到联机系统中。

7.一种用于验证用户身份的系统，包括：

具有包括多个话音印迹的话音印迹数据库的验证系统，每个话音印迹关联于用户标识符；

多模态应用，被配置为从客户端设备接收对于多模态标记语言文档的请求，并发送多模态标记语言文档到客户端设备，所述多模态标记语言文档指定将由用户读出的脚本，且当由所述客户端设备呈现时使得用户标识符和音频被发送回所述多模态应用，其中在多模态标记语言文档的控制下将所述音频和所述用户标识符从客户端设备提交给多模态应用；以及

其中所述多模态应用可操作用于将所述音频和所述用户标识符提交给所述验证系统，用于通过比较所述音频和关联于所述用户标识符的话音印迹来验证所述说话者的身份。

8.根据权利要求7所述的系统，其中所述比较进一步包括多模态基于Web的应用首先将所述音频、脚本和用户标识符发送到验证系统。

9.根据权利要求7所述的系统，其中所述多模态标记语言文档包括记录音频的指令，使得：响应于呈现所述多模态标记语言文档和解释所述记录指令，客户端设备记录说话者大声读出所述脚本。

10.根据权利要求7所述的系统，其中所述多模态标记语言文档包括使所述音频流动的指令，所述方法进一步包括：响应于呈现所述多模态标记语言文档和解释所述使所述音频流动的指令，所述远程计算设备使所述音频流向所述多模态应用。