CN102222190A - 通过多模态基于web的界面的用户验证 - Google Patents

通过多模态基于web的界面的用户验证 Download PDF

Info

Publication number
CN102222190A
CN102222190A CN2011101602527A CN201110160252A CN102222190A CN 102222190 A CN102222190 A CN 102222190A CN 2011101602527 A CN2011101602527 A CN 2011101602527A CN 201110160252 A CN201110160252 A CN 201110160252A CN 102222190 A CN102222190 A CN 102222190A
Authority
CN
China
Prior art keywords
modal
user
audio frequency
language document
marking language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101602527A
Other languages
English (en)
Inventor
D·哈拉米略
G·麦柯布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN102222190A publication Critical patent/CN102222190A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • H04M3/385Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/41Electronic components, circuits, software, systems or apparatus used in telephone systems using speaker recognition

Abstract

一种使用基于Web的多模态界面来验证用户身份的方法可以包括:将多模态标记语言文档发送到远程计算设备,所述多模态标记语言文档当由所述远程计算设备呈现时向用户查询用户标识符并使得用户话音被发送到多模态基于Web的应用。所述用户标识符和所述音频可以大约同时从客户端设备接收。所述音频可以与关联于所述用户标识符的话音印迹进行比较。根据从所述比较步骤获得的结果,位于所述远程计算设备的用户可以被选择性地准许对系统的访问。

Description

通过多模态基于WEB的界面的用户验证
本申请是申请日为2006年01月19日、国际申请号为PCT/EP2006/050308、国家申请号为200680004895.X、发明名称为“通过多模态基于WEB的界面的用户验证”的发明专利申请的分案申请。
技术领域
本发明涉及使用多模态(multimodal)基于Web的界面验证用户身份。
背景技术
多模态界面允许用户通过可视和口语方式与应用或其它系统通信。例如,用户可通过图形用户界面(GUI)进行通信,这可以通过发出一个或多个口头言词或通过提供GUI输入和话音输入的组合。多模态交互可以向用户提供与系统通信的更多直觉方式。
关于便携式计算设备,诸如智能电话、个人数字助理、以及其它具有小型表格要素的设备,多模态界面允许用户基于情况选择交互方式。在某些情形中,使用GUI可能是有利的,而在其它情形中,话音数据输入可能更有利或更方便。例如,在通常情况下,用户可以选择话音交互,因为这是直觉性和迅捷的。话音数据输入进一步免除了用户不得不使用微型小键盘或小型GUI,所述二者在使用上都可能是麻烦并缓慢的。
不过,在嘈杂环境中,话音数据输入也许是不可能的。周围的噪声级可能掩盖用户话音输入,以至于对用户语音的精确识别是不可能的。在其它情况下,诸如当验证用户身份时,用户也可能选择小键盘输入或非口语交互。典型地,使用用户名和口令来实施用户验证。因为将这样的信息说出到多模态界面中可能允许其他人无意听到机密信息,所以用户通常使用GUI或小键盘输入这样的信息。不过,如所述,在便携式计算设备上以此方式输入这样的信息可以是麻烦并缓慢的。
使用口令还有其它缺点。典型地,口令难于记住并且不太安全。考虑到用户拥有的过多的帐户,其中每个帐户都需要用户名和口令,则记住口令可能是特别困难的。为避免不得不记住每个口令,用户倾向于对于多个帐户使用一个通用口令、将口令写在访问卡(即ATM卡)的背面、或所使用的口令与用户对于该帐户的用户名相同。这些行为中的任一种都可能将用户帐户的安全置于危险中。
而且,由于诸如银行、航线预订、产品购买等等的功能开始迁移到多模态基于Web的界面,用户验证将变得越来越重要。这样的系统仅在交易是安全的并且系统确保该用户是用户所声明的那个人之时才可以是成功的。因此,提供一种克服了上述缺陷的、通过多模态界面验证用户的技术将是有利的。
发明内容
本发明提供了一种在通信网络上验证用户身份的解决方案。本发明的一实施例可以包括一种使用多模态基于Web的界面来验证用户身份的方法。所述方法可以包括:将多模态标记语言文档发送到远程计算设备,所述多模态标记语言文档当由所述远程计算设备呈现时向用户查询用户标识符并使得用户话音的音频发送到多模态基于Web的应用。所述用户标识符和记录可以大约同时从客户端设备接收。所述音频可以与关联于所述用户标识符的话音印迹进行比较。因此,根据从所述比较步骤获得的结果,位于所述远程计算设备的用户可以被选择性地准许对联机系统的访问。
本发明的另一实施例可以包括一种用于验证用户身份的系统。所述系统可以包括:具有包括多个话音印迹的话音印迹数据库的验证系统,每个话音印迹关联于用户标识符。所述系统还可以包括:多模态应用,其被配置发送多模态标记语言文档到客户端设备。所述多模态标记语言文档可以指定随机脚本,并当执行时使得用户标识符和包括大声读出所述随机脚本的说话者的数字表示的音频被发送回所述多模态应用。所述多模态应用可以将所述脚本、所述记录和所述用户标识符提交给所述验证系统,用于通过比较所述记录和从关联于所述用户标识符的多个话音印迹中选择的话音印迹来验证说话者的身份。
本发明的其它实施例可以包括机器可读存储装置,其被编程以使得机器实施这里描述的各种步骤。
附图说明
现在将仅通过示例并参考附图来描述本发明的实施例,在附图中:
图1是说明了根据这里公开的发明方案的使用多模态基于Web的界面来实施用户验证的系统的示图;
图2是说明了根据这里公开的发明方案的出于用户验证目的对用户进行登记的方法的流程图;以及
图3是说明了根据这里公开的发明方案的实施用户验证的方法的流程图。
具体实施方式
以下是对用于通过使用多模态基于Web的界面来验证用户身份的示例性技术和系统的描述。用户身份可以通过使用话音识别技术来验证。可以向用户示出从多模态基于Web的应用接收的多模态文档。所述多模态文档(即网页类型的界面)可以请求用户提供用户标识符或用户名(下文为“用户ID”)以及话音样本。用户ID和话音样本可以被提供回多模态基于Web的应用。可以依据话音样本并参考用户ID实施话音验证。基于话音验证的结果,用户可以被准许对联机系统的访问或被拒绝进入。
图1是说明了根据这里公开的发明方案的使用多模态基于Web的界面来实施用户验证的系统100的示图。如图所示,系统100可包括客户端设备105、包括多模态应用120的服务器110、以及具有话音印迹数据库130的验证系统125。
在一实施例中,客户端设备105可以是多种计算设备中的任一种,诸如台式计算机、服务器等等。在另一实施例中,计算设备105可以是便携式和/或移动计算设备,诸如膝上型计算机、或者有线或者无线的被配置用于因特网通信的个人数字助理(PDA)、移动电话等等。在任意情形中,客户端设备105可以包括适当的软件,其用于发送请求到服务器110和从服务器110接收信息。例如,客户端设备105可以包括能够呈现标记语言文档(包括多模态标记语言(MML)文档)的适当的浏览器。
MML文档可以指定用于用户交互的可视和话音组件。因此,MML文档可包括基于任意标记语言的文档或文件,当其被呈现时允许用户通过可视方式(诸如图形用户界面(GUI))以及通过可听方式(通过说出或提供双音多频输入)来提供输入。这样的标记语言的一个示例是X+V标记语言。X+V是所提出的用于开发多模态网页的标记语言,其结合了可扩展超文本标记语言(XHTML)和话音可扩展标记语言(VoiceXML)的子集。
一般而言,XHTML是已被调整为符合可扩展标记语言(XML)的规则的HTML 4.0的一版本。VoiceXML是通过万维网协会(W3C)开发的基于XML的语言。VoiceXML提供用于构造基于语音的应用的标准化格式。XHTML和VoiceXML(X+V)共同使得Web开发者能够将话音输入和输出添加到传统的基于图形的网页。
MML的另一示例是基于将语音应用语言标志(SALT)添加到宿主标记语言,所述宿主标记语言诸如XHTML、超文本标记语言(HTML)或者可缩放向量图形(SVG)。SALT是所提出的可以用于开发支持可视和语音模式的用户交互的多模态网页的标记语言。SALT是通过SALT论坛开发的基于XML的语言。
服务器110可以是多种能够在通信网络上回复请求并提供信息的信息处理系统中的任一种,例如Web服务器。如图所示,服务器110和客户端设备105可以在通信网络115上通信,所述通信网络115诸如因特网、局域网(LAN)、广域网(WAN)、移动或蜂窝式网络、另外的多种通信网络、或它们的任意组合。
多模态应用120可以在服务器110内执行。因此,多模态应用120可以从客户端设备105接收请求和信息,并作为回复提供诸如标记语言文档(多模态的或非多模态的)的信息。尽管未示出,多模态应用120还可以包括或访问音频处理服务,诸如文本到语音(TTS)、语音识别、和/或双音多频处理。这些服务可以位于服务器110内或者可以位于与多模态应用120在通信上链接的不同计算系统内。
验证系统125可以通过比较用户话音的记录和存储在话音印迹数据库130中的话音印迹来验证用户身份。话音印迹数据库130可以包括来自已经在验证系统125中进行登记的用户的多个不同的话音印迹。每个话音印迹可以对应于或者关联于用户ID。当接收到话音记录时,验证系统125可以比较所述话音记录和话音印迹数据库130中的话音印迹,以确定是否存在匹配。
在操作中,客户端设备105可以发送请求MML文档的请求135到多模态应用120。多模态应用120可以通过发送MML文档140(即多模态网页)进行响应。在呈现MML文档140之时,客户端设备105可以在MML文档的指示下请求来自用户的用户ID和话音样本。在一实施例中,所述文档可以提供当用户提供话音样本时将由用户读出的脚本。需要注意,任意提示可以是音频提示(已记录音频或TTS)或者在客户端设备105的显示屏幕上显示的文本提示。
客户端设备105例如当用户大声读出脚本时可以产生对用户话音的数字记录。一旦用户话音的记录和用户ID已经由客户端设备105获得时,客户端设备105可以在MML文档140的指示下发送上述二者到多模态应用120。记录145和用户ID 150可以几乎同时被发送。在接收到用户ID 150和记录145之时,多模态应用120可以将上述二者提供给验证系统125进行处理。验证系统125可以使用所提供的用户ID 150在话音印迹数据库130中定位话音印迹。验证系统125接着可以比较话音印迹和记录150,以确定记录150是否匹配该话音印迹。如果匹配,则用户可以被准许对联机系统的访问,所述联机系统诸如用于银行、预订等等的网站。如果不匹配,访问可以被拒绝。
在另一实施例中,音频不需要在客户端设备105中进行记录,而是在数据连接上从客户端设备105流向多模态应用120。诸如支持在数据信道上的话音(被称为IP上的话音(VoIP))的蜂窝式电话的移动设备可以支持音频的流动。在音频从客户端设备105流出的情形中,音频可以被多模态应用120记录。
图2是说明了根据这里公开的发明方案的出于用户验证目的对用户进行登记的方法200的流程图。方法200可以由参考图1描述的系统或者另一适当的系统来实施。方法200可以在步骤205开始,其中对于联机系统是新用户的用户可以访问多模态基于Web的应用。用户可以通过客户端设备访问多模态基于Web的应用。
在步骤210中,多模态基于Web的应用可以提供安全的MML文档给位于客户端设备的用户。如所述,MML文档可以指定基于Web的多模态界面或网页。这样,其可以指定用于接收用户ID以及其它可能是必要的个人信息(诸如电话号码、地址、电子邮件地址等等)的字段。MML文档可以进一步指定登记脚本。登记脚本可以包括文本、数字、符号、字母等等。
在步骤215,在呈现MML文档之时,客户端设备可以提示用户大声读出登记脚本。所述提示可以是基于文本的,即网页中的书面指令,或者可以是可听提示,或者是TTS或者是预先记录的音频。登记脚本可以在客户端设备的显示屏幕上作为文本显示。在步骤220,用户可以大声读出登记脚本,即说出登记脚本。在步骤225,客户端设备记录大声读取登记脚本的用户,并获得用户ID和用户提供的任意其它个人信息。根据本发明的一实施例,MML文档内的记录指令可以指示客户端设备产生对用户语音的数字记录。例如,在用X+V编写的MML文档内,可以使用记录(record)标志。
在步骤230,当用户已结束大声读出登记脚本时,客户端设备可以将所记录的音频转发到在服务器上执行的多模态应用。除了所记录的音频之外,被输入到MML文档的字段中的任意信息(特别是用户ID)可以被发送到多模态基于Web的应用。应该理解,从MML文档的字段获得的数据和所记录的音频可以同时或几乎同时被发送。客户端设备转发当MML文档被执行时由其所指定的这样的信息。
如所述,在另一实施例中,登记和/或验证音频可以从客户端设备流向多模态基于Web的应用。在这样的实施例中,音频可以由多模态基于Web的应用所记录。在此情形中,MML文档中的流指令可以指示客户端设备将用户语音的音频流向多模态基于Web的应用。
在步骤235,多模态基于Web的应用可以接收音频以及在客户端设备被输入到MML文档中的任意其它信息,诸如用户ID。在步骤240,多模态基于Web的应用发送用户ID、音频和登记脚本到验证系统。在步骤245,验证系统可以通过登记脚本的文本和音频创建用户的唯一话音印迹。得到的话音印迹可以关联于用户ID并存储在话音印迹数据库中。在成功的用户登记之后,在步骤250,多模态基于Web的应用可以发送安全的欢迎页给用户,并允许用户访问该服务器或另一服务器内的其它安全页。
图3是说明了根据这里公开的发明方案的实施用户验证的方法300的流程图。方法300可以通过使用参考图1描述的系统或者另一类似的系统来实施。在步骤305,已注册用户可以经由客户端设备访问多模态基于Web的应用,以请求网页或对系统的登录。在步骤310,多模态应用可以发送MML文档,在此情形中是安全的基于Web的登录页,其可以在步骤315中由客户端设备呈现。
安全的登录页可以指定用于接收诸如用户ID的用户输入的一个或多个字段。安全的登录页可以进一步指定脚本。脚本可以是字母、数字和/或字词的随机序列。脚本可以由多模态基于Web的应用例如通过从所述文本的集合中选择字词、字母和/或数字而生成。在一实施例中,脚本可以包括从登记脚本中随机选择的任意字词、字母或数字。
随机生成的脚本防止冒充者试图欺骗验证系统。如果冒充者尝试播放已注册用户的语音的预先记录的部分,则预先记录的语音将不会匹配将在话音印迹比较中使用的预期的用户语音。预先记录的用户语音将包括不同于在随机生成的脚本中所指定的字词。因此,用户验证将失败。因此,根据本发明的一实施例,除话音验证之外还可以使用语音识别,以防止冒充者使用预先记录的用户语音来欺骗系统。
在步骤320,用户可以将他或她的用户ID输入到当前呈现在客户端设备的显示器上的MML文档的适当字段中。用户可以使用语音、小键盘输入、指示笔输入等来输入用户ID。用户输入用户ID的具体方式并不意味着限制本发明。在任意情形中,用户ID可以被临时存储在客户端设备中。
在步骤325,用户可以被指示大声读出在客户端设备的显示器上示出的脚本。用户可以通过TTS提示、音频提示或通过在所示出的MML文档中显示的文本指令而被提示。在步骤330,客户端设备可以产生对大声读出脚本的用户的数字记录。在一实施例中,数字记录可以被存储为PCM数据。不过,应该理解,数字音频文件的具体格式化并不意味着限制本发明,在音频在数据连接上流向多模态基于Web的应用的情形中,可以使用多种不同的数字音频格式中的任一种,诸如ADPCM、MP3、AAC或压缩DSR。
在步骤335,当用户结束说话时,客户端设备可以发送脚本和用户ID到多模态基于Web的应用。用户ID和音频(即验证音频)可以几乎同时从客户端提交,并几乎同时由多模态基于Web的应用接收,或者作为整个记录或者作为流式音频。在步骤340,多模态基于Web的应用可以接收音频和用户ID。在步骤345,多模态基于Web的应用可以将音频、脚本和用户ID转发给验证系统。
在步骤350,验证系统通过使用用户ID作为参考从话音印迹数据库中定位或检索用户的话音印迹。在步骤355,验证系统可以比较音频和匹配用户ID的话音印迹,以确定所述音频是否匹配所述话音印迹。如果匹配,则所述方法可以进行到步骤360,其中安全的欢迎页可以从多模态基于Web的应用提供给位于用户设备的用户,所述安全的欢迎页可以是传统的可视网页或多模态网页。已经被验证的用户可以被允许访问站点和其它安全的网页。如果所记录的音频不匹配话音印迹,则在步骤365用户被多模态基于Web的应用拒绝访问。
本发明提供了一种使用基于Web的多模态界面来验证用户身份的解决方案。根据本发明,说话者验证系统基于说话者话音的物理特性来验证说话者的身份。通过多模态界面,用户既可以进行注册,也可以稍后被验证系统进行验证。登记变得更便利在于,登记脚本作为可视文本被示出给用户,所以用户不需要必须记住长的文本段落。
说话者验证部分要求用户说出由多模态应用提供的随机脚本。随机脚本防止冒充者试图播放在尝试欺骗验证系统时另一用户说出的预先记录的部分。预先记录的语音将不匹配由随机生成的脚本所指定的预期的用户语音。用来验证用户身份的脚本(类似于登记脚本)也可以被可视地示出。使用多模态界面的验证可以比仅使用一种模态更安全,因为可以同时要求可视口令和语音验证。
本发明可以以硬件、软件或软硬件的组合来实现。本发明可以在一个计算机系统中以集中的方式实现,或者以分布的方式(其中不同的单元跨若干互连计算机系统分布)实现。适于执行这里所描述的方法的任何种类的计算机系统或其它装置是适合的。典型的软硬件组合可以是具有计算机程序的通用计算机系统,所述计算机程序在被加载和执行时控制该计算机系统,使得该计算机系统执行这里所描述的方法。
本发明还可以嵌入在计算机程序产品中,所述计算机程序产品包括使能这里描述的方法的实现的所有特征,并且当其被加载到计算机系统中时能够执行这些方法。本上下文中的计算机程序、软件应用和/或这些术语的其它变体指的是指令集以任何语言、代码或符号形式的任何表示法,所述指令集能够使具有信息处理能力的系统直接地或在下述两种方式之一或两者完成之后来实施特定功能,所述两种方式包括:a)转换到另一种语言、代码或符号;或者b)以不同的物质形式再现。
本发明可以用其它形式实现而不会背离其基本属性或精神。因此,在指示本发明的范围时,应该参考权利要求而不是前述说明书。

Claims (10)

1.一种使用多模态基于Web的界面来验证用户身份的方法,包括:
从远程计算设备接收对于多模态标记语言文档的请求;
将多模态标记语言文档发送到远程计算设备,所述多模态标记语言文档当由所述远程计算设备呈现时向用户查询用户标识符和用户话音的音频,所述多模态标记语言文档指定将由用户大声读出的脚本;
在所述多模态标记语言文档的控制下,在多模态基于Web的应用处接收所述用户标识符和所述音频;
比较所述音频和关联于所述用户标识符的话音印迹;以及
根据从所述比较步骤获得的结果选择性地准许位于所述远程计算设备的用户对联机系统的访问。
2.根据权利要求1所述的方法,其中所述多模态标记语言文档包括使所述音频流动的指令,所述方法进一步包括:响应于呈现所述多模态标记语言文档和解释所述使所述音频流动的指令,所述远程计算设备使所述音频流向所述多模态基于Web的应用。
3.根据权利要求1所述的方法,其中所述多模态标记语言文档包括记录所述音频的指令,所述方法进一步包括:响应于呈现所述多模态标记语言文档和解释所述记录指令,所述远程计算设备产生对用户话音的数字记录。
4.根据权利要求1所述的方法,其中所述音频是用户大声读出所述脚本的数字表示。
5.根据权利要求4所述的方法,所述比较步骤进一步包括所述多模态基于Web的应用首先将所述音频、所述脚本和所述用户标识符发送到验证系统。
6.根据前面任一权利要求所述的方法,进一步包括:
首先将指定登记脚本的多模态标记语言文档发送到所述远程计算设备;
接收所述用户标识符和包括用户说出所述登记脚本的数字表示的音频;以及
通过确定来自用户说出所述登记脚本的音频的话音印迹以及将所述话音印迹关联于所述用户标识符,将所述用户登记到联机系统中。
7.一种用于验证用户身份的系统,包括:
具有包括多个话音印迹的话音印迹数据库的验证系统,每个话音印迹关联于用户标识符;
多模态应用,被配置为从客户端设备接收对于多模态标记语言文档的请求,并发送多模态标记语言文档到客户端设备,所述多模态标记语言文档指定将由用户读出的脚本,且当由所述客户端设备呈现时使得用户标识符和音频被发送回所述多模态应用,其中在多模态标记语言文档的控制下将所述音频和所述用户标识符从客户端设备提交给多模态应用;以及
其中所述多模态应用可操作用于将所述音频和所述用户标识符提交给所述验证系统,用于通过比较所述音频和关联于所述用户标识符的话音印迹来验证所述说话者的身份。
8.根据权利要求7所述的系统,其中所述比较进一步包括多模态基于Web的应用首先将所述音频、脚本和用户标识符发送到验证系统。
9.根据权利要求7所述的系统,其中所述多模态标记语言文档包括记录音频的指令,使得:响应于呈现所述多模态标记语言文档和解释所述记录指令,客户端设备记录说话者大声读出所述脚本。
10.根据权利要求7所述的系统,其中所述多模态标记语言文档包括使所述音频流动的指令,所述方法进一步包括:响应于呈现所述多模态标记语言文档和解释所述使所述音频流动的指令,所述远程计算设备使所述音频流向所述多模态应用。
CN2011101602527A 2005-02-22 2006-01-19 通过多模态基于web的界面的用户验证 Pending CN102222190A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/062,731 US8725514B2 (en) 2005-02-22 2005-02-22 Verifying a user using speaker verification and a multimodal web-based interface
US11/062,731 2005-02-22

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN200680004895XA Division CN101120350B (zh) 2005-02-22 2006-01-19 通过多模态基于web的界面的用户验证的方法和系统

Publications (1)

Publication Number Publication Date
CN102222190A true CN102222190A (zh) 2011-10-19

Family

ID=36097126

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2011101602527A Pending CN102222190A (zh) 2005-02-22 2006-01-19 通过多模态基于web的界面的用户验证
CN200680004895XA Expired - Fee Related CN101120350B (zh) 2005-02-22 2006-01-19 通过多模态基于web的界面的用户验证的方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN200680004895XA Expired - Fee Related CN101120350B (zh) 2005-02-22 2006-01-19 通过多模态基于web的界面的用户验证的方法和系统

Country Status (6)

Country Link
US (2) US8725514B2 (zh)
EP (3) EP2273414B1 (zh)
JP (1) JP4871885B2 (zh)
CN (2) CN102222190A (zh)
TW (1) TWI358223B (zh)
WO (1) WO2006089822A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598112A (zh) * 2014-07-18 2019-04-09 谷歌有限责任公司 利用协同定位信息的发言人验证

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011887A (ja) * 2004-06-28 2006-01-12 Digital Electronics Corp プログラマブル・ロジック・コントローラ、グラフィック・ロジック・コントローラ、制御プログラム作成装置、プログラム、および、記録媒体
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8725514B2 (en) * 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US8032825B2 (en) * 2005-06-16 2011-10-04 International Business Machines Corporation Dynamically creating multimodal markup documents
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
JP4755689B2 (ja) 2005-07-27 2011-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 正規受信者への安全なファイル配信のためのシステムおよび方法
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
JP5042194B2 (ja) * 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
RU2451346C1 (ru) * 2011-04-27 2012-05-20 Сергей Владимирович Дворянкин Способ контактно-разностной акустической идентификации личности
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
WO2016058540A1 (zh) * 2014-10-15 2016-04-21 腾讯科技(深圳)有限公司 身份验证方法、装置和存储介质
CN104967622B (zh) * 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
US10269372B1 (en) * 2015-09-24 2019-04-23 United Services Automobile Association (Usaa) System for sound analysis and recognition
KR102401170B1 (ko) 2015-10-21 2022-05-24 삼성전자주식회사 복합 인증 장치 및 방법
TWI574255B (zh) * 2016-02-22 2017-03-11 華碩電腦股份有限公司 語音辨識方法、電子裝置及語音辨識系統
US10542010B2 (en) * 2016-05-27 2020-01-21 Microsoft Technology Licensing, Llc Account verification in deferred provisioning systems
CN106850539A (zh) * 2016-12-07 2017-06-13 广东小天才科技有限公司 一种验证信息获取方法和装置
CN108986825A (zh) * 2018-07-02 2018-12-11 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN110491389B (zh) * 2019-08-19 2021-12-14 效生软件科技(上海)有限公司 一种话务系统的声纹识别方法
CN111312257A (zh) * 2019-12-16 2020-06-19 五八有限公司 一种多账号的识别方法、装置、电子设备及存储介质
EP4165852A1 (en) * 2020-06-11 2023-04-19 Vonage Business Inc. Systems and methods for verifying identity using biometric data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1255194A2 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Markup language extensions for web enabled recognition
US20030163739A1 (en) * 2002-02-28 2003-08-28 Armington John Phillip Robust multi-factor authentication for secure application environments

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6266640B1 (en) * 1996-08-06 2001-07-24 Dialogic Corporation Data network with voice verification means
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6107935A (en) 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
AU4135199A (en) 1998-04-20 1999-11-08 Koninklijke Kpn N.V. Threshold setting and training of a speaker verification system
US6219639B1 (en) 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US7280970B2 (en) * 1999-10-04 2007-10-09 Beepcard Ltd. Sonic/ultrasonic authentication device
AU2001253795A1 (en) 2000-04-26 2001-11-07 Global Transaction Company Multi-tiered identity verification authority for e-commerce
US6754628B1 (en) 2000-06-13 2004-06-22 International Business Machines Corporation Speaker recognition using cohort-specific feature transforms
US7406657B1 (en) * 2000-09-22 2008-07-29 International Business Machines Corporation Audible presentation and verbal interaction of HTML-like form constructs
US20040177097A1 (en) * 2000-12-01 2004-09-09 Philips Electronics North America Corporation Web-based, biometric authentication system and method
WO2002069325A1 (en) * 2001-02-26 2002-09-06 Startouch International, Ltd. Apparatus and methods for implementing voice enabling applications in a coverged voice and data network environment
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
JP2004013274A (ja) * 2002-06-04 2004-01-15 Ntt Comware Corp ユーザ認証システム、ユーザ認証方法、ユーザ認証プログラムおよび記録媒体
JP3668892B2 (ja) * 2002-08-21 2005-07-06 株式会社大和速記情報センター デジタル速記システム
JP2004139221A (ja) * 2002-10-16 2004-05-13 Ntt Docomo Tokai Inc 認証システム
US20040186724A1 (en) 2003-03-19 2004-09-23 Philippe Morin Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience
US8396973B2 (en) * 2004-10-22 2013-03-12 Microsoft Corporation Distributed speech service
US8725514B2 (en) * 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1255194A2 (en) * 2001-05-04 2002-11-06 Microsoft Corporation Markup language extensions for web enabled recognition
US20030163739A1 (en) * 2002-02-28 2003-08-28 Armington John Phillip Robust multi-factor authentication for secure application environments

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598112A (zh) * 2014-07-18 2019-04-09 谷歌有限责任公司 利用协同定位信息的发言人验证
CN109598112B (zh) * 2014-07-18 2022-09-06 谷歌有限责任公司 发言人验证系统、方法和计算机可读介质

Also Published As

Publication number Publication date
CN101120350B (zh) 2011-07-20
TWI358223B (en) 2012-02-11
TW200637331A (en) 2006-10-16
JP4871885B2 (ja) 2012-02-08
US20140249819A1 (en) 2014-09-04
JP2008532116A (ja) 2008-08-14
EP2273414B1 (en) 2017-03-15
US8725514B2 (en) 2014-05-13
WO2006089822A1 (en) 2006-08-31
US10818299B2 (en) 2020-10-27
EP2273412A1 (en) 2011-01-12
CN101120350A (zh) 2008-02-06
US20060190264A1 (en) 2006-08-24
EP2273412B1 (en) 2017-03-15
EP1854039A1 (en) 2007-11-14
EP2273414A1 (en) 2011-01-12

Similar Documents

Publication Publication Date Title
CN101120350B (zh) 通过多模态基于web的界面的用户验证的方法和系统
US8812319B2 (en) Dynamic pass phrase security system (DPSS)
US8082448B2 (en) System and method for user authentication using non-language words
US7254384B2 (en) Multi-modal messaging
RU2406163C2 (ru) Аутентификация пользователя посредством комбинирования установления личности говорящего и обратного теста тьюринга
US8925061B2 (en) Systems and methods for using voiceprints to generate passwords on mobile devices
US7503065B1 (en) Method and system for gateway-based authentication
US8095372B2 (en) Digital process and arrangement for authenticating a user of a database
US20030149881A1 (en) Apparatus and method for securing information transmitted on computer networks
US20090055193A1 (en) Method, apparatus and computer code for selectively providing access to a service in accordance with spoken content received from a user
US20110047605A1 (en) System And Method For Authenticating A User To A Computer System
KR20030086570A (ko) 무선 전자 상거래 촉진 시스템 및 방법
US20150156328A1 (en) Method enabling verification of the user id by means of an interactive voice response system
US20060287863A1 (en) Speaker identification and voice verification for voice applications
KR101424962B1 (ko) 음성 기반 인증시스템 및 방법
CN106850539A (zh) 一种验证信息获取方法和装置
US20160006731A1 (en) Document authentication
JP2005128885A (ja) 在否判定方法、在否判定システム、中央装置及びコンピュータプログラム
KR100309219B1 (ko) 네트워크 기반의 화자 학습 및 화자 확인 방법 및 장치
CA2424177A1 (en) Credit report retrieval system including voice-based interface

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111019