CN1522431A - 使用行为模型来进行无干扰的说话者验证的方法和系统 - Google Patents

使用行为模型来进行无干扰的说话者验证的方法和系统 Download PDF

Info

Publication number
CN1522431A
CN1522431A CNA018234100A CN01823410A CN1522431A CN 1522431 A CN1522431 A CN 1522431A CN A018234100 A CNA018234100 A CN A018234100A CN 01823410 A CN01823410 A CN 01823410A CN 1522431 A CN1522431 A CN 1522431A
Authority
CN
China
Prior art keywords
user
behavior
probability
input
proper vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA018234100A
Other languages
English (en)
Other versions
CN1213398C (zh
Inventor
٤��ʩ��N.������˹����
伽尼施·N.·拉玛斯瓦迈
����V.�����¹���
尤潘德拉·V.·考德哈利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority claimed from PCT/US2001/047910 external-priority patent/WO2003050799A1/en
Publication of CN1522431A publication Critical patent/CN1522431A/zh
Application granted granted Critical
Publication of CN1213398C publication Critical patent/CN1213398C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Collating Specific Patterns (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

根据本发明,一种用于验证用户身份的系统和方法,包括一个用于从用户(110)那里接收输入并将所述输入转换成形式命令的会话系统(114)。行为检验器(118)耦合到会话系统(114),以便从输入中提取特征。所述特征包括用户的行为模式。行为检验器(118)适于对所输入的行为以及一个行为模型(214)进行比较,从而确定是否批准该用户与系统进行交互。

Description

使用行为模型来进行无干扰 的说话者验证的方法和系统
技术领域
本发明涉及自然语言理解系统,尤其涉及一种基于用户行为来对用户进行无干扰验证的方法和系统。
背景技术
用于说话者验证(或者识别)的传统方法依赖于来自用户并且仅用于验证这个目的的特定输入。这些方法包括提供语音取样以及回答生物识别问题。一旦经过验证,则允许说话者访问目标系统,并且通常不会执行更进一步的验证。即使执行附加验证,所述附加验证也需要更多来自用户的用于验证目的的特定输入。而这会将干扰用户。
现有技术的说话者验证系统(对那些不具有口语输入模态的系统而言,也可以是用户验证系统)基于以下标准中的一个或多个标准来确认一个指定用户的身份:
1.用户是谁,这可以通过用户语音、指纹、笔迹等等来加以确定。
2.用户知道什么,这可以通过口令或是关于某些生物识别问题(例如,母亲的婚前姓是什么?)的回答以及其他信息来进行确定。
3.用户拥有什么,例如标识文档、密钥、具有特定号码的蜂窝电话等等。
如果冒充者知道或拥有密钥或是婚前姓等信息,则以上所有用于验证的方法都会失效。
因此,需要一种基于用户行为来确定用户身份的方法和系统。并且还需要一种无干扰的用户验证系统。
发明内容
根据本发明,一个用于验证用户身份的系统包括一个用于接收来自用户的输入并将所述输入转换成形式命令的会话系统。一个行为检验器与所述会话系统相耦合,以便从输入中提取特征。这些特征包括用户的行为模式。行为检验器适于对输入行为与一个行为模型进行比较,以便确定是否批准用户与所述系统进行交互。
在替换实施例中,会话系统可以包括一个用于对那些作为输入而被接收的语音进行解释的自然语言理解单元。所述输入可以包括语音、笔迹、文本和手势(gesture)中的至少一个。行为检验器可以包括一个用于从所述输入中提取特征向量的特征提取器。所述特征向量可以包括语言模型得分、声学模型得分、自然语言与理解得分、命令预测得分和/或发音得分中的至少一个。并且特征向量可以包括系统响应用户的信息、用户命令之间的持续时间、用户与系统之间的对话状态和/或用户所用输入模态类型中的至少一个。而行为模型则可以包括多个模型。行为检验器可以包括一个概率计算器。概率计算器适于根据用户行为来计算批准用户与系统进行交互的第一概率。行为检验器可以包括一个为用户构造行为模型的模型构造器,所述行为模型由概率计算器使用,以便将其中的行为与用户的当前行为进行比较。系统还可以包括一个声学和生物识别检验器,用于确定那些来自用户的声学和生物识别信息并且基于用户的声学或生物识别信息来确定一个批准用户与系统进行交互的第二概率,并且行为检验器可以包括一个概率混合器,所述概率混合器适于将第一频率与第二频率相结合,以便证实批准用户与系统进行交互。如果批准用户使用该系统,则可以对第一概率以及一个阈值概率进行比较。
根据本发明,一种基于行为来对用户进行验证的方法包括如下步骤:向一个用于接收来自用户的输入并将所述输入转换成形式命令的会话系统提供输入,从所述输入中提取包含了用户行为模式的特征,以及将输入行为与一个行为模型进行比较,从而确定是否批准该用户与系统进行交互。
在其他的方法中,会话系统可以包括一个自然语言理解单元,所述方法还可以包括对那些作为输入而被接收的语音进行解释的步骤。这些输入可以包括语音、笔迹、文本和手势中的至少一个。特征向量可以包括语言模型得分、声学模型得分、自然语言与理解得分、命令预测得分和/或发音得分中的至少一个。特征向量可以包括系统响应用户的信息、用户命令之间的持续时间、用户之间的对话状态和/或用户所使用的输入模态类型中的至少一个。行为检验器可以包括一个概率计算器,并且所述方法可以包括基于用户行为而在概率计算器上计算一个用于指示是否批准该用户与系统进行交互的第一概率的步骤。
而在其他方法中,行为检验器可以包括一个模型构造器,所述方法可以包括为用户构造行为模型的步骤,其中概率计算器使用所述行为模型来对模型的行为以及用户当前的行为进行比较。并且可以包括一个声学和生物识别检验器,用于确定来自用户的声学和生物识别信息,所述方法还包括如下步骤:基于用户的声学或生物识别信息来确定一个用于指示是否批准该用户与系统进行交互的第二概率,并且通过使用概率混合器来结合第一概率和第二概率,以便证实批准该用户与系统进行交互。并且可以对第一概率以及一个阈值概率进行比较,从而确定是否批准该用户使用所述系统。本发明的这些方法和方法步骤可以通过一个机器可以读取的程序存储设备来加以实施,其中实际包含了可以由机器执行的程序指令,以便执行基于行为来对用户进行验证的方法步骤。
本发明的这些和其他目标、特征及优点将从以下结合附图所了解的本发明的示范性实施例的详细描述中变得清楚。
附图说明
以下关于本发明优选实施例的描述中将会参考附图来对本发明进行详细描述,其中:
图1是根据本发明的采用了行为验证的示范性系统/方法的框图/流程图;以及
图2是根据本发明的示范性行为检验器的框图。
具体实施方式
本发明提供了一种基于用户如何与目标系统进行交互而对用户身份进行连续验证的系统和方法。所述验证可以通过比较用户当前行为以及过去行为来加以实施。不需要来自用户的附加专用输入(除了用于初始验证之外),因此所述系统是无干扰的。此外还可以连续进行验证,并且,如果可以得到足够证据来拒绝正处于一个会话中的用户,那么,可以在其造成更多破坏之前断开所述用户。
在一个替换实施例中,即使没必要进行初始验证,并且可以为所有用户提供基本级访问(例如,对那些非机密信息),一旦通过无干扰处理而进行了附加验证,则可以提供完全访问。
在本发明中,通过引入一个新标准而向说话者(或用户)验证范例提供了一个新的量纲,所述新标准即为用户如何行动。例如,可以对一个通常使用“Howdy”进行问候的用户以及一个使用“Hello”或“How are you”进行问候的冒充者进行区分,也可以对所述用户以及一个不进行任何问候即开始会话的冒充者进行区分。同样,可以对尝试搜索若干机密文件的冒充者以及通常不会执行这类搜索的合法用户进行区分。尽管与系统进行的任何一次单独交互都不足以做出决定,但在几次用户-系统交互之后所收集的信息足以做出正确的验证判定。
本发明的一个优点在于:从并不要求提供来自用户并用于验证目的的附加专用输入这个意义上讲,说话者验证是无干扰的,用户可以照常与系统进行交互,验证需要的信息则是由后台处理自动收集的。而对用户当前行为与已知的过去行为所进行的比较也是所述系统在不对用户产生任何干扰或不便的情况下自动完成的。
应该理解的是,可以使用各种硬件、软件或是二者的组合来实现图1~2中显示的元件。优选地,这些元件是在一个或多个经过恰当编程并具有处理器、存储器以及输入/输出接口的通用数字计算机的软件中执行的。现在参考附图,其中相同数字表示相同或相似的组件,首先参考图1,其中显示了根据本发明而采用了行为验证的示范性系统/方法。对需要进行说话者验证的目标系统100而言,所述系统最好能够提供某些有关用户110如何与系统进行交互的参数。举例来说,系统100可以允许用户110使用几种不同的输入模态来与系统进行交互,例如打字文本,口语发音、手写输入、手势等等。系统100可以将语音识别、手写识别、图像识别这类技术连同自然语言理解和对话管理一起使用,从而解译用户输入并且将其转换成适于系统100的一台或多台计算机执行的表单。系统100可以连接到多个不同的应用116,例如电子邮件、电子日历、银行业务、股票或共有基金交易、旅行服务、电子数据表、编辑程序等等,并且所述系统100允许用户与这些应用进行交互。系统100还可以提供那些描述用户如何与系统进行交互所需要的参数,例如涉及语音识别或是自然语言理解的参数。
如图1所示,图中所示系统100的一个实例包括一个行为检验器118。来自用户110的输入预计是口语发音,但也可以是其他模态,例如手写输入、打字文本或是手势。在使用口语输入的时候,会话系统114首先使用在现有技术中已知的语音识别引擎113来将口语发音转换为文本。举例来说,如果应用116是一个电子邮件应用,那么用户可以说“do I have any new messages”,并且这个口语发音将会由语音识别引擎转换成相应的文本串。此外还使用了诸如手写识别引擎117这种本领域已知的恰当技术来将手写输入这类并非口语形式的输入转换相应的文本串。对于解释手势或其他模态而言,这一点同样是成立的。其中都使用了一个恰当的识别引擎。这样一来,所有输入都会转换成系统100所理解的可识别形式。
然后使用一个自然语言理解(NLU)引擎115来分析文本串或其他经过格式化的信号,以便将其转换成适于在应用116内部由系统100执行的命令。例如,诸如“do I have any new messages”或“can you check my mailbox”这种句子是具有相同含义的,它们都可以转换成一个形式为CheckNewMail()的形式命令。然后将所述形式命令提交给用于执行命令的应用116。此外还可以使用对话引擎120或对话管理器来管理与用户进行的对话,并且执行某些其他功能,例如歧义化解(ambiguity resolution)。
因此,会话系统可以包括语音及其他输入识别引擎、自然语言理解(NLU)引擎115以及对话引擎120。在本领域中,用于构造一个会话系统的方法是已知的。
系统100中包含了一个声学和生物识别检验器112。声学和生物识别检验器112负责对用户110的身份进行识别和验证。从名义上讲,所述验证是在允许用户110访问系统100之前执行的。验证处理可以包括对声称是指定用户的某个人的声波标记图(acousticsignature)以及所声称用户的已知声波标记图进行匹配,这个过程是一个声学验证处理。验证处理还可以包括生物识别验证,由此提示某个声称是用户的人回答特定问题,例如口令、母亲的婚前姓、社会安全号等等。在本领域中,用于声学和生物识别验证的方法是众所周知的。
根据本发明,在使用过程中,行为检验器118负责连续执行附加的用户身份验证。以下参考图2来描述行为检验器的详细资料。行为检验器118接收来自会话系统114以及声学和生物识别检验器112的输入,并且向声学和生物识别检验器112提供其输出。
参考图2,特征提取器204负责从会话系统114提供的数据中提取一个特征集合,并且构造一个包含了n个特征的特征向量v。
v=[ν1,  ……,νn]                       (1)
n的值应该由系统设计人员选择,并且n的值可以依赖于系统需要的精确度类型和/或识别类型。特征提取器204所提取的特征ν1,……,νn可以包括一个或多个以下特征,也可以包括其他相似特征。以下特征列表是说明性的,并且并未将其视为是对本发明加以限制。此外,这里描述的特征即可以单独使用,也可以与其他特征结合使用,从而根据本发明来确定一个或多个恰当的特征向量。所述特征可以包括以下所列举特征中的一个或多个:
1)语言模型得分:语音识别引擎使用一个语言模型或一组语言模型来执行所述识别。在使用了一种以上的语言模型的时候,可以将其中某些模型个人化到一个指定用户(有时也称为个人缓冲器,所述个人缓冲器是使用指定用户经常说的单词和短语来构造的)。语言模型得分在内部产生和使用,并且将会在结束识别之后被丢失。然而,特别是相对于经常使用的单词和短语的选择而言,这些得分含有可以表征用户的信息。例如,如果用户通常说“begin dictation”,则可以检测到一个说“let us create the text for this message”的冒充者。同样,也可以对一个通常使用简短扼要的短语来发出命令的用户以及一个使用长句的冒充者加以区分。因此,语言模型得分可以得到保存并且作为特征向量中的特征而被引入。应该注意的是,并不需要基于单个短语或多个短语来拒绝冒充者。取而代之的是,可以为一个指定用户会话保持一个累积行为得分,并且相对一个阈值来对所述得分进行周期性检查,以便确定是否该用户是一个冒充者或者是否并未就使用该系统而对这个用户进行验证。
2)声学模型得分:在语音识别引擎中,内部使用了声学模型得分(有时也称为快速匹配得分和详细匹配得分)及其他中间输出,并且在识别之后将其丢弃。与语言模型得分相似,声学模型得分也包括了与表征一个用户相关的信息,并且可以对一个指定任务的正常得分范围的任何偏差进行检测,以及将其用于识别一个冒充者。因此,向特征向量中添加声学模型将会是非常有用的。
3)自然语言理解(NLU)得分:NLU引擎还产生内部得分,所述得分会在结束了文本到形式命令的转换之后被丢弃。这些得分还包括了可以在表征用户中使用的信息。NLU引擎通常包括两个或更多阶段(例如一个标记阶段和一个转换阶段),并且可以将所有这些得分都添加到特征向量之中,从而可以检测一个指定任务的正常得分范围的任何偏差。
除了这些得分之外,还可以对其他输入进行编码,从而将其作为特征,所述其他输入可以是形式命令的第二选择,也可以是来自中间标记阶段的标记语句的第二选择。例如,用户可以说“OpenSteve”,这有可能会导致与打开来自Steve消息的相对应的最高级的形式命令OpenMessage(name=Steve),以及一个与打开一个名为Steve的文件夹相对应的第二选择形式命令OpenFolder(folder=Steve)。然而,冒充者有可能会更为明白,并且可能会说某些类似于“Open the message from Steve”的话,在这种情况下,第一选择形式命令很有可能是相同的,但是第二选择命令可以是不同的。
4)命令预测得分:用户经常会在他所发布的命令序列以及频繁用于完成一个任务的命令组合中显示一种模式。因此可以使用一种基于过去行为而对用户下一个命令进行预测的系统来提高会话系统的精确度并且使所述系统采取主动而向用户建议下一条命令,所述系统可以是G.Ramaswamy和J.Kleindienst在1999年10月30日提交的名为“Adaptive Command Predictor for a Natural Language DialogSystem”的共同转让美国专利申请09/431,034,该申请在此引入作为参考。然而,除了这些应用之外,命令预测系统产生的得分还可用于检测冒充者。如果某个人发出一个实际用户从未用过的命令(因此将会得到很低的命令预测得分),或者,如果某个人发出一系列并非最高级预测命令的命令(同样,命令预测得分将会很低),那么,这个平常命令或命令序列可以指示存在一个冒充者。因此,命令预测得分是为所述特征向量添加的非常好的特征。
5)发音模型:在大多数语言中,某些单词会具有一种以上的读音。例如在英语中,单词“the”具有以下的通用读音。
the    |DH AH
the    |DH AX
the    |DH IY
大多数用户往往使用这些单词的一种读音。而一个不了解某些单词的用户首选发音的冒充者可能会使用一个替换的读音。在这种情况下,为了检测冒充者,特征向量可以包括一组用于对这些单词的读音进行编码的特征。
6)其它输入得分:如果系统支持其它输入模态,例如手写识别或图像识别,那么,与来自语音识别的语言模型及声学模型得分相似,也可以将来自这些识别引擎的得分添加到特征向量之中。
7)系统响应:会话系统不但接受来自用户的口语输入,而且它们还会保持一个与用户进行的会话,并且产生那些呈现给用户的响应。本发明的系统可以检查系统通常为用户产生什么样的响应,并且可以使用这个信息来检测一个冒充者。而诸如“I could not find thatmessage”、“there is no such meeting”或“you do not own anyshares in that mutual fund”这样的响应则意味着用户不了解他与系统进行的在先交互,并且所述用户很有可能是一个冒充者。同样,某些用户非常严谨并且可能发布了诸如“send this to Steve”这种可能不需要附加说明的命令,但是其他用户可能不很清楚并且会发送与“send this to Steve”相同的命令,所述命令可能需要附加对话来消除双义。所述系统可以使用一个形式为“do you mean Steve Jonesor Steve Brown?”的问题来向用户发出提示。在这种情况下,可以检测到一个比实际用户更严谨或更不清楚的冒充者。
为了将系统响应用作特征向量中的特征,可以将标准系统响应放入不同种类(负响应、正响应、确认、说明等等),在产生一个响应的时候,可以将种类的标识作为一个特征来进行输入。
8)多模态交互模型:对那些支持多模态输入(语音、键盘、鼠标、手写、手势等等)的系统而言,可以根据本发明来分析用户完成一个任务所通常使用的输入模态组合,并且检测一个将不同的输入模态集合用于同一任务的冒充者。例如,某些用户可能喜欢点击“Save”按钮来保存一个文件,而其他人则可能宁愿使用一个语音命令来进行这个任务。因此,添加完成某个任务所使用的输入模态,以此作为特征向量中的附加特征,这将是非常有用的。
9)对者状态:某些系统可能允许用户在任何指定时间具有多个打开的事务(在移至下一个任务之前,用户不需要完成一个任务)。在这种情况下,可以添加代表当前开启的事务数目的特征以及从开始最早的事务以来所经过的时间。并且可以再次使用这个信息来构造那些代表一个指定用户的特征向量。对话状态还可以包括在系统上执行的活动动作的类型或持续时间。例如,当登录到一个系统,然后检查股票价格的时候,某个特定使用可以始终都访问电子邮件。
10)命令之间的持续时间:不同用户可能会以不同速率来与系统进行交互。然而在命令之间的持续时间中,例如用户在命令之间暂停的时间里,一个指定用户经常会显示出规律性。因此,可以显性输入最后一个命令末端与当前命令开端之间的持续时间,以此作为一个特征。
所有上述特征都描述了用户与系统如何进行交互。作为表征给定用户如何行动的特点的附加特征也可以使用。这些可以使用的附加特征也可以是一个给定用户如何进行活动的特性。举例来说,在初始化系统的时候,这些附加特征可以由用户系统进行修整并且附加于特征向量v上。而会话系统114则提供了计算v所需要的所有数据。
特征提取器204为来自用户的各个输入提取特征向量v,并且将其发送到行为数据存储器206和概率计算器210。行为数据存储器206被用于保存为某个用户收集的所有特征向量,并且模型构造器208使用行为数据存储器206来为各个经过批准的用户构造一个行为模型214。在本发明的一个实施例中,构造了一个简单的行为模型,其中只包含了特征向量集合(v’s)的均值向量m和协方差矩阵∑。在这种情况下,当收集到足量特征向量v的取样时,模型构造器208为指定用户计算均值向量m以及协方差矩阵∑。当收集到足量附加特征向量时,将会周期性地重复所述处理。而均值向量m和协方差矩阵∑则保存在行为模型214中。在本领域中,均值向量和协方差矩阵的计算都是已知的。特征向量是连续收集得到的,并且以周期间隔来更新行为模型214,使之适应于用户行为中的任何渐变。
然后,举例来说,基于行为模型214,概率计算器210计算以下等式给出的概率P:
P = e - 1 2 ( v - m ) T Σ - 1 ( v - m ) ( 2 π ) n 2 | Σ | 1 2 - - - ( 2 )
所述概率描述了来自正确用户的指定输入可以具有的似然性。P的更高值将会与来自正确或批准用户的输入的更大似然性相对应。
概率混合器212获取概率得分P并且执行两个步骤。首先,它从等式(2)中为当前输入和选定数量的先前输入计算概率得分P的加权平均。如果将当前输入的概率得分表示为P(t),并且,对于i=1,……,m而言,将第i个先前输入的得分表示为P(t-i),其中m是所考虑的在先输入总数,那么概率混合器212可以在当前时刻计算累积的行为得分Pb(t),所述得分由以下等式给出:
Pb(t)=αtP(t)+αt-1P(t-1)+…+αt-m(t-m)    (3)
其中非负加权α满足αtt-1+……+αt-m=1以及αt≥αt-1≥……≥αt-m≥0。m的值是一个确定了所考虑的先前概率得分数目的系统参数,并且可以由系统设计人员加以选择。而在几个得分上计算平均值的意图则是确保不会因为单个伪造得分而产生一个错误判定。
概率混合器212执行的第二个步骤是进一步为声学和生物识别检验器112(图1)提供的当前输入而对行为得分Pb(t)以及声学得分Pα(t)进行混合。声学得分Pα(t)可以是在说话者验证中使用的标准声学得分,并且如果当前用户输入处于口语形式,则可以使用来自当前用户输入的语音取样来对其进行计算(如果当前输入不处于口语形式,则可以使用其他近似,例如设置Pα(t)=Pα(t-1),也可以使用从最近的过去输入开始的对于声学得分的近似)。概率混合器212使用以下等式来计算Ptotal(t)
Ptotal(t)=βaPα(t)+βbPb(t)                 (4)
其中非负加权满足βi满足βab=1,所述加权可以由系统设计人员选择,也可以在以后由用户根据他或她的喜好来进行修改。
概率混合器212对Ptotal(t)的值以及预定阈值Pth进行比较,如果Ptotal(t)<Pth,则向声学和生物识别检验器112发送一个用户可能是冒充者的消息。在一个实施例中,声学和生物识别检验器112将会中断用户并且要求用户进行一个更为全面的验证处理。如果附加验证失败,则不再允许用户使用该系统。如果附加验证成功,则允许用户与系统进行交互,直到概率混合器212产生一个将来的警告信息。
在另一个实施例中,允许用户与系统继续进行交互,但是拒绝用户访问系统的敏感材料。材料敏感性可以包括等级并且关于敏感材料的访问等级可以基于一个涉及阈值的得分。例如,一个雇员组可能允许访问一个系统,然而,某些雇员必须排除在敏感材料之外。雇员行为可用于将那些未经批准的雇员排除在敏感材料之外。
阈值Pth是一个可以由系统设计人员选择的系统参数。然而,根据预期的性能等级,所述阈值也可以由用户来进行修改。
现在将描述本发明的另一个实施例。模型构造器208构造两个或更多模型并且将模型的集合保存在行为模型214中。为了构建其中每一个模型,首先使用任何一种标准的聚类算法来将特征向量v的集合划分成多个群集,所述聚类算法可以是例如众所周知的K-均值聚类算法。对各个群集i而言,将会计算均值向量mi和协方差矩阵∑i,并且把等式(2)修改为
P = max i [ e - 1 2 ( v - m i ) T Σ i - 1 ( v - m i ) ( 2 π ) n 2 | Σ i | 1 2 ] - - - ( 5 )
等式(3)和(4)保持相同,但是它们将会使用从上述等式(5)中计算得到的P的值。举例来说,构造特征向量群集的目的是容纳与所使用的不同设备或不同任务相对应的同一用户在不同时期显示的不同行为。因此,可以基于涉及交互的因素来显性构造群集,例如所访问的应用(电子邮件、日历、股票交易等等),访问设备(电话、蜂窝电话、笔记本计算机、台式计算机、个人数字助理等等)或其他因素,而不是使用聚类算法。
在这里已经描述使用行为模型(所述模型是说明性的,并不是加以限制)来进行无干扰说话者验证的系统和方法的优选实施例,但是需要指出的是,根据上述教导,本领域技术人员可以进行各种修改和变化。因此,应该理解的是,可以在所公开的特定实施例中进行各种变化,所述变化包含在附加权利要求所概括的本发明的实质和范围以内。由此结合专利法所需要详细资料和特性而对本发明进行了描述,其中在附加权利要求中阐明了专利证书声明和希望保护的内容。

Claims (40)

1.一种用于验证用户身份的系统,包括:
一个会话系统,用于接收来自用户的输入并将所述输入转换成形式命令;以及
一个与会话系统相耦合的行为检验器,用于从输入中提取特征,这些特征包括用户的行为模式,行为检验器适于对输入行为以及一个行为模型进行比较,从而确定是否批准该用户与系统进行交互。
2.如权利要求1所述的系统,其中会话系统包括一个自然语言理解单元,用于解释作为输入而被接收的语音。
3.如权利要求1所述的系统,其中所述输入包括语音、笔迹、文本和手势中的至少一个。
4.如权利要求1所述的系统,其中行为检验器包括一个特征提取器,用于从输入中提取特征向量。
5.如权利要求4所述的系统,其中特征向量包括语言模型得分、声学模型得分、自然语言和理解得分中的至少一个。
6.如权利要求4所述的系统,其中特征向量包括命令预测得分和发音得分中的至少一个。
7.如权利要求4所述的系统,其中特征向量包括关于系统响应用户的信息。
8.如权利要求4所述的系统,其中特征向量包括用户命令之间的持续时间以及用户和系统之间的对话状态中的至少一个。
9.如权利要求4所述的系统,其中特征向量包括用户使用的输入模态类型。
10.如权利要求1所述的系统,其中行为模型包括多个模型。
11.如权利要求1所述的系统,其中行为检验器包括一个概率计算器,所述概率计算器适于根据用户行为来计算批准该用户与系统进行交互的第一概率。
12.如权利要求11所述的系统,其中行为检验器包括一个模型构造器,用于为用户构造一个行为模型,所述行为模型由概率计算器使用,以便对其中的行为与用户的当前行为进行比较。
13.如权利要求11所述的系统,还包括:
一个声学和生物识别检验器,用于确定来自用户的声学和生物识别信息,并且根据用户的声学或生物识别信息来确定一个批准该用户与系统进行交互的第二概率;以及
所述行为检验器包括一个概率混合器,所述概率混合器适于将第一概率与第二概率相结合,从而证实批准该用户与系统进行交互。
14.如权利要求11所述的系统,其中将第一概率与一个阈值概率进行比较,以便确定是否批准该用户使用所述系统。
15.一种基于行为来验证用户的方法,包括以下步骤:
向一个用于接收来自用户的输入并将所述输入转换成形式命令的会话系统提供输入;
从所述输入中提取包含了用户行为模式的特征;以及
将输入行为与一个行为模型进行比较,从而确定是否批准该用户与系统进行交互。
16.如权利要求15所述的方法,其中会话系统包括一个自然语言理解单元,所述方法还包括对作为输入而被接收的语音进行解释的步骤。
17.如权利要求15所述的方法,其中所述输入包括语音、笔迹、文本和手势中的至少一个。
18.如权利要求15所述的方法,其中行为检验器包括一个特征提取器,所述方法还包括从输入中提取特征向量的步骤。
19.如权利要求18所述的方法,其中特征向量包括语言模型得分、声学模型得分、自然语言理解得分中的至少一个。
20.如权利要求18所述的方法,其中特征向量包括命令预测得分和发音得分中的至少一个。
21.如权利要求18所述的方法,其中特征向量包括关于系统响应用户的信息。
22.如权利要求18所述的方法,其中特征向量包括用户命令之间的持续时间以及用户和系统之间的对话状态中的至少一个。
23.如权利要求18所述的方法,其中特征向量包括用户使用的输入模态类型。
24.如权利要求15所述的方法,其中行为检验器包括一个概率计算器,所述方法还包括根据在概率计算器上计算第一概率的步骤,所述第一概率指示的是:是否基于用户行为而批准该用户与系统进行交互。
25.如权利要求24所述的方法,其中行为检验器包括一个模型构造器,所述方法还包括为用户构造一个行为模型的步骤,所述行为模型由概率计算器使用,以便对其中的行为与用户的当前行为进行比较。
26.如权利要求24所述的方法,还包括:
一个声学和生物识别检验器,用于确定来自用户的声学和生物识别信息,所述方法还包括步骤:
基于用户的声学或生物识别信息来确定一个批准该用户与系统进行交互的第二概率;以及
通过使用一个概率混合器将第一概率与第二概率相结合,以便证实批准该用户与系统进行交互。
27.如权利要求24所述的方法,其中将第一概率与一个阈值概率进行比较,以便确定是否批准该用户使用所述系统。
28.一种可以由机器读取的程序存储设备,其中实际包含了一个可以由机器执行的指令程序,以便执行根据行为来验证用户的方法步骤,所述方法步骤包括:
向一个用于接收来自用户的输入并将所述输入转换成形式命令的会话系统提供输入;
从所述输入中提取包含了用户行为模式的特征;以及
将输入行为与一个行为模型进行比较,从而确定是否批准该用户与系统进行交互。
29.如权利要求28所述的程序存储设备,其中会话系统包括一个自然语言理解单元,所述方法还包括对作为输入而被接收的语音进行解释的步骤。
30.如权利要求28所述的程序存储设备,其中所述输入包括语音、笔迹、文本和手势中的至少一个。
31.如权利要求28所述的程序存储设备,其中行为检验器包括一个特征提取器,所述方法还包括从输入中提取特征向量的步骤。
32.如权利要求31所述的程序存储设备,其中特征向量包括语言模型得分、声学模型得分、自然语言理解得分中的至少一个。
33.如权利要求31所述的程序存储设备,其中特征向量包括命令预测得分和发音得分中的至少一个。
34.如权利要求31所述的程序存储设备,其中特征向量包括关于系统响应用户的信息。
35.如权利要求31所述的程序存储设备,其中特征向量包括用户命令之间的持续时间以及用户和系统之间的对话状态中的至少一个。
36.如权利要求31所述的程序存储设备,其中特征向量包括用户使用的输入模态类型。
37.如权利要求28所述的程序存储设备,其中行为检验器包括一个概率计算器,所述方法还包括在概率计算器上计算第一概率的步骤,所述第一概率指示的是:是否基于用户行为而批准该用户与系统进行交互。
38.如权利要求37所述的程序存储设备,其中行为检验器包括一个模型构造器,所述方法包括为用户构造一个行为模型的步骤,所述行为模型由概率计算器使用,以便对其中的行为与用户的当前行为进行比较。
39.如权利要求37所述的程序存储设备,还包括:
一个声学和生物识别检验器,用于确定来自用户的声学和生物识别信息,所述方法还包括步骤:
基于用户的声学或生物识别信息来确定一个批准该用户与系统进行交互的第二概率;以及
通过使用一个概率混合器将第一概率与第二概率相结合,以便证实批准该用户与系统进行交互。
40.如权利要求37所述的程序存储设备,其中将第一概率与一个阈值概率进行比较,以便确定是否批准该用户使用所述系统。
CNB018234100A 2001-12-12 2001-12-12 使用行为模型来进行无干扰的说话者验证的方法和系统 Expired - Lifetime CN1213398C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2001/047910 WO2003050799A1 (en) 2001-12-12 2001-12-12 Method and system for non-intrusive speaker verification using behavior models

Publications (2)

Publication Number Publication Date
CN1522431A true CN1522431A (zh) 2004-08-18
CN1213398C CN1213398C (zh) 2005-08-03

Family

ID=32986313

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018234100A Expired - Lifetime CN1213398C (zh) 2001-12-12 2001-12-12 使用行为模型来进行无干扰的说话者验证的方法和系统

Country Status (5)

Country Link
EP (1) EP1470549B1 (zh)
JP (1) JP4143541B2 (zh)
KR (1) KR20040068548A (zh)
CN (1) CN1213398C (zh)
AU (1) AU2002230762A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437577C (zh) * 2004-09-10 2008-11-26 索尼株式会社 用户识别方法、用户识别装置、电子设备和电子系统
CN103019378A (zh) * 2012-12-07 2013-04-03 无锡清华信息科学与技术国家实验室物联网技术中心 一种移动电子设备手势控制交互方法、装置及移动终端
CN103738295A (zh) * 2013-12-25 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种基于语音识别的被盗机动车辆的主动式报警与跟踪系统及方法
CN104954343A (zh) * 2014-03-31 2015-09-30 腾讯科技(深圳)有限公司 验证信息处理方法、服务器及系统
CN105489218A (zh) * 2015-11-24 2016-04-13 江苏惠通集团有限责任公司 一种语音控制的系统、遥控器及服务器
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100847532B1 (ko) * 2006-04-06 2008-07-21 재단법인서울대학교산학협력재단 사용자의 행동 패턴 정보를 이용한 사용자 인증에 사용되는사용자 단말기 및 인증 장치
JP5160911B2 (ja) * 2008-01-23 2013-03-13 日本電信電話株式会社 本人認証装置、本人認証方法および本人認証プログラム
TWI416366B (zh) 2009-10-12 2013-11-21 Htc Corp 生物特徵資料建立方法、電子裝置及電腦程式產品
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
WO2021154563A1 (en) * 2020-01-30 2021-08-05 Google Llc Speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274269A (ja) * 1991-11-18 1993-10-22 Internatl Business Mach Corp <Ibm> コンピュータ・システムにおけるアクセスの正当性検証のための方法及びシステム
NL9200297A (nl) * 1992-02-18 1993-09-16 Nederland Ptt Methode voor toegangsbeveiliging van een dataterminal.
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
WO1997023816A1 (en) * 1995-12-21 1997-07-03 Philips Electronics N.V. User identification system for data processing equipment with keyboard

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100437577C (zh) * 2004-09-10 2008-11-26 索尼株式会社 用户识别方法、用户识别装置、电子设备和电子系统
CN103019378A (zh) * 2012-12-07 2013-04-03 无锡清华信息科学与技术国家实验室物联网技术中心 一种移动电子设备手势控制交互方法、装置及移动终端
CN103019378B (zh) * 2012-12-07 2016-09-07 无锡清华信息科学与技术国家实验室物联网技术中心 一种移动电子设备手势控制交互方法、装置及移动终端
CN103738295A (zh) * 2013-12-25 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种基于语音识别的被盗机动车辆的主动式报警与跟踪系统及方法
CN103738295B (zh) * 2013-12-25 2016-03-02 科大讯飞股份有限公司 一种基于语音识别的被盗机动车辆的主动式报警与跟踪系统及方法
CN104954343A (zh) * 2014-03-31 2015-09-30 腾讯科技(深圳)有限公司 验证信息处理方法、服务器及系统
CN105489218A (zh) * 2015-11-24 2016-04-13 江苏惠通集团有限责任公司 一种语音控制的系统、遥控器及服务器
CN111462733A (zh) * 2020-03-31 2020-07-28 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN111462733B (zh) * 2020-03-31 2024-04-16 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN1213398C (zh) 2005-08-03
JP2005512246A (ja) 2005-04-28
KR20040068548A (ko) 2004-07-31
JP4143541B2 (ja) 2008-09-03
AU2002230762A1 (en) 2003-06-23
EP1470549B1 (en) 2019-04-10
EP1470549A4 (en) 2007-08-08
EP1470549A1 (en) 2004-10-27
AU2002230762A8 (en) 2009-10-08

Similar Documents

Publication Publication Date Title
US6490560B1 (en) Method and system for non-intrusive speaker verification using behavior models
US7689418B2 (en) Method and system for non-intrusive speaker verification using behavior models
US10008209B1 (en) Computer-implemented systems and methods for speaker recognition using a neural network
Gupta et al. The AT&T spoken language understanding system
CN104143326B (zh) 一种语音命令识别方法和装置
US8301448B2 (en) System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
AU2004300140B2 (en) System and method for providing improved claimant authentication
EP1989701B1 (en) Speaker authentication
US7039951B1 (en) System and method for confidence based incremental access authentication
JP4939121B2 (ja) 各セキュリティチャレンジを特徴付ける1つ以上の誤り率を使用する遂次認証のための方法、システム、およびプログラム
US8024188B2 (en) Method and system of optimal selection strategy for statistical classifications
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN108989349B (zh) 用户账号解锁方法、装置、计算机设备及存储介质
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN1213398C (zh) 使用行为模型来进行无干扰的说话者验证的方法和系统
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN113807103B (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN110544468A (zh) 应用唤醒方法、装置、存储介质及电子设备
CN111694936B (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
Maes et al. Conversational speech biometrics
CN112116165B (zh) 一种业务绩效确定方法和装置
CN115455142A (zh) 文本检索方法、计算机设备和存储介质
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090911

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090911

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20050803