CN107077848A - 用于执行说话人识别的方法和设备 - Google Patents

用于执行说话人识别的方法和设备 Download PDF

Info

Publication number
CN107077848A
CN107077848A CN201580050362.4A CN201580050362A CN107077848A CN 107077848 A CN107077848 A CN 107077848A CN 201580050362 A CN201580050362 A CN 201580050362A CN 107077848 A CN107077848 A CN 107077848A
Authority
CN
China
Prior art keywords
phrase
user
shared
computer
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580050362.4A
Other languages
English (en)
Other versions
CN107077848B (zh
Inventor
A·阿利-雷兹
K·R·法雷尔
O·亚龙
L·斯卡尔帕托
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN107077848A publication Critical patent/CN107077848A/zh
Application granted granted Critical
Publication of CN107077848B publication Critical patent/CN107077848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Abstract

本发明的实施方式通过首先提示用户说出包括共用短语成分和个人标识符的短语,来执行说话人标识和核实。然后,实施方式分解所说的短语,以定位个人标识符。最后,实施方式基于分解的结果来标识并核实用户。

Description

用于执行说话人识别的方法和设备
相关申请
本申请是2014年9月18日提交的美国第14/489996号申请的继续,且要求该申请的优先权。此处以引证的方式将上述申请的整个示教并入。
背景技术
语音处理和媒体技术中实现的发展,已经引起自动化用户机器交互跨不同应用和服务的广泛使用。使用自动化用户机器交互方法,企业可以以较便宜的成本提供客户服务和其他服务。一些这种服务可以采用说话人识别,即说话人的标识和核实(identificationand verification)。
发明内容
本发明的实施方式提供用于说话人识别的方法和系统。根据本发明的实施方式,一种执行说话人识别的方法包括以下步骤:提示用户说出包括个人标识符和共用短语成分(phrase component)的短语;分解所接收的所说短语,该分解包括定位所说短语内的个人标识符;以及最后基于分解的结果来标识并核实用户。根据这种实施方式,标识用户包括:将个人标识符与之前存储的标识信息进行比较。仍然更进一步地,根据实施方式,分解所接收的所说短语包括:定位共用短语成分,其中,共用短语成分是在所有用户的至少一个子组内的用户之间共用的、所说短语的成分。
根据方法的实施方式,核实用户包括:将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。在本发明的另选实施方式中,所说短语的共用短语成分包括两个或更多个短语,并且在这种实施方式中,核实用户包括:计算共用短语成分的各短语的各自得分。根据这种实施方式,各自得分指示两个或更多个短语与一个或更多个已存储的声纹之间的对应级别。实施方式使用各自得分来核实用户。在又一个实施方式中,算出各自得分的平均数,然后为了核实用户,可以将该平均数与预定阈值进行比较。
进一步地,这种原理可以被采用于共用短语成分仅包括一个成分的实施方式中。在这种实施方式中,确定指示所接收所说短语与一个或更多个存储的声纹之间的对应级别的得分;当得分大于预定阈值时,核实用户。根据实施方式,使用关键字定位(key wordspotting)来执行分解。在另一个实施方式中,通过首先确定与个人标识符关联的多个候选用户,且然后采用语音生物统计标识多个候选用户中的用户,来标识用户。在这种实施方式中,采用语音生物统计包括:针对各候选用户,将所说短语或所接收所说短语的共用短语成分与对应的之前存储的声纹进行比较。
本发明的又一个实施方式致力于用于执行说话人识别的计算机系统。在这种实施方式中,计算机系统包括处理器和上面存储有计算机代码指令的存储器。处理器和存储器与计算机代码指令一起被配置为使得计算机系统进行如下操作:提示用户说出包括个人标识符和共用短语成分的短语;分解所接收的所说短语,该分解包括定位所说短语内的个人标识符;并且基于分解的结果标识并核实用户。
在计算机系统的实施方式中,标识用户可以包括将个人标识符与之前存储的标识信息进行比较。在计算机系统的又一个实施方式中,在分解所接收所说短语时,处理器和存储器与计算机代码指令一起被配置为使得系统定位共用短语成分,其中,共用短语成分是在所有用户的至少一个子组内的用户之中共用的、所说短语的成分。
在又一个实施方式中,计算机系统被配置为,使得在核实用户时,计算机系统被配置为将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。在计算机系统的另选实施方式中,所说短语的共用短语成分包括两个或更多个短语,并且在核实用户时,处理器和存储器与计算机代码指令一起被配置为使得系统计算共用短语的各短语的各自得分,其中,各自得分指示两个或更多个短语与一个或更多个所存储的声纹之间的对应级别。在这种实施方式中,使用各自得分(例如,通过将得分与阈值进行比较)核实用户。
类似于上述方法的实施方式,核实用户可以包括确定指示所接收所说短语与一个或更多个存储的声纹之间的对应级别的得分,以及当得分大于预定阈值时核实用户。计算机系统的实施方式被配置为采用关键字定位来分解所接收所说短语。
根据计算机系统的另选实施方式中,在标识用户时,处理器和存储器与计算机代码指令一起还被配置为使得系统进行如下操作:确定与个人标识符关联的多个候选用户;并且采用语音生物统计来标识多个候选用户中的用户。在计算机系统的又一个实施方式中,在采用语音生物统计时,处理器和存储器与计算机代码指令一起还被配置为使得系统进行如下操作:针对各候选用户,将所说短语或所接收所说短语的共用短语成分与对应的之前存储的声纹进行比较。
所要求保护发明的又一个实施方式致力于用于执行说话人识别的计算机程序产品。在这种实施方式中,计算机程序程序产品包括:一个或更多个计算机可读有形存储装置,和存储在所述一个或更多个存储装置中的至少一个上的程序指令,其中,在被处理器加载并执行时,程序指令使得与处理器关联的设备进行如下操作:提示用户说出包括个人标识符和共用短语成分的短语;分解所接收的所说短语,包括定位所说短语内的个人标识符;并且基于分解的结果来标识并核实用户。
附图说明
如附图中例示的,根据本发明的示例实施方式的以下更具体的描述,前述内容将变得清楚,在附图中,同样的附图标记贯穿不同的图涉及相同的零件。附图不必须为等比例的,而是把重点放在例示本发明的实施方式上。
图1是可以实施本发明的实施方式的示例环境。
图2例示了可以用于本发明的实施方式中的、分解所说短语的简化图。
图3是例示了根据本发明的原理的说话人识别的流程图。
图4是根据本发明的实施方式的、分解短语并标识并核实用户的方法的简化图。
图5是可以被配置为实施本发明的实施方式的计算机系统的简化图。
图6是可以实施本发明的实施方式的计算机网络环境的简化图。
具体实施方式
下面是本发明的示例实施方式的描述。
本发明的实施方式解决了在不需要用于提供所要求身份的单独操作的情况下,使用共用密码短语说话人核实(common passphrase speaker verification)的问题。然而,之前已经组合自动语音识别(ASR:automatic speech recognition)和语音生物统计(VB:voice biometric)来对单个短语实施身份要求核实,这些之前的方法常常依赖整个短语对于各用户是唯一或多半唯一的。该技术的问题中的一个是,已知唯一的密码短语具有比共用密码短语更高的错误率。这是因为共用密码短语大大受益于校准。
本发明的实施方式相反依赖于,含有用于身份要求的唯一成分和共用成分的短语,以便实现更高准确度的语音核实。在这里所述的实施方式中,密码短语的唯一成分可以使用关键字定位(keyword spotting)来提取。这是与现有方法的又一个不同,其中,这种之前的方法将整个短语用于自动语音识别。用于语音和说话人识别的一个现有方法需要两个操作:第一,提供所要求的身份,和;第二,说出共用核实短语。然而,该两个操作方法导致用于验证所要求身份的更长会话。另一个现有方法在一个操作中执行,不过这种方法遭受准确度问题。在这种一个操作方法中,用户说出诸如账号或电话号码这样的唯一密码短语,然后用自动语音识别处理该唯一密码短语,以检索所要求的身份,随后用已存储的声纹评估该同一唯一的密码短语,以核实所要求的标识。然而,该方法不具有可以在使用共用短语时实现的准确度益处。
和现有方法不同,本发明的实施方式在不需要用于提供所要求身份的单独操作的同时,提供现有两个操作方法的准确度。本发明的另外实施方式通过使用共用密码短语或几乎共用密码短语,来提供比现有一个操作方法更好的说话人核实准确度。
依赖文本的说话人核实是用于商业应用中的主要语音生物统计技术。共用密码短语核实(即,其中,所有用户使用同一短语(诸如“我的语音是我的密码”)来注册并核实)是最准确形式的依赖文本的说话人核实。共用密码短语核实允许被称为校准的强力微调操作,其中,可以对于该具体短语(例如,“我的语音是我的密码”)微调系统参数。微调使用对应于该具体短语的一组音频数据来执行。该校准操作允许针对错误率大致30%的降低。然而,校准在用户不使用共用短语而是使用唯一短语时具有远远更少的益处。
然而,共用密码短语核实不是没有其自己的缺点。将共用短语用于注册和核实的缺点中的一个是:提供所要求的身份需要单独的操作。例如,当银行客户尝试凭借语音生物统计来进入他的或她的账户时,客户不能仅说出共用密码短语,并且希望系统将在潜在的数百万用户中准确标识他或她。这是因为说话人标识(speaker identification)是比说话人核实更困难的问题,并且这种场景中的错误率连同计算机处理要求一起,将被禁止成功部署。由此,用户必须首先提供所要求的身份(诸如账号、电话号码或全名),随后用户单独表达语音生物统计密码短语。
本发明的实施方式在不需要提供所要求身份的单独操作的情况下,提供共用密码短语说话人核实的准确度益处。示例实施方式通过使用户说出含有伪唯一标识符连同共用短语部分这两者的短语来实施该方法。一个这种示例是“我的名字是约翰史密斯,并且我的语音是我的密码(My name is John Smith,and my voice is my password)”。在该短语中,姓名约翰史密斯充当伪唯一标识符,而短语的剩余部分对应于共用短语部分。当提供有这种输入短语时,自动语音识别或具体地关键字定位可以用于提取伪唯一标识符“约翰史密斯”。伪唯一标识符然后可以用于检索对应于所要求的用户标识的声纹约翰史密斯。此时,根据本发明的原理操作的系统可以处理几乎共用或具有所选声纹的被提取共用短语成分的完整短语,以核实说话人。另外,在个人标识符不是唯一的情况下(即,如果存在用于约翰史密斯的多项),则可以对于所有项执行声纹比较,以选择具有最佳匹配的一项。
还可以更一般地应用上述实施方式。本发明的实施方式可以首先基于可以由ASR引擎标识的个人标识符确定候选者的“n最佳”列表。然后可以在声纹匹配的语境中(即,在标识潜在候选者之后)搜索该“n最佳”列表,可以将用于所标识的候选者的对应已存储的声纹与所说短语进行比较,以标识并核实说话人。该方法最后将允许用户说出:提供所要求身份和共用或几乎共用密码短语的单个短语。该处理在语音生物统计共同体中被称为“ID&V”或“标识和核实(identification and verification)”。尽管ID&V之前已经通过仅使用唯一的密码短语(诸如账号)来执行,但这种方法产生比本发明的实施方式更低的准确度。
图1是可以采用本发明的实施方式的环境100的简化图。示例环境100包括用户位置102,从该用户位置102,用户101可以经由装置103拨打电话。装置103可以是本领域中已知的任意通信装置,诸如蜂窝电话。环境100还包括计算机处理环境110,该计算机处理环境110在地理上可以与用户的位置102分离。计算机处理环境110包括服务器108和存储装置109。服务器108可以是与本领域中已知相同的任意处理装置。进一步地,存储装置109可以是硬盘驱动器、固态存储装置、数据库或本领域中已知的任意其他存储装置。另外,环境110包括网络111,该网络111提供用户位置102与计算机处理环境110之间的通信连接。网络111可以是本领域中已知的任意网络,诸如局域网(LAN)、广域网(WAN)、公用开关电话网络(PSTN)和/或领域中已知的任意网络或网络的组合。
下文中描述在环境100中执行实施方式的示例。根据这种示例,用户101尝试联系银行的客户服务中心来咨询账户信息。银行转而借助计算环境110进行路由呼叫,以执行用户101的标识和核实。根据这种实施方式,用户101经由网络111使用手持装置103拨打电话。响应于电话,计算环境110经由服务器108向用户101发送提示105。示例提示105可以是“请说出‘我的姓名是你的姓名且我的语音是我的密码’”。用户101然后响应提示105,并且经由网络111向计算环境110发送所说短语106。在计算环境110处接收所说短语106。在计算环境110处,分解所说短语,并且标识个人标识符部分(即,“你的姓名”)。服务器108然后基于所分解的结果并使用存储装置109上所存储的信息(诸如声纹)来标识并核实用户。作为响应,服务器108然后经由网络111向用户101发送标识和核实确认(verificationconfirmation)107。在执行标识和核实之后,计算环境110可以促进用户101与呼叫中心(诸如银行客户服务中心)之间的通信连接。
下文中描述由计算环境110执行的、关于分解以及标识和核实的另外细节。计算环境110连同服务器108和存储装置109可以被配置为执行这里所述的任意实施方式。
图2是根据本发明的实施方式的、可以对所说短语执行的分解处理332的简化图。如上所述,在实施方式中,当用户(诸如用户101)说出提示短语时,分解(332)该短语,使得可以执行用户的标识和核实。
图2中的方法332例示了执行所说短语的分解的一个这种方法。根据方法332,所说短语106被分解成共用成分221a和221b以及个人标识符成分222。在这种实施方式中,个人标识符可以使用ASR或更具体地使用如本领域中已知的关键字定位来标识。共用短语成分221a和221b可以在使用关键字定位定位个人标识符222之后进行标识,使得将短语106的剩余部分被标识为共用短语成分221a和221b。在图2所例示的示例实施方式中,所说短语“我的姓名是约翰史密斯并且我的语音是我的密码”被分解成:共用成分“我的姓名是”和“并且我的语音是我的密码”以及个人标识符部分“约翰史密斯”。根据方法332的另选实施方式,该分解可以仅包括标识个人标识符222。
图3例示了用于执行说话人识别的方法330。方法330通过提示用户说出包括个人标识符和共用短语成分的短语(331)而开始。接着,分解所接收的所说短语(332)。分解332包括至少定位所接收所说短语中的个人标识符。方法330通过基于分解的结果标识并核实用户(333)而结束。
分解332可以如上文中关于图2中描述的来执行。另外,用户可以根据这里所述的任意实施方式(诸如下文中关于图4描述的实施方式)来标识并核实(333)。方法330可以由计算环境110在环境100中实施。进一步地,方法330可以在由处理装置执行的计算机代码指令中实施。
根据方法330的实施方式,方法330还可以包括以下步骤:通过将个人标识符与之前存储的标识信息进行比较来标识用户。更进一步地,在方法330的另选实施方式中,分解还包括定位共用短语成分,其中,共用短语成分是在所说短语在所有用户的至少一个子组内的用户之中共用的成分。根据这种实施方式,核实用户包括:将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。更进一步地,在又一个实施方式中,共用短语成分例如如图2中例示地包括两个或更多个短语,并且核实包括:计算各共用短语成分的各自得分(score)。在这种实施方式中,各自得分指示两个或更多个短语与一个或更多个存储的声纹之间的对应级别;并且核实可以使用该各自得分。可以通过根据任意数学方法使用各自得分来核实用户,例如可以算出各自得分的平均数,并且可以将平均数与预定阈值进行比较。
方法330的另一个实施方式还包括注册用户。根据这种实施方式,注册用户包括:提示用户说出密码短语或密码短语的共用成分。然后可以存储这些所说短语,和/或从所说短语生成一个或更多个声纹并存储声纹。所存储的短语和/或声纹然后根据方法330的实施方式然后可以用于执行ID&V。
根据方法330的实施方式,标识用户333包括:把在分解332中标识的个人标识符与之前存储的标识信息进行比较。根据另选实施方式,分解332还包括:定位共用短语成分,其中,共用短语成分是在所说短语在所有用户的至少一个子组内的用户之中共用的成分。在这种实施方式中,核实用户333包括:将共用短语成分与和所有用户的至少一个子组关联的一个或更多个之前存储的声纹进行比较。
根据实施方式,“共用短语”成分可以为密码短语的一个或更多个成分,或者整个密码短语本身。例如,关于图2,比较共用短语成分来核实用户可以包括:比较共用成分221a、221b和/或整个密码短语106。根据实施方式,核实用户333包括:计算共用短语成分(即,221a和221b)的各短语的各自得分,其中,各自得分指示各短语与一个或更多个已存储的声纹之间的对应级别。反过来,可以使用各自得分来核实用户(333)。
根据另选实施方式,还可以通过将整个短语与一个或更多个存储的声纹进行比较来确定得分。更进一步地,可以分别对于整个短语106和对于各成分221a和221b确定得分,然后这些得分可以用于核实用户(333)。例如,可以算出得分的平均数,然后可以将平均数与阈值进行比较,并且当得分在阈值以上时,该用户可以被认为已核实。进一步地,可以对于短语的单个成分或成分的某一组合来确定得分,然后这些一个或更多个得分用于核实用户。根据实施方式,所说短语的最长部分如可以由本领域一个技术人员确定地,可以用于核实用户的声纹比较,或密码短语具有最高质量音频的部分或某一其他部分。
根据方法330的实施方式,使用关键字定位来执行分解。在实施方式中,采用语音生物统计包括:对于各候选用户,将所说短语或所接收的所说短语的共用短语成分,与对应的之前存储的声纹进行比较。在又一个实施方式中,标识用户包括:确定与个人标识符关联的多个候选用户,且然后采用语音生物统计来标识多个候选用户中的用户。这种示例可能在例如所说的个人标识符类似于系统中所存储的其他个人标识符的情况下发生。例如,如果系统存储约翰史密斯、汤姆史密斯以及约翰史密斯,则这些可能足够类似,使得系统在用户说出一个时无法区分个人标识符。那么,在这种实施方式中,语音生物统计用于选择人。
图4例示了根据使用本发明的原理的示例实施方式的、执行说话人识别(标识和核实)的方法440。具体地,方法440例示了处理所接收的所说短语的示例方法。方法440可以在图3中例示,且在上文中描述的方法330中采用。方法440通过定位个人标识符和在所有用户的至少一个子组内的用户之中共用的、所接收的所说短语的共用短语成分(441)而开始。方法440通过将个人标识符与可以和所有用户的至少一个子组关联的、之前存储的标识信息进行比较(442)以标识用户而继续。最后,将共用短语成分与一个或更多个之前存储的声纹进行比较来核实用户(443),其中,声纹可以与用户的至少同一个子组关联。
可以在方法330的分解操作332中采用定位441。如这里所述的,使用共用短语成分可以提高标识和核实的准确度。然而,根据本发明的实施方式,具有共用短语成分的“组”可以是有利的(即,将提示不同分组的人来说出不同的共用短语成分)。例如,可以基于人们从其呼叫的地理位置、人们尝试联系的具体号码、或优选语言来提示他们说出密码短语。作为示例,可以提示具有可能由账户余额确定的优选状态的用户来说出不同的密码短语。在又一个示例中,在多语言部署中,例如在加拿大,一些用户可以被提示用法语说出密码短语,而其他用户被提示用英语说出密码短语。在这种示例中,一个子组对应于使用法语密码短语的用户,而另一个子组对应于使用英语密码短语的用户。在示例实施方式中,分解441可以考虑子组,换言之,分解被配置为,根据子组的一个或更多个特性(即,语言)来寻找适当的成分。
比较个人标识符(442)和比较共用短语成分(443)可以在方法330的比较操作333处执行。根据实施方式,比较个人标识符(442)标识用户。比较个人标识符(442)还可以标识多个“候选用户”(即,可能已经说出密码短语的可能人)。这种示例可能在例如所说的个人标识符类似于系统中所存储的其他个人标识符的情况下发生。在这种实施方式中,当将个人标识符与之前存储的标识信息进行比较时,标识多个候选用户。然后,可以通过将共用短语成分与一个或更多个之前存储的声纹进行比较采用语音生物统计来标识多个候选用户中的用户(443)。在将个人标识符与之前存储的标识信息进行比较(442)、和将共用短语成分与一个或更多个之前存储的声纹进行比较(443)这两者时,可以在用户的整个全集级别或在用户某一子组处进行这种比较。例如,如果用户所说的密码短语仅与用户的子组关联,则比较442和443可以仅使用与用户的所述子组关联的数据来执行。这种实施方式可以允许更高效的处理。
根据本发明的实施方式,声纹可以基于用户所说的实际语音表达。例如,在建立银行账户时,可能需要用户说出所说短语、所说短语的某一部分,并且可以存储该信息,以便另外使用,诸如如这里所述的标识和核实。还可以处理初始的所说短语,以产生可以是语音表达的模型或参数表示的声纹。
图5是根据本发明的实施方式的、可以用于执行标识和核实的基于计算机的系统550的简化框图。系统550包括总线554。总线554充当系统550的各种部件之间的互连。连接到总线554的是:用于将各种输入和输出装置(诸如键盘、鼠标、显示器、扬声器等)连接到系统550的输入输出装置接口553。中央处理单元(CPU)552连接到总线554,并且为计算机指令的执行做准备。存储器556为用于执行计算机指令的数据提供易失性存储。储存器555为诸如操作系统(未示出)这样的软件指令提供非易失性存储。系统550还包括用于连接到本领域中已知的任意种类的网络(包括WAN和LAN)的网络接口551。
应理解的是,这里所述的示例实施方式可以以许多不同的方式来实施。在一些情况下,这里所述的各种方法和机器可以各由实体、虚拟或混合通用计算机(诸如计算机系统550)或计算机网络环境(诸如下文中描述的计算机环境600)来实施。计算机系统550可以被转换成:例如通过将软件指令加载到存储器556或非易失性储存器555以便由CPU 552执行来执行这里所述方法的机器。系统550及其各种部件可以被配置为,进行这里所述的本发明的任意实施方式。
例如,系统550可以被配置为执行上文中关于图3描述的方法330。在这种示例实施方式中,CPU 552和存储器556与在存储器556和/或存储装置555上存储的计算机代码指令一起将设备550配置为:提示用户说出包括个人标识符和共用短语成分的短语;分解所接收的所说短语,其中,分解的步骤包括定位所说短语内的个人标识符;并且基于分解的结果来标识并核实用户。
图6例示了可以实施本发明的计算机网络环境600。在计算机网络环境600中,服务器601借助通信网络602联系到客户端603a-n。环境600可以用于允许客户端603a-n单独或结合服务器601执行上述的各种方法。在示例实施方式中,客户端603a经由网络602向服务器601发送所接收的所说短语604。服务器601然后执行如这里所述的说话人识别方法(诸如方法330),并且因此经由网络602向客户端603a发送标识和核实确认605。在这种实施方式中,客户端603a例如可以为银行,并且响应于客户联系银行,银行可以采用在服务器601上实施的方法来执行用户的标识和核实。
实施方式或其方面可以以硬件、固件或软件的形式来实施。如果在软件中实施,则软件可以存储在被配置为使得处理器能够加载软件或其指令的子集的任意永久计算机可读介质上。处理器然后可以执行指令,并且被配置为操作或使得设备以如这里所述的方式来操作。
进一步地,固件、软件、例程或指令在这里可以被描述为执行数据处理器的特定动作和/或功能。然而,应理解,这里所含的这种描述仅是为了方便,并且实际上因计算装置、处理器、控制器或其他装置执行固件、软件、例程、指令等而产生这种动作。
还应理解,流程图、框图以及网络图可以包括更多或更少元件,被不同地设置,或者被不同地表示。但进一步应理解,特定实施方案可以指定:例示了以特定方式实施的实施方式的执行的框图和网络图以及框图和网络图的数量。
因此,另外的实施方式还可以以各种计算机架构、实体、虚拟、云计算机和/或其一些组合来实施,由此,这里所述的数据处理器旨在仅为了例示的目的,并且不为实施方式的限制。
虽然已经参照本发明的示例实施方式具体示出并描述了本发明,但本领域技术人员将理解,可以在不偏离由所附权利要求包含的本发明的范围的情况下,在本发明内进行形式和细节的各种变更。

Claims (20)

1.一种执行说话人识别的方法,所述方法包括如下步骤:
提示用户说出包括个人标识符和共用短语成分的短语;
分解所接收的所说短语,所述分解包括定位所述所说短语内的所述个人标识符;以及
基于所述分解的结果来标识并核实所述用户。
2.根据权利要求1所述的方法,其中,标识所述用户包括如下步骤:
将所述个人标识符与之前存储的标识信息进行比较。
3.根据权利要求1或2所述的方法,其中,所述分解还包括如下步骤:
定位所述共用短语成分,所述共用短语成分是:在所有用户的至少一个子组内的用户之中共用的、所述所说短语的成分。
4.根据权利要求3所述的方法,其中,核实所述用户包括如下步骤:
将所述共用短语成分与和所有用户的至少所述子组关联的一个或更多个之前存储的声纹进行比较。
5.根据权利要求3所述的方法,其中,所述所说短语的所述共用短语成分包括两个或更多个短语,并且所述核实还包括如下步骤:
计算所述共用短语成分的各短语的各自得分,所述各自得分指示所述两个或更多个短语与一个或更多个存储的声纹之间的对应级别;以及
使用所述各自得分来核实所述用户。
6.根据权利要求5所述的方法,其中,使用所述各自得分来核实所述用户包括如下步骤:
算出所述各自得分的平均数;以及
将所述平均数与预定阈值进行比较。
7.根据权利要求1至4中任意一项所述的方法,其中,核实所述用户还包括如下步骤:
确定如下得分,该得分指示所接收的所说短语与一个或更多个存储的声纹之间的对应级别;以及
当所述得分大于预定阈值时核实所述用户。
8.根据权利要求1至7中任意一项所述的方法,其中,分解所接收的所说短语的步骤使用关键字定位。
9.根据权利要求1所述的方法,其中,标识所述用户包括如下步骤:
确定与所述个人标识符关联的多个候选用户;以及
采用语音生物统计来标识所述多个候选用户当中的所述用户。
10.根据权利要求9所述的方法,其中,采用语音生物统计包括如下步骤:
针对各个候选用户,将所述所说短语或所接收的所说短语的所述共用短语成分与对应的之前存储的声纹进行比较。
11.一种用于执行说话人识别的计算机系统,所述计算机系统包括:
处理器;以及
存储器,在所述存储器上存储有计算机代码指令,所述处理器和所述存储器与所述计算机代码指令一起被配置为使得所述系统进行如下操作:
提示用户说出包括个人标识符和共用短语成分的短语;
分解所接收的所说短语,所述分解包括定位所述所说短语内的所述个人标识符;以及
基于所述分解的结果来标识并核实所述用户。
12.根据权利要求11所述的计算机系统,其中,在标识所述用户时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
将所述个人标识符与之前存储的标识信息进行比较。
13.根据权利要求11或12所述的计算机系统,其中,在分解所接收的所说短语时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
定位所述共用短语成分,所述共用短语成分是:在所有用户的至少一个子组内的用户之中共用的、所述所说短语的成分。
14.根据权利要求13所述的计算机系统,其中,在核实所述用户时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
将所述共用短语成分与和所有用户的至少所述子组关联的一个或更多个之前存储的声纹进行比较。
15.根据权利要求13所述的计算机系统,其中,所述所说短语的所述共用短语成分包括两个或更多个短语,并且其中,在所述核实时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
计算所述共用短语成分的各短语的各自得分,所述各自得分指示所述两个或更多个短语与一个或更多个存储的声纹之间的对应级别;以及
使用所述各自得分来核实所述用户。
16.根据权利要求11至14中任意一项所述的计算机系统,其中,在核实所述用户时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
确定如下得分,该得分指示所接收的所说短语与一个或更多个存储的声纹之间的对应级别;以及
当所述得分大于预定阈值时核实所述用户。
17.根据权利要求11至16中任意一项所述的计算机系统,其中,在分解所接收的所说短语时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统使用关键字定位。
18.根据权利要求11所述的计算机系统,其中,在标识所述用户时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
确定与所述个人标识符关联的多个候选用户;以及
采用语音生物统计来标识所述多个候选用户当中的所述用户。
19.根据权利要求18所述的计算机系统,其中,在采用语音生物统计时,所述处理器和所述存储器与所述计算机代码指令一起还被配置为使得所述系统进行如下操作:
针对各候选用户,将所述所说短语或所接收的所说短语的所述共用短语成分与对应的之前存储的声纹进行比较。
20.一种用于执行说话人核实的计算机程序产品,所述计算机程序程序产品包括:
一个或更多个计算机可读有形存储装置以及程序指令,所述程序指令存储在所述一个或更多个存储装置中的至少一个上,当被处理器加载并执行时,所述程序指令使得与所述处理器关联的设备进行如下操作:
提示用户说出包括个人标识符和共用短语成分的短语;
分解所接收的所说短语,所述分解包括定位所述所说短语内的所述个人标识符;以及
基于所述分解的结果来标识并核实所述用户。
CN201580050362.4A 2014-09-18 2015-09-09 用于执行说话人识别的方法、计算机系统和程序产品 Active CN107077848B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/489,996 US10008208B2 (en) 2014-09-18 2014-09-18 Method and apparatus for performing speaker recognition
US14/489,996 2014-09-18
PCT/US2015/049205 WO2016044027A1 (en) 2014-09-18 2015-09-09 Method and apparatus for performing speaker recognition

Publications (2)

Publication Number Publication Date
CN107077848A true CN107077848A (zh) 2017-08-18
CN107077848B CN107077848B (zh) 2020-12-25

Family

ID=54147351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580050362.4A Active CN107077848B (zh) 2014-09-18 2015-09-09 用于执行说话人识别的方法、计算机系统和程序产品

Country Status (4)

Country Link
US (2) US10008208B2 (zh)
EP (1) EP3195311B1 (zh)
CN (1) CN107077848B (zh)
WO (1) WO2016044027A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956732A (zh) * 2019-12-19 2020-04-03 重庆特斯联智慧科技股份有限公司 一种基于物联网的安全门禁
CN111199742A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 一种身份验证方法、装置及计算设备

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US10008208B2 (en) 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) * 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11275854B2 (en) 2018-02-01 2022-03-15 Nuance Communications, Inc. Conversation print system and method
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
CN109087647B (zh) * 2018-08-03 2023-06-13 平安科技(深圳)有限公司 声纹识别处理方法、装置、电子设备及存储介质
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11074328B2 (en) * 2018-09-19 2021-07-27 International Business Machines Corporation User authentication using passphrase emotional tone

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0856836A2 (en) * 1997-01-29 1998-08-05 Nec Corporation Speaker recognition device
CN1424711A (zh) * 2001-12-13 2003-06-18 松下电器产业株式会社 基于约束条件的语音识别系统和方法
CN1567431A (zh) * 2003-07-10 2005-01-19 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
CN2763935Y (zh) * 2003-12-12 2006-03-08 北京大学 结合语义和声纹信息的说话人身份确认系统
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US7386448B1 (en) * 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
US20080243517A1 (en) * 2007-03-27 2008-10-02 International Business Machines Corporation Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5517558A (en) 1990-05-15 1996-05-14 Voice Control Systems, Inc. Voice-controlled account access over a telephone network
US5127043A (en) 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
US5806040A (en) * 1994-01-04 1998-09-08 Itt Corporation Speed controlled telephone credit card verification system
US5583933A (en) * 1994-08-05 1996-12-10 Mark; Andrew R. Method and apparatus for the secure communication of data
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
EP1058926A1 (en) * 1998-03-03 2000-12-13 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification
US6671672B1 (en) * 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6978238B2 (en) * 1999-07-12 2005-12-20 Charles Schwab & Co., Inc. Method and system for identifying a user by voice
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US7130800B1 (en) * 2001-09-20 2006-10-31 West Corporation Third party verification system
US6876987B2 (en) * 2001-01-30 2005-04-05 Itt Defense, Inc. Automatic confirmation of personal notifications
US8812319B2 (en) * 2001-01-31 2014-08-19 Ibiometrics, Inc. Dynamic pass phrase security system (DPSS)
US20020104027A1 (en) * 2001-01-31 2002-08-01 Valene Skerpac N-dimensional biometric security system
US7773730B1 (en) * 2001-08-09 2010-08-10 Voice Signature Llc Voice record integrator
JP4213716B2 (ja) * 2003-07-31 2009-01-21 富士通株式会社 音声認証システム
US7934101B2 (en) * 2004-04-16 2011-04-26 Cisco Technology, Inc. Dynamically mitigating a noncompliant password
US8255223B2 (en) * 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
US20060277043A1 (en) * 2005-06-06 2006-12-07 Edward Tomes Voice authentication system and methods therefor
US20070055517A1 (en) * 2005-08-30 2007-03-08 Brian Spector Multi-factor biometric authentication
US8234494B1 (en) * 2005-12-21 2012-07-31 At&T Intellectual Property Ii, L.P. Speaker-verification digital signatures
US8036902B1 (en) * 2006-06-21 2011-10-11 Tellme Networks, Inc. Audio human verification
US8151326B2 (en) * 2006-12-08 2012-04-03 Core Mobility, Inc. Using audio in N-factor authentication
US8010367B2 (en) * 2006-12-22 2011-08-30 Nuance Communications, Inc. Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
WO2010008722A1 (en) * 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
US8775187B2 (en) * 2008-09-05 2014-07-08 Auraya Pty Ltd Voice authentication system and methods
US8499342B1 (en) * 2008-09-09 2013-07-30 At&T Intellectual Property I, L.P. Systems and methods for using voiceprints to generate passwords on mobile devices
US8762149B2 (en) * 2008-12-10 2014-06-24 Marta Sánchez Asenjo Method for verifying the identity of a speaker and related computer readable medium and computer
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8775179B2 (en) * 2010-05-06 2014-07-08 Senam Consulting, Inc. Speech-based speaker recognition systems and methods
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
GB2489527B (en) * 2011-04-01 2014-01-01 Voicevault Ltd Voice verification system
US9147400B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for generating speaker-specific spoken passwords
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US20140188468A1 (en) * 2012-12-28 2014-07-03 Dmitry Dyrmovskiy Apparatus, system and method for calculating passphrase variability
US9396730B2 (en) * 2013-09-30 2016-07-19 Bank Of America Corporation Customer identification through voice biometrics
US10008208B2 (en) 2014-09-18 2018-06-26 Nuance Communications, Inc. Method and apparatus for performing speaker recognition

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0856836A2 (en) * 1997-01-29 1998-08-05 Nec Corporation Speaker recognition device
CN1424711A (zh) * 2001-12-13 2003-06-18 松下电器产业株式会社 基于约束条件的语音识别系统和方法
CN1567431A (zh) * 2003-07-10 2005-01-19 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
CN2763935Y (zh) * 2003-12-12 2006-03-08 北京大学 结合语义和声纹信息的说话人身份确认系统
US7386448B1 (en) * 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US20080243517A1 (en) * 2007-03-27 2008-10-02 International Business Machines Corporation Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
CN102005070A (zh) * 2010-11-17 2011-04-06 广东中大讯通信息有限公司 一种语音识别门禁系统
CN102238189A (zh) * 2011-08-01 2011-11-09 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
CN103794207A (zh) * 2012-10-29 2014-05-14 西安远声电子科技有限公司 一种双模语音身份识别方法
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199742A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 一种身份验证方法、装置及计算设备
CN110956732A (zh) * 2019-12-19 2020-04-03 重庆特斯联智慧科技股份有限公司 一种基于物联网的安全门禁

Also Published As

Publication number Publication date
CN107077848B (zh) 2020-12-25
US20190035406A1 (en) 2019-01-31
US20160086607A1 (en) 2016-03-24
US10008208B2 (en) 2018-06-26
WO2016044027A1 (en) 2016-03-24
EP3195311B1 (en) 2018-08-22
WO2016044027A8 (en) 2017-03-30
EP3195311A1 (en) 2017-07-26
US10529338B2 (en) 2020-01-07

Similar Documents

Publication Publication Date Title
CN107077848A (zh) 用于执行说话人识别的方法和设备
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
US10354677B2 (en) System and method for identification of intent segment(s) in caller-agent conversations
US8938388B2 (en) Maintaining and supplying speech models
CN110610705B (zh) 一种基于人工智能的语音交互提示器
US20120136646A1 (en) Data Security System
US11062706B2 (en) System and method for speaker role determination and scrubbing identifying information
WO2016054110A1 (en) Pattern-controlled automated messaging system
US8214441B2 (en) System and method for optimizing response handling time and customer satisfaction scores
US11675982B2 (en) Systems and methods for natural language processing in gaming environments
US11768961B2 (en) System and method for speaker role determination and scrubbing identifying information
US11290400B2 (en) System and method for testing of automated contact center customer response systems
US10630680B2 (en) System and method for optimizing matched voice biometric passphrases
CN106878275A (zh) 身份验证方法及装置和服务器
WO2021091645A1 (en) Systems and methods for customer authentication based on audio-of-interest
US20140095169A1 (en) Voice authentication system and methods
CN112786041B (zh) 语音处理方法及相关设备
CN112562690A (zh) 基于物品配送的业务处理方法、装置、设备和存储介质
CN111046151A (zh) 一种消息处理方法及装置
JP7370521B2 (ja) 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム
JP2015025856A (ja) 機能実行指示システム及び機能実行指示方法
CA3212457A1 (en) Systems and methods for training natural language processing models in a contact center
CN116708546A (zh) 服务推送方法、装置、电子设备及可读存储介质
CN115438186A (zh) 智能对话系统架构和智能对话系统的对话方法
CN115294982A (zh) 一种会话信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231025

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Massachusetts

Patentee before: Nuance Communications, Inc.