CN110827833B

CN110827833B - 使用动态生成的短语的基于段的说话者验证

Info

Publication number: CN110827833B
Application number: CN201911099048.1A
Authority: CN
Inventors: 多米尼克·罗博列克; 马修·谢里菲
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-04-01
Filing date: 2015-03-27
Publication date: 2023-08-15
Anticipated expiration: 2035-03-27
Also published as: US9424846B2; US20160307574A1; KR20160130223A; US20210295850A1; KR102491993B1; EP3392880A1; EP3401906B1; JP6208375B2; US10037760B2; JP6208313B2; CN106030702A; US20150279374A1; KR20170086703A; EP3392880B1; EP3154056B1; EP3664082A1; US9741348B2; KR101763089B1; JP6258438B2; JP2017049600A

Abstract

公开了使用动态生成的短语的基于段的说话者验证。用于验证用户的身份的计算机程序的方法、系统、和装置，包括编码在计算机存储介质上的计算机程序。所述方法、系统、和装置包括接收对用于验证用户身份的验证短语的请求的动作。附加的动作包括：响应于接收到对用于验证所述用户的所述身份的所述验证短语的所述请求，识别要被包括在所述验证短语中的子字；以及响应于识别出要被包括在所述验证短语中的所述子字，获得包括所识别的子字中的至少一些子字的候选短语作为所述验证短语。另外的动作包括：提供所述验证短语作为对于所述验证短语的所述请求的响应，所述验证短语用于验证所述用户的所述身份。

Description

使用动态生成的短语的基于段的说话者验证

本申请是分案申请，原案的申请号是201580008577.X，申请日是2015年3月27日，发明名称是“使用动态生成的短语的基于段的说话者验证”。

技术领域

本公开大体上涉及说话者验证。

背景技术

计算机可以执行说话者验证来验证说话者的身份。例如，计算机可以基于验证表示说话者的语音的声学数据与表示特定用户的语音的声学数据相匹配来将该说话者的身份验证为该特定用户。

发明内容

大体上，本说明书中所描述的主题的方面可以涉及用于验证说话者的身份的过程。说话者验证通过对表示来自说话者的话语的声学数据与表示来自特定用户的话语的声学数据进行匹配来发生。

系统可以通过一直要求说话者说出例如“FIXED VERIFICATION PHRASE(固定的验证短语)”的相同短语来执行说话者验证。该方法可以很精确但是易于遭到欺骗。例如，可以重放该特定用户说出该短语的录音。替选地，系统可以允许说话者独立说出短语，例如“RANDOM VERIFICATION PHRASE(随机验证短语)”。然而，此方法可能不精确。例如，系统可能不能够确定说话者说了什么短语。

系统可以通过提供基于对于特定用户所存储的训练声学数据动态生成的验证短语来解决关于说话者验证的问题。例如，系统可以基于确定系统存储了表示特定用户说出子字“HAM”的训练声学数据来向待被验证为特定用户的说话者提供例如“HAMMER”的验证短语。

响应于提供该验证短语，系统可以获得表示说话者说出验证短语的声学数据并且使用所获得的声学数据来将该说话者的身份验证为特定用户。例如，基于确定表示说话者说出“HAMMER”中的子字“HAM”的所获得的声学数据与表示特定用户说出子字“HAM”的训练声学数据相匹配，系统可以将该说话者的身份验证为该特定用户。

如果系统将说话者的身份验证为特定用户，则系统可以将所获得的声学数据作为该特定用户的训练声学数据来存储。例如，系统可以将表示说话者说出子字“MER”的声学数据作为表示特定用户说出子字“MER”的声学数据来存储。将来当验证说话者的身份为特定用户时，系统可以将表示说话者说出子字“MER”的声学数据与表示特定用户说出子字“MER”的新存储的训练声学数据进行比较。例如，下一次系统执行说话者验证以验证说话者为特定用户时，基于确定系统存储了表示特定用户说出子字“MER”的训练声学数据，系统可以提供不同的验证短语，例如“JAMMER”。

在某些方面，本说明书中所描述的主题可以被包含在方法中，所述方法包括接收对用于验证用户的身份的验证短语的请求的动作。附加的动作包括：响应于接收到对用于验证所述用户的所述身份的所述验证短语的所述请求，识别要被包括在所述验证短语中的子字；以及响应于识别出要被包括在所述验证短语中的子字，获得包括所识别的子字中的至少一些子字的候选短语作为所述验证短语。另外的动作包括：提供所述验证短语作为对于所述验证短语的所述请求的响应，所述验证短语用于验证所述用户的所述身份。

其他版本包括对应的系统、装置、以及编码在计算机存储设备上被配置为执行方法的动作计算机的程序。

这些和其他版本均可以可选地包括以下特征中的一个或多个。例如，在一些实施方式中，识别要被包括在所述验证短语中的子字包括：识别候选子字作为要被包括在所述验证短语中的子字中的一个或多个子字，所述候选子字的所存储的声学数据与所述用户相关联。

在某些方面，获得包括所识别的子字中的至少一些子字的候选短语作为所述验证短语包括：确定特定的所识别的子字特别具有声音判别性；以及响应于确定所述特定的所识别的子字特别具有声音判别性，而获得候选短语，所述候选短语包括被确定为特别具有声音判别性的所述特定的所识别的子字。

在一些方面，获得包括所识别的子字中的至少一些子字的候选短语作为所述验证短语包括：获得包括所述候选的多个候选短语，所述候选包括所识别的子字中的至少一些子字；确定所述候选短语包括所识别的子字中的至少一些子字；以及响应于确定所述候选短语包括所识别的子字中的至少一些子字，从所述多个候选短语当中选择所确定的候选短语作为包括所识别的子字中的至少一些子字的所述候选短语。

在一些实施方式中，动作包括：获得表示所述用户说出所述验证短语的声学数据；确定所获得的声学数据与所述用户的所存储的声学数据相匹配；以及响应于确定所获得的声学数据与所述用户的所存储的声学数据相匹配，将所述用户分类为所述用户。

在某些方面，确定所获得的声学数据与所述用户的所存储的声学数据相匹配包括：确定所述验证短语中的所识别的子字中的至少一些子字的所存储的声学数据与和所述验证短语中的所识别的子字中的至少一些子字相对应的所获得的声学数据相匹配。

在一些方面，识别要被包括在所述验证短语中的子字包括：识别候选子字作为要被包括在所述验证短语中的子字中的一个或多个子字，没有所述候选子字的所存储的声学数据与所述用户相关联。获得包括所识别的子字中的至少一些子字的候选短语作为所述验证短语包括：获得候选短语，所述候选短语包括：至少一个候选子字，该候选子字的所存储的声学数据与所述用户相关联；以及至少一个候选子字，没有该候选子字的所存储的声学数据与所述用户相关联。

在一些实施方式中，动作包括：与所述用户相关联地存储与所识别的候选子字相对应的来自所获得的声学数据的声学数据，没有所述候选子字的所存储的声学数据与所述用户相关联。

在以下的附图和描述中阐述了本说明书中所描述的主题的一个或多个实施方式的细节。本主题的其他可能的特征、方面、和优点从说明书、附图、和权利要求书将变得显而易见。

附图说明

图1是用于验证说话者的身份的示例过程的流程图。

图2是用于语音验证登记的系统的框图。

图3是用于获得验证短语的系统的框图。

图4是用于验证说话者的身份的系统的框图。

图5是用于验证说话者的身份的示例过程的另一流程图。

各附图中相似附图标记指示相似的元件。

具体实施方式

图1是用于验证说话者的身份的示例过程100的流程图。大体上，过程100可以包括语音验证登记阶段(110)。例如，系统可以提示特定用户说出登记短语并且存储表示该特定用户说出该登记短语的训练声学数据。例如，多个子字(subword)中的每一个子字的声学数据可以是表示说出该多个子字中的每一个子字的特定用户的MFCC系数或滤波器组的能量。子字可以是音素或者两个或多个音素的序列，例如三音素(triphone)。在图2中例示了语音验证登记阶段。

过程100可以包括验证短语的动态生成阶段(120)。例如，响应于对验证短语的请求，系统可以动态生成用于验证说话者的身份的验证短语。在图3中例示了验证短语的动态生成阶段。

过程100可以包括验证阶段(130)。例如，系统可以接收表示说出验证短语的说话者的声学数据并且基于所获得的声学数据来将该说话者验证为特定用户。图4中例示了该验证阶段。

过程100可以包括数据收集阶段(140)。例如，在将说话者验证为特定用户之后，系统可以将所获得的声学数据作为表示说话的该特定用户的声学数据来存储。图4中例示了该数据收集阶段。

图2是用于语音验证登记的系统200的框图。系统可以包括登记界面210和用于特定用户220的声学数据数据库230。系统200可以是计算设备212，例如移动电话。登记界面210可以提示特定用户220说出登记短语来对该特定用户220进行登记以用于语音验证。例如，登记界面210可以提示特定用户220说出预定义的登记短语“DONUT”。

系统200可以基于特定用户220的话音来获得训练声学数据。例如，系统200可以通过执行动态时间规整来将来自特定用户220的话音的部分与验证短语中的子字对准。例如，系统200可以将来自特定用户220的话音的第一部分与子字“DO”对准并且将来自特定用户220的话音的第二部分与子字“NUT”对准。

系统200可以将训练声学数据存储在声学数据数据库230中，所述训练声学数据表示特定用户220说出登记短语中的子字中的每一个子字。例如，系统200可以存储表示特定用户220说出登记短语“DONUT”中的子字“DO”和“NUT”的训练声学数据。

出于登记的目的，系统200可以使用一个或多个不同的登记短语。例如，系统200可以提示特定用户220说出登记短语“THE QUICK BROWN FOX JUMPS OVER THE LAZY DOG(飞快的棕狐狸跳过懒狗)”并且之后提示该特定用户220说“COMPUTER PLEASE LEARN MYVOICE FROM THIS PHRASE I’M CURRENTLY SPEAKING(计算机请从我当前正说出的这个短语来学习我的语音)”。

系统200可以使用预定的登记短语或动态生成的登记短语。例如，系统200可以总是初始地提示与给定区域(locale)或语言相关联的用户说出登记短语“DONUT”，接着是附加登记词项的预定序列。另外地或替选地，系统200可以动态生成补充所存储的声学数据的一个或多个登记短语。例如，系统200可以识别候选登记短语，所述候选登记短语包括子字，对于所述子字，系统200不具有表示特定用户220说出所述子字的所存储的训练声学数据。

系统200可以继续提示特定用户220继续说出不同的登记短语，直到系统200具有表示特定用户220以最小阈值次数说出最小阈值量的子字的训练声学数据为止。例如，系统200可以继续提示特定用户220继续说出不同的登记短语，直到系统200具有表示特定用户220以每个子字至少两次地说出至少十个不同子字的训练声学数据为止。另外地或替选地，系统200可以继续提示特定用户220继续说出特定登记短语，直到系统220具有足够的训练声学数据以使得特定登记短语满足阈值话语质量。

在一些实施方式中，系统200也可以将系统200并非响应于登记短语而获得的训练声学数据存储在声学数据数据库230中。例如，系统200可以识别表示特定用户220说出语音命令或语音查询的训练声学数据，并且将所识别的训练声学数据存储在声学数据数据库230中。

图3是用于获得验证短语的系统300的框图。系统300可以包括说话者验证启动器304、子字识别器310、声学数据数据库230、验证短语获得器320、候选短语数据库330、以及验证界面340。

说话者验证启动器304——其可以是热词检测器——可以接收语音命令并且基于该语音命令来启动说话者验证。例如，说话者验证启动器304可以接收语音命令“OKCOMPUTER,UNLOCK(OK计算机，解锁)”，确定该语音命令包含说话者验证，并且启动说话者验证。说话者验证启动器304可以通过向子字识别器310提供说话者验证请求来启动说话者验证。

响应于对说话者验证的请求，子字识别器310可以识别要被包括在验证短语中的子字。例如，响应于从说话者验证启动器304接收对说话者验证的请求，子字识别器310可以识别出子字“NUT”应当被包括在验证短语中。

子字识别器310可以基于所存储在声学数据数据库230中所存储的训练声学数据来识别要被包括在验证短语中的特定子字。例如，基于确定声学数据数据库230具有所存储的表示特定用户200说出子字“DO”和子字“NUT”的训练声学数据，子字识别器310可以识别要被包括在验证短语中的子字“DO”和“NUT”。

基于确定其表示特定用户220说出该子字的训练声学数据没有被存储在声学数据数据库230中的子字，验证短语获得器320可以另外地或替选地识别要被包括在识别短语中的子字。例如，基于确定存在很少或没有表示特定用户220说出子字“PEA”的所存储的训练声学数据，验证短语获得器320可以识别要被包括在验证短语中的子字“PEA”。

验证短语获得器320可以基于所识别的子字来获得验证短语。例如，验证短语获得器320可以基于所识别的子字“DO”、“NUT”、和“PEA”来获得验证短语“PEANUT”。基于从候选短语数据库330获得多个候选短语、识别包括所识别的子字中的一个或多个子字的所获得的候选短语、以及选择所识别的候选短语作为验证短语，验证短语获得器320可以获得验证短语。例如，验证短语获得器320可以从候选短语数据库330获得候选短语“KITE”、“BEAR”、“PEANUT”、和“DONUT”，识别出候选短语“PEANUT”包括所识别的子字“NUT”和“PEA”，并且将所识别的候选短语“PEANUT”选择为验证短语。

基于哪些所识别的子字具有特定用户220的训练声学数据以及哪些所识别的子字不具有特定用户220的训练声学数据，验证短语获得器320可以另外地或替选地获得验证短语。验证短语获得器320可以获得具有以下二者的验证短语：具有训练声学数据的至少一个所识别的子字、和不具有训练声学数据的至少一个所识别的子字。例如，基于确定候选短语“PEANUT”包括具有训练声学数据的所识别的子字“NUT”并且包括不具有训练声学数据的所识别的子字“PEA”，验证短语获得器320可以选择候选短语“PEANUT”作为验证短语。

在一些实施方式中，基于确定候选短语包括最小阈值量的子字并且该候选短语中一定百分比的子字是具有特定用户220的训练声学数据的子字，验证短语获得器320可以从候选短语获得验证短语。例如，基于确定候选短语包括至少十个子字并且该候选短语中大约90％的子字是具有特定用户220的训练声学数据的子字，验证短语获得器320可以选择候选短语“I ATE SIX PEANUT BUTTER SANDWICHES TODAY(我今天吃了六个花生酱三明治)”作为验证短语。

在选择候选短语作为验证短语中，验证短语获得器320可以按每个候选短语中为其存储了训练声学数据的子字的数目来对所获得的候选短语的列表排序。验证短语获得器320可以从所排序的列表中选择候选短语，所述候选短语具有：最小阈值数目的子字、以及最小百分比的具有特定用户220的训练声学数据的子字。

在一些实施方式中，验证短语获得器320可以基于所识别的子字的声音判别性的指示来获得验证短语。验证短语获得器320通常可以选择包括更有声音判别性的子字的候选短语。验证短语获得器320可以确定每个所识别的子字的声音判别性的指示并且基于选择候选短语来获得验证短语，所述候选短语包括：(i)至少一个所识别的子字，所述子字是特别具有声音判别性且具有特定用户220的所存储的声学数据的子字；以及(ii)至少一个所识别的子字，所述子字是特别具有声音判别性且不具有特定用户220的所存储的声学数据的子字。例如，基于确定候选短语“PEANUT”包括所识别的子字“NUT”，子字“NUT”具有所存储的声学数据并且特别具有声音判别性；并且包括所识别的子字“PEA”，子字“PEA”不具有所存储的声学数据并且也特别具有声音判别性，验证短语获得器320可以选择候选短语“PEANUT”作为验证短语。

在一些实施方式中，验证短语获得器320可以在没有候选短语数据库330的情况下获得候选短语。例如，基于生成包括以下的候选短语，验证短语获得器320可以生成候选短语“NUT PEA”作为验证短语：(i)具有所存储的声学数据并且特别具有声音判别性的所识别的子字“NUT”以及(ii)不具有所存储的声学数据并且也特别具有声音判别性的所识别的子字“PEA”。

验证界面340可以提示说话者302说出验证短语。例如，验证界面340可以在移动计算设备202的显示器上输出“PLEASE SAY‘PEANUT’(请说‘PEANUT(花生)’)”。另外地或替选地，验证界面340可以输出合成话音“PLEASE SAY‘PEANUT’”。

图4是用于验证说话者的身份的系统400的框图。系统400可以包括子字比较器420、说话者分类器430、以及欢迎界面440。

系统400可以基于说话者的话音来获得声学数据410。系统400可以通过执行动态时间规整以将来自说话者302的话音的部分与验证短语中的子字对准来获得声学数据。例如，系统400可以将来自说话者302的话音的第一部分与子字“PEA”对准并且将来自说话者302的话音的第二部分与子字“NUT”对准。如果系统400不能够从说话者的语音获得用于验证短语的声学数据410，则系统400可以生成报错(error)。例如，如果说话者302说出完全不同的短语“AARDVARK”，则系统400可能无法对准验证短语，并且可以生成要求说话者重复验证短语的报错。

子字比较器420可以接收表示说话者302说出验证短语的一个或多个子字的所获得的声学数据410。例如，子字比较器420可以接收表示说话者302说出验证短语“PEANUT”的子字“PEA”和“NUT”的所获得的声学数据410。

子字比较器420可以将所获得的声学数据410与表示特定用户220说出子字的声学数据数据库230中所存储的训练声学数据进行比较。例如，子字比较器420可以确定表示说话者420说出子字“NUT”的所获得的声学数据410与表示特定用户220说出子字“NUT”的所存储的训练声学数据之间的距离。

子字比较器420可以只针对具有该子字的训练声学数据的子字来对所获得的声学数据进行比较。例如，子字比较器420可以基于确定存在子字“NUT”的所存储的训练声学数据来确定对子字“NUT”的所获得的声学数据进行比较。在另一示例中，子字比较器420可以基于确定不存在子字“PEA”的所存储的训练声学数据来确定不对子字“PEA”的所获得的声学数据进行比较。

另外地或替选地，子字比较器420可以将不具有训练声学数据的子字的所获得的声学数据与非用户指定的声学数据进行比较以验证说出了正确的子字。例如，子字比较器420可以将子字“PEA”的所获得的声学数据与子字“PEA”的非用户指定的声学数据进行比较以验证说出了子字“PEA”。在一些实施方式中，子字比较器420可以将不具有训练声学数据的子字的所获得的声学数据与相似发声的子字的所存储的训练声学数据进行比较。例如，子字比较器420可以将子字“PEA”的所获得声学数据与子字“PE”的所存储的训练声学数据进行比较。

子字比较器420可以基于所获得的声学数据与所存储的训练声学数据的一个或多个比较来生成每个所比较的子字的匹配得分。匹配得分可以指示特定用户220说出与所获得的声学数据相对应的子字的可能性。例如，子字比较器420可以确定90％的匹配得分，该得分指示子字“PEA”的说话者302的身份为特定用户220的可能性有90％；以及100％的匹配得分，该得分指示子字“DO”的说话者302的身份为特定用户220的可能性有100％。

子字比较器420可以基于针对所比较的子字确定声学数据与所存储的训练声学数据之间的距离来生成每个所比较的子字的匹配得分。子字比较器420可以基于计算L2距离或执行动态时间规整匹配来针对每个子字确定距离。在一些实施方式中，当子字比较器420可以将不具有训练声学数据的子字的所获得的声学数据与相似发声的子字的所存储的训练声学数据进行比较时，说话者分类器430可以使该比较更为宽容。例如，当子字比较器420将子字“PEA”的所获得的声学数据与子字“PE”的训练声学数据进行比较时，子字比较器420可以将任何距离减半。

子字比较器420可以基于匹配得分来生成最终得分。子字比较器420可以通过对匹配得分取平均数来生成最终得分。例如，子字比较器420可以基于对子字“NUT”的90％匹配得分和子字“DO”的100％匹配得分取平均数来生成95％的最终得分。

在一些实施方式中，子字比较器420可以针对特定子字来将所获得的声学数据与所存储的训练声学数据之间的比较进行不同的加权。对于被确定为更具声音判别性的子字或者对于其有更多所存储的声学数据可用的子字，子字比较器420可以向该比较提供更高的权重。例如，子字比较器420可以确定子字“NUT”比子字“DO”更具声音判别性并且将子字“NUT”的100％的匹配得分两倍加权，使得最终得分为97％。在一些实施方式中，子字比较器420可以将匹配得分提供给说话者分类器430以供该说话者分类器生成最终得分。

如果说话者302是特定用户220，则说话者分类器430可以基于确定所获得的声学数据与所存储的训练声学数据相匹配而作出分类。例如，由于来自子字比较器420的最终得分是90％或更高，因此说话者分类器430可以基于确定所获得的声学数据与所存储的训练声学数据相匹配来作出说话者302是特定用户220的分类。在另一示例中，由于来自子字比较器420的最终得分小于90％，因此说话者分类器430可以基于确定所获得的声学数据与所存储的训练声学数据不匹配来作出说话者302不是特定用户220的分类。

如果说话者分类器430作出说话者302不是特定用户220的分类，则可以请求另一验证短语，并且说话者320可以被提示说出该验证短语。例如，锁定的移动设备可以保持锁定并且可以提示用户302“SORRY VOICE NOT RECOGNIZED,PLEASE TRY SPEAKING INSTEAD‘CHESTNUT’(抱歉语音未被识别，请尝试说出‘CHESTNUT(栗子)’作为替代)”。另外地或者替选地，如果说话者分类器430作出说话者302不是特定用户220的分类，则可以请求相同的验证短语。例如，锁定的移动设备可以保持锁定并且可以提示说话者302“SORRY VOICE NOTRECOGNIZED,PLEASE TRY REPEATING‘PEANUT(抱歉语音未被识别，请尝试重复‘PEANUT(花生)’”。在一些实施方式中，说话者分类器430可以以预定次数——例如两次、三次、或四次来向说话者302提示特定短语。

如果说话者分类器430作出说话者302是特定用户220的分类，则说话者分类器430可以将所获得的声学数据作为训练声学数据来添加至声学数据数据库230。例如，说话者分类器430可以将子字“NUT”的所获得的声学数据存储为表示特定用户220说出子字“NUT”的第二实例并且将子字“PEA”的所获得的声学数据存储为表示特定用户220说出子字“PEA”的第一实例。在将所获得的声学数据添加至声学数据数据库230过程中，说话者分类器430可以对特定子字的所获得声学数据取平均数。例如，说话者分类器430可以对特定用户220说出子字“NUT”的两个实例的声学数据取平均数。通过将所获得的声学数据作为声训练数据来添加至声学数据数据库230，对于例如“NUT”的子字，说话者分类器430可以使所获得的声学数据与所存储的训练声学数据的未来的比较更为精确，并且由于例如“PEA”的最初不具有所存储的训练声学数据的附加子字现在已经可以具有所存储的训练声学数据，因此说话者分类器430使得所述子字能够被比较。

如果说话者分类器430作出说话者302是特定用户220的分类，则说话者分类器430可以另外地或替选地显示欢迎界面430。例如，欢迎界面430可以是在移动设备202被解锁之后最初被显示在移动设备202上的界面。

系统200、300、和400的不同配置可以被使用在登记界面210、声学数据数据库230、说话者验证启动器304、子字识别器310、验证短语获得器320、验证界面340、子字比较器420、说话者分类器430、以及欢迎界面440的功能可以被组合、进一步分离、分布、或互换的情况下。系统200、300、和400可以被实现为例如移动设备的单一设备，或者可以跨例如客户端设备和服务器设备的多个设备分布。

图5是用于验证说话者302的身份的示例过程500的流程图。以下将过程500描述为由参照图3和图4描述的系统300和系统400的组件执行。然而，过程500可以由其他系统或系统配置来执行。

过程500可以包括接收对用于验证说话者302的身份的验证短语的请求(510)。例如，系统200可以从说话者302接收语音命令“OK COMPUTER,UNLOCK(OK计算机，解锁)”以解锁移动设备202，说话者验证启动器304可以向子字识别器310提供对验证短语的请求，并且子字识别器310可以接收对验证短语的请求。

过程500可以包括识别要被包括在验证短语中的子字(520)。例如，响应于接收到对用于验证说话者302的身份的验证短语的请求，基于确定表示特定用户220说出子字“I”、“WANT”、“TO”、“BE”、“AN”、“NAUT”、“WHEN”、“GROW”、和“UP”的声学数据被存储在声学数据数据库230中，并且确定子字“ASTRO”特别具有声音判别性且表示该特定用户220说出子字“ASTRO”的训练声学数据没有被存储在声学数据数据库230中，子字识别器310可以识别出子字“I”、“WANT”、“TO”、“BE”、“AN”、“ASTRO”、“NAUT”、“WHEN”、“GROW”、和“UP”应当被包括在验证短语中。

过程500可以包括获得包括所识别的子字中的至少一些子字的候选短语作为验证短语(530)。例如，响应于识别出要被包括在验证短语中的子字，验证短语获得器320可以从候选短语数据库330获得多个候选短语“I WANT TO BE AT GREAT FALLS PARK TODAY(我今天想要去大瀑布公园)”和“I WANT TO BE AN ASTRONAUT WHEN I GROW UP(长大后我想要成为一名宇航员)”，确定特定候选短语“I WANT TO BE AN ASTRONAUT WHEN I GROW UP”：(i)包括至少十个子字、(ii)子字中的至少90％具有所存储的训练声学数据、以及(iii)包括所识别的子字“ASTRO”，该子字特别具有声音判别性且不存在用于其的所存储的训练声学数据，并且基于该确定，选择特定候选短语作为验证短语。

过程500可以包括提供验证短语作为对验证短语的请求的响应，所述验证短语用于验证说话者302的身份(540)。例如，验证界面340可以显示“PLEASE SAY‘I WANT TO BEAN ASTRONAUT WHEN I GROW UP(请说‘长大后我想要成为一名宇航员’)”。

过程500可以包括获得表示说话者302说出验证短语的子字的声学数据(550)。例如，子字比较器420可以获得表示说话者302说出候选短语“I WANT TO BE AN ASTRONAUTWHEN I GROW UP”中的每个子字的声学数据。

过程500可以包括确定所获得的声学数据与所存储的训练声学数据相匹配(560)。例如，基于对子字“I”、“WANT”、“TO”、“BE”、“AN”、“NAUT”、“WHEN”、“GROW”、和“UP”中的每个子字的匹配得分取平均数，子字比较器420可以生成最终得分90％，其中基于针对子字中的每个子字计算所获得的声学数据与所存储的训练声学数据之间的距离来确定匹配得分。

过程500可以包括将说话者302分类为特定用户220(570)。例如，说话者分类器430可以确定由子字比较器420生成的最终得分90％为至少90％。响应于将说话者302分类为特定用户220，说话者分类器403可以将所获得的声学数据作为训练声学数据存储在声学数据数据库230中并且触发欢迎界面440的显示。

在一些实施方式中，过程500的原理也可以被用于说话者识别。例如，系统400可以将所获得的声学数据与多个用户的所存储的训练声学数据进行比较以生成多个用户中的每个用户的最终得分、确定特定用户的最终得分是仅有的最少90％的最终得分、并且将该说话者识别为特定用户。

在本说明书中描述的主题、功能性操作和过程的实施例能够以数字电子电路、或者以有形地体现的计算机软件或固件、以计算机硬件、包括在本说明书中公开的结构及其结构等同物、或者以它们的一个或多个的组合来实现。能够将在本说明书中描述的主题的实施例实现为一个或多个计算机程序，即计算机程序指令的一个或多个模块，所述计算机程序指令被编码在有形非易失性程序载体上，用于由数据处理装置执行或控制数据处理装置的操作。替选地或另外地，程序指令能够被编码在例如机器生成的电信号、光信号、或电磁信号的人工生成的传播信号上，该信号被生成以对用于传送至合适的接收器装置的信息进行编码以供数据处理装置执行。计算机存储介质能够是计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机、或者多个处理器或计算机。所述装置能够包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件外，所述装置还能够包括创建用于所讨论的计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统、或者以上的一个或多个的组合的代码。

计算机程序(其也被称作或描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)能够以任何形式的编程语言编写，包括编译或解释语言，或者说明性或过程性语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程、或适于在计算环境中使用的其他单元。计算机程序可以但不必与文件系统中的文件相对应。可以将程序存储在保持其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件、或者多个协调文件(例如，存储一个或多个模块、子程序、或代码的部分的文件)中。能够将计算机程序部署为在一个计算机上或者在位于一个地点或跨多个地点分布并且由通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流能够由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过操作输入数据并且生成输出来执行功能。过程和逻辑流还能够由专用逻辑电路执行，以及装置还能够被实现为专用逻辑电路，所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适于执行计算机程序的处理器包括例如能够是基于通用微处理器或专用微处理器或者这两者，或者任何其他种类的中央处理器单元。通常，中央处理器单元将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的主要元件是用于实施或执行指令的中央处理器单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或可操作地耦合以从所述一个或多个大容量存储设备接收数据或向所述一个或多个大容量存储设备传送数据，或以上这两者。然而，计算机不必具有这样的设备。此外，能够将计算机嵌入另一设备中，所述另一设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或者便携式存储设备(例如通用串行总线(USB)闪存驱动器)，仅举数例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM、和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充，或合并入专用逻辑电路。

为了提供与用户的交互，本说明书中描述的主题的实施例能够在具有下述的计算机上实现：用于向用户显示信息的显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，以及用户通过其能够向计算机提供输入的键盘和指示设备，例如鼠标或轨迹球。也能够使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感知反馈，例如视觉反馈、听觉反馈、或触觉反馈；并且能够以包括声学、话音、或触觉输入的任何形式来接收来自用户的输入。此外，计算机能够通过将文档发送至用户所使用的设备或从该设备接收文档来与用户交互，例如通过响应于从web浏览器接收到的请求而将网页发送到该web浏览器上。

能够在计算系统中实现本说明书中描述的主题的实施例，所述计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有用户通过其能够与在本说明书中描述的主题的实施方式相交互的图形用户界面或Web浏览器的客户端计算机；或者一个或多个这样的后端、中间件、或前端组件的任何组合。能够通过例如通信网络的任何形式或介质的数字数据通信将系统的组件互连。通信网络的示例包括局域网("LAN")和例如互联网的广域网("WAN")。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并且一般通过通信网络进行交互。客户端与服务器的关系依靠在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生。

虽然本说明书包含许多特定实施方式细节，但是这些细节不应当被解释为对可能要求保护的内容的范围的限制，而应当被解释为对特定实施方式所特有的特征的描述。还能够将在本说明书中在分离的实施例的场境中描述的某些特征组合在单个实施例中实现。相反地，也能够将在单个实施例的场境中描述的各种特征分离地在多个实施例中实现或在任何合适的子组合中实现。此外，尽管可能在上面将特征描述为在某些组合中起作用，甚至最初如此要求保护，但是可以在一些情况下将来自所要求保护的组合的一个或多个特征从组合中删去，并且可以将所要求保护的组合指向子组合或者子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是不应当将这理解为需要以所示的特定顺序或者以序列顺序来执行这样的操作、或者需要执行所有图示的操作才能达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。此外，不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离，并且应当理解的是，通常能够将所描述的程序组件和系统一起集成在单个软件产品中或封装为多个软件产品。

因此，已经描述了本主题的特定实施例。其他实施例落入所附的权利要求书的范围内。例如，能够以不同的顺序来执行权利要求书中记载的动作并且仍然达到期望的结果。作为一个示例，在附图中描绘的过程不一定要求所示的特定顺序或序列顺序来达到期望的结果。在某些实施方式中，多任务以及并行处理可以是有利的。可以提供其他步骤，或者可以将步骤从所描述的过程消除。因此，其他实施方式在所附权利要求书的范围内。

Claims

1.一种用于说话者验证的方法，包括：

由数据处理硬件获得表示说出验证短语的子字的子集的特定用户的存储的声学数据，所述验证短语包括至少一个子字，针对该子字尚未获得表示说出所述子字的所述特定用户的存储的声学数据；

在所述数据处理硬件处，接收对未验证用户的身份进行验证的请求；

响应于接收到对所述未验证用户身份进行验证的请求，由所述数据处理硬件提示所述未验证用户说出所述验证短语；

在所述数据处理硬件处，接收表示说出所述验证短语的所述未验证用户的验证声学数据；

由所述数据处理硬件基于所述存储的声学数据和所述验证声学数据，确定说出所述验证短语的所述未验证用户是否是说出所述验证短语的所述特定用户；和

响应于确定说出所述验证短语的所述未验证用户是说出所述验证短语的所述特定用户，由所述数据处理硬件将所述未验证用户的身份验证为所述特定用户。

2.根据权利要求1所述的方法，其中，获得表示说出所述验证短语的所述特定用户的所述存储的声学数据包括：

在所述数据处理硬件处，接收表示说出所述验证短语的所述特定用户的声学数据；和

由所述数据处理硬件将所接收的声学数据存储在与所述数据处理硬件通信的存储器硬件中。

3.根据权利要求2所述的方法，还包括：由所述数据处理硬件确定所接收的声学数据包含由所述特定用户以最小次数说出的最小数目的子字。

4.根据权利要求3所述的方法，其中，所述子字包括音素。

5.根据权利要求2所述的方法，其中，存储所接收的声学数据包括：存储表示说出所述验证短语中的子字的所述特定用户的训练声学数据。

6.根据权利要求1所述的方法，其中，继续获得表示说出所述验证短语的所述特定用户的所述声学数据，直到接收到满足话语质量阈值的声学数据为止。

7.根据权利要求1所述的方法，还包括：在获得表示说出所述验证短语的所述特定用户的所述声学数据之前，由所述数据处理硬件提示所述特定用户说出所述验证短语。

8.根据权利要求7所述的方法，其中，提示所述特定用户说出所述验证短语包括：提示所述特定用户多次说出所述验证短语。

9.根据权利要求1所述的方法，其中，所述验证短语包括预定的验证短语。

10.根据权利要求1所述的方法，其中确定说出所述验证短语的所述未验证用户是否包括所述特定用户包括：

确定所述验证声学数据是否与所述存储的声学数据匹配；和

响应于确定所述验证声学数据与所述存储的声学数据匹配，将所述未验证用户分类为所述特定用户。

11.一种用于说话者验证的系统，包括：

数据处理硬件；和

存储器硬件，所述存储器硬件与所述数据处理硬件通信并且存储指令，所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行操作，所述操作包括：

获得表示说出验证短语的子字的子集的特定用户的存储的声学数据，所述验证短语包括至少一个子字，针对该子字尚未获得表示说出所述子字的所述特定用户的存储的声学数据；

接收对未验证用户的身份进行验证的请求；

响应于接收到对所述未验证用户身份进行验证的请求，提示所述未验证用户说出所述验证短语；

接收表示说出所述验证短语的所述未验证用户的验证声学数据；

基于所述存储的声学数据和所述验证声学数据，确定说出所述验证短语的所述未验证用户是否是说出所述验证短语的所述特定用户；和

12.如权利要求11所述的系统，其中，获得表示说出所述验证短语的所述特定用户的所述存储的声学数据包括：

接收表示说出所述验证短语的所述特定用户的声学数据；和

将所接收的声学数据存储在与所述数据处理硬件通信的存储器硬件中。

13.根据权利要求12所述的系统，其中，所述操作还包括：确定所接收的声学数据包含由所述特定用户以最小次数说出的最小数目的子字。

14.根据权利要求13所述的系统，其中，所述子字包括音素。

15.根据权利要求12所述的系统，其中，存储所接收的声学数据包括：存储表示说出所述验证短语中的子字的所述特定用户的训练声学数据。

16.根据权利要求11所述的系统，其中，继续获得表示说出所述验证短语的所述特定用户的所述声学数据，直到接收到满足话语质量阈值的声学数据为止。

17.根据权利要求11所述的系统，其中，所述操作还包括：在获得表示说出所述验证短语的所述特定用户的所述声学数据之前，提示所述特定用户说出所述验证短语。

18.根据权利要求17所述的系统，其中，提示所述特定用户说出所述验证短语包括：提示所述特定用户多次说出所述验证短语。

19.根据权利要求11所述的系统，其中，所述验证短语包括预定的验证短语。

20.根据权利要求11所述的系统，确定说出所述验证短语的所述未验证用户是否包括所述特定用户包括：

确定所述验证声学数据是否与所述存储的声学数据匹配；和

21.一种计算机实现的方法，包括：

识别候选登记短语以登记特定用户用于语音验证，每个候选登记短语包括至少一个子字，并且至少一个候选登记短语包括至少一个子字：针对该至少一个子字尚未获得表示说出该子字的所述特定用户的存储登记声学数据；

提示所述特定用户说出候选短语，所述候选短语包括所述至少一个候选登记短语，所述至少一个候选登记短语包含至少一个子字：针对该至少一个子字尚未获得表示说出该子字的所述特定用户的存储登记声学数据；

获得并存储表示说出所述候选登记短语的所述特定用户的登记声学数据，直到获得满足一定阈值的登记声学数据为止；

至少基于在所述登记声学数据中由所述特定用户所发出的所述候选登记短语中所包括的所述子字中的一个或多个子字，来动态生成验证短语；

提示用户说出动态生成的验证短语；

获得表示说出所述动态生成的验证短语的所述用户的验证声学数据；

将所获得的验证声学数据与所述登记声学数据进行比较，以确定说出所述动态生成的验证短语的所述用户是否是说出所述候选登记短语的所述特定用户；和

响应于确定说出所述动态生成的验证短语的所述用户是说出所述候选登记短语的所述特定用户，将所述用户的身份验证为所述特定用户。

22.根据权利要求21所述的计算机实现的方法，其中，获得并存储表示说出所述候选登记短语的所述特定用户的登记声学数据直到获得满足一定阈值的登记声学数据为止包括：

确定所获得的登记声学数据包含所述特定用户以最小次数说出的最小数目的子字。

23.根据权利要求21所述的计算机实现的方法，其中，获得并存储表示说出所述候选登记短语的所述特定用户的登记声学数据，直到获得满足话语质量阈值的登记声学数据为止。

24.根据权利要求21所述的计算机实现的方法，其中，至少基于在所述登记声学数据中由所述特定用户所发出的所述候选登记短语中所包括的子字中的一个或多个子字来动态生成验证短语包括：

生成包括所述子字中的至少一个或多个子字的验证短语。

25.根据权利要求21所述的计算机实现的方法，其中，至少基于在所述登记声学数据中由所述特定用户所发出的所述候选登记短语中所包括的所述子字中的一个或多个子字来动态生成验证短语包括：

生成验证短语，所述验证短语包括(i)所述子字中的至少一个或多个子字；和(ii)不是所述一个或多个子字中任何一个子字的一个或多个子字。

26.根据权利要求21所述的计算机实现的方法，其中，所述子字包括音素。

27.一种用于说话者验证的系统，包括：

一个或多个数据处理设备；和

存储指令的一个或多个存储设备，所述指令在由所述一个或多个数据处理设备执行时用于使所述一个或多个数据处理设备执行操作，所述操作包括：

识别候选登记短语以登记特定用户用于语音验证，每个候选登记短语包括至少一个子字，并且至少一个候选登记短语包括下述至少一个子字：针对该至少一个子字尚未获得表示说出该子字的所述特定用户的存储登记声学数据；

提示所述特定用户说出候选短语，所述候选短语包括所述至少一个候选登记短语，所述候选登记短语包含下述至少一个子字：针对该至少一个子字尚未获得表示说出该子字的所述特定用户的存储登记声学数据；

提示用户说出动态生成的验证短语；

28.根据权利要求27所述的系统，其中，获得并存储表示说出所述候选登记短语的所述特定用户的登记声学数据直到获得满足一定阈值的登记声学数据为止包括：

29.根据权利要求27所述的系统，其中，获得并存储表示说出所述候选登记短语的所述特定用户的登记声学数据，直到获得满足话语质量阈值的登记声学数据为止。

30.根据权利要求27所述的系统，其中，至少基于在所述登记声学数据中由所述特定用户所发出的所述候选登记短语中所包括的所述子字中的一个或多个子字来动态生成验证短语包括：

生成包括所述子字中的至少一个或多个子字的验证短语。

31.根据权利要求27所述的系统，其中，至少基于在所述登记声学数据中由所述特定用户所发出的所述候选登记短语中所包括的所述子字中的一个或多个子字来动态生成验证短语包括：

32.一种计算机实现的方法，包括：

接收对用于验证用户的身份的验证短语的请求；

响应于接收到对用于验证所述用户的身份的所述验证短语的所述请求，识别要包括在所述验证短语中的子字；

响应于识别要包括在所述验证短语中的所述子字，基于预定标准来获得候选短语，所述候选短语包括所识别的子字中的至少一些子字作为验证短语；和

提供所述验证短语，作为对用于所述验证用户的身份的所述验证短语的所述请求的响应，

其中，识别要包括在所述验证短语中的子字包括：识别没有存储声学数据与所述用户相关联的候选子字，作为要包括在所述验证短语中的所述子字中的一个或多个子字。

33.根据权利要求32所述的方法，其中，识别要包括在所述验证短语中的子字包括：

识别存储声学数据与所述用户相关联的候选子字，作为要包括在所述验证短语中的所述子字中的一个或多个子字。

34.根据权利要求32所述的方法，其中，获得候选短语、所述候选短语包括所识别子字中的至少一些子字作为验证短语包括：

确定特定的所识别子字特别具有声音判别性；和

响应于确定所述特定的所识别子字特别具有声音判别性，获得候选短语，所述候选短语包括被确定为特别具有声音判别性的所述特定的所识别子字。

35.根据权利要求32所述的方法，其中获得候选短语、所述候选短语包括所识别的子字中的至少一些子字作为验证短语包括：

获得多个短语；

确定所述多个短语当中的短语包括至少一些所识别子字；和

响应于确定所述短语包括至少一些所识别子字，从所述多个短语中选择所确定的短语作为所述候选短语。

36.根据权利要求32所述的方法，包括：

获得表示说出所述验证短语的特定用户的声学数据；

确定所获得的声学数据与所述用户的存储声学数据匹配；和

响应于确定所获得的声学数据与所述用户的存储声学数据匹配，将所述特定用户分类为所述用户。

37.根据权利要求36所述的方法，其中确定所获得的声学数据与所述用户的存储声学数据匹配包括：

确定所述验证短语中的所述至少一些所识别子字的存储声学数据与所获得的与所述验证短语中的所述至少一些所识别子字相对应的声学数据匹配。

38.根据权利要求37所述的方法，其中，获得包括至少一些所识别子字的候选短语作为所述验证短语包括：

获得候选短语，所述候选短语包括所述存储声学数据与所述用户相关联的至少一个候选子字以及没有存储声学数据与所述用户相关联的至少一个候选子字。

39.根据权利要求38所述的方法，包括：

与用户相关联地，存储来自所获得的声学数据中的下述声学数据：该声学数据对应于没有存储声学数据和所述用户相关联的所识别候选子字。

40.一种用于说话者验证的系统，包括：

一个或多个计算机；和

存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时用于使一个或多个计算机执行操作，所述操作包括：

接收对用于验证用户的身份的验证短语的请求；

41.根据权利要求40所述的系统，其中，识别要包括在所述验证短语中的子字包括：

42.根据权利要求40所述的系统，其中，获得候选短语、所述候选短语包括所识别子字中的至少一些子字作为验证短语包括：

确定特定的所识别子字特别具有声音判别性；和

43.根据权利要求40所述的系统，其中获得候选短语、所述候选短语包括所识别的子字中的至少一些子字作为验证短语包括：

获得多个短语；

确定所述多个短语当中的短语包括至少一些所识别子字；和

44.根据权利要求40所述的系统，所述操作包括：

获得表示说出所述验证短语的特定用户的声学数据；

确定所获得的声学数据与所述用户的存储声学数据匹配；和

45.根据权利要求44所述的系统，其中确定所获得的声学数据与所述用户的存储声学数据匹配包括：

46.根据权利要求45所述的系统，其中，获得包括至少一些所识别子字的候选短语作为所述验证短语包括：

47.根据权利要求46所述的系统，所述操作包括：