CN107924682A - 用于说话者验证的神经网络 - Google Patents
用于说话者验证的神经网络 Download PDFInfo
- Publication number
- CN107924682A CN107924682A CN201680028481.4A CN201680028481A CN107924682A CN 107924682 A CN107924682 A CN 107924682A CN 201680028481 A CN201680028481 A CN 201680028481A CN 107924682 A CN107924682 A CN 107924682A
- Authority
- CN
- China
- Prior art keywords
- language
- speaker
- neutral net
- training
- computing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007935 neutral effect Effects 0.000 title claims abstract description 180
- 238000012795 verification Methods 0.000 title abstract description 160
- 238000012549 training Methods 0.000 claims abstract description 227
- 238000000034 method Methods 0.000 claims abstract description 87
- 238000012512 characterization method Methods 0.000 claims abstract description 40
- 238000004088 simulation Methods 0.000 claims description 87
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 19
- 238000007477 logistic regression Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 18
- 230000015654 memory Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 210000005036 nerve Anatomy 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 210000004218 nerve net Anatomy 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000018199 S phase Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000926 neurological effect Effects 0.000 description 2
- 238000002630 speech therapy Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 229910001369 Brass Inorganic materials 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 239000010951 brass Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本文大体上描述与说话者验证有关的系统、方法、装置、和其它技术,包括:(i)训练用于说话者验证模型的神经网络,(ii)在客户端装置处登记用户,以及(iii)基于所述用户的声音的特点来验证用户的身份。一些实施方式包括计算机实现的方法。所述方法可以包括:在计算装置处接收表征所述计算装置的用户的话语的数据。可以使用所述计算装置上的神经网络在所述计算装置处针对所述话语生成说话者表示。可以基于多个训练样本来训练神经网络,所述多个训练样本中的每个:(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)被标记为匹配说话者样本或者非匹配说话者样本。
Description
技术领域
本文的主题大体上涉及神经网络和在说话者验证任务中采用的其它模型。
背景技术
说话者验证通常涉及基于人的声音的特点来验证人的身份。一些计算装置允许用户通过向装置提供由用户说出的一个或者多个语音样本来向装置“登记”,通过该一个或者多个语音样本,确定表示用户的声音的说话者模型。然后可以相对于说话者模型对在装置处接收到的随后语音样本进行处理和评估以验证用户的身份。
发明内容
本文大体上描述用于说话者验证的系统、方法、装置和训练并且使用神经网络或者其它类型的模型的其它技术。在一些实施方式中,神经网络可以是可由执行说话者验证的计算装置访问的说话者验证模型的组件。通常,可以在迭代中训练神经网络,每个迭代模拟说话者的登记和话语的验证。例如,在每个训练迭代中,可以相对于说话者模型对由神经网络针对给定话语生成的说话者表示进行评估。基于模拟验证话语的说话者表示与一个或者多个模拟登记话语的说话者表示的组合(例如,平均值)的比较,可以更新神经网络的参数以优化说话者验证模型将给定话语分类为由同一个人说出或者由与登记的人不同的人说出的能力。要了解,该操作在提高系统的可靠性方面具有优点。可以将神经网络进一步配置为:在单次通过神经网络时,处理表征整个话语的数据,而不是单独地或者按顺序地处理话语的帧。下面更全面地描述、并且在附图中描绘这些和其它实施方式。
本文描述的主题的一些实施方式包括一种计算机实现的方法。该方法可以包括:在计算系统处选择用于训练神经网络的多个不同训练数据子集。每个训练数据子集包括表征第一说话者的相应话语的多个第一分量和表征第一说话者或者第二说话者的话语的第二分量。对于选择的训练数据子集中的每一个训练数据子集,该方法可以包括:将第一分量中的每个第一分量输入到神经网络中以生成与第一分量中的每个相对应的相应第一说话者表示;将第二分量输入到神经网络中以生成与第二分量对应的第二说话者表示;基于多个第一分量的相应第一说话者表示的平均数来确定第一说话者的模拟说话者模型;将第二说话者表示与模拟说话者模型相比较以将由第二分量表征的话语分类为第一说话者的话语或者不同于第一说话者的说话者的话语;以及基于由第二分量表征的话语是否被正确地分类为第一说话者的话语或者不同于第一说话者的说话者的话语来调整神经网络。
这些和其它实施方式可以包括以下特征中的一个或者多个。
响应于将第二分量输入到神经网络中,可以通过在单次通过神经网络时处理由第二分量表征的整个话语的数据,利用神经网络来生成第二说话者表示。
从多个不同训练数据子集中选择第一训练数据子集可以包括:从分别与不同说话者对应的多组话语中选择与第一说话者对应的第一组话语,从而使得每组话语由仅表征相应组话语的相应说话者的话语的数据组成;从多组话语中选择与第一说话者或者第二说话者对应的第二组话语;通过表征第一组话语中的话语的数据来确定多个第一分量;以及通过表征第二组话语中的话语的数据来确定第二分量。
可以从多组话语中随机选择第一组话语和第二组话语中的至少一个。
第一说话者在多个不同训练数据子集中的至少一些训练数据子集中可以彼此不同。第二说话者在多个不同训练数据子集中的至少一些训练数据子集中可以彼此不同。
多个不同训练数据子集中的第一训练数据子集中的第一分量的总数可以与在多个不同训练数据子集中的第二训练数据子集中的第一分量的总数不同。
将第二说话者表示与模拟说话者模型相比较以将由第二分量表征的话语分类为第一说话者的话语或者不同于第一说话者的说话者的话语可以包括:确定在来自第二说话者表示的值与来自模拟说话者模型的值之间的距离,并且向该距离应用逻辑回归函数。
神经网络可以包括多个隐藏层。神经网络可以不具有softmax输出层。
神经网络可以包括深层神经网络,该深层神经网络具有局部连接隐藏层,该局部连接隐藏层之后是多个全连接隐藏层。
由多个第一分量表征的话语、和由第二分量表征的话语都可以具有固定长度。
神经网络可以是长短期记忆循环神经网络,该长短期记忆循环神经网络被配置为基于表征具有可变长度的话语的数据而被训练。
由多个不同训练数据子集中的相应多个第一分量表征的话语、和由多个不同训练数据子集中的相应第二分量表征的话语都可以是同一词或者短语的话语。
由多个不同训练数据子集中的相应多个第一分量表征的话语中的至少一些和由多个不同训练数据子集中的相应第二分量表征的话语中的至少一些可以是不同词或者短语的话语。
可以将训练的神经网络提供至与计算系统分开的一个或者多个计算装置以便用于在一个或者多个计算装置上执行说话者验证。
可以由神经网络基于被输入到与第一说话者表示对应的神经网络中的相应第一分量来生成第一说话者表示中的每个第一说话者表示。可以由神经网络基于被输入到与第二说话者表示对应的神经网络中的第二分量来生成第二说话者表示。
本文描述的主题的一些实施方式可以包括一种计算机装置。该计算装置可以包括一个或者多个计算机处理器和存储有指令的一个或者多个计算机可读介质,该指令在由一个或者多个处理器执行时使得执行操作。该操作可以包括:在计算装置处接收表征计算装置的用户的话语的数据;在计算装置处通过使用计算装置上的神经网络来生成话语的说话者表示,其中,已经基于多个训练样本训练了多个神经网络,该多个训练样本中的每个:(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)根据第一话语的说话者是否与一个或者多个第二话语的说话者相同而被标记为匹配样本或者非匹配样本;在计算装置处访问计算装置的授权用户的说话者模型;以及在计算装置处相对于说话者模型对话语的说话者表示进行评估以确定话语是否可能由计算装置的授权用户说出。
可以通过从与不同说话者对应的多组话语中选择第一话语和一个或者多个第二话语来生成多个训练样本中的每个,从而使得每组话语仅由相应组话语的相应说话者的话语组成。
该操作可以进一步包括:获得计算装置的授权用户的话语集合;将该话语集合中的每个话语输入到神经网络中以生成话语的相应说话者表示;以及基于授权用户的话语集合中的话语的相应说话者表示的平均数来生成计算装置的授权用户的说话者模型。
训练神经网络所基于的多个训练样本中没有一个可以包括表征计算装置的用户的话语的数据。
在计算装置处生成话语的说话者表示可以包括:在单次通过所述神经网络时利用神经网络来处理表征整个话语的数据。
神经网络可以是循环神经网络。用户的话语可以具有第一时间长度。话语的说话者表示可以包括处理在话语的整个第一时间长度上表征话语的数据。该操作可以进一步包括:接收计算装置的用户的另一话语,该另一话语具有与第一时间长度不同的第二时间长度;以及通过处理在另一话语的整个第二时间长度上表征另一话语的数据来生成用户的另一话语的第二说话者表示。
该操作可以进一步包括:响应于确定用户的话语可能由计算装置的授权用户说出而在计算装置上执行功能。该功能可以包括:将计算装置的状态从锁定状态改变为解锁状态,其中,在锁定状态下,计算装置被配置为阻止对计算装置的一个或者多个能力的访问,其中,在解锁状态下,计算装置被配置为允许访问计算装置的一个或者多个能力。
说话者表示可以包括神经网络的输出,该输出指示基于话语确定的用户的声音的区别特征。
本文描述的主题的一些实施方式可以包括一种计算机实现的方法。该方法可以包括:在计算装置处接收表征计算装置的用户的话语的数据。可以使用计算装置上的神经网络来在计算装置处针对话语生成说话者表示。可以基于多个训练样本来训练神经网络,该多个训练样本中的每个:(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及(ii)根据第一话语的说话者是否与一个或者多个第二话语的说话者相同而被标记为匹配样本或者非匹配样本。可以在计算装置处针对计算装置的授权用户访问说话者模型。可以在计算装置处相对于说话者模型对话语的说话者表示进行评估以确定话语是否可能由计算装置的授权用户说出。
本文描述的主题的一些实施方式可以包括一种计算机实现的方法。该计算机实现的方法可以包括:基于第一话语集合的神经网络的输出来确定特定说话者的说话者模型,第一集合包括特定说话者的多个不同话语;基于不在第一话语集合中的特定话语的神经网络的输出来确定说话者表示;将说话者表示与特定说话者的说话者模型相比较以将特定话语分类为特定说话者的话语或者不同于特定说话者的说话者的话语;以及基于将话语分类为特定说话者的话语或者不同于特定说话者的说话者的话语是否正确来调整神经网络。
这些和其它实施方式可以包括以下特征中的一个或者多个。可以选择多个不同话语集合作为用于训练神经网络的训练数据。每个话语集合可以包括:(i)相应话语集合的第一说话者的多个不同第一话语,以及(ii)相应话语集合的第一说话者或者相应话语集合的不同于第一说话者的第二说话者的第二话语。多个不同话语集合可以用于迭代地训练神经网络。多个不同话语集合中的每个可以用于训练神经网络的不同训练迭代。可以从多个不同话语集合中选择第一话语集合,其中,特定说话者是第一话语集合的第一说话者。
本文描述的主题的进一步实施方式可以包括配置为执行编码在计算机存储装置上的方法的动作的相应系统、设备和计算机程序。可以通过安装在系统上的在操作中使系统执行动作的软件、固件、硬件、或者它们的组合来如此配置一个或者多个计算机的系统。可以通过具有指令来如此配置一个或者多个计算机程序,该指令在由一个或者多个数据处理设备执行时使设备执行动作。
本文描述的主题的一些实施方式可以实现以下优点中的零个、一个、或者多个。可以训练神经网络以生成用于说话者验证模型的说话者表示,该说话者验证模型能够基于用户的声音的特点来更准确地验证说话者的身份。可以利用紧凑型神经网络来实现目标性能水平,该紧凑型神经网络可以存储在具有有限计算资源的移动计算装置上并且在该移动计算装置上使用。此外,可以按照模拟说话者验证过程的验证和登记阶段的方式来训练神经网络。同样,由于在说话者验证过程的训练阶段与验证和登记阶段之间的对称性,神经网络可以实现更好的性能。与涉及训练神经网络以将输入分类为属于若干预选说话者中的特定说话者的其它方法相比较,根据本文描述的方法来训练神经网络的一个益处在于:更大数量和更多种类的说话者可以用于训练网络。此外,可能不存在每个训练说话者确保可靠的训练所需的最小数量的训练话语。此外,可以将神经网络配置为:在单次通过神经网络时,处理表征整个话语的数据,而不需要在单独的通过时处理通过神经网络的话语的帧。上面提及的方面可以有助于对话语是否可能由计算装置的授权用户说出进行评估。这些方面可以使这种评估特别可靠。这可以至少通过减少在对话语是否由特定人员(诸如,计算装置的授权用户)说出进行评估时的错误来形成更有效的声音识别系统。高可靠性可以增加与上面提及的方面相关联的更广泛的系统的安全性。例如,在方面用于识别授权用户并且作为响应,将计算装置的状态从锁定状态改变为解锁状态的情况下,上面提及的错误的减少使计算装置的解锁更加安全。实际上,系统的高可靠性可以使计算装置不易受到来自非授权用户的欺诈性解锁尝试的攻击。错误的减少还可以减少错误纠正的需要,转而,可以减少将计算资源分配给错误纠正的需要。这对计算机资源可能更有限的移动计算装置可能特别有益。
附图说明
图1描绘执行操作以(i)训练神经网络、(ii)在计算装置处登记用户、以及(iii)基于用户的声音的区别特征来验证计算装置的用户的话语的示例客户端装置和计算系统的示意图。
图2描绘用于训练神经网络以确定用于说话者验证任务的说话者表示的示例系统的框图。
图3描绘训练神经网络以确定指示声音的区别特点的说话者表示的示例过程的流程图。
图4A是图示在话语池内不同说话者的话语组中对训练话语子集的示例选择的概念图。
图4B是图示在话语池中对用于训练神经网络的一批训练数据的示例选择的概念图。
图5A描绘配置为处理表征话语的至少一部分的数据并且基于该表征话语的至少一部分的数据来生成说话者表示的示例深度神经网络的框图。
图5B描绘具有配置来用于说话者验证模型的长短期记忆层的示例循环神经网络的框图。
图6描绘使用计算装置上的神经网络来基于从用户的话语确定的用户的声音的特点来验证用户的身份的示例过程的流程图。
图7描绘可以用于执行该计算机实现的方法和本文描述的其它技术的计算装置和移动计算装置的示例。
具体实施方式
图1是用于训练用于说话者验证模型的神经网络并且通过使用模型来执行说话者验证过程的示例系统100的示意图。一般而言,说话者验证是基于说话者的声音的特点(如从说话者的一个或者多个话语确定的)来接收或者拒绝说话者的身份要求的任务。如在图1中描绘的,说话者验证通常可以包括三个阶段,即:(i)训练用于说话者验证模型的神经网络、(ii)登记新的说话者、以及(iii)验证登记的说话者。
系统100包括:客户端装置110、计算系统120和网络130。在一些实施方式中,计算系统120可以基于训练的神经网络140来向客户端装置110提供说话者验证模型144。在一些实施方式中,可以将说话者验证模型144预先安装在客户端装置110上,例如,作为操作系统或者应用的组件。在其它实施方式中,可以通过网络130来接收说话者验证模型144。客户端装置110可以使用说话者验证模型144来将用户102登记到说话者验证过程。当稍后需要验证用户102的身份时,客户端装置110可以接收用户102的语音话语以使用说话者验证模型144来验证用户102的身份。因为可以将说话者验证模型144本地存储在客户端装置110处,所以,客户端装置110或许能够在没有通过网络130的通信的情况下进行说话者验证判定。
虽然在图1中未示出,但是在一些实施方式中,不是将神经网络140存储在客户端装置110上或者除了将神经网络140存储在客户端装置110上之外,计算系统120可以基于训练的神经网络140来存储说话者验证模型144。在这些实施方式中,客户端装置110可以经由网络130与计算系统120进行通信以针对用户102的登记来远程访问并且使用说话者验证模型144。当稍后需要验证用户102的身份时,客户端装置110可以接收用户102的语音话语,并且可以经由网络130与计算系统120进行通信以使用位于远程的说话者验证模型144来验证用户102的身份。计算系统120和计算装置110可以不同并且在物理上彼此分开。
在系统100中,客户端装置110可以是:例如,台式计算机、膝上型计算机、平板计算机、手表、可穿戴计算机、蜂窝电话、智能电话、音乐播放器、电子书籍阅读器、导航系统、或者用户可以与其进行交互的任何其它合适的计算装置。在一些实施方式中,客户端装置110可以是移动计算装置。计算系统120可以包括一个或者多个计算机,并且可以在计算机中的单个计算机上执行功能,或者可以分布功能以便在多个计算机上执行。网络130可以是有线的或者无线的或者两者的组合,并且可以包括互联网。
在一些实施方式中,客户端装置110(诸如,用户的电话)可以将说话者验证模型144本地存储在客户端装置110上,从而允许客户端装置110针对登记或者验证过程验证用户的身份,而不依赖于在远程服务器(例如,计算系统120)处的模型,并且因此,可以节省通信带宽和时间。此外,在一些实施方式中,当登记一个或者多个新用户时,此处描述的说话者验证模型144不需要使用新用户对说话者验证模型144进行任何重新训练,这在计算上也可以是有效率的。在其它实施方式中,可以将针对登记、验证或者两者提供的给定用户的话语提供至计算系统120并且将其添加至训练数据,从而使得可以使用新采集到的训练数据来定期更新神经网络(并且因此,说话者验证模型)。
希望说话者验证模型144(包括训练的神经网络140)的大小是紧凑的,因为计算装置110上的存储和记忆空间可能是有限的。如下面描述的,说话者验证模型144基于训练的神经网络140。说话者验证模型144可以包括神经网络140以基于表征话语的数据来生成指示话语的说话者的声音的区别特征的说话者表示。说话者验证模型144可以包括用于处理说话者表示并且确定话语的说话者的声音是否与登记的用户的声音足够相似的其它组件,从而使得可以验证话语的说话者的身份要求。
在一些实施方式中,可以使用大量训练数据来训练神经网络。可以在训练数据的预处理期间、在训练本身期间、或者在训练后阶段期间应用各种技术来实施和/或减小神经网络的大小以实现紧凑的模型大小。例如,可以通过仅选择神经网络140的某些层来构成说话者验证模型144,这可能导致形成适合于存储在客户端装置110上的紧凑型说话者验证模型。在生成说话者模型的说话者表示时可以在没有softmax或者其它分类层的情况下执行登记。
图1还图示了在阶段(A)至阶段(F)中出现的示例数据流。阶段(A)至阶段(F)可以按照图示的顺序发生,或者它们可以按照与图示的顺序不同的顺序发生。在一些实施方式中,阶段(A)至阶段(F)中的一个或者多个阶段可以离线地发生,其中,计算系统120可以在客户端装置110未连接至网络130时执行计算。阶段(A)和阶段(B)通常在上面提及的训练阶段期间发生。阶段(D)通常在登记阶段期间发生。阶段(E)至阶段(G)通常在验证阶段期间发生。
在阶段(A)中,计算系统120选择训练话语样本以提供至神经网络140用于神经网络140的监督训练。在一些实施方式中,训练样本122中的话语均可以由许多不同的训练说话者说出的一个或者多个预定词组成,先前已经记录了该话语并且使其可访问以供计算系统120使用。每个训练说话者可以向计算装置说出预定话语,并且计算装置可以记录包括话语的音频信号。例如,可以提示每个训练说话者说出训练短语“你好,电话”。在一些实施方式中,可以提示每个训练说话者多次说出同一训练短语。可以将每个训练说话者的记录的音频信号传输至计算系统120,并且计算系统120可以从许多不同的计算装置和许多不同的训练说话者收集记录的音频信号。在一些实施方式中,由于可以基于从预定义的训练短语的话语确定的用户的语音的特点来验证用户的身份,因此,可以针对文本相关的说话者验证来优化神经网络140。在这种实施方式中,可以基于全部或者基本上全部包括预定义的训练短语的话语训练神经网络140。在其它实施方式中,由于可以基于从各种词或者短语的(可以不是预定义的)话语确定的用户的声音的特点来验证用户的身份,因此,可以训练神经网络140以允许进行文本无关的说话者验证。例如,用户可以独立地决定他或者她希望说出哪些词或者短语来验证他的或者她的身份,并且基于训练的神经网络140的说话者验证模型然后可以在给定说出的词或者短语的情况下认证用户。为了允许进行文本无关的说话者验证,可以基于由许多不同的训练说话者说出的各种词或者短语中的话语训练神经网络140。
在阶段(B)中,可以按照与在客户端装置处登记和验证用户并行的方式来训练神经网络140。因此,计算系统120可以在每个训练样本122中选择模拟登记话语122b和模拟验证话语122a的集合。模拟等记话语122b可以全部都是相同训练说话者的话语,从而使得可以为每个训练样本122确定模拟说话者模型。模拟验证话语122a可以是与模拟登记话语122b的说话者相同的说话者的话语,或者可以是不同说话者的话语。然后可以将训练样本122提供至神经网络140,并且关于模拟验证话语122a是否由与模拟登记话语122b的说话者相同的说话者说出或者由与模拟登记话语122b的说话者不同的说话者说出,可以基于神经网络140的输出来进行分类。然后可以基于说话者确定是否正确来更新神经网络140。在一些实施方式中,可以将每个训练样本122标记为属于两个类别中的一个:匹配说话者类别141a(对于模拟验证和登记话语的说话者相同的样本)和不匹配说话者类别141b(对于模拟验证和登记话语的说话者不同的样本)。这些标签指示同一说话者是否说出话语122a和话语122b的基本事实。可以基于样本的标签来确定训练样本122的分类的正确性。在一些实施方式中,对神经网络的调整可以不严格地基于输入样本的分类的正确性,而是通常可以基于从由神经网络针对模拟验证话语122a和模拟登记话语122b生成的说话者表示的比较确定的一个或者多个度量。在一些实施方式中,可以从可以被组织成话语池121的训练数据储存库中选择训练样本122。话语池121中的每个可以包括由话语的训练说话者分组的训练话语。
神经网络140可以包括用于输入有关在训练样本122中的话语的信息的输入层和用于处理样本122的若干隐藏层。可以调整一个或者多个隐藏层的权重或者其它参数,从而使得训练的神经网络140产生输出,该输出使说话者验证模型144在样本122中的模拟验证和登记话语中生成如具有匹配或者非匹配说话者的对训练样本122的期望分类。在一些实施方式中,神经网络140的参数可以由计算系统120自动地调整。在一些其它实施方式中,可以由计算系统120的操作员来手动调整神经网络140的参数。例如,下面将在图2、图3、图4A至图4B、以及图5A至图5B的描述中更详细地描述神经网络的训练阶段。
在阶段(C)中,一旦已经训练了神经网络140,例如,就通过网络130将基于训练的神经网络140的说话者验证模型144从计算系统120传输至客户端装置110。在一些实施方式中,训练的神经网络140或者其一部分可以是说话者验证模型144的组件。可以将说话者验证模型144配置为基于从用户102的一个或者多个话语确定的用户的声音的特点来验证用户102的身份。可以将模型144配置为将表征用户102的话语的数据作为输入提供至训练的神经网络140,以生成用户102的指示用户的声音的区别特征的说话者表示。然后可以将该说话者表示与先前已经确定的用户的声音的模型相比较。如果说话者表示与用户的说话者模型足够相似,则说话者验证模型144可以输出用户102的身份有效的指示。相反,如果说话者表示与用户的说话者模型不够相似,则说话者验证模型144可以输出用户102的身份无效(未验证)的指示。
在阶段(D)中,期望向客户端装置110登记他的或者她的语音的用户102在登记阶段向客户端装置110提供一个或者多个登记话语152。通常,用户102不是其声音用于训练神经网络140的训练说话者中的一个训练说话者。在一些实施方式中,客户端装置110可以提示用户说出与在训练样本122的话语中由训练说话者集合说出的短语相同的登记短语。在一些实施方式中,客户端装置110可以提示用户多次说出登记短语,并且可以将说出的登记话语的音频信号记录为登记话语152。
客户端装置110使用登记话语152来将用户102登记在客户端装置110的说话者验证系统中。通常,在不重新训练神经网络140的情况下完成用户102的登记。可以在许多不同的客户端装置处使用相同说话者验证模型144的各个实例,并且相同说话者验证模型144的各个实例可以用于登记许多不同的说话者,而不需要改变神经网络140中的权重值或者其它参数。因为说话者验证模型144可以用于在不重新训练神经网络140的情况下登记任何用户,所以,可以在有限的处理要求下在客户端装置110处执行登记。
在一些实施方式中,将有关登记话语152的信息输入至说话者验证模型144,并且说话者验证模型144可以输出参考向量或者与用户102相对应的值的其它集合。参考向量或者值的其它集合可以构成表征用户的语音的区别特征的说话者模型。可以将说话者模型存储在客户端装置110上,或者存储在远离客户端装置110的计算系统处,从而使得可以将基于稍后由客户端装置110接收到的话语生成的说话者表示与说话者模型相比较以验证稍后接收到的话语的各个说话者是否是用户102或者其他说话者。
在阶段(E)中,用户102尝试使用声音认证来访问客户端装置110。用户102在验证阶段向客户端装置110提供验证话语154。在一些实施方式中,验证话语154是说出的与登记话语152相同短语的话语。验证话语154用作说话者验证模型144的输入。
在阶段(F)中,客户端装置110确定用户的语音是否与登记的用户的声音匹配。在一些实施方式中,神经网络140可以处理表征验证话语154的数据,并且可以基于验证话语154来输出用户102的说话者表示。在一些实施方式中,客户端装置110可以将用户102的说话者表示与登记的用户的说话者模型相比较以确定验证话语154是否由登记的用户说出。例如,下面针对图6更详细地描述神经网络的验证阶段。
在阶段(G)中,客户端装置110向用户102提供表示验证结果156的指示。在一些实施方式中,如果客户端装置110已经接受用户102的身份,则客户端装置110可以向用户102发送验证成功的视觉或者音频指示。在一些其它实施方式中,如果客户端装置110已经接受了用户102的身份,则客户端装置110可以提示用户102进行下一输入。例如,客户端装置110可以在显示器上输出消息“装置启用,请输入您的搜索”。在一些其它实施方式中,如果客户端装置110已经接受了用户102的身份,则客户端装置110可以执行后续动作,而不等待来自用户102的进一步输入。例如,用户102可以在验证阶段期间向客户端装置110说出“你好,电话,搜索最近的咖啡店”。客户端装置110可以使用验证短语“你好,电话”来验证用户102的身份。如果用户102的身份被接受,则客户端装置110可以执行对最近的咖啡店的搜索,而不要求用户102进行进一步输入。通常,在一些实施方式中,如果客户端装置110已经接受了用户102的身份,则客户端装置110可以通过从客户端装置110的一个或者多个能力被禁用或者被阻止的锁定状态转变为能力被启用或者使得能力对用户102访问可用的解锁状态来做出响应。类似地,响应于成功验证,客户端装置110可以“唤醒”或者从低功率状态转变到更全功能的状态。
在一些实施方式中,如果客户端装置110已经拒绝了用户102的身份,则客户端装置110可以向用户102发送验证被拒绝的视觉或者音频指示。在一些实施方式中,如果客户端装置110已经拒绝了用户102的身份,则客户端装置110可以提示用户102进行另一话语尝试。在一些实施方式中,如果尝试次数超过阈值,则客户端装置110可以阻止用户102进一步尝试验证他的或者她的身份。
转向图2,该图2是图示用于训练神经网络206的示例系统200的框图。在完成图2图示的训练阶段时,训练的神经网络206或许能够处理表征说话者的话语的数据,并且生成说话者的指示说话者的声音的区别特征的说话者表示。然后,在登记阶段期间生成说话者的说话者模型、或者在验证阶段期间验证说话者的身份时,该说话者表示可以由说话者验证模型使用。
大体上,图2图示了可以按照与稍后在执行说话者验证任务的客户端装置处发生的登记和验证阶段并行的方式来训练神经网络206。与训练神经网络206以将来自有限数量的说话者的训练话语分类到说话者中的每个的相应类别的一些方法不同,不为确定给定话语的特定说话者而训练图2中的神经网络206。相反,训练神经网络206以生成说话者表示,该说话表示是独特的并且可用于确定给定话语的说话者是否与另一话语集合的说话者相同,而不必将话语中的任何话语与特定说话者身份匹配。按照这种方式,在训练期间优化的损失函数是说话者验证模型在验证阶段期间利用的相同函数。换句话说,在验证期间,将基于验证话语的说话者表示与登记的用户的说话者模型相比较。如果说话者表示与说话者模型足够相似,则验证验证话语的说话者的身份。在图2中描绘的方法在训练期间采用类似的技术。即,基于一个或者多个登记话语的说话者表示来生成模拟说话者模型214,并且还为模拟验证话语202生成说话者表示208。在训练期间调整神经网络206的权重值和其它参数以最小化在将模拟验证话语202分类为由与模拟登记话语204a至204n相同或者不同的说话者说出时发生的错误。
图2描绘了基于训练数据样本(包括表征模拟验证话语202的数据和表征一个或者多个模拟登记话语204a至204n的数据)的单个训练迭代的正向通过。实际上,通过许多迭代和许多不同的训练数据样本来训练神经网络206。对于每个迭代,可以基于处理用于相应迭代的相应训练数据样本的结果来调整神经网络206。下面进一步描述的图4A和图4B描绘了通过其可以选择模拟验证话语202和模拟登记话语204a至204n的示例技术。特定样本的模拟登记话语204a至204n通常都是由相同训练说话者说出的话语。虽然模拟登记话语204a至204n的说话者可以在用于不同训练迭代的不同训练数据样本中是不同的,但是在用于给定训练迭代的给定训练样本内,登记话语204a至204n中的所有登记话语通常由相同的训练说话者说出。模拟验证话语202可能已经由与模拟登记话语204a至204n的说话者相同的训练说话者说出,或者可能已经由与模拟登记话语204a至204n的说话者不同的训练说话者说出。对于说话者在模拟验证话语202和模拟登记话语204a至204n两者中是相同的训练数据样本,可以将该样本标记为“匹配”样本。对于说话者在模拟验证话语202和登记话语204a至204n中是不同的训练数据样本,可以将该样本标记为“非匹配”样本。标签可以表示训练样本的真实分类,并且可以在训练之前的预处理阶段中确定。在一些实施方式中,可以将基于神经网络206的输出的对训练样本的估计分类与由训练样本的标签指示的真实分类相比较以确定是否调整神经网络206。
在一些实施方式中,在训练样本中的数据可能不是模拟验证和登记话语202、204a至204n的原始音频信号。相反,话语202、204a至204n可能已经被处理并且被转换为用于由神经网络206进行处理的适当格式。例如,在训练样本中的数据可以表征模拟验证和登记话语202、204a至204n的各个特征,而不是原始音频信号本身。在一些实施方式中,表示训练样本中的模拟话语202、204a至204n中的每一个的数据可以包括用于相应话语的一个或者多个对数滤波器组。在一些实施方式中,可以在时间上将每个话语分段成话语的多个帧,并且可以为话语的每个帧生成单独的对数滤波器组。例如,可以用,例如,四十个对数滤波器组来表示话语的每个帧。
在一些实施方式中,可以通过神经网络206来一次(即,在单次通过中)处理表征模拟验证话语202的数据和表征模拟登记话语204a至204n中的每一个的数据。因此,即使将用于给定话语的训练数据分段成均由相应对数滤波器集合表示的多个帧,也可以将表征整个话语的所有帧的数据输入到神经网络206中(例如,作为每个具有40个对数滤波器组的80个帧的80×40特征向量)以便在单次通过神经网络时进行处理。这与将用于话语的每个帧的数据单独输入到神经网络206中以便对帧进行单独处理形成对比。在其它实施方式中,可以将表征话语202、204a至204n的单独的帧的数据作为输入提供至神经网络206,而不是训练神经网络206以在单次通过神经网络206时处理表征每个话语202、204a至204n的整体的数据。
在一些实施方式中,可以根据一种或者多种附加技术来预处理模拟验证和登记话语202、204a至204n。例如,神经网络206的结构可能需要训练话语都具有固定长度(例如,0.8秒的音频)。因此,话语202、204a至204n中的至少一些可以是将较长的话语剪裁成统一长度、和/或填充一些较短的话语以制作较长的剪辑的结果。然而,在其它实施方式中,神经网络206或许能够处理可变长度的话语,在这种情况下,训练数据中的话语202、204a至204n可能不被裁剪或者填充成固定长度。话语202、204a至204n的音频也可能已经被均衡,并且可能已经添加了噪声或者从训练话语202、204a至204n中去除了噪声以确保神经网络被训练成在存在噪声的情况下稳健地执行。
由于表征多个模拟登记话语204a至204n的数据用于生成模拟登记话语204a至204n的特定训练说话者的模拟说话者模型214,因此,系统200的在虚线框215内的部分模拟说话者验证过程的登记阶段。在神经网络206的输入层处将表征模拟登记话语204a至204n中的每一个的相应数据单独输入到神经网络206中。神经网络206通过一个或者多个隐藏层来处理数据,并且为模拟登记话语204a至204n中的每一个生成相应说话者表示210a至210n。例如,如在图2中示出的,由神经网络206基于模拟登记话语1(204a)来生成说话者表示1(210a)。同样,由神经网络206基于模拟登记话语2(204b)来生成说话者表示2(210b)。因此,对于模拟登记话语204a至204n中的每一个,可以由神经网络206来生成说话者表示。在一些实施方式中,通过经由神经网络206串行地处理模拟登记话语204a至204n中的每一个来生成说话者表示210a至210n。在一些实施方式中,对于模拟登记话语204a至204n中的每一个,可以通过利用神经网络206的各个实例并行处理表征204a至204n的数据来同时生成说话者表示210a至210n。如由神经网络206基于模拟登记话语204a至204n中相应的一个话语确定的,说话者表示210a至210n通常均包括表示模拟登记训练说话者的声音的区别特点的值的类集。在一些实施方式中,说话者表示210a至210n可以指示神经网络206的最后一个隐藏层的权重值或者其它参数。在一些实施方式中,当将神经网络206配置为没有softmax输出层时,说话者表示210a至210n可以是神经网络206的最终输出。
如在图2的框212中示出的,为了生成模拟说话者模型214,可以计算说话者表示210a至210n的平均数。因此,模拟说话者模型214可以定义表示模拟登记话语204a至204n的训练说话者的声音的区别特点的值的类集。通过计算多个说话者表示210a值210n的平均数以确定模拟说话者模型214,可以使在不同模拟登记话语204a至204n中的说话者的语音变化流畅。因此,模拟说话者模型214可以是说话者的声音的比单独的说话者表示210a至210n中的任何一个更可靠的表示,该单独的说话者表示210a至210n可以单独地反映给定模拟登记话语204a至204n的特质。
在一些实施方式中,在用于每个训练迭代的每个训练数据样本中的模拟登记话语204a至204n的总数可以发生变化。例如,用于第一训练迭代的第一训练样本可以包括9个模拟登记话语204a至204n。然而,用于第二训练迭代的第二训练样本可以仅包括4个模拟登记话语204a至204n。在其它实施方式中,可以固定用于每个训练迭代的每个训练数据样本中的模拟登记话语204a至204n的总数。例如,可以通过一系列迭代来训练神经网络206,在该一系列迭代中,用于每个迭代的训练数据集合包括总共5个模拟登记话语204a至204n。在一些实施方式中,可以利用只包括单个模拟登记话语204a至204n的训练样本来执行训练迭代中的一个、一些、或者全部。
按照从表征模拟登记话语204a至204n的数据来生成说话者表示210a至210n的相同方式,可以从表征模拟验证话语202的数据生成说话者表示208。可以将表征模拟验证话语202的数据(例如,表征验证话语202的特征的对数滤波器组值)提供至神经网络206的输入层。神经网络206然后通过网络的一个或者多个隐藏层来处理输入。神经网络206的输出是说话者表示208,该说话者表示208定义指示说出模拟验证话语202的说话者的声音的区别特点的值的类集。
为了进一步使在神经网络206的训练期间的验证阶段并行,例如,可以通过在验证时期期间的说话者验证模型按照将在客户端装置上发生的相同方式来将基于模拟验证话语202的说话者表示208与模拟说话者模型214相比较。在一些实施方式中,可以通过采取(1)定义模拟说话者表示208的值的类集的第一向量和(2)定义模拟说话者模型214的值的类集的第二向量的余弦距离(如在框216中示出的)来执行比较。然后可以向距离应用逻辑回归218以估计说出模拟验证话语202的训练说话者是否与说出模拟登记话语204a至204n的训练说话者相同或者不同。对于匹配说话者类别,这在图2中用第一个框220a来表示,而对于非匹配说话者类别,用第二个框220b来表示。在一些实施方式中,可以应用不同于逻辑回归218的分类技术关于说出模拟登记话语202的训练说话者是否与说出模拟登记话语204a至204n的训练说话者相同或者不同进行确定。例如,在一些替代方案中,铰链(hinge)层或者softmax层可以用于进行分类。在图2中示出的两类模型中,softmax和逻辑回归技术可以使用相同或者相似的优化函数。
如由框222表示的,然后可以基于模拟验证话语202的说话者表示208与模拟说话者模型214的比较结果来调整神经网络206的权重值或者其它参数。例如,如果将训练样本标记为真实具有非匹配说话者、将训练样本错误地分类为具有匹配说话者,则可以自动调整神经网络206以纠正错误。更一般地,可以优化神经网络206以最大化匹配说话者样本的相似度得分或者优化由逻辑回归输出的得分,并且还可以优化神经网络206以最小化非匹配说话者样本的相似度得分或者优化由逻辑回归输出的得分。在一些实施方式中,对神经网络206的调整可以响应于用于每个训练迭代的每个训练样本的结果而发生,或者可以基于训练迭代中的仅一些的结果来调整神经网络206。在一些实施方式中,可以调整神经网络206以最大化在非匹配说话者的说话者表示208与模拟说话者模型214之间的距离(即,最大化差值),同时最小化在匹配说话者的说话者表示208与模拟说话者模型214之间的距离(即,最小化差值)。注意,在一些实施方式中,在训练阶段期间,可能不进行将训练样本分类为属于匹配说话者类别220a或者非匹配说话者类别220b的硬判定。相反,可以按照优化由逻辑回归层218输出的得分或者优化一个或者多个其它度量的方式来调整神经网络206。
现在参照图3,图3是示出训练可以用于说话者验证模型的神经网络的示例过程300的流程图。在一些实施方式中,可以由本文描述的计算系统(诸如,来自图1的计算系统120和来自图2的计算系统200)来执行过程300。
过程300从阶段302开始,在阶段302中,选择第一训练数据集合(即,第一训练样本)。该第一训练数据集合可以包括表征模拟验证话语的数据和表征一个或者多个模拟登记话语的数据。由于在训练集合中的话语被按照在训练时期期间使说话者验证的登记和验证阶段并行或者“模拟”说话者验证的登记和验证阶段的方式用于训练过程,因此,它们是“模拟的”。然而,这些话语本身通常是记录的由训练说话者说出的话音的实际片段。训练说话者通常不是在说话者验证过程的实际登记和验证阶段期间提供话语的相同说话者。下面进一步描述的图4A和图4B描绘了用于选择模拟验证和登记话语的示例技术。
可以根据选择的训练数据集合(即,选择的样本)是否表示匹配说话者的语音或者非匹配说话者的样本来标记选择的训练数据集合(即,选择的样本)。如果模拟验证话语的说话者与模拟登记话语的说话者相同,则将训练数据集合标记为匹配说话者样本。如果模拟验证话语的说话者与模拟登记话语的说话者不同,则将训练数据集合标记为非匹配说话者样本。在一些实施方式中,稍后可以在训练过程300中使用标签以确定对训练数据集合作为匹配或者非匹配样本的估计分类是否准确。
在一些实施方式中,选择的训练数据集合可以不包括模拟验证和登记话语的原始音频信号,而是包括表征话语的特征的数据。例如,可以由针对话语的固定长度的帧确定的对数滤波器组集合来表征在训练数据集合中表示的每个话语。然后可以将话语的每个帧的对数滤波器组连结成作为输入提供至神经网络并且表征整个话语的输入值的单个集合。
在过程300的阶段304和306中,对于在第一训练数据集合中表征的话语中的每个话语确定说话者表示。说话者表示均可以是指示针对相应说话者表示说出相应话语的训练说话者的声音的区别特征的值的类集。例如,可以基于模拟验证话语来生成第一说话者表示,并且可以基于模拟登记话语中的每一个来生成相应第二说话者表示。为了生成说话者表示,将表征话语的数据提供至被训练的神经网络的输入层。然后,神经网络通过网络的一个或者多个隐藏层来处理输入数据。说话者表示就是神经网络的输出。在一些实施方式中,在不是softmax层的输出层处输出该输出。提供输出的最终层可以是全连接线性层。在一些实施方式中,说话者表示可以包括在神经网络的最后一个隐藏层处生成的值或者神经网络的最后一个隐藏层的激活,而不是sofmax输出层的输出。在一些实施方式中,可以将神经网络配置为不具有softmax输出层。
在阶段308中,组合与模拟登记话语相对应的说话者表示以创建模拟说话者模型。模拟说话者模型可以是模拟登记话语的说话者表示的平均值。通过计算说话者表示的平均值,可以确定表征训练说话者的声音的可靠模型。例如,可以使说话者说出模拟登记话语中的每个的方式变化流畅,从而使得可以使用与模拟验证话语的说话者表示进行比较的稳健基线。在一些实施方式中,过程300可以仅选择模拟登记话语的说话者表示的子集以在生成模拟说话者模型时进行组合。例如,可以确定模拟登记话语或者相应的模拟登记话语中的每一个的质量的量度。然后,过程300可以仅选择满足阈值质量得分的那些说话者表示、或者其相应话语满足阈值质量得分的那些说话者表示以包括在用于生成模拟说话者模型的表示集合中。
在阶段310中,将模拟验证话语的说话者表示与模拟说话者模型相比较。在一些实施方式中,使用二元分类器来将数据样本分类为表示匹配说话者或者不表示匹配说话者。在一些实施方式中,比较可以包括确定在模拟验证话语的说话者表示与模拟说话者模型之间的相似性程度。例如,相似性程度可以是在说话者表示的值的向量与模拟说话者模型的值的向量之间的余弦距离。然后相似性程度可以用于将对第一训练数据集合的分类估计为匹配说话者样本或者非匹配说话者样本。例如,如果相似性量度足够高(例如,满足阈值相似度得分),则可以使用逻辑回归来将训练数据集合映射至匹配说话者类别。另一方面,如果相似性量度太低(例如,不满足阈值相似度得分),则可以使用逻辑回归来将训练数据集合映射至非匹配说话者类别。
接下来,在阶段312中,可以基于在阶段310中的在模拟验证话语的说话者表示与模拟说话者模型之间的比较的结果来调整神经网络的一个或者多个参数。例如,如果将训练数据标记为非匹配说话者样本,则可以调整隐藏层中的各个节点的权重或者神经网络的其它参数以增加在说话者表示与模拟说话者模型之间的距离(减小相似度得分)。此外,如果将训练数据标记为匹配说话者样本,则可以调整神经网络的权重或者其它参数以减少在说话者表示与模拟说话者模型之间的距离(增加相似度得分)。通常,因为训练过程300的每个迭代旨在模拟相应登记阶段和相应验证阶段,所以,可以调整神经网络以在说话者验证期间优化与在实际登记和验证阶段期间应用的损失函数相同的损失函数。该方法的一个益处是,训练神经网络以更好地生成可以用于说话者验证模型更精确地验证说话者的身份的说话者表示。例如,在一些实施方式中,在当训练神经网络时没有考虑的话语的实际验证期间不采取附加后处理步骤。因此,可以认为这些技术是用于训练神经网络的“端对端”方法。
最后,在阶段314中,针对训练神经网络的另一迭代选择下一训练数据集合。再次,在该阶段中选择的训练数据集合可以包括表征模拟验证话语的数据和表征一个或者多个模拟登记话语的数据。过程300然后可以重复阶段304至312,并且继续选择用于附加训练迭代的训练数据集合直到达到限制。在一些实施方式中,限制可能由于使所有可用训练数据到期而引起。在一些实施方式中,过程300可以继续,直到达到目标性能水平。例如,在若干训练迭代之后,可以针对在训练过程300期间未使用的数据留存集合测试神经网络。训练可以继续,直到对留存集合的测试指示神经网络至少达到了目标性能水平。
现在参照图4A和图4B,该图4A和图4B是示出用于选择训练数据集合以用于训练说话者验证模型的神经网络的示例技术的示意图。在一些实施方式中,针对图4A和图4B描述的技术可以确保在许多训练迭代中选择的训练话语的多样性,这可以导致更好地执行给定数量的训练话语的神经网络。
在一些实施方式中,可以将可用训练话语中的全部或者一部分聚集为多个组410a至410n。可以将该组410a至410n进一步布置到包括训练话语组的类集的话语池408中。在一些实施方式中,可以按照说话者来对训练话语进行分组。例如,组410a包括全部都由第一说话者说出的多个话语,而组410n包括全部都由另一说话者说出的多个话语。因此,组410a至410n中的每个组可以与不同的说话者对应。组410a至410n可以都包含相同数量的训练话语,或者训练话语的数量可以在组410a至410n中的不同组中发生变化。
对于每个训练迭代,可以访问话语池408,并且可以为将作为输入在相应训练迭代中应用的训练数据样本选择特定话语。例如,图4A示出了作为输入样本402从用于训练迭代的话语池408中随机选择的一个训练数据集合。可以从话语池408中的组410a至410n中选择与第一说话者对应的第一组话语以便用于生成模拟说话者模型。可以随机或者按照其它方式来选择组。从选择的组(例如,图4A中的组410a)中,选择第一说话者的话语的子集作为输入样本402中的模拟登记话语406。该子集通常包括多个话语,并且可以包括与从一个训练迭代到另一训练迭代的相同或者不同数量的话语。可以随机选择来自己选择的组(例如,组410a)的话语,从而使得在不同训练迭代中使用话语的不同组合来生成第一说话者的不同模拟说话者模型。
还可以选择话语404作为模拟验证话语。根据训练迭代是否是与登记话语406匹配或者非匹配的示例,话语404可以是第一说话者或者不同说话者的话语。匹配和非匹配示例都用于训练。因此,对于一些训练迭代,话语404是第一说话者的话语,例如,组410a中的话语。如在图4A中示出的,对于其它训练迭代,话语404是与第一说话者不同的第二说话者的话语,从而使得输入样本402不表示模拟验证话语404与模拟登记话语406之间的匹配。
在图4A的示例中,从第二组话语410n中选择(例如,随机选择)特定话语作为模拟验证话语404。在一些实施方式中,可以从话语池408中的组410a至410n中随机选择或者根据变化选择组410a至410n的模式来选择第二组话语(从该第二组话语中选择话语404)。在其它实施方式中,可以进行随机选择以确定是否应该应用来自与模拟登记话语的说话者相同的说话者的另一话语作为模拟验证话语。因此,或许偏向随机选择,从而使得模拟验证话语404将是与模拟登记话语406的说话者相同的说话者的话语的概率为百分之五十。如果随机选择的结果是输入样本402将是匹配说话者样本,则可以从与选择模拟登记话语406的话语组相同的话语组410中选择模拟验证话语404。但是,如果随机选择的结果是输入样本402将是非匹配说话者样本,则可以从与选择模拟登记话语406的话语组不同的话语组410中选择模拟验证发言404,该话语组410与不同说话者对应。
通常,由图4A指示的选择技术可以允许将来自说话者的不同组合的话语应用在不同的训练迭代中。例如,在第一训练迭代中,模拟登记话语可能已经由第一说话者说出,并且模拟验证话语也可能已经由第一说话者说出。在第二训练迭代中,模拟登记话语可能已经由第二说话者说出,并且模拟验证话语可能已经由第三说话者说出。然后,在第三训练迭代中,模拟登记话语可能已经由第一说话者说出,并且模拟验证话语可能已经由第二说话者说出。在一些实施方式中,可以采用如下选择算法,该选择算法不随机选择话语组410a至410n,而是按照在模拟验证和登记话语的说话者之间创建在输入样本402中的不同置换或者最大化在输入样本402中的置换数量的方式来确定性地选择话语组410a至410n。作为简单示例,如果来自三个不同训练说话者的三组话语A、B和C在话语池408中可用,则可以为九个训练迭代生成九个不同的输入样本402:(A、A)(A、B)、(A、C)、(B、A)、(B、B)、(B、C)、(C、A)、(C,B)、和(C、C)。训练迭代还可以利用这些相同的组配对来发生,但是在被选择的组内有不同的话语。
与涉及训练神经网络以将输入分类为属于若干预选说话者中的特定说话者的其它方法相比较,本文描述的训练方法的一个益处在于:更大数量和更多种类的说话者可以用于训练网络。此外,不存在每个训练说话者确保可靠的训练所需的最小数量的训练话语(除了实际用于每个训练说话者的一个或者多个话语之外),因为不是针对特定说话者训练网络,而是基于给定输入样本402在模拟验证和登记话语中是否具有匹配说话者或者非匹配说话者来训练网络。
图4B描绘用于在训练神经网络期间选择输入样本的话语的混洗技术的示意图400b。如在图中示出的,在一批训练样本中的样本都可以来自不同的池以获得在该批次训练样本中的更好混洗和话语多样性。混洗技术可以导致神经网络的更稳健和更可靠的训练。
转向图5A和图5B,该图5A和图5B是示出可以在说话者验证模型中采用的示例神经网络502、512的框图。在一些实施方式中,神经网络502、512中的任意一个可以用于实施针对图1至图4B以及图6描述的技术,包括针对图2至图4B描述的训练技术。
图5A中的深度神经网络502的架构包括局部连接层504,该局部连接层504之后是一个或者多个全连接隐藏层506a至506n。局部连接层504和全连接层506a至506n可以具有修正线性单元(ReLU)。网络502的最后一层是全连接线性层508,该全连接线性层508基于输入的话语(或者话语的帧)503a来输出说话者表示510a。在表示510a之前的最后一层502是线性层以将非负激活映射到全空间中,并且在一些实施方式中,确定投影。全空间是指ReLu激活可以是诸如,y=max(x,0)等函数的概念。因此,形成说话者表示的激活(y)可以总是正向量。如果通过线性激活函数y=x来改变这种激活函数,则可以将该说话者表示作为具有潜在正值和负值的向量。例如,当具有潜在负值的向量后面跟随余弦距离比较函数时,具有潜在负值的向量可以是更合适的说话者表示。
神经网络502的配置通常能够处理固定长度的训练话语或者话语的固定数量的帧。当训练神经网络502并且稍后在登记和验证阶段的运行时间期间使用神经网络502时,可以在适当的时候裁剪或者填充话语以确保话语具有要由神经网络502处理所需的固定长度。因此,神经网络502可以在单次通过(例如,通过深度神经网络502的单次前向传播)时计算说话者表示。这允许以比涉及话语的不同部分的顺序处理的技术低的延迟生成说话者表示。
接下来,在图5B中描绘的神经网络512是循环神经网络。与神经网络502的架构不同,神经网络512能够处理可变长度的输入话语。例如,根据神经网络512正被使用的上下文,话语503b可以是训练话语、登记话语、或者验证话语。可以将话语503b分段成多个帧,该多个帧可以具有固定长度。输入至神经网络512的帧的数量可以是话语503b的总长度的函数。换句话说,较长的话语可能具有较多的帧,而较短的话语可能具有较少的帧。将话语503b的帧输入至长短期记忆(LSTM)层516。在LSTM层516之后可以是一个或者多个附加隐藏层。网络512的最后一层再次是全连接线性层518。该全连接线性层518可以通过将非负激活映射到全空间中并且在一些情况下确定投影来输出说话者表示510b。因为神经网络512能够处理可变长度的话语,所以,神经网络512可能非常适用于未对话语的词或者短语进行预定义并且话语的词或者短语可以在不同的话语之间发生变化的文本无关的说话者验证。
虽然将在图5A和图5B中描绘的神经网络502和512示出为具有特定配置,但是可以与本文描述的技术一起采用的神经网络不受这些示例的限制。例如,神经网络的隐藏拓扑可以具有不同数量和布置的层,该层可以包括或者可以不包括全连接层、局部连接层、或者任何循环层(诸如,长短期记忆层)。在一些实施方式中,神经网络可以是卷积神经网络。
图6是根据本文描述的技术的使用说话者验证模型和已经被训练的神经网络来验证话语的示例过程600的流程图。过程600通常与在图1中描绘的验证阶段(阶段E至G)对应。在一些实施方式中,可以根据针对图2至图4B描述的技术来训练在图6中提及的神经网络,并且在图6中提及的神经网络可以具有如同在图5A或者图5B中示出的结构。
在阶段602中,可以从计算装置的用户接收话语。例如,用户可能希望利用计算装置来解锁他的智能电话或者执行某一其它功能。但是,智能电话可能要求用户在电话将被解锁之前或者在执行期望的功能之前认证他自己或者她自己。在一些实施方式中,可以使用电话上的说话者验证模型基于用户的声音的特点来执行认证。在阶段602中,电话可以提示用户说出验证话语,该验证话语可以由电话接收并且记录。
在阶段604中,电话访问神经网络以基于接收到的话语来生成说话者表示。例如,可以将神经网络本地存储在电话上,或者可以经由应用编程接口(API)来在远程计算系统上访问神经网络。可以根据本文描述的技术来训练神经网络,并且可能已经基于均包括模拟验证话语和多个模拟登记话语的数据样本训练了神经网络。可以将神经网络配置为在单次通过神经网络时处理表征整个话语的数据。在阶段606中,将表征接收到的话语的数据作为输入提供至神经网络。该神经网络处理输入并且生成指示用户的声音的区别特征的说话者表示。
在阶段608中,在电话上访问说话者模型。该说话者模型可以指示登记的用户的声音的区别特征。在一些实施方式中,说话者模型可以基于由神经网络从表征登记的用户的相应话语的数据生成的多个说话者表示的平均值。在阶段610中,将在阶段606中基于验证话语生成的说话者表示与说话者模型相比较,或者针对说话者模型对在阶段606中基于验证话语生成的说话者表示进行评估。在一些实施方式中,通过用户的电话上的说话者验证模型来执行比较或者其它评估。说话者验证模型可以确定在验证话语的说话者模型与说话者表示之间的距离或者其它相似程度。基于距离或者其它相似程度,如果用户的声音与登记的用户的声音足够相似,则说话者验证模型可以认证用户。或者,如果用户的声音相对于登记的用户的声音的相似度不满足至少阈值相似度得分,则说话者验证模型可以生成用户未被认证的指示。
在一些实施方式中,如果说话者验证模型以充分的置信度确定验证话语由登记的说话者说出,则可以基于验证话语来更新登记的用户的说话者模型。例如,考虑装置可以对以下三种验证话语作出响应的方式。三种验证话语中的第一种验证话语的相似度得分低于第一阈值,从而使得说话者验证模型拒绝说出第一验证话语的用户的身份(例如,因此,响应于第一验证话语,装置可以拒绝解锁)。三种验证话语中的第二种验证话语的相似度得分可以满足第一阈值,从而使得接受说出第二验证话语的用户的身份。然而,第二验证话语的相似度得分没有高得足以使得基于第二验证话语来更新登记的用户的说话者模型。最后,验证话语中的第三种验证话语的相似度得分满足第一阈值,从而使得接受说出第三验证话语的用户的身份(例如,并且可以执行第一动作集合,诸如,解锁装置),并且还满足较高的第二阈值,从而使得可以基于第三验证话语来更新登记的用户的说话者模型。可以通过组合(例如,计算平均值)由第三验证话语的神经网络生成的说话者表示和来自用户的在第一实例中用于创建说话者模型的登记话语的其它说话者表示来更新说话者模型。
在阶段612中,电话然后可以基于用户是否被认证来采取动作。例如,电话可以响应于提供话语的用户是登记的用户的确定而唤醒或者解锁。但是,如果提供话语的用户被确定为不是登记的用户,或者不是多个登记的用户中的一个用户,则电话可以保持锁定或者可以阻止用户已经选择执行的一个或者多个功能的执行。在另一应用中,可以对用户装置(例如,智能电话、笔记本计算机、可穿戴装置)采用本文描述的说话者验证技术以拒绝由装置检测到的来自非授权用户(例如,还未向装置注册其声音的用户)的语音输入。例如,当装置处于解锁状态时,装置可以收听由装置的授权用户说出的指示用户希望装置执行的动作的声音命令(例如,“导航到足球比赛”或者“播放我的音乐收藏”)。在一些实施方式中,如果可以确定声音命令由授权用户说出,则装置可以仅执行由声音命令指示的请求动作。按照这种方式,例如,来自其他非授权用户的旁侧语音可以被拒绝。
图7示出可以用于实施本文描述的技术的计算装置700和移动计算装置的示例。计算装置700旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机、和其它合适的计算机。移动计算装置旨在表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、和其它类似的计算装置。本文所示的组件、它们的连接和关系、以及它们的功能仅仅意在作为示例,并且不意在限制本文档中描述的和/或者要求的本发明的实施。
计算装置700包括:处理器701、存储器704、存储装置706、连接至存储器704和多个高速扩展接口710的高速接口708、和连接至低速扩展接口714和存储装置706的低速接口712。处理器701、存储器704、存储装置706、高速接口708、高速扩展接口710、和低速接口712中的每个利用不同的总线互相连接,并且可以安装在公共主板上或者根据需要以其它的方式安装。处理器702可以对在计算装置700内执行的指令进行处理,包括存储在存储器704中或者存储装置706上以在外部输入/输出装置(诸如,耦合至高速接口708的显示器716)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多种存储器一起使用。同样,可以连接多个计算装置,各个装置提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。
存储器704存储计算装置700内的信息。在一些实施方式中,存储器704是一个或者多个易失性存储器单元。在一些实施方式中,存储器704是一个或者多个非易失性存储器单元。存储器704还可以是另一种形式的计算机可读介质,诸如,磁盘或者光盘。
存储装置706能够为计算装置700提供大容量存储。在一些实施方式中,存储装置706可以是或者可以包含计算机可读介质,诸如,软盘装置、硬盘装置、光盘装置、或者磁带装置、闪速存储器或者其它类似的固态存储器装置、或者装置的阵列(包括存储区域网络或者其它配置的装置)。计算机程序产品还可以包含指令,该指令在被执行时执行一种或者多种方法,诸如,上文描述的那些方法。计算机程序产品还可以有形地体现为计算机或者机器可读介质,诸如,存储器704、存储装置706、或者在处理器702上的存储器。
高速控制接口708管理计算装置700的带宽密集型操作,而低速控制接口712管理较低的带宽密集型操作。这种功能分配仅仅是示例性的。在一些实施方式中,高速控制接口708耦合至存储器704、显示器716(例如,通过图形处理器或者加速器)和高速扩展端口710,该高速扩展端口710可以接受各种扩展卡(未示出)。在实施方式中,低速控制接口712耦合至存储装置706和低速扩展端口714。例如,通过网络适配器可以将可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口714耦合至一个或者多个输入/输出装置,诸如,键盘、指向装置、扫描器、或者网络装置(诸如,交换机或者路由器)。
如图所示,可以利用多种不同的形式来实现计算装置700。例如,可以将计算装置700实现为标准服务器720、或者在一组这样的服务器中实现多次。另外,计算装置700可以实现在个人计算机(诸如,膝上型计算机722)中。还可以将计算装置700实现为机架服务器系统724的一部分。可替代地,来自计算装置700的组件可以与移动装置(未示出)(诸如,移动计算装置750)中的其它组件组合。每个这样装置可以包含计算装置700和移动计算装置750中的一个或者多个,并且整个系统可以由彼此通信的多个计算装置组成。
除了其它组件之外,移动计算装置750包括处理器752、存储器764、输入/输出装置(诸如,显示器754)、通信接口766、和收发器768。移动计算装置750还可以设置有用于提供额外的存储的存储装置,诸如,微型硬盘或者其它装置。处理器752、存储器764、显示器754、通信接口766和收发器768中的每一个通过使用各种总线相互连接,并且组件中的一些可以安装在公共主板上或者根据需要以其它方式安装。
处理器752可以执行在计算装置750内的指令,包括存储在存储器764中的指令。可以将处理器752实现为包括单独和多个模拟和数字处理器的芯片的芯片组。处理器752可以提供,例如,对移动计算装置750的其它组件的协调,诸如,用户界面的控制、由移动计算装置750运行的应用和通过移动计算装置750进行的无线通信。
处理器752可以通过耦合至显示器754的控制接口758和显示器接口756来与用户进行通信。例如,显示器754可以是TFT(薄膜晶体管液晶显示器)显示器或者OLED(有机发光二极管)显示器,或者其它合适的显示技术。显示接口756可以包括用于驱动显示器754向用户呈现图形和其它信息的合适的电路系统。控制接口758可以接收来自用户的命令并且对该命令进行转换以提交至处理器752。另外,外部接口762可以提供与处理器752的通信,以便使移动计算装置750能够与其它装置进行邻近区域通信。在一些实施方式中,外部接口762可以提供,例如,有线通信,或者在一些实施方式中可以提供无线通信,并且还可以使用多个接口。
存储器764存储移动计算装置750内的信息。可以将存储器764实现为一个或者多个计算机可读介质、一个或者多个易失性存储器单元、或者一个或者多个非易失性存储器单元。还可以提供扩展存储器774并且通过扩展接口772将扩展存储器774连接至移动计算装置750,该扩展接口772可以包括,例如,SIMM(单列直插式存储器模块)卡接口。扩展存储器774可以为移动计算装置750提供附加存储空间,或者还可以存储移动计算装置550的应用或者其它信息。具体地,扩展存储器774可以包括用于执行或者补充上文描述的过程的指令,并且还可以包括安全信息。因此,例如,可以将扩展存储器774提供为移动计算装置750的安全模块,并且可以用允许安全使用移动计算装置550的指令来对其进行编程。另外,可以经由SIMM卡与附加信息(诸如,将识别信息通过不可侵入的方式放在SIMM卡上)一起来提供安全应用。
如下文所描述的,存储器可以包括,例如,闪速存储器和/或NVRAM存储器(非易失性随机存取存储器)。计算机程序产品包含指令,该指令在被执行时执行一种或者多种方法,诸如,上文描述的那些方法。计算机程序产品可以是计算机或者机器可读介质,诸如,存储器764、扩展存储器774、或者在处理器752上的存储器。在一些实施方式中,例如,可以通过收发器768或者外部接口762来以传播信号的形式接收计算机程序产品。
移动计算装置750可以通过通信接口766来无线地进行通信,若需要,该通信接口766可以包括数字信号处理电路系统。通信接口766可以提供各种模式或者协议下的通信,诸如,GSM语音通话(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息服务)、或者MMS消息传送(多媒体消息传送服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000、或者GPRS(通用分组无线业务)等。这种通信可以,例如,通过使用射频的收发器768来发生。另外,短程通信可以通过使用,诸如,蓝牙、WiFi、或者其它这种收发器(未示出)来发生。另外,全球定位系统(GPS)接收器模块770可以将附加的与导航或者位置有关的无线数据提供至移动计算装置750,若合适,该无线数据可以供在移动计算装置750上运行的应用使用。
移动计算装置750还可以通过使用音频编解码器760来进行可听地通信,该音频编解码器760可以接收来自用户的口头信息,并且将该口头信息转换为可用的数字信息。音频编解码器760还可以为用户生成可听见的声音,诸如,通过扬声器,例如,在移动计算装置550的听筒中的扬声器。这种声音可以包括来自语音电话的声音,可以包括录制的声音(例如,语音消息、音乐文件等),并且还可以包括通过在移动计算装置550上运行的应用生成的声音。
如图所示,可以按照若干不同形式来实现移动计算装置750。例如,可以将移动计算装置750实现为蜂窝电话780。还可以将移动计算装置750实现为智能电话782、个人数字助理、或者其它类似的移动装置的一部分。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实现在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实现这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台组件的计算系统(例如,作为数据服务器)、或者包括中间件组件的计算系统(例如,应用服务器)、或者包括前端组件的计算系统(例如,具有图形用户界面或者web浏览器的用户计算机,用户可以通过该图形用户界面或者该web浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台组件、中间件组件、或者前端组件的任何组合的计算系统中。可以通过任何形式或者媒介的数字数据通信(例如,通信网络)来将系统的组件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般彼此远离并且通常通过通信网络进行交互。通过在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
虽然上面已经详细描述了各种实施方式,但是其它修改是可能的。另外,在附图中描绘的逻辑流程不要求以所示的特定顺序或者相继顺序来实现期望的结果。另外,可以提供其它步骤或者可以从描述的流程删除步骤,并且可以将其它组件添加至描述的系统或者从描述的系统移除其它组件。因此,其它实施方式处于以下权利要求书的范围内。
Claims (21)
1.一种计算机实现的方法,包括:
在计算装置处接收表征所述计算装置的用户的话语的数据;
在所述计算装置处使用所述计算装置上的神经网络来生成所述话语的说话者表示,其中,已经基于多个训练样本训练了所述神经网络,所述多个训练样本中的每个训练样本:
(i)包括表征第一话语的数据和表征一个或者多个第二话语的数据,以及
(ii)根据所述第一话语的说话者是否与所述一个或者多个第二话语的说话者相同而被标记为匹配样本或者非匹配样本;
在所述计算装置处访问所述计算装置的授权用户的说话者模型;以及
在所述计算装置处相对于所述说话者模型对所述话语的所述说话者表示进行评估以确定所述话语是否可能由所述计算装置的所述授权用户说出。
2.根据权利要求1所述的计算机实现的方法,其中,通过从与不同说话者对应的多组话语中选择所述第一话语和所述一个或者多个第二话语来生成所述多个训练样本中的每个训练样本,从而使得每组话语仅由相应组话语的对应说话者的话语组成。
3.根据权利要求1或者2所述的计算机实现的方法,进一步包括:
获得所述计算装置的所述授权用户的话语集合;
将来自所述话语集合的每个话语输入到所述神经网络中以生成所述话语的相应说话者表示;以及
基于所述授权用户的所述话语集合中的所述话语的相应说话者表示的平均数来生成所述计算装置的所述授权用户的所述说话者模型。
4.根据任何前述权利要求所述的计算机实现的方法,其中,训练所述神经网络所基于的所述多个训练样本中没有一个训练样本包括表征所述计算装置的用户的话语的数据。
5.根据任何前述权利要求所述的计算机实现的方法,其中,在所述计算装置处生成所述话语的所述说话者表示包括:在单次通过所述神经网络时利用所述神经网络来处理表征整个所述话语的数据。
6.根据任何前述权利要求所述的计算机实现的方法,进一步包括:响应于确定所述用户的所述话语可能由所述计算装置的所述授权用户说出而在所述计算装置上执行功能。
7.一种计算机实现的方法,包括:
基于第一话语集合的神经网络的输出来确定特定说话者的说话者模型,所述第一集合包括所述特定说话者的多个不同话语;
基于不在所述第一话语集合中的特定话语的神经网络的输出来确定说话者表示;
将所述说话者表示与所述特定说话者的所述说话者模型相比较以将所述特定话语分类为所述特定说话者的话语或者不同于所述特定说话者的说话者的话语;以及
基于将所述话语分类为所述特定说话者的话语或者不同于所述特定说话者的说话者的话语是否正确来调整所述神经网络。
8.根据权利要求7所述的计算机实现的方法,进一步包括:
在计算系统处选择多个不同话语集合作为用于训练所述神经网络的训练数据,每个话语集合包括:
(i)相应话语集合的第一说话者的多个不同第一话语,以及
(ii)相应话语集合的所述第一说话者或者相应话语集合的不同于所述第一说话者的第二说话者的第二话语;以及
使用所述多个不同话语集合来迭代地训练所述神经网络,其中,来自所述多个不同话语集合的每个话语集合用于训练所述神经网络的不同训练迭代,
其中,所述第一话语集合选自所述多个不同话语集合,其中,所述特定说话者是所述第一话语集合的所述第一说话者。
9.一种计算机实现的方法,包括:
在计算系统处选择用于训练神经网络的多个不同训练数据子集,每个训练数据子集包括表征第一说话者的相应话语的多个第一分量和表征所述第一说话者或者第二说话者的话语的第二分量;以及
对于所选择的训练数据子集中的每一个训练数据子集:
将所述第一分量中的每个第一分量输入到所述神经网络中以生成与所述第一分量中的每个第一分量对应的相应第一说话者表示;
将所述第二分量输入到所述神经网络中以生成与所述第二分量对应的第二说话者表示;
基于所述多个第一分量的相应第一说话者表示的平均数来确定所述第一说话者的模拟说话者模型;
将所述第二说话者表示与所述模拟说话者模型相比较以将由所述第二分量表征的话语分类为所述第一说话者的话语或者不同于所述第一说话者的说话者的话语;以及
基于由所述第二分量表征的话语是否被正确地分类为所述第一说话者的话语或者不同于所述第一说话者的说话者的话语来调整所述神经网络。
10.根据权利要求9所述的计算机实现的方法,进一步包括:响应于将所述第二分量输入到所述神经网络中,通过在单次通过所述神经网络时处理由所述第二分量表征的整个话语的数据,利用所述神经网络来生成所述第二说话者表示。
11.根据权利要求9或者10所述的计算机实现的方法,其中,从所述多个不同训练数据子集中选择第一训练数据子集包括:
从分别与不同说话者对应的多组话语中选择与所述第一说话者对应的第一组话语,从而使得每组话语由仅表征相应组话语的对应说话者的话语的数据组成;
从所述多组话语中选择与所述第一说话者或者所述第二说话者对应的第二组话语;
从表征所述第一组话语中的话语的所述数据来确定所述多个第一分量;以及
从表征所述第二组话语中的话语的所述数据来确定所述第二分量。
12.根据权利要求11所述的计算机实现的方法,其中,从所述多组话语中随机选择所述第一组话语和所述第二组话语中的至少一个。
13.根据权利要求9至12中的任何一项所述的计算机实现的方法,其中:
所述第一说话者在所述多个不同训练数据子集中的至少一些训练数据子集中彼此不同;以及
所述第二说话者在所述多个不同训练数据子集中的至少一些训练数据子集中彼此不同。
14.根据权利要求9至13中的任一项所述的计算机实现的方法,其中,在所述多个不同训练数据子集中的第一训练数据子集中的第一分量的总数与在所述多个不同训练数据子集中的第二训练数据子集中的第一分量的总数不同。
15.根据权利要求9至14中的任一项所述的计算机实现的方法,其中,将所述第二说话者表示与所述模拟说话者模型相比较以将由所述第二分量表征的所述话语分类为所述第一说话者的话语或者不同于所述第一说话者的说话者的话语包括:确定在来自所述第二说话者表示的值与来自所述模拟说话者模型的值之间的距离,并且向所述距离应用逻辑回归函数。
16.根据权利要求9至15中的任一项所述的计算机实现的方法,其中,所述神经网络包括多个隐藏层,其中,所述神经网络不具有softmax输出层。
17.根据权利要求9至16中的任一项所述的计算机实现的方法,其中,所述神经网络包括深层神经网络,所述深层神经网络具有局部连接隐藏层,所述局部连接隐藏层之后是多个全连接隐藏层。
18.根据权利要求17所述的计算机实现的方法,其中,由所述多个第一分量表征的话语和由所述第二分量表征的话语都具有固定长度。
19.根据权利要求9至18中的任一项所述的计算机实现的方法,其中,所述神经网络包括长短期记忆循环神经网络,所述长短期记忆循环神经网络被配置为基于表征具有可变长度的话语的数据被训练。
20.根据权利要求9至19中的任一项所述的计算机实现的方法,其中,由所述多个不同训练数据子集中的相应多个第一分量表征的话语和由所述多个不同训练数据子集中的相应第二分量表征的话语都是同一词或者短语的话语。
21.根据权利要求9至19中的任一项所述的计算机实现的方法,其中,由所述多个不同训练数据子集中的相应多个第一分量表征的话语中的至少一些和由所述多个不同训练数据子集中的相应第二分量表征的话语中的至少一些是不同词或者短语的话语。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/846,187 US9978374B2 (en) | 2015-09-04 | 2015-09-04 | Neural networks for speaker verification |
US14/846,187 | 2015-09-04 | ||
PCT/US2016/044181 WO2017039884A1 (en) | 2015-09-04 | 2016-07-27 | Neural networks for speaker verification |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107924682A true CN107924682A (zh) | 2018-04-17 |
Family
ID=56853791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680028481.4A Pending CN107924682A (zh) | 2015-09-04 | 2016-07-27 | 用于说话者验证的神经网络 |
Country Status (8)
Country | Link |
---|---|
US (5) | US9978374B2 (zh) |
EP (3) | EP3278331B1 (zh) |
JP (5) | JP6542386B2 (zh) |
KR (2) | KR102026396B1 (zh) |
CN (1) | CN107924682A (zh) |
DE (1) | DE112016004008T5 (zh) |
GB (1) | GB2556459B (zh) |
WO (1) | WO2017039884A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284406A (zh) * | 2018-09-03 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于差异循环神经网络的意图识别方法 |
CN110610708A (zh) * | 2019-08-31 | 2019-12-24 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN110706714A (zh) * | 2018-06-21 | 2020-01-17 | 株式会社东芝 | 说话者模型制作系统 |
CN111418009A (zh) * | 2019-10-31 | 2020-07-14 | 支付宝(杭州)信息技术有限公司 | 个性化说话者验证系统和方法 |
CN112262431A (zh) * | 2018-09-25 | 2021-01-22 | 谷歌有限责任公司 | 使用说话者嵌入和所训练的生成模型的说话者日志 |
CN113261056A (zh) * | 2019-12-04 | 2021-08-13 | 谷歌有限责任公司 | 使用说话者相关语音模型的说话者感知 |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CA2954839A1 (en) * | 2016-01-22 | 2017-07-22 | Wal-Mart Stores, Inc. | Systems and methods of enabling forecasting |
US9978367B2 (en) * | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
CN105933323B (zh) * | 2016-06-01 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 声纹注册、认证方法及装置 |
US10311219B2 (en) * | 2016-06-07 | 2019-06-04 | Vocalzoom Systems Ltd. | Device, system, and method of user authentication utilizing an optical microphone |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
KR102596430B1 (ko) * | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
WO2018053537A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
US10347256B2 (en) | 2016-09-19 | 2019-07-09 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
KR102125549B1 (ko) * | 2017-04-20 | 2020-06-22 | 한국전자통신연구원 | 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법 |
KR20240008405A (ko) * | 2017-04-20 | 2024-01-18 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
US10592725B2 (en) * | 2017-04-21 | 2020-03-17 | General Electric Company | Neural network systems |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US10325602B2 (en) | 2017-08-02 | 2019-06-18 | Google Llc | Neural networks for speaker verification |
CN107301864B (zh) * | 2017-08-16 | 2020-12-22 | 重庆邮电大学 | 一种基于Maxout神经元的深度双向LSTM声学模型 |
US11979398B2 (en) * | 2018-01-22 | 2024-05-07 | Nokia Technologies Oy | Privacy-preserving voiceprint authentication apparatus and method |
CN108597523B (zh) * | 2018-03-23 | 2019-05-17 | 平安科技(深圳)有限公司 | 说话人认证方法、服务器及计算机可读存储介质 |
US10937438B2 (en) | 2018-03-29 | 2021-03-02 | Ford Global Technologies, Llc | Neural network generative modeling to transform speech utterances and augment training data |
CN108495143A (zh) * | 2018-03-30 | 2018-09-04 | 百度在线网络技术(北京)有限公司 | 视频推荐的方法和装置 |
US10853911B2 (en) * | 2018-04-17 | 2020-12-01 | Google Llc | Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
GB2573809B (en) * | 2018-05-18 | 2020-11-04 | Emotech Ltd | Speaker Recognition |
KR102655791B1 (ko) | 2018-08-27 | 2024-04-09 | 삼성전자주식회사 | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 |
CN109344713B (zh) * | 2018-08-31 | 2021-11-02 | 电子科技大学 | 一种姿态鲁棒的人脸识别方法 |
KR20200027331A (ko) * | 2018-09-04 | 2020-03-12 | 엘지전자 주식회사 | 음성 합성 장치 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN110289003B (zh) * | 2018-10-10 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
KR102608470B1 (ko) | 2018-10-23 | 2023-12-01 | 삼성전자주식회사 | 데이터 인식 장치 및 방법과 트레이닝 장치 및 방법 |
KR102172925B1 (ko) * | 2018-10-25 | 2020-11-02 | 광주과학기술원 | 딥러닝 기반 기후 변화 예측 시스템의 동작 방법 |
US10810993B2 (en) * | 2018-10-26 | 2020-10-20 | Deepmind Technologies Limited | Sample-efficient adaptive text-to-speech |
US11527235B2 (en) | 2018-12-03 | 2022-12-13 | Google Llc | Text independent speaker recognition |
KR102570070B1 (ko) | 2018-12-27 | 2023-08-23 | 삼성전자주식회사 | 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치 |
US11031017B2 (en) * | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
DE102019201456B3 (de) * | 2019-02-05 | 2020-07-23 | Sivantos Pte. Ltd. | Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
WO2020184753A1 (ko) * | 2019-03-12 | 2020-09-17 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
US10923111B1 (en) | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
US11960843B2 (en) * | 2019-05-02 | 2024-04-16 | Adobe Inc. | Multi-module and multi-task machine learning system based on an ensemble of datasets |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11848023B2 (en) * | 2019-06-10 | 2023-12-19 | Google Llc | Audio noise reduction |
KR102316537B1 (ko) | 2019-06-21 | 2021-10-22 | 한양대학교 산학협력단 | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 |
US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
US11341988B1 (en) * | 2019-09-23 | 2022-05-24 | Apple Inc. | Hybrid learning-based and statistical processing techniques for voice activity detection |
US11361761B2 (en) * | 2019-10-16 | 2022-06-14 | International Business Machines Corporation | Pattern-based statement attribution |
US11741986B2 (en) | 2019-11-05 | 2023-08-29 | Samsung Electronics Co., Ltd. | System and method for passive subject specific monitoring |
CN110782901B (zh) * | 2019-11-05 | 2021-12-24 | 深圳大学 | 一种识别网络电话语音的方法、存储介质及装置 |
KR20220137921A (ko) * | 2020-02-03 | 2022-10-12 | 핀드롭 시큐리티 인코포레이티드 | 음성 생체 인식의 크로스-채널 등록 및 인증 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11508380B2 (en) * | 2020-05-26 | 2022-11-22 | Apple Inc. | Personalized voices for text messaging |
US11688412B2 (en) * | 2020-06-15 | 2023-06-27 | Tencent America LLC | Multi-modal framework for multi-channel target speech separation |
CN111739521B (zh) * | 2020-06-19 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 电子设备唤醒方法、装置、电子设备及存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20220040875A (ko) * | 2020-09-24 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 서비스를 위한 등록 사용자에 대한 화자 인증 학습 장치 및 그 동작 방법 |
CN111933152B (zh) * | 2020-10-12 | 2021-01-08 | 北京捷通华声科技股份有限公司 | 注册音频的有效性的检测方法、检测装置和电子设备 |
US11315575B1 (en) * | 2020-10-13 | 2022-04-26 | Google Llc | Automatic generation and/or use of text-dependent speaker verification features |
WO2022086045A1 (ko) * | 2020-10-22 | 2022-04-28 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
KR102590540B1 (ko) * | 2020-11-30 | 2023-10-18 | 주식회사 마음에이아이 | 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법 |
US20220254331A1 (en) * | 2021-02-05 | 2022-08-11 | Cambium Assessment, Inc. | Neural network and method for machine learning assisted speech recognition |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08227408A (ja) * | 1995-02-22 | 1996-09-03 | Meidensha Corp | ニューラルネットワーク |
CN101027716A (zh) * | 2004-09-23 | 2007-08-29 | 皇家飞利浦电子股份有限公司 | 健壮的说话者相关的语音识别系统 |
US20110202340A1 (en) * | 2008-10-29 | 2011-08-18 | Ariyaeeinia Aladdin M | Speaker verification |
CN102810311A (zh) * | 2011-06-01 | 2012-12-05 | 株式会社理光 | 说话人估计方法和说话人估计设备 |
US20140195236A1 (en) * | 2013-01-10 | 2014-07-10 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US8812320B1 (en) * | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
US20150127336A1 (en) * | 2013-11-04 | 2015-05-07 | Google Inc. | Speaker verification using neural networks |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和系统 |
CN104751842A (zh) * | 2013-12-31 | 2015-07-01 | 安徽科大讯飞信息科技股份有限公司 | 深度神经网络的优化方法及系统 |
CN104813275A (zh) * | 2012-09-27 | 2015-07-29 | 谷歌公司 | 用于预测文本的方法和系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
JPH064097A (ja) * | 1992-06-18 | 1994-01-14 | Seiko Epson Corp | 話者認識方法 |
JPH07210197A (ja) * | 1994-01-14 | 1995-08-11 | Nippondenso Co Ltd | 話者識別方法 |
JPH08171398A (ja) * | 1994-12-16 | 1996-07-02 | Matsushita Electric Ind Co Ltd | データ認識装置、辞書作成装置及び学習装置 |
CA2239340A1 (en) * | 1997-07-18 | 1999-01-18 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification |
CA2239339C (en) * | 1997-07-18 | 2002-04-16 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification using forced decoding |
FR2795848B1 (fr) * | 1999-07-01 | 2001-08-17 | Commissariat Energie Atomique | Systeme d'intelligence artificielle pour la classification d'evenements, d'objets ou de situations a partir de signaux et de parametres discriminants issus de modeles |
FR2842643B1 (fr) * | 2002-07-22 | 2004-09-03 | France Telecom | Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
DE602006013666D1 (de) * | 2005-09-29 | 2010-05-27 | Koninkl Philips Electronics Nv | Verfahren und vorrichtung zum automatischen erstellung einer abspielliste durch segmentweisen merkmalsvergleich |
GB2493956A (en) * | 2011-08-24 | 2013-02-27 | Inview Technology Ltd | Recommending audio-visual content based on user's personal preerences and the profiles of others |
US9502038B2 (en) * | 2013-01-28 | 2016-11-22 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
US10229256B2 (en) * | 2013-10-25 | 2019-03-12 | Intel Corporation | Techniques for preventing voice replay attacks |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
WO2016172872A1 (zh) * | 2015-04-29 | 2016-11-03 | 北京旷视科技有限公司 | 用于验证活体人脸的方法、设备和计算机程序产品 |
US10115055B2 (en) * | 2015-05-26 | 2018-10-30 | Booking.Com B.V. | Systems methods circuits and associated computer executable code for deep learning based natural language understanding |
JP6671020B2 (ja) * | 2016-06-23 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 対話行為推定方法、対話行為推定装置及びプログラム |
-
2015
- 2015-09-04 US US14/846,187 patent/US9978374B2/en active Active
-
2016
- 2016-07-27 KR KR1020197018377A patent/KR102026396B1/ko active IP Right Grant
- 2016-07-27 EP EP16760220.0A patent/EP3278331B1/en active Active
- 2016-07-27 EP EP19206059.8A patent/EP3621070B1/en active Active
- 2016-07-27 EP EP22179382.1A patent/EP4084000A3/en active Pending
- 2016-07-27 GB GB1717774.2A patent/GB2556459B/en active Active
- 2016-07-27 DE DE112016004008.3T patent/DE112016004008T5/de active Pending
- 2016-07-27 JP JP2017556908A patent/JP6542386B2/ja active Active
- 2016-07-27 CN CN201680028481.4A patent/CN107924682A/zh active Pending
- 2016-07-27 KR KR1020177030673A patent/KR101995547B1/ko active IP Right Grant
- 2016-07-27 WO PCT/US2016/044181 patent/WO2017039884A1/en active Application Filing
-
2018
- 2018-04-30 US US15/966,667 patent/US10586542B2/en active Active
-
2019
- 2019-06-11 JP JP2019108765A patent/JP6766221B2/ja active Active
-
2020
- 2020-01-24 US US16/752,007 patent/US11107478B2/en active Active
- 2020-09-15 JP JP2020154566A patent/JP7110292B2/ja active Active
-
2021
- 2021-08-03 US US17/444,384 patent/US11961525B2/en active Active
-
2022
- 2022-07-20 JP JP2022115625A patent/JP7362851B2/ja active Active
-
2023
- 2023-10-02 JP JP2023171420A patent/JP2024001111A/ja active Pending
- 2023-10-11 US US18/485,069 patent/US20240038245A1/en active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08227408A (ja) * | 1995-02-22 | 1996-09-03 | Meidensha Corp | ニューラルネットワーク |
CN101027716A (zh) * | 2004-09-23 | 2007-08-29 | 皇家飞利浦电子股份有限公司 | 健壮的说话者相关的语音识别系统 |
US20110202340A1 (en) * | 2008-10-29 | 2011-08-18 | Ariyaeeinia Aladdin M | Speaker verification |
CN102810311A (zh) * | 2011-06-01 | 2012-12-05 | 株式会社理光 | 说话人估计方法和说话人估计设备 |
CN104813275A (zh) * | 2012-09-27 | 2015-07-29 | 谷歌公司 | 用于预测文本的方法和系统 |
US20140195236A1 (en) * | 2013-01-10 | 2014-07-10 | Sensory, Incorporated | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
US20150127336A1 (en) * | 2013-11-04 | 2015-05-07 | Google Inc. | Speaker verification using neural networks |
CN104751842A (zh) * | 2013-12-31 | 2015-07-01 | 安徽科大讯飞信息科技股份有限公司 | 深度神经网络的优化方法及系统 |
US8812320B1 (en) * | 2014-04-01 | 2014-08-19 | Google Inc. | Segment-based speaker verification using dynamically generated phrases |
CN104167208A (zh) * | 2014-08-08 | 2014-11-26 | 中国科学院深圳先进技术研究院 | 一种说话人识别方法和装置 |
CN104732977A (zh) * | 2015-03-09 | 2015-06-24 | 广东外语外贸大学 | 一种在线口语发音质量评价方法和系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110706714A (zh) * | 2018-06-21 | 2020-01-17 | 株式会社东芝 | 说话者模型制作系统 |
CN110706714B (zh) * | 2018-06-21 | 2023-12-01 | 株式会社东芝 | 说话者模型制作系统 |
CN109284406A (zh) * | 2018-09-03 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于差异循环神经网络的意图识别方法 |
CN109284406B (zh) * | 2018-09-03 | 2021-12-03 | 四川长虹电器股份有限公司 | 基于差异循环神经网络的意图识别方法 |
CN112262431A (zh) * | 2018-09-25 | 2021-01-22 | 谷歌有限责任公司 | 使用说话者嵌入和所训练的生成模型的说话者日志 |
CN110610708A (zh) * | 2019-08-31 | 2019-12-24 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN110610708B (zh) * | 2019-08-31 | 2021-10-15 | 浙江工业大学 | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 |
CN111418009A (zh) * | 2019-10-31 | 2020-07-14 | 支付宝(杭州)信息技术有限公司 | 个性化说话者验证系统和方法 |
CN111418009B (zh) * | 2019-10-31 | 2023-09-05 | 支付宝(杭州)信息技术有限公司 | 个性化说话者验证系统和方法 |
CN113261056A (zh) * | 2019-12-04 | 2021-08-13 | 谷歌有限责任公司 | 使用说话者相关语音模型的说话者感知 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107924682A (zh) | 用于说话者验证的神经网络 | |
US10650379B2 (en) | Method and system for validating personalized account identifiers using biometric authentication and self-learning algorithms | |
CN105096121B (zh) | 声纹认证方法和装置 | |
CN104217149B (zh) | 基于语音的生物认证方法及设备 | |
CN100485702C (zh) | 用于连续用户认证的方法和系统 | |
US6529871B1 (en) | Apparatus and method for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases | |
CN107104803A (zh) | 一种基于数字口令与声纹联合确认的用户身份验证方法 | |
US20150127336A1 (en) | Speaker verification using neural networks | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN110310647A (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN110675881B (zh) | 一种语音校验方法和装置 | |
CN111081255B (zh) | 说话人确认方法和装置 | |
CN110349585A (zh) | 语音认证方法和信息处理设备 | |
Hajavi et al. | A study on bias and fairness in deep speaker recognition | |
CN110164434A (zh) | 基于语音识别的面谈审批方法及装置 | |
Ke et al. | Speaker identification based on deep learning in FX iDeal system | |
CA3212457A1 (en) | Systems and methods for training natural language processing models in a contact center | |
Lu et al. | Robust Extraction of Desired Speaker's Utterance in Overlapped Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |