CN106062871B - 使用所选择的群组样本子集来训练分类器 - Google Patents
使用所选择的群组样本子集来训练分类器 Download PDFInfo
- Publication number
- CN106062871B CN106062871B CN201480076469.1A CN201480076469A CN106062871B CN 106062871 B CN106062871 B CN 106062871B CN 201480076469 A CN201480076469 A CN 201480076469A CN 106062871 B CN106062871 B CN 106062871B
- Authority
- CN
- China
- Prior art keywords
- group
- target
- supervectors
- speaker
- supervector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012549 training Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 13
- 230000006978 adaptation Effects 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 6
- 230000004044 response Effects 0.000 claims 6
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
- Toys (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
在此公开了用于使用所选择的群组样本子集来训练分类器的各种系统、装置和方法。在示例中,接收表示目标类别的目标超向量集合,并且接收表示群组类别的群组超向量集合。从对应群组超向量到对应目标超向量计算距离度量,并且基于所述计算的距离度量来选择适当的群组超向量子集。所述目标超向量集合和所述选择的适当的群组超向量子集用于训练分类器。在此描述的进一步示例描述了使用所选择的群组样本子集来训练分类器如何可以用于提高语音生物识别系统的性能并且降低语音生物识别系统中的资源消耗。
Description
技术领域
在此所描述的实施例总体上涉及使用所选择的群组样本子集来训练分类器,并且具体地涉及使用所选择的群组话语子集来训练发言者验证分类器。
背景技术
语音生物识别系统尝试基于来自发言者的语音样本(例如,“话语”)对发言者所声称的身份进行验证。一些语音生物识别系统利用机器学习算法,这些算法受到训练以便在目标发言者的话语与其他发言者的话语(被称为“群组/冒充者话语”)之间进行区分。增加群组话语的数量可能提高机器学习算法的准确性,但还可能增加机器学习算法对群组发言者类别进行建模以及分类器将话语分类为属于目标发言者类别或者群组发言者类别所必需的资源和时间,并且可能对性能具有负面影响。
附图说明
在不必按比例绘制的附图中,相同标号可以描述不同视图中的类似部件。具有不同字母后缀的相同标号可以表示类似部件的不同实例。一些实施例以举例的方式被展示并且不限于附图中的图,在附图中:
图1根据一些实施例展示了一种用于通过使用所选择的群组发言者样本子集来训练分类器对人类发言者进行认证的系统;
图2根据一些实施例展示了一种用于利用使用所选择的群组发言者样本子集训练的分类器来对语音认证尝试进行分类的系统;
图3根据一些实施例展示了一种用于从模拟音频输入获得超向量的方法的流程图;
图4根据一些实施例展示了一种用于使用所选择的群组样本子集来训练分类器对观察进行分类的方法的流程图;
图5根据一些实施例展示了用于通过使用所选择的群组发言者样本子集来训练分类器对人类发言者进行认证的软件和电子部件的框图;以及
图6根据一些实施例展示了在其上可以执行在此所讨论的技术(例如,操作、过程、方法和方法论)中的任何一种或多种的示例机器的框图。
具体实施方式
以下描述和附图展示了具体实施例以使得本领域技术人员能够对其进行实践。其他实施例可以合并结构、逻辑、电、过程和其他改变。各个实施例的部分和特征可以包括在其他实施例的那些部分和特征中、或替代其他实施例的那些部分和特征。在权利要求书中阐述的实施例包括那些权利要求的所有可用等同物。
尝试基于来自发言者的语音样本(例如,“话语”)对发言者所声称的身份进行验证的语音生物识别系统可以被分为文本相关和文本不相关两类。文本相关系统需要用户说出特定关键词或关键短语以便验证用户身份。文本不相关系统被设计为通过用户的语音对与说出的(多个)词或(多个)短语不相关的用户进行标识。文本相关系统更适用于认证/登陆场景(例如,电话银行),而文本不相关系统更适用于法庭和秘密情报(例如,窃听)领域。
分类器是基于包含其分类成员已知的观察(或实例)的数据训练集对新观察属于分类集合(例如,子总体)中的哪一类别进行标识的过程。分类器(诸如具有或不具有信道补偿的支持向量机(SVM))已常常被用于语音生物识别系统中。典型地,统计发言者模型(诸如高斯混合模型(GMM))被创建以便对发言者进行建模,并且分类器用于决定话语是否由发言者说出。非发言者类别(例如,群组类别)由大量的群组发言者集合来进行建模。这类发言者模型分类系统遭受至少两个缺点:
1.随着群组发言者的数量增加,对非发言者类别进行建模变得更费资源且费时。
2.向非发言者类别添加过多的话语可能对系统的性能有负面影响。
为了克服这些缺点,来自群组话语集合的特定于话语的、非发言者样本的子集可以被选择并用于对非发言者类别进行建模。对距离度量进行计算以便确定群组话语与发言者的登记/训练话语之间的相似性。“最接近的”群组话语(例如,具有最小话语的距离)则用于当训练分类器时对非发言者类别进行建模。由于群组话语的数量显著减少,这引起了非发言者类别的更灵活且更干净的建模,从而提高了识别性能。此方法显著降低了系统的计算复杂度和存储器消耗,并且使得系统适用于具有存储器和处理器约束的设备上,诸如专用集成电路(ASIC)。
图1根据一些实施例展示了一种用于通过使用所选择的群组发言者样本子集来训练分类器126对人类发言者进行认证的系统100。目标用户可能希望登记到语音生物识别系统中以便以安全方式访问逻辑和/或物理资源。例如,目标用户可能希望登记到金融机构的语音生物识别系统中以便经由电话访问金融数据。系统100可以用于将用户登记到这种语音生物识别系统中。
在一些实施例中,系统100包含于当个设备中,诸如智能手机、蜂窝电话、移动电话、膝上型计算机、平板计算机、台式计算机、服务器、计算机站、计算机亭、或ASIC。在一些实施例中,系统100的部件分布在多个设备中,其可以或可以不共同定位。
系统100包括对由目标发言者说出的目标训练话语102的n次重复。系统100还包括由多个群组发言者说出的各个群组话语104。在一些实施例中,目标训练话语102的n次重复和/或各个群组话语104由系统100使用模拟音频输入部件(诸如麦克风)接近实时地接收。在一些实施例中,目标训练话语102的n次重复和/或各个群组话语104是之前记录的音频、且由系统100接收或检索。
从对由目标发言者说出的目标训练话语102的n次重复中的每一次重复中提取106言语特征。还从由多个群组发言者说出的各个群组话语104中提取108言语特征。在一些实施例中,可以从已标识的音频模式或特征(诸如梅尔频率倒谱系数(MFCC)、感知线性预测特征(PLP)、时间模式(TRAPS)等、或用在言语验证和/或言语识别中的其他特征)提供所提取的言语特征。
一个或多个发言者模型112、114适配于所提取的特征106、108以便分别生成统计目标发言者模型116和统计群组发言者模型118。通用背景模型(UBM)是从许多小时(例如,十个或百个)的从大量发言者收集的言语数据中训练的模型。UBM表示发言者不相关的特征向量的分布;因此,UBM包含表示通用人类言语的数据。在一些实施例中,在新(目标或群组)发言者登记到系统中的过程中,可选的UBM 110的参数的一些或全部可以适配于所提取的新发言者的所提取的特征106、108以便生成统计发言者模型116、118。在一些实施例中,适配函数是最大后验(MAP)、最大似然线性回归(MLLR)、或在言语验证/识别领域中当前已知或未知的其他适配函数。
在一些实施例中,为目标训练话语102的n次重复中的每一次重复创建一个统计目标发言者模型116。在一些实施例中,将经适配的群组发言者特征转换成统计群组发言者模型118。在一些实施例中,为各个群组话语104中的每一个群组话语创建一个统计群组发言者模型。在一些实施例中,统计目标发言者模型116和/或统计群组发言者模型118是高斯混合模型(GMM)。
表示话语的超向量是表示话语特征的多个更小维度向量的组合,该组合创建了固定维度的更高维度向量。分别从统计目标发言者模型116和统计群组发言者模型118中提取120、122超向量。在一些实施例中,n个目标发言者超向量对应于由目标发言者说出的目标训练话语102的n次重复而被提取120。为由对应群组发言者说出的各个群组话语104中的每一个群组话语提取122群组超向量。
所提取的n个目标发言者超向量120和所提取的群组发言者超向量122用于选择124所提取的群组发言者超向量122的子集。在一些实施例中,从每一个群组发言者超向量到每一个目标发言者超向量来计算距离度量,该距离度量表示对应群组发言者超向量与对应目标发言者超向量之间的相似性。在一些实施例中,距离度量为以下各项中的一项:马哈拉诺比斯、巴塔卡里亚、或城市街区距离。
当使用城市街区距离来计算超向量a与b之间的距离度量时,可以使用以下方程式:
其中,D是超向量a和b的维度。
针对每一个目标发言者超向量,选择最靠近k的群组超向量。k的值可以取决于分类器126的期望准确度而发生改变。然后,向分类器126提供所提取的n个目标发言者超向量120和所选择的k*n个群组超向量124,该分类器使用超向量来训练以便对目标发言者的语音进行识别。在一些实施例中,分类器126是支持向量机(SVM)。
图2根据一些实施例展示了一种用于利用使用所选择的群组发言者样本子集训练的分类器126来对语音认证尝试202进行分类的系统200。在一些实施例中,语音认证尝试202的分类结果导致允许或否定某种动作,诸如允许或拒绝对受保护信息的访问、或者允许或拒绝对受保护区域或设备的物理访问。
在一些实施例中,系统200包含于当个设备中,诸如智能手机、蜂窝电话、移动电话、膝上型计算机、平板计算机、台式计算机、服务器、计算机站、计算机亭、或ASIC。在一些实施例中,系统200的部件分布在多个设备中,其可以或可以不共同定位。在一些实施例中,系统200可以是如100的相同的(多个)设备。
用户作出语音认证尝试202。在一些实施例中,用户通过说出用于训练分类器126的相同训练话语来尝试此语音认证尝试202。在一些实施例中,用户通过说出不同于用于训练分类器126的话语来尝试此语音认证尝试202。在一些实施例中,认证话语由系统200使用模拟音频输入部件(诸如麦克风)接近实时地接收。
提取204用户的语音认证尝试202的特征。在一些实施例中,所提取的特征是MFCC、PLP、TRAPS等。在一些实施例中,使用与在特征提取106和/或108中使用的相同(多个)过程来提取特征。
在过程中的此点处,尚未知道用户是否与目标发言者相同。在一些实施例中,发言者模型适配206于所提取的特征204以便生成针对语音认证尝试202的发言者模型208。在一些实施例中,发言者模型可选地是UBM 110。在一些实施例中,使用MAP适配、MLLR适配、或在言语验证/识别领域中当前已知或未知的其他适配函数对所提取的特征204进行适配。在一些实施例中,统计发言者模型208是GMM。
然后从统计发言者模型208中提取210超向量。然后向分类器126提供所提取的超向量,该分类器决定212语音认证尝试202是否由所声称的发言者说出。在一些实施例中,如果语音认证尝试202是由所声称的发言者说出的,则可以执行动作(诸如允许所声称的发言者对受保护信息的访问或者允许对受保护区域或设备的物理访问)。在一些实施例中,如果语音认证尝试202不是由所声称的发言者说出的,则可以执行动作(诸如拒绝发言者对受保护信息的访问或者允许对受保护区域或设备的物理访问)。
图3根据一些实施例展示了一种用于从模拟音频输入获得超向量的方法300的流程图。
在一些实施例中,可选地获取模拟音频输入(操作305)。在一些实施例中,可以使用模拟音频输入部件(诸如麦克风)来获取模拟音频输入。在一些实施例中,可以从所存储的音频记录中获取模拟音频输入。在一些实施例中,模拟音频输入包括对由目标用户说出的训练话语的重复。在一些实施例中,模拟音频输入包括由多个群组发言者说出的群组话语。
在一些实施例中,将可选地获取的模拟音频输入转换成数字音频(操作310)。在一些实施例中,模数转换器将所获取的模拟音频输入转换成数字音频。
从数字音频中提取由目标用户说出的训练话语的每一次重复的言语特征(操作315)。在一些实施例中,这些特征可以包括MFCC、PLP、TRANS等。数字音频可以是已经从所获取的模拟音频输入被转换(操作305),或者数字音频可以是已经从之前转换的模拟音频输入中被接收或检索。
从数字音频中提取由群组发言者说出的各个话语的言语特征(操作320)。在一些实施例中,这些特征可以包括MFCC、PLP、TRANS等。数字音频可以是已经从所获取的模拟音频输入被转换(操作305),或者数字音频可以是已经从之前转换的模拟音频输入中被接收或检索。
目标发言者模型适配于目标发言者的所提取的特征以便生成针对由目标发言者对训练话语的每一次重复的统计目标发言者模型(操作325)。在一些实施例中,目标发言者模型可选地是UBM(例如,UBM 110)。
群组发言者模型适配于所提取的多个群组发言者的所提取的特征以便针对由多个群组发言者说出的每一条话语生成统计群组发言者模型(操作330)。在一些实施例中,群组发言者模型可选地是UBM 110。
通过从每一个统计目标发言者模型中提取目标超向量来创建多个目标超向量(操作335),并且通过从每一个统计群组发言者模型中提取群组超向量来创建多个群组超向量(操作340)。
图4根据一些实施例展示了一种用于使用所选择的群组样本子集来训练分类器126以便对观察进行分类的方法400的流程图。
接收或以其他方式访问表示目标类别的多个目标超向量(操作405)。在一些装置实施例中,接收可以包括对目标超向量进行编码的信号的接收。在一些实施例中,访问可以包括请求来自另一个部件或另一个设备的多个目标超向量。
接收或以其他方式访问表示群组类别的多个群组超向量(操作410)。在一些装置实施例中,接收可以包括对群组超向量进行编码的信号的接收。在一些实施例中,访问可以包括请求来自另一个部件或另一个设备的多个群组超向量。
从对应群组超向量到对应目标超向量计算距离度量。距离度量可以表示对应群组超向量与对应目标超向量之间的相似性(操作415)。
执行进一步处理以便减少群组超向量的数量。例如,可以基于所计算的距离度量从多个群组超向量中选择适当的群组超向量子集(操作420)。适当子集是与原始集合自身不相同的子集。
使用多个目标超向量以及适当的群组超向量子集对分类器126进行训练(操作425)以便将观察分类为属于目标类别或群组类别。在一些实施例中,经训练的分类器126特定于目标发言者,该分类器126针对该目标发言者经受训练。
图5根据一些实施例展示了在计算机系统(被描绘为计算设备502的这种计算机系统)内的用于通过使用所选择的群组发言者样本子集来训练分类器126以便对人类发言者进行认证的软件和电子部件500的框图。在计算设备502内,结合处理器和存储器(例如,包括在计算设备502中的处理器和存储器)来实现各个软件和硬件部件以便通过使用所选择的群组发言者样本子集来训练分类器126从而认证人类发言者或者将语音认证尝试分类为真实。
在一些实施例中,计算设备502包括模拟音频输入部件504(诸如麦克风)以用于获取音频输入。此模拟音频输入部件504可以集成在计算设备502的壳体中,或者其可以电耦合。
在一些实施例中,计算设备502包括模数转换器506以用于将所获取的音频输入转换成数字格式。
在一些实施例中,计算设备502包括计算部件508以用于从对应群组超向量到对应目标超向量来计算计算距离度量。在一些实施例中,距离度量表示对应群组超向量与对应目标超向量之间的相似性。
在一些实施例中,计算设备502包括选择部件510以用于选择群组发言者超向量的群组发言者样本子集。选择部件510基于所计算的距离度量选择群组超向量的群组样本子集。在一些实施例中,在选择群组超向量时,选择部件510优选具有更小距离度量的群组超向量而非具有较大距离度量的群组超向量。也就是说,在具有距离2、3、5、7和8的群组超向量集合中,具有距离2的超向量将在具有距离3的超向量之前被选择,该具有距离3的超向量将在具有距离5的超向量之前被选择。
在一些实施例中,计算设备502包括使用目标超向量和所选择的群组发言者样本子集来训练的分类器126以便对目标发言者的语音进行识别。
在一些实施例中,计算设备502是门锁、枪锁、自行车锁、车辆点火锁、零售亭、个人计算机、智能手机、智能电视、或其组合。
图6根据一些实施例展示了在其上可以执行在此所讨论的技术(例如,方法论)中的任何一种或多种的示例机器600的框图。机器600可以具体为系统100、系统200、执行方法300的操作的系统、执行方法400的操作的系统、计算设备502、或其某个组合。
在可替代实施例中,机器600可作为独立设备操作或者可以连接(例如,连网)至其他机器。在连网的部署中,机器600在服务器-客户端网络环境中可以在服务器机器、客户端机器、或两者的容量中操作。在示例中,机器600可以充当点到点(P2P)(或其他分布式)网络环境中的对等机器。机器600可以是个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动电话、网络电器、网络路由器、交换机或桥、或能够(相继或以其他方式)执行指定要由那个机器采取的动作的指令的任何机器。进一步地,虽然仅展示了单个机器600,但术语“机器”也应视为包括机器的任何集合,这些机器个别地或联合地执行一组(或多组)指令以便执行在此所讨论的方法中的任何一种或多种方法,诸如云计算、作为服务的软件(SaaS)、其他计算机集群配置。
如在此所描述的示例可以包括或可以操作在逻辑或多个部件、模块或机制上。模块是能够执行特定操作的有形实体(例如,硬件),并且可以以某种方式被配置或安排。在示例中,电路可以以指定方式被安排(例如,内部地或关于外部实体(诸如其他电路))为模块。在示例中,可以由固件或软件(例如,指令、应用部分、或应用)将一个或多个计算机系统(例如,独立的客户端或服务器计算机系统)或一个或多个硬件处理器中的整个或部分配置为进行操作以便执行指定操作的模块。在示例中,软件可以驻留在计算机可读介质上。在示例中,当由模块的底部硬件执行时,软件使硬件执行指定的操作。
因而,术语“模块”被理解为包括有形的实体,该有形的实体是在物理上构建的、具体配置的(例如,硬接线的)、或临时(例如,暂时)配置的(例如,编程的)实体以便以指定的方式操作或执行在此描述的任何操作中的部分或全部。考虑其中模块被暂时配置的示例,不需要在任何一个时刻处例示每个模块。例如,在模块包括使用软件来配置的通用硬件处理器的情况下,通用硬件处理器可以在不同时间处被配置为对应的不同模块。例如,软件可以从而配置硬件处理器以便在一个时间实例处构成特定模块并且在不同的时间实例处构成不同的模块。
机器(例如,计算机系统)600可以包括硬件处理器602(例如,中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核、或其任何组合)、主存储器604和静态存储器606,其中的一些或全部可以经由互连链路(例如,总线)608彼此通信。机器600可以进一步包括显示单元610、字母数字输入设备612(例如,键盘)、和用户接口(UI)导航设备614(例如,鼠标)。在示例中,显示单元610、字母数字输入设备612、和UI导航设备614可以是触摸屏显示器。机器600可以附加地包括存储设备(例如,驱动单元)616、信号生成设备618(例如,扬声器)、网络接口设备620、以及一个或多个传感器621(诸如全球定位系统(GPS)传感器、罗盘、加速度计、或其他传感器)。机器600可以包括输出控制器628(诸如串行(例如,通用串行总线(USB)、并行、或其他有线或无线(例如,红外(IR)、近场通信(NFC)等)连接以便通信或控制一个或多个外围设备(例如,打印机、读卡器等)。
存储设备616可以包括机器可读介质622,其上存储有一组或多组数据结构或指令624(例如,软件),其具体化或由在此描述的技术或功能中的任何一种或多种利用。指令624还可以在由机器600执行期间完全或至少部分地驻留在主存储器604内、静态存储器606内或硬件处理器602内。在示例中,硬件处理器602、主存储器604、静态存储器606或存储设备616的一个组合或任何组合可以构成机器可读介质。
虽然机器可读介质622被展示为单个介质,但是术语“机器可读介质”可以包括被配置成用于存储一个或多个指令624的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关联的缓存和服务器)。
术语“机器可读介质”可以包括能够存储、编码、或承载用于由机器600执行的指令624、且使机器600执行本公开的技术中的任何一种或多种的任何介质、或能够存储、编码、或承载由这种指令624使用或与这种指令相关联的数据结构的任何介质。非限制性机器可读介质示例可以包含固态存储器、以及光介质和磁介质。在示例中,大容量的机器可读介质包括带有具有静止质量的多个粒子的机器可读介质。大容量的机器可读介质的特定示例可以包括:非易失性存储器(诸如半导体存储器器件(例如,电可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM))和闪存存储器器件));磁盘,诸如内部硬盘和可移除磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。
进一步可以利用多个传输协议(例如,帧中继、因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)、超文本传输协议(HTTP)等)中的任一种协议、经由网络接口设备620、使用传输介质、通过通信网络626来传输或接收指令624。示例通信网络可以包括:局域网(LAN)、广域网(WAN)、分组数据网络(例如,因特网)、移动电话网络(例如,蜂窝网络)、普通老式电话(POTS)网络、以及无线数据网络(例如,已知为的电气与电子工程师协会(IEEE)802.11标准家族、已知为的IEEE 802.16标准家族)、IEEE802.15.4标准家族、点对点(P2P)网络、以及其他。在示例中,网络接口设备620可以包括一个或多个物理插孔(例如,以太网、同轴、或电话插孔)或一个或多个天线以便连接至通信网络626。在示例中,网络接口设备620可以包括多个天线以用于使用单输入多输出(SIMO)、多输入多输出(MIMO)或多输入单输出(MISO)技术中的至少一种技术来无线通信。术语“传输介质”应视为包括能够存储、编码或承载由机器600执行的指令624的任何无形介质,并且包括数字或模拟通信信号或者促进这种软件通信的其他无形介质。
在对言语分类的上下文中对前述系统、方法、设备、以及示例进行了描述。在一些实施例中,前述系统、方法、设备、以及示例还可以用于对图像、视频、非言语音频、或其组合进行分类。例如,可以通过提供目标人类的分类器126图像和群组人类的图像来训练分类器126以便对目标人类的图像进行分类。作为另一示例,可以通过提供目标人类的分类器126视频和群组人类的视频来训练分类器126以便对目标人类的视频进行分类。
目前所描述的方法、系统和设备实施例的附加示例包括以下非限制性配置。以下非限制性示例中的每个示例可以独立存在,或者可以任何枚举或组合与在下文或在整个本公开中提供的其他示例中的任何一个或多个示例进行组合。
示例1包括使用适当的群组样本子集来训练分类器对观察进行分类的装置的主题(例如,通过设备、装置、机器、或机器可读介质来具体化),该装置包括:计算部件,所述计算部件用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,来自多个目标超向量的所述对应目标超向量表示目标类别,来自多个群组超向量的所述对应群组超向量表示群组类别;选择部件,所述选择部件用于基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集;以及训练部件,所述训练部件用于训练分类器将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
在示例2中,示例1的主题可以可选地包括:所述多个目标超向量中的目标超向量表示由目标发言者说出的话语,并且所述多个群组超向量中的超向量表示由群组发言者说出的话语。
在示例3中,示例1至2中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的目标超向量表示目标人的图像,并且所述多个群组超向量中的群组超向量表示群组人的图像。
在示例4中,示例1至3中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的目标超向量表示目标人的视频,并且所述多个群组超向量中的群组超向量表示群组人的视频。
在示例5中,示例1至4中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的目标超向量表示目标音频,并且所述多个群组超向量中的群组超向量表示群组音频。
在示例6中,示例1至5中任何一项或多项的主题可以可选地包括:模拟音频输入部件,所述模拟音频输入部件用于获取模拟音频输入;以及模数转换器,所述模数转换器通信地耦合至所述模拟音频输入部件以用于:从所述模拟音频输入部件接收所述模拟音频输入;以及将所述模拟音频输入转换成数字音频。
在示例7中,示例1至6中任何一项或多项的主题可以可选地包括:所述装置进一步用于:从表示由目标发言者对训练话语的口语重复的数字音频中提取对应口语训练重复的特征;从表示由多个群组发言者说出的各个话语的数字音频中提取由群组发言者说出的对应话语的特征;对所述目标发言者的所述提取的特征进行适配以便针对由所述目标发言者对所述训练话语的对应重复生成统计目标发言者模型;对所述多个群组发言者的所述提取的特征进行适配以便针对由所述多个群组发言者说出的对应话语生成统计群组发言者模型;通过从对应统计目标发言者模型中提取目标超向量来创建所述多个目标超向量;以及通过从对应统计群组发言者模型中提取群组超向量来创建所述多个群组超向量。
在示例8中,示例1至7中任何一项或多项的主题可以可选地包括:所述距离度量为以下各项中的一项:城市街区、马哈拉诺比斯、巴塔卡里亚、或欧几里德。
在示例9中,示例1至8中任何一项或多项的主题可以可选地包括:所述分类器是支持向量机。
示例10包括、或者可以可选地与示例1至9中的一项或任何组合的主题的全部或部分进行组合,以便具体化用于训练分类器对观察进行分类的指令的主题(例如,方法、机器可读介质、或从装置或机器安排或配置的操作),所述训练使用适当的群组样本子集,所述指令当由机器执行时使所述机器执行包括以下各项的操作:对表示目标类别的多个目标超向量进行处理;对表示群组类别的多个群组超向量进行处理;从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量;从所述多个群组超向量中并且基于所述计算的距离度量选择适当的群组超向量子集;以及训练所述分类器将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
在示例11中,示例10的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示由目标发言者说出的话语,并且所述多个群组超向量中的每一个群组超向量表示由群组发言者说出的话语。
在示例12中,示例10至11中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标人的图像,并且所述多个群组超向量中的每一个群组超向量表示群组人的图像。
在示例13中,示例10至12中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标人的视频,并且所述多个群组超向量中的每一个群组超向量表示群组人的视频。
在示例14中,示例10至13中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标音频,并且所述多个群组超向量中的每一个群组超向量表示群组音频。
在示例15中,示例10至14中任何一项或多项的主题可以可选地包括:另外的指令,所述指令当由所述机器执行时使所述机器执行包括以下各项的操作:获取模拟音频输入;以及将所述模拟音频输入转换成数字音频。
在示例16中,示例10至15中任何一项或多项的主题可以可选地包括:另外的指令,所述指令当由所述机器执行时使所述机器执行包括以下各项的操作:从表示由目标发言者对训练话语的口语重复的数字音频中提取对应口语训练重复的特征;从表示由多个群组发言者说出的各个话语的数字音频中提取由群组发言者说出的对应话语的特征;对所述目标发言者的所述提取的特征进行适配以便针对由所述目标发言者对所述训练话语的对应重复生成统计目标发言者模型;对所述多个群组发言者的所述提取的特征进行适配以便针对由所述多个群组发言者说出的对应话语生成统计群组发言者模型;通过从对应统计目标发言者模型中提取目标超向量来创建所述多个目标超向量;以及通过从对应统计群组发言者模型中提取群组超向量来创建所述多个群组超向量。
在示例17中,示例10至16中任何一项或多项的主题可以可选地包括:所述距离度量为以下各项中的一项:城市街区、马哈拉诺比斯、巴塔卡里亚、或欧几里德。
示例18包括、或者可以可选地与示例1至17中的一项或任何组合的主题的全部或部分进行组合,以便具体化用于训练分类器对观察进行分类的主题(例如,方法、机器可读介质、或从装置或机器安排或配置的操作),所述训练使用适当的群组样本子集,所述方法包括由计算系统的处理器和存储器执行的操作,所述操作包括:对表示目标类别的多个目标超向量进行处理;对表示群组类别的多个群组超向量进行处理;从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量;基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集;以及训练所述分类器将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
在示例19中,示例18的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示由目标发言者说出的话语,并且所述多个群组超向量中的每一个群组超向量表示由群组发言者说出的话语。
在示例20中,示例18至19中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标人的图像,并且所述多个群组超向量中的每一个群组超向量表示群组人的图像。
在示例21中,示例18至20中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标人的视频,并且所述多个群组超向量中的每一个群组超向量表示群组人的视频。
在示例22中,示例18至21中任何一项或多项的主题可以可选地包括:获取模拟音频输入;以及将所述模拟音频输入转换成数字音频。
在示例23中,示例18至22中任何一项或多项的主题可以可选地包括:从表示由目标发言者对训练话语的口语重复的数字音频中提取由所述目标发言者对训练话语的对应重复的特征;从表示由多个群组发言者说出的各个话语的数字音频中提取由群组发言者说出的对应话语的特征;对所述目标发言者的所述提取的特征进行适配以便针对由所述目标发言者对所述训练话语的对应重复生成统计目标发言者模型;对所述多个群组发言者的所述提取的特征进行适配以便针对由所述多个群组发言者说出的对应话语生成统计群组发言者模型;通过从对应统计目标发言者模型中提取目标超向量来创建所述多个目标超向量;以及通过从对应统计群组发言者模型中提取群组超向量来创建所述多个群组超向量。
示例24包括机器可读介质的主题,所述机器可读介质包括用于计算系统的操作的指令,所述指令当由机器执行时使所述机器执行示例18至23所述的方法中的任何方法的操作。
示例25包括一种装置的主题,所述装置包括用于执行示例18至23中任一项的主题的方法中的任何方法的装置。
示例26包括、或者可以可选地与示例1至25中的一项或任何组合的主题的全部或部分进行组合,以便具体化一种用于训练分类器对观察进行分类的装置的主题(例如,设备、装置、机器、或机器可读介质),所述训练使用适当的群组样本子集,所述装置包括:用于对表示目标类别的多个目标超向量进行处理的装置;用于对表示群组类别的多个群组超向量进行处理的装置;用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量的装置;用于基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集的装置;以及用于训练所述分类器将所述观察分类为属于所述目标类别或所述群组类别的装置,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
在示例27中,示例26的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示由目标发言者说出的话语,并且所述多个群组超向量中的每一个群组超向量表示由群组发言者说出的话语。
在示例28中,示例26至27中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标人的图像,并且所述多个群组超向量中的每一个群组超向量表示群组人的图像。
在示例29中,示例26至28中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标人的视频,并且所述多个群组超向量中的每一个群组超向量表示群组人的视频。
在示例30中,示例26至29中任何一项或多项的主题可以可选地包括:所述多个目标超向量中的每一个目标超向量表示目标音频,并且所述多个群组超向量中的每一个群组超向量表示群组音频。
在示例31中,示例26至30中任何一项或多项的主题可以可选地包括:用于获取模拟音频输入的装置;以及用于将所述模拟音频输入转换成数字音频的装置。
在示例32中,示例26至31中任何一项或多项的主题可以可选地包括:用于从表示由目标发言者对训练话语的口语重复的数字音频中提取由所述目标发言者对训练话语的对应重复的特征的装置;用于从表示由多个群组发言者说出的各个话语的数字音频中提取由群组发言者说出的对应话语的特征的装置;用于对所述目标发言者的所述提取的特征进行适配以便针对由所述目标发言者对所述训练话语的对应重复生成统计目标发言者模型的装置;用于对所述多个群组发言者的所述提取的特征进行适配以便针对由所述多个群组发言者说出的对应话语生成统计群组发言者模型的装置;用于通过从对应统计目标发言者模型中提取目标超向量来创建所述多个目标超向量的装置;以及用于通过从对应统计群组发言者模型中提取群组超向量来创建所述多个群组超向量的装置。
示例33包括、或者可以可选地与示例1至32中的一项或任何组合的主题的全部或部分进行组合,以便具体化将人类用户登记到语音认证系统中的主题(例如,方法、机器可读介质、或从装置或机器安排或配置的操作),所述方法包括由计算系统的处理器和存储器执行的操作,所述操作包括:提取表示由目标发言者说出的登记话语的每一次重复的特征的梅尔频率倒谱系数(MFCC);提取表示由多个群组发言者说出的每一条登记话语的特征的MFCC;使用最大后验(MAP)适配来将通用背景模型(UBM)适配于所述目标发言者的所述提取的MFCC以便针对由所述目标发言者对所述登记话语的每一次重复生成目标发言者高斯混合模型(GMM);使用MAP适配将所述UBM适配于所述多个群组发言者的所述提取的MFCC以便针对由所述多个群组发言者说出的每一条登记话语生成群组发言者GMM;通过从每一个目标发言者GMM中提取登记超向量来创建多个登记超向量;通过从每一个群组发言者GMM中提取群组超向量来创建多个群组超向量;从每一个群组超向量到每一个登记超向量计算表示所述群组超向量与所述登记超向量之间的相似性的城市街区距离度量,其中,城市街区距离是线段在每一个超向量的n个笛卡尔坐标之间的投影的绝对差之和;基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集;以及训练支持向量机(SVM)对所述目标发言者进行认证,所述训练通过向所述SVM提供所述多个登记超向量以及所述选择的适当的群组超向量子集而被发起。
示例34包括一种用于执行示例33的操作的装置的主题(例如,设备、装置、或机器)。
示例35包括用于将人类用户登记到语音认证系统中的主题(例如,方法、机器可读介质、或从装置或机器安排或配置的操作),这些指令当由机器执行时使所述机器执行示例33的操作。
示例36包括、或者可以可选地与示例1至35中的一个或任何组合的主题的全部或部分进行组合,以便具体化一种用于使用适当的群组样本子集来训练分类器对观察进行分类的装置的主题(例如,设备、装置、机器、或机器可读介质),所述装置包括:用于提取表示由目标发言者说出的登记话语的每一次重复的特征的梅尔频率倒谱系数(MFCC)的装置;用于提取表示由多个群组发言者说出的每一条登记话语的特征的MFCC的装置;用于使用最大后验(MAP)适配来将通用背景模型(UBM)适配于所述目标发言者的所述提取的MFCC以便针对由所述目标发言者对所述登记话语的每一次重复生成目标发言者高斯混合模型(GMM)的装置;用于使用MAP适配将所述UBM适配于所述多个群组发言者的所述提取的MFCC以便针对由所述多个群组发言者说出的每一条登记话语生成群组发言者GMM的装置;用于通过从每一个目标发言者GMM中提取登记超向量来创建多个登记超向量的装置;用于通过从每一个群组发言者GMM中提取群组超向量来创建多个群组超向量的装置;用于从每一个群组超向量到每一个登记超向量计算表示所述群组超向量与所述登记超向量之间的相似性的城市街区距离度量的装置,其中,城市街区距离是线段在每一个超向量的所述n个笛卡尔坐标之间的投影的绝对差之和;用于基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集的装置;以及用于训练支持向量机(SVM)对目标发言者进行认证的装置,所述训练通过向所述SVM提供所述多个登记超向量以及所述选择的适当的群组超向量子集而被发起。
示例37包括、或者可以可选地与示例1至36中的一个或任何组合的主题的全部或部分进行组合,以便具体化一种用于使用适当的群组样本子集来训练分类器对观察进行分类的装置的主题(例如,设备、装置、机器、或机器可读介质),所述装置包括:模拟音频输入部件,所述模拟音频输入部件用于获取模拟音频输入;模数转换器,所述模数转换器通信地耦合至所述模拟音频输入部件以用于:从所述模拟音频输入部件接收所述模拟音频输入;以及将所述模拟音频输入转换成数字音频;计算部件,所述计算部件用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,来自多个目标超向量的所述对应目标超向量表示目标类别,来自多个群组超向量的所述对应群组超向量表示群组类别;选择部件,所述选择部件用于基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集;以及训练部件,所述训练部件用于训练分类器将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
在示例38中,示例37的主题可以可选地包括:所述装置进一步用于:提取表示由目标发言者说出的登记话语的每一次重复的特征的梅尔频率倒谱系数(MFCC);提取表示由多个群组发言者说出的每一条话语的特征的MFCC;使用最大后验(MAP)适配来将通用背景模型(UBM)适配于所述目标发言者的所述提取的MFCC以便针对由所述目标发言者对所述登记话语的每一次重复生成目标发言者高斯混合模型(GMM);使用MAP适配将所述UBM适配于所述多个群组发言者的所述提取的MFCC以便针对由所述多个群组发言者说出的每一条话语生成群组发言者GMM;通过从每一个目标发言者GMM中提取登记超向量来创建所述多个登记超向量;以及通过从每一个群组发言者GMM中提取群组超向量来创建所述多个群组超向量。
在示例39中,示例37至38中任何一项或多项的主题可以可选地包括:所述装置是门锁。
在示例40中,示例37至39中任何一项或多项的主题可以可选地包括:所述装置是枪锁。
在示例41中,示例37至40中任何一项或多项的主题可以可选地包括:所述装置是自行车锁。
在示例42中,示例37至41中任何一项或多项的主题可以可选地包括:所述装置是车辆点火锁。
在示例43中,示例37至42中任何一项或多项的主题可以可选地包括:所述装置是零售亭。
在示例44中,示例37至43中任何一项或多项的主题可以可选地包括:所述装置是个人计算机。
在示例45中,示例37至44中任何一项或多项的主题可以可选地包括:所述装置是智能手机。
在示例46中,示例37至45中任何一项或多项的主题可以可选地包括:所述装置是智能电视。
示例47包括、或者可以可选地与示例1至46中的一个或任何组合的主题的全部或部分进行组合,以便具体化用于训练分类器对观察进行分类的主题(例如,方法、机器可读介质、或从装置或机器安排或配置的操作),所述训练使用适当的群组样本子集,所述方法包括由计算系统的处理器和存储器执行的操作,所述操作包括:接收表示目标类别的多个目标超向量;接收表示群组类别的多个群组超向量;从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,所述对应目标超向量来自所述多个目标超向量,所述对应群组超向量来自所述多个群组超向量;基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集;以及训练所述分类器将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
示例48包括用于将人类用户登记到语音认证系统中的主题(例如,方法、机器可读介质、或从装置或机器安排或配置的操作),这些指令当由机器执行时使所述机器执行示例47的操作。
示例49包括一种用于执行示例47的操作的装置的主题(例如,设备、装置、或机器)。
示例50包括、或者可以可选地与示例1至49中的一个或任何组合的主题的全部或部分进行组合,以便具体化一种用于使用适当的群组样本子集来训练分类器对观察进行分类的装置的主题(例如,设备、装置、机器、或机器可读介质),所述训练使用适当的群组样本子集,所述装置包括:用于接收表示目标类别的多个目标超向量的装置;用于接收表示群组类别的多个群组超向量的装置;用于从对应群组超向量到对应目标超向量来计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量的装置,所述对应目标超向量来自所述多个目标超向量,所述对应群组超向量来自所述多个群组超向量;用于基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集的装置;以及用于训练所述分类器将所述观察分类为属于所述目标类别或所述群组类别的装置,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
示例51包括、或者可以可选地与示例1至50中的一个或任何组合的主题的全部或部分进行组合,以便具体化一种用于使用适当的群组样本子集来训练统计分类器以便对观察进行分类的装置的主题(例如,设备、装置、机器、或机器可读介质),所述装置包括:第一接收部件,所述第一接收部件用于接收表示目标类别的多个目标超向量;第二接收部件,所述第二接收部件用于接收表示群组类别的多个群组超向量;计算部件,所述计算部件用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,所述对应目标超向量来自所述多个目标超向量,所述对应群组超向量来自所述多个群组超向量;选择部件,所述选择部件用于基于所述计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集;以及训练部件,所述训练部件用于训练统计分类器以便将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述统计分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集而被发起。
在示例52中,示例51的主题可以可选地包括:所述第二接收部件是所述第一接收部件。
以上的详细描述包括对附图的参照,这些附图形成了详细描述的一部分。所述附图以图示的方式示出了可以被实践的具体实施例。这些实施例在此也被称为“示例”。这类示例可以包括除所示出或所描述的那些要素之外的要素。然而,还考虑到的是包括所示出或所描述的示例的示例。而且,或者针对在此所示出或所描述的具体示例(或者其一个或多个方面),或者针对在此所示出或所描述的其他示例(或者其一个或多个方面),还考虑到使用所示出或所描述的那些要素的任何组合或枚举(或者其一个或多个方面)的示例。
在本文档中,如在专利文档中是普遍的,术语“一个(a)”或“一个(an)”被用于包括一个或多个,独立于“至少一个”或者“一个或多个”的任何其他实例或用法。在本文档中,使用术语“或者”来指代非排他的“或”,从而使得除非另外指示,“A或B”包括“A而没有B”、“B而没有A”以及“A和B”。在所附权利要求书中,术语“包括(including)”和“其中(in which)”被用作相应术语“包括(comprising)”和“其中(wherein)”的易懂的英文等价词。此外,在以下权利要求书中,术语“包括(including)”和“包括(comprising)”是开放式的,即,除在权利要求中列在此类术语之后的那些元素外还包括元素的系统、设备、物品或过程仍被视为落入该权利要求的范围内。而且,在以下权利要求书中,术语“第一”、“第二”、和“第三”等仅用作标签,且不旨在暗示其对象的数值次序。
以上描述旨在是说明性的,而非限制性的。例如,以上所描述的示例(或者其一个或多个方面)可以互相结合使用。诸如本领域的普通技术人员在审阅以上描述后可以使用其他实施例。而且,在以上具体实施方式中,可以将各个特征分组在一起以便精简本公开。然而,权利要求书可以不对在此公开的每一个特征进行阐述,并且实施例就可以表征所述特征的子集。进一步地,实施例可以包括比在具体示例中公开的少得多的特征。因此,以下权利要求书据此被并入具体实施方式中,其中,权利要求作为单独的实施例而独立存在。在此公开的实施例的范围应当参考所附权利要求书、连同这样的权利要求书有权获得的等效物的全部范围来确定。
Claims (21)
1.一种用于使用适当的群组样本子集来训练分类器以对观察进行分类的装置,所述装置包括:
至少一个处理器;以及
包括指令的存储器,所述指令在由至少一个处理器执行时,导致所述至少一个处理器:
访问统计目标发言者模型,其中所述统计目标发言者模型是基于由目标发言者说出的特定话语;
访问多个统计群组发言者模型,所述统计群组发言者模型是基于由各个群组发言者说出的特定话语;
处理表示目标类别的多个目标超向量,其中所述多个目标超向量是基于所述统计目标发言者模型;
处理表示群组类别的多个群组超向量,其中所述多个群组超向量是基于所述多个群组发言者模型;
从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,来自多个目标超向量的所述对应目标超向量表示目标类别,来自多个群组超向量的所述对应群组超向量表示群组类别;
基于针对所述特定话语所计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集,其中所述适当的群组超向量子集包括具有最小相关联所计算距离度量的群组超向量;以及
训练分类器以将音频话语分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所选的适当的群组超向量子集来发起;
获得未经分类的音频话语;以及
响应于使用所述分类器来确定所述未经分类的音频话语属于所述目标类别,产生指示话语特定目标发言者匹配的输出。
2.如权利要求1所述的装置,其中,所述多个目标超向量中的目标超向量表示由目标发言者说出的话语,并且其中,所述多个群组超向量中的超向量表示由群组发言者说出的话语。
3.如权利要求1所述的装置,其中,所述多个目标超向量中的目标超向量表示目标音频,并且其中,所述多个群组超向量中的群组超向量表示群组音频。
4.如权利要求1所述的装置,进一步包括:
模拟音频输入部件,所述模拟音频输入部件用于获取模拟音频输入;以及
模数转换器,所述模数转换器通信地耦合至所述模拟音频输入部件,用于:
从所述模拟音频输入部件接收所述模拟音频输入;以及
将所述模拟音频输入转换成数字音频。
5.如权利要求4所述的装置,其中,所述装置进一步用于:
从表示由目标发言者对训练话语的口语重复的数字音频中提取对应口语训练重复的特征;
从表示由多个群组发言者说出的各个话语的数字音频中提取由群组发言者说出的对应话语的特征;
对所述目标发言者的所述提取的特征进行适配以便针对由所述目标发言者对所述训练话语的对应重复生成统计目标发言者模型;
对所述多个群组发言者的所述提取的特征进行适配以便针对由所述多个群组发言者说出的对应话语生成统计群组发言者模型;
通过从对应统计目标发言者模型中提取目标超向量来创建所述多个目标超向量;以及
通过从对应统计群组发言者模型中提取群组超向量来创建所述多个群组超向量。
6.如权利要求1所述的装置,其中,所述距离度量为以下各项中的一项:城市街区、马哈拉诺比斯、巴塔卡里亚、或欧几里德。
7.如权利要求1所述的装置,其中,所述分类器是支持向量机。
8.一种用于训练分类器以对观察进行分类的方法,所述训练使用适当的群组样本子集,所述方法包括由计算系统的处理器和存储器执行的操作,所述操作包括:
访问统计目标发言者模型,其中所述统计目标发言者模型是基于由目标发言者说出的特定话语;
访问多个统计群组发言者模型,所述统计群组发言者模型是基于由各个群组发言者说出的特定话语;
对表示目标类别的多个目标超向量进行处理,其中所述多个目标超向量是基于所述统计目标发言者模型;
对表示群组类别的多个群组超向量进行处理,其中所述多个群组超向量是基于所述多个群组发言者模型;
从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量;
基于针对所述特定话语所计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集,其中所述适当的群组超向量子集包括具有最小相关联所计算距离度量的群组超向量;
训练所述分类器以将音频话语分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集来发起
接收未经分类的音频话语;以及
响应于使用所述分类器来确定所述未经分类的音频话语属于所述目标类别,产生指示话语特定目标发言者匹配的输出。
9.如权利要求8所述的方法,其中,所述多个目标超向量中的每一个目标超向量表示由目标发言者说出的话语,并且其中,所述多个群组超向量中的每一个群组超向量表示由群组发言者说出的话语。
10.如权利要求8所述的方法,进一步包括:
获取模拟音频输入;以及
将所述模拟音频输入转换成数字音频。
11.如权利要求10所述的方法,进一步包括:
从表示由目标发言者对训练话语的口语重复的数字音频中提取所述目标发言者的对应训练口语重复的特征;
从表示由多个群组发言者说出的各个话语的数字音频中提取由群组发言者说出的对应话语的特征;
对所述目标发言者的所述提取的特征进行适配以便针对由所述目标发言者对所述训练话语的对应重复生成统计目标发言者模型;
对所述多个群组发言者的所述提取的特征进行适配以便针对由所述多个群组发言者说出的对应话语生成统计群组发言者模型;
通过从对应统计目标发言者模型中提取目标超向量来创建所述多个目标超向量;以及
通过从对应统计群组发言者模型中提取群组超向量来创建所述多个群组超向量。
12.一种包括用于计算系统的操作的指令的机器可读介质,所述指令在由机器执行时导致所述机器执行如权利要求8-11中任一项所述的方法的操作。
13.一种包括用于执行如权利要求8-11中任一项所述的方法的装置的设备。
14.一种用于训练分类器以对观察进行分类的方法,所述训练使用适当的群组样本子集,所述方法包括由计算系统的处理器和存储器执行的操作,所述操作包括:
访问统计目标发言者模型,其中所述统计目标发言者模型是基于由目标发言者说出的特定话语;
访问多个统计群组发言者模型,所述统计群组发言者模型是基于由各个群组发言者说出的特定话语;
接收表示目标类别的多个目标超向量,其中所述多个目标超向量是基于所述统计目标发言者模型;
接收表示群组类别的多个群组超向量,其中所述多个群组超向量是基于所述多个群组发言者模型;
从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,所述对应目标超向量来自所述多个目标超向量,所述对应群组超向量来自所述多个群组超向量;
基于针对所述特定话语所计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集,其中所述适当的群组超向量子集包括具有最小相关联所计算距离度量的群组超向量;
训练所述分类器以将音频话语分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集来发起;
接收未经分类的音频话语;以及
响应于使用所述分类器来确定所述未经分类的音频话语属于所述目标类别,产生指示话语特定目标发言者匹配的输出。
15.一种包括用于训练分类器以对观察进行分类的指令的机器可读介质,所述训练使用适当的群组样本子集,所述指令在由机器执行时导致所述机器执行如权利要求14所述的操作。
16.一种用于训练分类器以对观察进行分类的设备,所述设备包括用于执行如权利要求14所述的操作的装置。
17.一种用于通过使用适当的群组样本子集来训练分类器以对观察进行分类的设备,所述训练使用适当的群组样本子集,所述设备包括:
用于访问统计目标发言者模型,其中所述统计目标发言者模型是基于由目标发言者说出的特定话语的装置;
用于访问多个统计群组发言者模型,所述统计群组发言者模型是基于由各个群组发言者说出的特定话语的装置;
用于接收表示目标类别的多个目标超向量的装置,其中所述多个目标超向量是基于所述统计目标发言者模型;
用于接收表示群组类别的多个群组超向量的装置,其中所述多个群组超向量是基于所述多个群组发言者模型;
用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量的装置,所述对应目标超向量来自所述多个目标超向量,所述对应群组超向量来自所述多个群组超向量;
用于基于针对所述特定话语所计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集的装置,其中所述适当的群组超向量子集包括具有最小相关联所计算距离度量的群组超向量;
用于训练所述分类器以将所述观察分类为属于所述目标类别或所述群组类别的装置,所述训练通过向所述分类器提供所述多个目标超向量以及所选的适当的群组超向量子集来发起;
用于接收未经分类的音频话语的装置;以及
用于响应于使用所述分类器来确定所述未经分类的音频话语属于所述目标类别,产生指示话语特定目标发言者匹配的输出的装置。
18.一种用于通过使用适当的群组样本子集来训练分类器以对观察进行分类的设备,所述设备包括:
第一访问部件,用于访问统计目标发言者模型,其中所述统计目标发言者模型是基于由目标发言者说出的特定话语;
第二访问部件,用于访问多个统计群组发言者模型,所述统计群组发言者模型是基于由各个群组发言者说出的特定话语;
第一接收部件,用于接收表示目标类别的多个目标超向量,其中所述多个目标超向量是基于所述统计目标发言者模型;
第二接收部件,用于接收表示群组类别的多个群组超向量,其中所述多个群组超向量是基于所述多个群组发言者模型;
计算部件,用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,所述对应目标超向量来自所述多个目标超向量,所述对应群组超向量来自所述多个群组超向量;
选择部件,用于基于针对所述特定话语所计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集,其中所述适当的群组超向量子集包括具有最小相关联所计算距离度量的群组超向量;
训练部件,用于训练所述分类器以将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所述选择的适当的群组超向量子集来发起;
第三接收部件,用于接收未经分类的音频话语;以及
输出部件,用于响应于使用所述分类器来确定所述未经分类的音频话语属于所述目标类别,产生指示话语特定目标发言者匹配的输出。
19.如权利要求18所述的设备,其中,所述第二接收部件是第一接收部件。
20.一种用于通过使用适当的群组样本子集来训练分类器以对观察进行分类的设备,所述设备包括:
模拟音频输入部件,用于获取模拟音频输入;
通信地耦合至所述模拟音频输入部件的模数转换器,用于:
从所述模拟音频输入部件接收所述模拟音频输入;以及
将所述模拟音频输入转换成数字音频;
计算部件,用于从对应群组超向量到对应目标超向量计算表示所述对应群组超向量与所述对应目标超向量之间的相似性的距离度量,所述对应目标超向量来自表示目标类别的多个目标超向量,所述对应群组超向量来自表示群组类别的多个群组超向量;
选择部件,用于基于针对特定话语所计算的距离度量从所述多个群组超向量中选择适当的群组超向量子集,其中所述适当的群组超向量子集包括具有最小相关联所计算距离度量的群组超向量;以及
训练部件,用于训练所述分类器以将所述观察分类为属于所述目标类别或所述群组类别,所述训练通过向所述分类器提供所述多个目标超向量以及所选的适当的群组超向量子集来发起;
接收部件,用于接收未经分类的音频话语;以及
输出部件,用于响应于使用所述分类器来确定所述未经分类的音频话语属于所述目标类别,产生指示话语特定目标发言者匹配的输出。
21.如权利要求20所述的设备,其中,所述设备还用于:
提取表示由目标发言者说出的登记话语的每一次重复的特征的梅尔频率倒谱系数MFCC;
提取表示由多个群组发言者说出的每一条话语的特征的MFCC;
使用最大后验MAP适配来将通用背景模型UBM适配于所述目标发言者的所述提取的MFCC以便针对由所述目标发言者对所述登记话语的每一次重复生成目标发言者高斯混合模型GMM;
使用MAP适配将所述UBM适配于所述多个群组发言者的所述提取的MFCC以便针对由所述多个群组发言者说出的每一条话语生成群组发言者GMM;
通过从每一个目标发言者GMM中提取登记超向量来创建所述多个登记超向量;以及
通过从每一个群组发言者GMM中提取群组超向量来创建所述多个群组超向量。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/PL2014/050017 WO2015147662A1 (en) | 2014-03-28 | 2014-03-28 | Training classifiers using selected cohort sample subsets |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106062871A CN106062871A (zh) | 2016-10-26 |
CN106062871B true CN106062871B (zh) | 2020-03-27 |
Family
ID=50628879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480076469.1A Expired - Fee Related CN106062871B (zh) | 2014-03-28 | 2014-03-28 | 使用所选择的群组样本子集来训练分类器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160365096A1 (zh) |
EP (1) | EP3123468A1 (zh) |
CN (1) | CN106062871B (zh) |
WO (1) | WO2015147662A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9875743B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Acoustic signature building for a speaker from multiple sessions |
JP6453681B2 (ja) * | 2015-03-18 | 2019-01-16 | 株式会社東芝 | 演算装置、演算方法およびプログラム |
US20170236520A1 (en) * | 2016-02-16 | 2017-08-17 | Knuedge Incorporated | Generating Models for Text-Dependent Speaker Verification |
EP4113511A1 (en) | 2016-07-11 | 2023-01-04 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
CN108091340B (zh) * | 2016-11-22 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 声纹识别方法、声纹识别系统和计算机可读存储介质 |
US11829848B2 (en) | 2017-05-09 | 2023-11-28 | Microsoft Technology Licensing, Llc | Adding negative classes for training classifier |
US10354656B2 (en) * | 2017-06-23 | 2019-07-16 | Microsoft Technology Licensing, Llc | Speaker recognition |
WO2019106638A1 (en) | 2017-12-03 | 2019-06-06 | Seedx Technologies Inc. | Systems and methods for sorting of seeds |
EP3707640A1 (en) * | 2017-12-03 | 2020-09-16 | Seedx Technologies Inc. | Systems and methods for sorting of seeds |
US10832671B2 (en) | 2018-06-25 | 2020-11-10 | Intel Corporation | Method and system of audio false keyphrase rejection using speaker recognition |
CN109087145A (zh) * | 2018-08-13 | 2018-12-25 | 阿里巴巴集团控股有限公司 | 目标人群挖掘方法、装置、服务器及可读存储介质 |
CN110534101B (zh) * | 2019-08-27 | 2022-02-22 | 华中师范大学 | 一种基于多模融合深度特征的移动设备源识别方法及系统 |
US11158325B2 (en) * | 2019-10-24 | 2021-10-26 | Cirrus Logic, Inc. | Voice biometric system |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134344A (en) * | 1997-06-26 | 2000-10-17 | Lucent Technologies Inc. | Method and apparatus for improving the efficiency of support vector machines |
DE50312046D1 (de) * | 2002-09-23 | 2009-12-03 | Infineon Technologies Ag | Verfahren zur rechnergestützten Spracherkennung, Spracherkennungssystem und Steuereinrichtung zum Steuern eines technischen Systems und Telekommunikationsgerät |
US7478074B2 (en) * | 2003-10-31 | 2009-01-13 | The University Of Queensland | Support vector machine |
CN1808567A (zh) * | 2006-01-26 | 2006-07-26 | 覃文华 | 验证真人在场状态的声纹认证设备和其认证方法 |
US8566093B2 (en) * | 2006-05-16 | 2013-10-22 | Loquendo S.P.A. | Intersession variability compensation for automatic extraction of information from voice |
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
US8306814B2 (en) * | 2010-05-11 | 2012-11-06 | Nice-Systems Ltd. | Method for speaker source classification |
US20120155663A1 (en) * | 2010-12-16 | 2012-06-21 | Nice Systems Ltd. | Fast speaker hunting in lawful interception systems |
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
US9767787B2 (en) * | 2014-01-01 | 2017-09-19 | International Business Machines Corporation | Artificial utterances for speaker verification |
US9405893B2 (en) * | 2014-02-05 | 2016-08-02 | International Business Machines Corporation | Biometric authentication |
-
2014
- 2014-03-28 EP EP14720715.3A patent/EP3123468A1/en not_active Withdrawn
- 2014-03-28 CN CN201480076469.1A patent/CN106062871B/zh not_active Expired - Fee Related
- 2014-03-28 US US15/121,004 patent/US20160365096A1/en not_active Abandoned
- 2014-03-28 WO PCT/PL2014/050017 patent/WO2015147662A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP3123468A1 (en) | 2017-02-01 |
WO2015147662A1 (en) | 2015-10-01 |
WO2015147662A8 (en) | 2016-10-06 |
US20160365096A1 (en) | 2016-12-15 |
CN106062871A (zh) | 2016-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106062871B (zh) | 使用所选择的群组样本子集来训练分类器 | |
JP7109634B2 (ja) | アイデンティティ認証方法及び装置 | |
JP7384877B2 (ja) | コロケーション情報を使用した話者照合 | |
KR102239129B1 (ko) | 심층신경망을 이용하는 종단 간 화자 인식 | |
US9401148B2 (en) | Speaker verification using neural networks | |
Bigun et al. | Multimodal biometric authentication using quality signals in mobile communications | |
US20210350346A1 (en) | System and method for using passive multifactor authentication to provide access to secure services | |
JP2021500616A (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
US11004454B1 (en) | Voice profile updating | |
US20160285866A1 (en) | Biometric identity verification | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
US11695746B2 (en) | Multi-layer user authentication with live interaction | |
US11935524B1 (en) | Authentication of impaired voices | |
US11200884B1 (en) | Voice profile updating | |
US10755074B2 (en) | Latent fingerprint pattern estimation | |
Deb et al. | Use of auxiliary classifier generative adversarial network in touchstroke authentication | |
US11893999B1 (en) | Speech based user recognition | |
CN113948089A (zh) | 声纹模型训练和声纹识别方法、装置、设备及介质 | |
JP7287442B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
WO2009110613A1 (ja) | 個人照合装置及び話者登録装置と方法並びにプログラム | |
US20230186896A1 (en) | Speaker verification method using neural network | |
US20230368575A1 (en) | Access control with face recognition and heterogeneous information | |
Ohki et al. | Evaluation of wolf attack for classified target on speaker verification systems | |
Wang et al. | Speaker identification based on robust sparse coding with limited data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200327 Termination date: 20210328 |