CN101385074A - 说话者验证 - Google Patents

说话者验证 Download PDF

Info

Publication number
CN101385074A
CN101385074A CNA200780005880XA CN200780005880A CN101385074A CN 101385074 A CN101385074 A CN 101385074A CN A200780005880X A CNA200780005880X A CN A200780005880XA CN 200780005880 A CN200780005880 A CN 200780005880A CN 101385074 A CN101385074 A CN 101385074A
Authority
CN
China
Prior art keywords
speaker
utterance
user
hmm
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200780005880XA
Other languages
English (en)
Other versions
CN101385074B (zh
Inventor
Z·张
M·刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101385074A publication Critical patent/CN101385074A/zh
Application granted granted Critical
Publication of CN101385074B publication Critical patent/CN101385074B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Collating Specific Patterns (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

说话者验证通过确定测试发言和存储的训练发言的相似性得分来执行。计算相似性得分涉及确定一组函数之和,其中每个函数包括混合成分的先验概率与适应均值和背景均值间差值之积。适应均值是基于背景均值和测试发言形成的。由该说话者提供的用于验证的语音内容可以是独立于文本(即,他们想说的任何内容)或者依赖于文本(即,用于训练的特定短语)。

Description

说话者验证
背景
说话者验证是基于语音信号检验说话者声明身份的过程。验证通常使用已经为使用系统的每个人进行过训练的语音模型来执行。
通常存在有两类说话者验证,即独立于文本和依赖于文本。在独立于文本的说话者验证中,说话者提供他们想要提供的任何语音内容。在依赖于文本的说话者验证中,说话者在模型训练和验证系统使用期间朗读一特定短语。通过重复相同短语,就可以构造用于文本依赖说话者验证系统的语音单位和这些语音单位之间过渡的强模型。而在文本独立说话者验证系统中则不是这样,因为许多语音单位和语音单位之间的许多过渡将不会在训练期间被观察到,于是将不会在模型中良好表示。
以上讨论仅提供一般背景信息,并不旨在帮助确定权利要求的主题的范围。
概述
说话者验证通过确定测试发言和存储的训练发言的相似性得分来执行。计算相似性得分涉及确定一组函数之和,其中每个函数包括混合成分的后验概率与适应均值和背景均值间差异之积。适应均值是基于背景均值和测试发言形成的。
提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决任何或所有在背景中提及缺点的实现。
附图简述
图1是可在其中实践一些实施例的一个计算环境的框图。
图2是可在其中实践一些实施例的可选计算环境的框图。
图3是一种训练文本独立验证系统的方法的流程图。
图4是用于训练文本独立验证系统的各元素的框图。
图5是一种用于在训练期间设置阈值的方法的流程图。
图6是一种标识测试发言的模型参数的流程图。
图7是在图6和图8方法中使用的各元素的框图。
图8是一种确定测试发言阈值的方法的流程图。
图9是一种验证测试发言的方法的流程图。
图10是用于验证测试发言的各元素的框图。
图11是一种训练用于文本依赖验证系统的隐马尔科夫模型的方法的流程图。
图12是用于训练隐马尔科夫模型的各元素的框图。
图13是一种使用隐马尔科夫模型验证测试发言的方法的流程图。
图14是一种使用隐马尔科夫模型验证测试发言的各元素的框图。
详细描述
图1示出了可在其上实现各实施例的合适计算系统环境100的示例。计算系统100仅为合适的操作环境的一个示例,并非对所要求保护的主题的使用范围或功能提出任何局限。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。
各实施例可用各种其它通用或专用计算系统环境或配置来操作。适合在各实施例中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、包含上述系统或设备中的任一个的分布式计算机环境等。
各实施例可在诸如由计算机执行的程序模块等计算机可执行指令的通用上下文中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等,它们执行特定任务或实现特定抽象数据类型。一些实施例被设计为在分布式计算环境中实施,在分布式计算环境中任务是由通过通信网络链接的远程处理设备来执行的。在分布式计算环境中,程序模块位于包括记忆存储设备的本地和远程计算机存储介质上。
参考图1,用于实现一些实施例的一个示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括,但不限于:处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构中的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构中的任一种的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线、以及外围部件互连(PCI)总线(也称为小背板(Mezzanine)总线)。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机110访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术语“已调制数据信号”指的是这样一种信号,其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例,而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。上述的任意组合应该包含在计算机可读介质的范围内。
系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有助于诸如启动时在计算机110中元件之间传递信息的基本例程,它通常被存储在ROM131中。RAM132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由不可移动存储器接口,诸如接口140连接至系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动存储器接口,诸如接口150连接至系统总线121。
上面讨论并在图1中说明的驱动器和它们的相关计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。
用户可以通过例如是键盘162、麦克风163和定点设备161的输入设备将命令和信息输入至计算机110中,定点设备161例如是鼠标、轨迹球或触摸板。其他输入设备(未图示)可以包括操纵杆、游戏垫、卫星天碟、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由诸如视频接口190等接口连接到系统总线121。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出外围接口195连接。
计算机110使用到例如是远程计算机180的一个或多个远程计算机的逻辑连接在连网环境中运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其他通用网络节点,且典型地包括以上关于计算机110描述的许多或所有的要素。图1中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN联网环境中使用时,计算机110通常包括调制解调器172或用于通过诸如因特网等WAN 173建立通信的其它装置。调制解调器172可以是内置或外置的,它可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例,而非限定,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其它手段。
图2是移动设备200的框图,其是示例性的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其他移动设备通信的通信接口208。在一实施例中,前面提到的组件在合适总线210上耦合以便相互通信。
存储器204用电池备份模块(未图示)实现为诸如随机存取存储器(RAM)等的非易失性电子存储器,以使存储在存储器204中的信息在对移动设备200的总电源关闭时不会丢失。存储器204的一部分优选地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分优选地被用于存储,例如模拟硬盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在运行期间,操作系统212优选地由处理器202从存储器204执行。操作系统212在一优选实施例中是可从微软公司购得的WINDOWS
Figure A200780005880D0010113029QIETU
CE操作系统。操作系统212优选地为移动设备设计,并且实现数据库特征,该数据库特征能被应用程序214通过一组曝露的应用程序编程接口和方法来利用。在对象存储216中的对象由应用程序214和操作系统212至少部分地响应对曝露的应用程序编程接口和方法的调用来维护。
通信接口208代表多种允许移动设备200发送和接收信息的设备和技术。仅举数例,这些设备包括有线和无线调制解调器、卫星接收机和广播调谐器。移动设备200还可以直接连接到计算机以与其交换数据。在此类情形中,通信接口208可以是红外收发机或者串行或并行通信连接,所有的这些都能传输流信息。
输入/输出组件206包括例如是触敏屏、按钮、滚轮、和麦克风等的各种输入设备,以及包括音频发生器、振动设备和显示器等的输出设备。以上列出的设备是作为示例且不需要都出现在移动设备200上。此外,还可以用其他输入/输出设备附连至移动设备200或在其中找到。
独立于文本的说话者检验
在本发明的一个实施例中,提供了一种独立于文本的说话者验证系统,该系统通过形成基于自适应用户训练语音的模型和自适应测试语音信号的模型的相似性测度来验证测试语音信号。更具体地,相似性测度使用两个自适应模型和背景模型之间的差异。
在一个实施例中,背景模型是如下定义的高斯混合模型:
P ( x t | λ 0 ) = Σ i = 1 M w i P i ( x t | λ 0 ) = Σ i = 1 M w i N ( x t : m i , Σ i )      式1
其中M是模型中混合分量的个数,wi是第i个混合分量的权重,mi是第i个混合分量的均值,而∑i是第i个分量的协方差矩阵。符号λ0表示背景模型的一组参数(每个分量的权重、均值和协方差)。
背景模型适于使用如下等式训练语音:
γ ^ ( i | x ^ t ) = w i P i ( x ^ t | λ 0 ) Σ j = 1 M w j P j ( x ^ t | λ 0 )       式2
γ ^ ( i ) = Σ t = 1 T γ ^ ( i | x ^ t )          式3
m ~ i = 1 γ ^ ( i ) Σ t = 1 T γ ^ ( i | x ^ t ) x ^ t          式4
m ^ i = m i + γ ^ ( i ) γ ^ ( i ) + α ( m ~ i - m i )         式5
Σ ^ i = Σ i    式6
其中
Figure A200780005880D00122
是来自一特定说话者的训练特征向量,
Figure A200780005880D00123
是给定来自说话者的特征向量的第i个混合分量的后验概率,T是来自该特定说话者的训练发言中的帧数,
Figure A200780005880D00124
是来自该特定说话者的整个训练发言中属于第i个混合分量的帧的软计数,而α是在训练发言中的第i个混合分量只有很少几个观察帧的情况下引起自适应模型的均值
Figure A200780005880D00125
选用背景模型的均值的平滑因子。注意到在上述实施例中,适应模型的协方差等于背景模型的协方差。
在一个实施例中,相似性测度被定义为:
LLR ( x 1 T ) ≤ Σ i = 1 M γ ( i ) γ ^ ( i ) γ ^ ( i ) + α δ ^ i Σ i - 1 ( δ i - γ ^ ( i ) γ ^ ( i ) + α δ ^ i 2 ) Σ i = 1 M γ ( i )           式7
δi=mi-mi      式8
δ ^ i = m ^ i - m i          式9
γ ( i ) = Σ t = 1 T γ ( i | x t )          式10
其中xt是测试发言的特征向量,T是测试发言的帧数,而mi是如下定义的测试发言的样本均值:
m ‾ i = 1 γ ( i ) Σ t = 1 T γ ( i | x t ) x t         式11
于是,在式7的相似性测度中,积由测试发言的后验概率γi、测试说话者的适应均值和背景均值之差
Figure A200780005880D001210
以及测试发言的样本均值和背景均值之差δi形成。
在一个实施例中,式7的相似性测度简化为:
LLR 0 = Σ i = 1 M γ ( i ) γ ^ ( i ) δ ^ i Σ i - 1 δ i Σ i = 1 M γ ( i ) γ ^ ( i )            式12
在又一个实施例中,为了降低式12中LLR0的数据依赖性,通过小心选择阈值来执行归一化。在一个实施例中,阈值通过首先从已经适应多个说话者发言的模型参数集合或池中选择一组适应模型参数子集来构造。一组适应模型参数子集通过标识由参数池中与训练发言最为相似的参数代表的发言而被选择。第二组适应模型参数子集通过标识由参数池中与训练发言最为相似的模型参数代表的发言而被选择。在一个实施例中,使用上式12做出相似性判定。
例如,当相似发言定位至训练发言时,从模型参数池中取出的一发言的模型参数被作为式12中测试发言的模型参数来应用,而训练发言的模型参数则直接用于式12。当定位类似于测试发言的发言时,从模型参数池中提取的发言模型参数被用作训练发言模型参数,并且测试发言模型参数被直接用于式12。
一旦经已知为组群(cohort)说话者集合的一组相似发言子集被选作训练发言和测试发言两者,则阈值可被设置为:
t ^ i 0 = 1 N cohort Σ k = 1 N cohort δ ^ i Σ i - 1 δ i k       式13
t i 0 = 1 N cohort Σ s = 1 N cohort δ i Σ i - 1 δ i s       式14
其中
Figure A200780005880D00133
是第i个混合分量处训练发言的阈值,是第i个混合分量处测试发言的阈值,Ncohort是从说话者池中选择的用以形成阈值的多个适应模型,是如式9中定义的训练发言第i个分量的调节,δi是如式8中定义的测试发言第i个分量的调节,
Figure A200780005880D00136
是选作训练发言的组群说话者k的第i个分量的调节,而
Figure A200780005880D00137
是选作测试发言中的组群说话者s的第i个分量的调节,其中:
δ i k = m k - m                式15
δ i s = m s - m             式16
其中mk是第m个组群发言的均值,而ms是第s个组群发言的均值。
使用这些阈值,归一化的LLR0为:
LLR 1 = Σ i = 1 M γ ( i ) γ ^ ( i ) [ δ ^ i Σ i - 1 δ i - ( t ^ i 0 + t i 0 ) / 2 ] Σ i = 1 M γ ( i ) γ ^ ( i )            式17
式17的相似性测度可直接用于相对于训练发言验证测试发言。在某些实施例中,迭代使用这一相似性测度来选择新的组群说话者集合作为训练发言和测试发言两者。这一新的组群说话者集合随后用于建立新阈值。注意到因为式17的相似性测试与式12的相似性测试不同,所以使用式17选择的组群集合将会与使用式12选择的组群集合不同。使用这一新的组群集合,新阈值就被定义为:
t ^ i 1 = 1 N cohort Σ k = 1 Ncohort [ δ ^ i Σ i - 1 δ i k - ( t ^ i 0 + t i 0 ) / 2 ]          式18
t i 1 = 1 N cohort Σ s = 1 Ncohort [ δ ^ i Σ i - 1 δ i s - ( t ^ i 0 + t i 0 ) / 2 ]          式19
新的相似性测度于是可被定义为:
LLR 2 = Σ i = 1 M γ ( i ) γ ^ ( i ) [ δ ^ i Σ i - 1 δ i - ( t ^ i o + t i o ) / 2 - ( t ^ i 1 + t i 1 ) / 2 ] Σ i = 1 M γ ( i ) γ ^ ( i )       式20
其中从相似性测试选择组群,从组群定义新阈值,并从新阈值定义新相似性测度的这类迭代可以按需重复多次,而每个新的相似性测试通过从前一相似性测度分子中的前一阈值的平均数减去两个新阈值的平均数来定义。
图3在本发明的一个实施例中提供了一种用于训练在说话者验证中使用的模型参数的方法的流程图。图4提供了用于构造这些模型参数的元素的框图。
在步骤300,接收来自说话者池400中多个说话者的发言。这些发言由模数转换器402转换成一数字值的序列并由帧构造器404分组成帧。数字值的帧随后由特征提取器406转换成特征向量。在一个实施例中,特征提取器是用δ系数形成美尔频率倒谱系数(MFCC)特征向量的MFCC特征提取器。这类MFCC特征提取单元在本领域内周知。这样就生成了特征向量408的说话者池。
在步骤302,说话者池特征向量应用于高斯混合模型训练器410,该训练器410使用特征向量定义通用背景模型(UBM)412,而后者在一个实施例中采用高斯混合模型的形式。这些训练包括将特征向量分组成混合分量并为每个混合分量标识高斯分布参数。更具体地,为每个混合分量确定均值和协方差矩阵。
在步骤304,UBM适应单元414使用上述式2和3为说话者池400中每个说话者的每个混合分量确定说话者池后验概率416。在步骤306,UBM适应单元414使用上述式4至6用后验概率为说话者池400中每个说话者确定说话者池适应高斯混合模型418。在式2-6,特定说话者的发言被组合形成单个发言,该发言形式一特征向量序列
Figure A200780005880D00151
其中T是该说话者所有发言的总帧数。
在步骤308,接收来自系统将来用户的训练发言420并使用模数转换器402、帧构造器404和特征提取器406将该训练发言420转换成用户训练特征向量422。在步骤310,UBM适应单元414使用上式2和3标识用户后验概率424并使用上式4至6形成用户适应的高斯混合模型426。注意到为将使用该检验系统的每个人重复步骤308、310和312。
在步骤314,训练相似性阈值。训练这些阈值的方法在图5的流程图中示出。图5所示方法是不仅为检验系统的每个用户还为说话者池中的每个说话者设置阈值的迭代方法。
在图5的步骤500,选择来自说话者池的说话者或是系统用户的说话者。在步骤501,所选说话者的高斯混合模型参数和后验概率被检索作为所选说话者模型参数433。
在步骤502,由组群选择单元430使用相似性测试440来从说话者池400中选择组群说话者。在此步骤期间,与说话者池中每个说话者相关联的模型参数(γ(i),m)连同用于当前所选说话者的模型参数
Figure A200780005880D00152
被分别应用于相似性测试。从说话者池中选择针对当前所选说话者生成最高相似性测度的说话者子集作为导致一组组群模型参数432集合的组群。在一个实施例中,式12的相似性测试在初始迭代期间用作相似性测试440。
在步骤504,阈值构造单元434使用组群模型参数432和所选说话者的模型参数433来构造针对所选说话者的阈值436。在一个实施例中,式13被使用以便由用于定义调整值
Figure A200780005880D00153
的来自所选说话者的模型参数433的均值以及用于为每个组群定义的组群模型参数432的均值来计算阈值。
在步骤506,图5的方法确定说话者池或者系统用户组中是否还有说话者。如果还有说话者,则返回步骤500选择下一个说话者,并再次使用相似性测试440来为新说话者标识组群。随后为新说话者确定阈值。重复步骤500、502、504和506直到已经为说话者池中的每个说话者和系统的每个用户确定了阈值。
当不再有说话者时,相似性测试构造单元438在步骤508构造新的相似性测试440。在一个实施例中,相似性测度被定义为上式17。
在步骤510,本方法确定相似性测试是否已收敛。如果测试尚未收敛,则过程返回步骤500,其中从说话者池或从系统的用户组中选择说话者。步骤502随后用于选择组群说话者,这一次使用由相似性测试构造单元438设置的新相似性测试440。新阈值436随后可以步骤504处使用新选择的组群来确定。例如,在某些实施例中,式18用于在第二次迭代期间在步骤504处确定新阈值。为说话者池中的每个说话者和系统的每个用户重复步骤500、502、504和506。在已经为每个说话者确定新阈值之后,在步骤508定义新的相似性测试。例如,在第二次迭代期间,新的相似性测试可以像式20中那样定义。
使用相似性测试确定组群、从组群定义阈值、基于新阈值重新定义相似性测试的迭代被反复迭代直到相似性测试在步骤510处收敛,使得相似性测试中的变化不改变所选组群说话者集合。在训练期间设置阈值的步骤随后在步骤512处结束。
一旦模型已适应并且为说话者池中的每个说话者和系统的每个用户设置阈值,该系统就可用于验证用户。验证通过为测试发言设置模型参数开始,如图6的流程图和图7的框图所示。在图6的步骤600中,接收图7的测试发言700。测试发言由模数转换器702转换成一数字值的序列并由帧构造单元704分组成帧。数字值的帧应用于特征提取器706,后者执行与图4的特征提取器406相同的特征提取以生成测试发言特征向量708。
在步骤602,适应单元710用上式2和3基于通用背景模型412形成测试特定的后验概率712。在步骤604,通用背景模型由适应单元710使用上式4至6进行适应以形成测试适应的GMM 714,而测试发言则被用作
Figure A200780005880D00161
在步骤606,为测试发言确定相似性阈值724。一种确定相似性阈值的方法在图8的流程图中更为详细地示出。
在图8的步骤800处,相似性测试716由组群选择单元718用来从说话者池中找出与测试说话者最为相似的那些说话者。在此步骤期间,与说话者池中每个说话者相关联的模型参数(γ(i),m)连同用于测试发言的模型参数
Figure A200780005880D00171
712、714被分别应用于相似性测试。从说话者池中选择针对当前所选说话者生成最高相似性测度的说话者子集作为导致一组组群模型参数720集合的组群。在一个实施例中,式12的相似性测试在初始迭代期间用作相似性测试716。
在步骤802,阈值构造单元722使用组群模型参数720和测试适应的GMM714来形成测试发言阈值724。在一个实施例中,式14被使用以便由用于定义调整值δi的来自所述测试适应的GMM 714的均值以及用于为每个组群定义
Figure A200780005880D00172
的组群模型参数720的均值来计算阈值。
在步骤804,新的相似性测试716由相似性测试构造单元726使用在步骤802设置的测试发言阈值724以及在图5方法中设置的说话者池阈值436来形成。在一个实施例中,式17的相似性测试用作新的相似性测试716。在步骤806,方法确定是否已经达到与图5流程图中执行相同的迭代次数。如果尚未执行相同次数的迭代,则通过返回步骤800来使用该新的相似性测试以选择一组新的组群。新的组群720由阈值构造单元722用于形成新的测试发言阈值,后者则被添加到测试说话者阈值724。新的阈值由相似性测试构造单元726在步骤804中用来形成新的相似性测试,诸如式20的相似性测试。重复步骤800、802、804和806直到在图8的方法中已经执行了与图5的方法中执行次数相同的迭代,从而得到其阈值数与通过图5流程图形成的最终相似性测试440相同的最终相似性测试716。当已经到达相同迭代次数时,用来为测试发言计算相似性阈值的过程就在步骤808结束。
说话者验证使用图10框图中的元素继续图9所示过程。在步骤900,接收名义用户标识1000。使用名义用户标识,就在步骤902检索针对该名义用户的适应高斯混合模型1002、后验概率1004和阈值1006。这些参数可以在图3的流程图中从名义用户的训练发言确定。
在步骤904,检索图7的测试发言适应高斯混合模型714、测试发言后验概率712和测试发言阈值724。
在步骤906,最终相似性测试716由相似性记分模块1010用来形成测试发言模型参数712、714、724和名义用户模型参数1002、1004、1006之间的相似性得分1012。在一个实施例中,最终相似性测试716是图20的相似性测试。在步骤908,相似性得分1012由说话者验证单元1014用来做出有关测试发言是否来自名义用户ID 1000所标识用户的判定。
依赖于文本的说话者验证
在本发明的又一个实施例中,提供了一种依赖于文本的说话者验证系统,在其中构造隐马尔科夫模型并用其执行说话者验证。图11提供了一种用于训练这一隐马尔科夫模型的方法,而图12则提供用于训练隐马尔科夫模型的元素的框图。
在图11的步骤1100,训练独立于文本的通用背景模型。在一个实施例中,通用背景模型是通过收集来自说话者池1200的许多不同说话者的文本独立语音来训练的高斯混合模型。说话者池1200中的每一发言由模数转换器1202转换成一序列的数字值并由帧构造单元1204分组成帧。对于每一帧,特征提取单元1206提取特征向量,后者在一个实施例中是带有δ向量的美尔频率倒谱系数。提取的特征向量1208应用于高斯混合模型训练器1210以形成通用背景模型1212。高斯混合模型训练器在本领域内已知,并且通过将特征向量分组为混合分量并标识用于描述被分配给每个分量的特征向量的分布的高斯参数来形成高斯混合模型。
在步骤1101,接收训练发言1216并由模数转换器1218将其转换成数字值并由帧构造单元1220分组成帧。对于每个帧,特征提取单元1222提取特征向量,藉此形成训练特征向量1224,后者与说话者池特征向量1208是同一类型的向量。在一个实施例中,训练发言1216由单个说话者重复单词或短语来形成。
在步骤1102,通用背景模型1212用于定义基线隐马尔科夫模型状态概率参数1213。在一个实施例中,这通过将每个混合分量的均值和协方差设置为对应的隐马尔科夫模型状态的均值和协方差来实现。
在步骤1103,通用背景模型1212由适应单元1226适应于特定说话者并被转换成HMM状态概率参数1214。更具体地,将训练特征向量1224提供给高斯混合模型适应单元1226,而后者还接收通用背景模型1212。高斯混合模型适应单元1226使用上式2至6同时使用训练特征向量作为
Figure A200780005880D00191
来适应通用背景模型。针对每个混合分量的所得均值和协方差作为针对相应的HMM状态概率分布的模型参数而被存储。于是,每个混合分量代表一独立的HMM状态。
在步骤1104,训练特征向量1224应用于隐马尔科夫模型解码器1228,后者解码一特征向量的序列以标识给定特征向量的序列1224的最有可能的一HMM状态的序列1230。为了执行这一解码,HMM解码器1228利用HMM状态概率参数1214和一组HMM过渡概率参数1232的初始集合。在一个实施例中,HMM过渡概率最初被设置为统一值,使得两状态之间的转换概率对所有状态相同。
在步骤1106,解码的状态序列1230由转换概率计算器1234用来训练HMM转换概率参数1232。这一计算涉及计数各状态间的转换次数以及基于计数将概率分配给每个转换。在步骤1108,训练特征向量1224再次由HMM解码器1228解码,这次使用新的HMM转换概率参数1232和HMM状态概率参数1214。这形成了新的解码状态序列1230。在步骤1110,本方法确定解码的状态序列是否已收敛。如果尚未收敛,则新的状态序列通过返回步骤1106用于重新训练该HMM转换概率参数1232。使用新的转换概率参数在步骤1108处再次解码训练特征向量1224。重复步骤1106、1108和1110直到输出的HMM状态序列稳定,在此就得以在步骤1112完成HMM训练。
一旦隐马尔科夫模型已被训练,该模型就可用于执行如图13的流程图和图14框图所示的说话者验证。在图13的步骤1300处,接收名义用户标识1400并由HMM检索单元1402用来在步骤1302选择隐马尔科夫模型状态概率参数1404和隐马尔科夫模型转换概率参数。
在步骤1304,接收测试发言1408。测试发言由模数转换器1410转换成一数字值的序列并且这一数字值的序列被帧构造单元1412分组成帧。对于每一帧,特征提取器1414提取特征向量来形成一特征向量序列1416。
在步骤1306,测试发言特征向量1406被应用于隐马尔科夫模型解码器1418,后者使用由从通用背景模型1420生成的基线隐马尔科夫模型状态概率参数1213和使用图11方法训练的HMM转换概率参数1406组成的基线隐马尔科夫模型来解码特征向量。HMM解码器1418在给定的基线隐马尔科夫模型状态概率参数1213和HMM转换概率参数1406下生成针对最大概率状态序列的基线概率1422。
在步骤1308,HMM解码器1418使用从名义用户标识中标识的隐马尔科夫模型状态概率参数1404和HMM转换概率参数1406来解码特征向量1416。这一解码得到名义用户概率1424,后者提供给定概率参数1404和HMM转换概率参数1406下标识的针对最大可能HMM状态序列的概率。
在步骤1310,将名义用户概率1424与基线概率1422之比通过记分模块1428应用于对数函数,以确定对数似然比得分1426。在步骤1312,由验证模块1430将这一得分与阈值相比较以确定测试发言是否来自于由名义用户标识所标识的说话者。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作作为实现权利要求的示例形式公开的。

Claims (20)

1.一种方法,包括:
接收(600)语音信号(700);
基于所述语音信号(700)通过适应包括针对多个混合分量中每一分量的背景均值的背景模型(412)来形成(604)针对所述多个混合分量中每一分量的适应均值(714);
通过确定为所述多个混合分量确定的函数之和来确定(906)相似性得分(1012),其中每个函数包括基于所述语音信号的混合分量后验概率与适应均值(714)和背景均值(412)之差的积。
2.如权利要求1所述的方法,其特征在于,还包括基于来自用户的训练语音信号(420)通过适应(312)所述背景模型来形成(312)针对所述多个混合分量中每一分量的训练均值。
3.如权利要求2所述的方法,其特征在于,每个函数还包括基于所述训练语音信号的混合分量后验概率与训练均值和背景均值之差的积。
4.如权利要求3所述的方法,其特征在于,还包括接收(900)名义用户标识(1000)并且基于所述名义用户标识选择(902)供所述函数使用的训练均值(1002)。
5.如权利要求1所述的方法,其特征在于,还包括为说话者池(400)内多个说话者中的每个说话者形成(306)说话者池均值(418),针对一说话者的所述说话者池均值是基于来自所述说话者的语音通过适应背景模型而形成的。
6.如权利要求5所述的方法,其特征在于,每个函数还包括相应的阈值,其中每个阈值(722)是基于针对所述说话者池中一说话者子集的说话者池均值(720)。
7.如权利要求6所述的方法,其特征在于,还包括基于由所述说话者池均值(418)和所述适应均值(714)确定的相似性得分来从所述说话者池中选择(800)所述说话者子集。
8.如权利要求7所述的方法,其特征在于,还包括:
基于来自用户的训练语音信号(420)通过适应(312)所述背景模型来形成(312)针对所述多个混合分量中每一分量的训练均值(426);以及
基于针对所述说话者池中第二所述说话者子集的说话者池均值来确定(314)名义用户标识(436),所述第二子集是基于由所述说话者池均值和所述训练均值确定的相似性得分从所述说话者池中选择(502)的。
9.如权利要求8所述的方法,其特征在于,每个函数还包括第二阈值。
10.一种具有用于执行以下步骤的计算机可执行指令的计算机可读介质:
确定(800)测试发言(714)与一组训练发言集合(418)中的每一发言之间的相似性得分;
使用(800)所述相似性得分选择所述一组训练发言集合的一个子集(720);
使用训练发言的所述子集(720)来定义阈值(724);以及
使用(906)所述阈值来确定所述测试发言和一存储的用户发言之间的验证相似性得分。
11.如权利要求10所述的计算机可读介质,其特征在于,确定(906)相似性得分包括基于所述测试发言适应(604)背景模型以形成适应均值并在所述相似性得分中使用(906)所述适应均值。
12.如权利要求11所述的计算机可读介质,其特征在于,使用(906)所述适应均值包括确定所述适应均值和所述背景模型的背景均值之差并使用所述差来确定所述相似性得分。
13.如权利要求12所述的计算机可读介质,其特征在于,确定所述相似性得分还包括基于所述测试发言确定(602)混合分量的概率并使用针对所述混合分量的所述概率与所述适应均值和所述背景均值之差的积来确定所述相似性得分。
14.如权利要求10所述的计算机可读介质,其特征在于,使用所述阈值来确定验证相似性得分包括:
使用(804,800)所述阈值确定所述测试发言和所述一组训练发言集合中每一发言之间的新的相似性得分;
使用(800)所述新的相似性得分选择所述一组训练发言集合的第二子集;
使用(802)训练发言的所述第二子集来定义第二阈值;以及
使用(906)所述阈值和所述第二阈值来确定所述测试发言和一存储的用户发言之间的验证相似性得分。
15.如权利要求10所述的计算机可读介质,其特征在于,还包括:
确定(502)所述存储的用户发言和所述一组训练发言集合中每一发言之间的相似性得分;
使用(502)所述相似性得分选择所述一组训练发言集合的用户特定的子集;
使用(504)训练发言的所述用户特定的子集来定义用户特定的阈值;以及
使用(906)所述用户特定的阈值来确定所述测试发言和所述存储的用户发言之间的所述验证相似性得分。
16.如权利要求15所述的计算机可读介质,其特征在于,使用训练发言的所述用户特定的子集来定义用户特定的阈值包括使用由针对训练发言所述子集中每个训练发言的背景模型适应的均值418。
17.一种方法,包括:
使用来自多个说话者的文本独立语音(1200)来训练(1100)高斯混合模型(1212);
接收(1102)来自用户的训练发言(1216);
基于所述训练发言适应(1103)所述高斯混合模型以形成针对所述用户的隐马尔科夫模型状态概率参数(1404);
设置(1106)隐马尔科夫模型转换概率参数(1406);以及
使用所述隐马尔科夫模型状态概率参数(1404)和所述隐马尔科夫模型转换概率参数(1406)来确定(1312)测试发言(1408)是否是由所述用户发出的。
18.如权利要求17所述的方法,其特征在于,设置隐马尔科夫模型转换概率参数包括:
设置(1106)初始隐马尔科夫模型转换概率参数(1232);
使用(1108)所述隐马尔科夫模型状态概率参数和所述初始隐马尔科夫模型转换概率参数来将所述测试发言解码成的一经解码的隐马尔科夫模型状态序列(1230);以及
基于所述经解码的一隐马尔科夫模型状态序列,更新(1106)所述隐马尔科夫模型转换概率参数(1232)
19.如权利要求17所述的方法,其特征在于,还包括使用(1101)所述高斯混合模型来形成基线隐马尔科夫模型状态概率参数(1213),并且其中确定所述测试发言是否由所述用户发出还包括使用所述基线隐马尔科夫模型状态概率参数(1213)来确定所述测试发言是否由所述用户发出。
20.如权利要求19所述的方法,其特征在于,确定所述测试发言是否由所述用户发出包括:
使用所述隐马尔科夫模型状态概率参数(1404)和所述隐马尔科夫模型转换概率参数(1406)解码(1308)所述测试发言,从而确定用户概率(1424);
使用所述基线隐马尔科夫模型状态概率参数(1213)和所述隐马尔科夫模型转换概率参数(1406)解码(1306)所述测试发言,从而确定基线概率(1422);以及
使用(1310)所述用户概率和所述基线概率来生成得分。
CN200780005880XA 2006-02-20 2007-02-13 说话者验证 Expired - Fee Related CN101385074B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/358,302 US7539616B2 (en) 2006-02-20 2006-02-20 Speaker authentication using adapted background models
US11/358,302 2006-02-20
PCT/US2007/004137 WO2007098039A1 (en) 2006-02-20 2007-02-13 Speaker authentication

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201210055759.0A Division CN102646416B (zh) 2006-02-20 2007-02-13 说话者验证

Publications (2)

Publication Number Publication Date
CN101385074A true CN101385074A (zh) 2009-03-11
CN101385074B CN101385074B (zh) 2012-08-15

Family

ID=38429414

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200780005880XA Expired - Fee Related CN101385074B (zh) 2006-02-20 2007-02-13 说话者验证
CN201210055759.0A Expired - Fee Related CN102646416B (zh) 2006-02-20 2007-02-13 说话者验证

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210055759.0A Expired - Fee Related CN102646416B (zh) 2006-02-20 2007-02-13 说话者验证

Country Status (11)

Country Link
US (1) US7539616B2 (zh)
EP (2) EP2410514B1 (zh)
JP (1) JP4876134B2 (zh)
KR (1) KR101323061B1 (zh)
CN (2) CN101385074B (zh)
AU (1) AU2007217884A1 (zh)
CA (2) CA2861876C (zh)
MX (1) MX2008010478A (zh)
NO (1) NO20083580L (zh)
RU (1) RU2008134112A (zh)
WO (1) WO2007098039A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105960628A (zh) * 2014-06-24 2016-09-21 谷歌公司 用于说话者验证的动态阈值
CN106384587A (zh) * 2015-07-24 2017-02-08 科大讯飞股份有限公司 一种语音识别方法及系统
CN108140386A (zh) * 2016-07-15 2018-06-08 谷歌有限责任公司 说话者验证
CN111564152A (zh) * 2020-07-16 2020-08-21 北京声智科技有限公司 语音转换方法、装置、电子设备及存储介质

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
AU2012200605B2 (en) * 2008-09-05 2014-01-23 Auraya Pty Ltd Voice authentication system and methods
WO2010025523A1 (en) * 2008-09-05 2010-03-11 Auraya Pty Ltd Voice authentication system and methods
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
US9036890B2 (en) 2012-06-05 2015-05-19 Outerwall Inc. Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like
CN102737633B (zh) * 2012-06-21 2013-12-25 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
EP2713367B1 (en) 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US8739955B1 (en) * 2013-03-11 2014-06-03 Outerwall Inc. Discriminant verification systems and methods for use in coin discrimination
US9443367B2 (en) 2014-01-17 2016-09-13 Outerwall Inc. Digital image coin discrimination for use with consumer-operated kiosks and the like
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
JP6239471B2 (ja) * 2014-09-19 2017-11-29 株式会社東芝 認証システム、認証装置および認証方法
CN105513588B (zh) * 2014-09-22 2019-06-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN105096941B (zh) * 2015-09-02 2017-10-31 百度在线网络技术(北京)有限公司 语音识别方法以及装置
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
AU2017327003B2 (en) 2016-09-19 2019-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
FR3058558B1 (fr) * 2016-11-07 2020-01-10 Pw Group Procede et systeme d'authentification par biometrie vocale d'un utilisateur
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10950243B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs Inc. Method for reduced computation of t-matrix training for speaker recognition
US10832683B2 (en) * 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
US10950244B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs LLC. System and method for speaker authentication and identification
CN111566729B (zh) * 2017-12-26 2024-05-28 罗伯特·博世有限公司 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
US10762905B2 (en) * 2018-07-31 2020-09-01 Cirrus Logic, Inc. Speaker verification
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11646018B2 (en) 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
US11158325B2 (en) * 2019-10-24 2021-10-26 Cirrus Logic, Inc. Voice biometric system
US20220148600A1 (en) * 2020-11-11 2022-05-12 Rovi Guides, Inc. Systems and methods for detecting a mimicked voice input signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
EP1178467B1 (en) * 2000-07-05 2005-03-09 Matsushita Electric Industrial Co., Ltd. Speaker verification and identification
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
WO2003088534A1 (en) * 2002-04-05 2003-10-23 International Business Machines Corporation Feature-based audio content identification
KR100611562B1 (ko) 2003-09-17 2006-08-11 (주)한국파워보이스 음성 암호를 이용한 컴퓨터 보안 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105960628A (zh) * 2014-06-24 2016-09-21 谷歌公司 用于说话者验证的动态阈值
CN105960628B (zh) * 2014-06-24 2019-01-01 谷歌有限责任公司 用于说话者验证的动态阈值
CN106384587A (zh) * 2015-07-24 2017-02-08 科大讯飞股份有限公司 一种语音识别方法及系统
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统
CN108140386A (zh) * 2016-07-15 2018-06-08 谷歌有限责任公司 说话者验证
CN108140386B (zh) * 2016-07-15 2021-11-23 谷歌有限责任公司 说话者验证
CN111564152A (zh) * 2020-07-16 2020-08-21 北京声智科技有限公司 语音转换方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
RU2008134112A (ru) 2010-02-27
JP4876134B2 (ja) 2012-02-15
EP2410514B1 (en) 2013-05-29
US7539616B2 (en) 2009-05-26
CN102646416B (zh) 2014-10-29
MX2008010478A (es) 2008-10-23
CA2643481A1 (en) 2007-08-30
KR20080102373A (ko) 2008-11-25
US20070198257A1 (en) 2007-08-23
WO2007098039A1 (en) 2007-08-30
CA2861876C (en) 2016-04-26
EP2410514A2 (en) 2012-01-25
JP2009527798A (ja) 2009-07-30
EP1989701A4 (en) 2011-06-22
CA2643481C (en) 2016-01-05
EP1989701A1 (en) 2008-11-12
EP1989701B1 (en) 2012-06-27
CA2861876A1 (en) 2007-08-30
EP2410514A3 (en) 2012-02-22
CN101385074B (zh) 2012-08-15
CN102646416A (zh) 2012-08-22
AU2007217884A1 (en) 2007-08-30
NO20083580L (no) 2008-09-10
KR101323061B1 (ko) 2013-10-29

Similar Documents

Publication Publication Date Title
CN101385074B (zh) 说话者验证
JP7110292B2 (ja) 話者検証のためのニューラルネットワーク
US8554563B2 (en) Method and system for speaker diarization
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
CN108417201B (zh) 单信道多说话人身份识别方法及系统
CN111694938B (zh) 基于情绪识别的答复方法、装置、计算机设备及存储介质
CN1591574B (zh) 用于减少在语音信号中的噪音的方法和系统
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN101923855A (zh) 文本无关的声纹识别系统
CN111081255B (zh) 说话人确认方法和装置
CN103730114A (zh) 一种基于联合因子分析模型的移动设备声纹识别方法
US8271278B2 (en) Quantizing feature vectors in decision-making applications
CN113470698B (zh) 一种说话人转换点检测方法、装置、设备及存储介质
CN104700831A (zh) 分析音频文件的语音特征的方法和装置
Ceaparu et al. Multifactor voice-based authentication system
CN114882881A (zh) 违规音频的识别方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150505

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150505

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120815

CF01 Termination of patent right due to non-payment of annual fee