CN107274904A - 说话人识别方法和说话人识别设备 - Google Patents

说话人识别方法和说话人识别设备 Download PDF

Info

Publication number
CN107274904A
CN107274904A CN201610216660.2A CN201610216660A CN107274904A CN 107274904 A CN107274904 A CN 107274904A CN 201610216660 A CN201610216660 A CN 201610216660A CN 107274904 A CN107274904 A CN 107274904A
Authority
CN
China
Prior art keywords
speaker
identified
model
feature
ubm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610216660.2A
Other languages
English (en)
Inventor
石自强
刘柳
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201610216660.2A priority Critical patent/CN107274904A/zh
Priority to JP2017064889A priority patent/JP2017187768A/ja
Priority to EP17163685.5A priority patent/EP3229232A1/en
Priority to US15/477,687 priority patent/US20170294191A1/en
Publication of CN107274904A publication Critical patent/CN107274904A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种说话人识别方法和说话人识别设备。该说话人识别方法包括:从待识别说话人语料中,提取待识别说话人的语音特征;基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。

Description

说话人识别方法和说话人识别设备
技术领域
本发明一般地涉及信息处理领域。具体而言,本发明涉及一种能够准确进行说话人识别的方法和设备。
背景技术
近年来,基于语音的信息处理技术得到了迅猛的发展并具有广泛的应用。其中比较重要的是基于语音对说话人进行识别的技术,这被称为说话人识别,也被称为声纹识别。例如,说话人识别可应用于对说话人的身份进行确认的场合,如法院审理、远程金融服务、安保,语音检索、反恐、军事等领域亦有应用。
虽然说话人的语音特征本身具有相对的稳定性,但是实际捕获说话人语音时,难免受到声音传播信道、音频捕获设备、周边环境噪声等的影响。这会导致所获得的说话人语音特征的变化,显然对说话人识别的性能造成不利影响。
本发明致力于克服声音传播信道、音频捕获设备、周边环境噪声等对说话人识别的不利影响,提高说话人识别的准确度。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是提出一种准确识别说话人的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种说话人识别方法,该说话人识别方法包括:从待识别说话人语料中,提取待识别说话人的语音特征;基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
根据本发明的另一个方面,提供了一种说话人识别设备,该说话人识别设备包括:说话人语义特征提取装置,被配置为:从待识别说话人语料中,提取待识别说话人的语音特征;说话人模型构建装置,被配置为:基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及说话人识别装置,被配置为:比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的说话人识别方法的流程图。
图2示出了根据本发明的实施例的获得通用背景模型UBM、梯度通用说话人模型GUSM的方法的流程图。
图3示出了根据本发明的实施例的获得总变化矩阵和已知说话人模型的方法的流程图。
图4示出了根据本发明的实施例的说话人识别设备的结构方框图。
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
本发明的基本思想是通过训练事先构建体现语音特征在特征空间中的分布及其变化的通用模型、体现环境变化的模型,基于上述模型和具体的待识别说话人的语音特征,可获得不受声音传播信道、音频捕获设备、周边环境噪声影响的待识别说话人模型,将其与通过同样方式获得的已知说话人模型进行比较,即可完成说话人识别。
下面将参照图1描述根据本发明的实施例的说话人识别方法的流程。
图1示出了根据本发明的实施例的说话人识别方法的流程图。如图1所示,根据本发明的实施例的说话人识别方法包括如下步骤:从待识别说话人语料中,提取待识别说话人的语音特征(步骤S1);基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型(步骤S2);以及比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一(步骤S3)。
在步骤S1中,从待识别说话人语料中,提取待识别说话人的语音特征。
具体地,以预定滑动步长滑动预定窗口的方式,扫描待识别说话人语料,从窗口对应的待识别说话人语料的数据中提取特征向量,构成第一特征向量集。
提取特征向量既可以提取时域特征,也可以提取频域特征,因为两者都可以反映待识别说话人的语音的特性。以下以频域特征为例进行说明。
首先,对语音进行分帧,每帧25毫秒。预定滑动步长例如是10毫秒。对每一帧提取13维梅尔倒谱系数特征(mel frequencycepstralcoefficients,MFCC)和对数能量,共计14维特征。
然后,针对该14维特征,以每帧前后共5帧为上下文,计算一阶差分特征(14维特征)和二阶差分特征(14维特征),共14*3=42维特征。从而,获得了待识别说话人的特征向量序列X={Xt,t=1,...,T}。Xt表示一个42维的特征向量,T为特征向量数,共滑动T-1次,一般来说,T越大越好。
如果提取时域特征,例如,可以每帧25毫秒,采样率8kHz,每个特征向量具有200个特征值(采样值)。
待识别说话人的语音特征反映了待识别说话人语音的特性,将在下面利用通用背景模型UBM、梯度通用说话人模型GUSM、总变化矩阵,基于待识别说话人的语音特征,获得待识别说话人模型。
在步骤S2中,基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型。
首先,介绍通用背景模型UBM、梯度通用说话人模型GUSM、总变化矩阵的构建。
图2示出了根据本发明的实施例的获得通用背景模型UBM、梯度通用说话人模型GUSM的方法的流程图。如图2所示,获得UBM、GUSM的方法包括如下步骤:以预定滑动步长滑动预定窗口的方式,扫描第一训练语料,从窗口对应的第一训练语料的数据中提取特征向量,构成第二特征向量集(步骤S21);利用第二特征向量集,训练UBM(步骤S22);以及将第二特征向量集输入到UBM的微分函数中并取平均,以得到GUSM(步骤S23)。
在步骤S21中,以预定滑动步长滑动预定窗口的方式,扫描第一训练语料,从窗口对应的第一训练语料的数据中提取特征向量,构成第二特征向量集。
步骤S21与上面描述的步骤S1类似。区别在于步骤S22中的扫描对象为第一训练语料,获得的结果相应构成第二特征向量集。
第一训练语料包括来自各个说话人的、使用各种音频捕获设备收集的、经由各种信道(如电话所代表的有线信道、移动电话所代表的无线信道)传输的、各种周边环境的语音数据。
此处的各个说话人可以包括已知说话人,也可以不包括已知说话人。已知说话人是用来与待识别说话人进行比对的说话人。由于图2的方法目的是为了获得通用的模型,所以第一训练语料对应的说话人并不必须包括已知说话人。
优选地,第一训练语料对应的说话人尽可能多,利用的音频捕获设备、经过的信道、周边环境尽可能多种多样。
周边环境例如是安静、嘈杂的周边环境。体现环境变化的总变化矩阵所涉及的环境是广义的环境,包括音频捕获设备、信道、周边环境的总和。
在步骤S22中,利用第二特征向量集,训练UBM,以得到UBM的参数。
UBM可以表示为可见,uλ(x)由2048个权重为ωi的ui(x)构成,2048仅为示例。每个ui(x)是一个高斯函数。当然,ui(x)也可以是β分布函数、罗杰斯函数等。以ui(x)是高斯函数为例,其包括的参数为均值和方差。将权重ωi以及ui(x)的参数统称为参数λ。因此,uλ(x)是具有参数λ的函数。
通过利用第二特征向量集,例如通过期望最大化算法,可以得到参数λ,使得uλ(x)成为一个特定的函数,也即训练了UBM。
对uλ(x)取导,得到UBM的微分函数▽λuλ(x)。
在步骤S23中,将第二特征向量集输入到UBM的微分函数中并取平均,以得到GUSM:其中,T为特征向量数。
图3示出了根据本发明的实施例的获得总变化矩阵和已知说话人模型的方法的流程图。如图3所示,获得总变化矩阵和已知说话人模型的方法包括如下步骤:以预定滑动步长滑动预定窗口的方式,扫描所述第二训练语料,针对每个已知说话人的每句话,从窗口对应的第二训练语料的数据中,提取特征向量,构成第三特征向量集(步骤S31);将针对每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,以得到每个已知说话人的每句话的第二向量值(步骤S32);根据每个已知说话人的每句话的第二向量值、GUSM,求解所述总变化矩阵和已知说话人的每句话的模型(步骤S33);以及将已知说话人的每句话的模型加和求平均,得到所述已知说话人模型(步骤S34)。
在步骤S31中,以预定滑动步长滑动预定窗口的方式,扫描所述第二训练语料,针对每个已知说话人的每句话,从窗口对应的第二训练语料的数据中,提取特征向量,构成第三特征向量集。
以与上述步骤S21类似的方式执行步骤S31。区别在于:在步骤S31中,扫描的对象是第二训练语料。第二训练语料包括来自已知说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周围环境的语音数据。因为图3所示的方法试图获得已知说话人模型。
另外,区别还在于,在步骤S31中,特征向量的提取是针对每个已知说话人的每句话进行的。例如,每个已知说话人的每句话是一个WAV文件,针对每个已知说话人的每句话,以预定滑动步长滑动预定窗口进行扫描。
为便于描述,将已知说话人表示为s,s=1,…,S。S为已知说话人的总数。将已知说话人s说的话表示为h,h=1,…,H(s)。H(s)表示已知说话人s说的话的总数。每个说话人的每句话提取一个特征向量Xh(s),每个说话人提取一个第三特征向量集X(s)={X1(s),...,XH(s)(s)}。
在步骤S32中,将针对每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,以得到每个已知说话人的每句话的第二向量值。
如上所述,在上述步骤S22中,得到了UBM的微分函数▽λuλ(x)。
在步骤S32中,将每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,即代入其中Ts,h是每个已知说话人的每句话的特征向量的个数。所得到的Gs,h是每个已知说话人的每句话的第二向量值。
在步骤S33中,根据每个已知说话人的每句话的第二向量值、GUSM,求解所述总变化矩阵和已知说话人的每句话的模型。
求解的方程组如下。
G1,1=gλ+Mw1
……
Gs,h=gλ+Mws,h
……
GS,H=gλ+MwS,H
其中,Gs,h是每个已知说话人的每句话的第二向量值,gλ是在步骤S23中得到的GUSM,M是总变化矩阵,ws,h是已知说话人s的话h的模型,是符合正态分布N(0,1)的随机变量。
在步骤S34中,将已知说话人的每句话的模型加和求平均,得到所述已知说话人模型。
即,执行
至此,通过图2和图3所示的方法,可以得到体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵。因此,可以在步骤S2中,基于所提取的待识别说话人的语音特征、通用背景模型UBM、梯度通用说话人模型GUSM、总变化矩阵,得到待识别说话人模型ws
具体地,将步骤S1中提取的第一特征向量集输入到UBM的微分函数中并取平均,以得到第一向量值。即,执行
然后,将第一向量值和GUSM之差与总变化矩阵的伪逆矩阵之积,作为待识别说话人模型wtest=pinv(M)(Gtest-gλ)。其中,pinv()表示求伪逆矩阵。
在步骤S3中,比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
具体地,计算待识别说话人模型与已知说话人模型的相似度,如余弦夹角。
然后,将待识别说话人识别为:与待识别说话人模型的相似度最大且大于相似度阈值的已知说话人模型对应的已知说话人。
在待识别说话人模型与已知说话人模型的相似度的最大值小于或等于相似度阈值的情况下,将待识别说话人识别为已知说话人之外的说话人。
下面,将参照图4描述根据本发明的实施例的说话人识别设备。
图4示出了根据本发明的实施例的说话人识别设备的结构方框图。如图4所示,根据本发明的说话人识别设备400包括:说话人语义特征提取装置41,被配置为:从待识别说话人语料中,提取待识别说话人的语音特征;说话人模型构建装置42,被配置为:基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及说话人识别装置43,被配置为:比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
在一个实施例中,说话人语义特征提取装置41被进一步配置为:以预定滑动步长滑动预定窗口的方式,扫描待识别说话人语料,从窗口对应的待识别说话人语料的数据中提取特征向量,构成第一特征向量集。
在一个实施例中,说话人模型构建装置42被进一步配置为:将第一特征向量集输入到UBM的微分函数中并取平均,以得到第一向量值;将第一向量值和GUSM之差与总变化矩阵的伪逆矩阵之积,作为待识别说话人模型。
在一个实施例中,说话人识别设备400还包括:UBM和GUSM获取装置,其被配置为:以预定滑动步长滑动预定窗口的方式,扫描第一训练语料,从窗口对应的第一训练语料的数据中提取特征向量,构成第二特征向量集;利用第二特征向量集,训练UBM;将第二特征向量集输入到UBM的微分函数中并取平均,以得到GUSM;其中,所述第一训练语料包括来自各个说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周边环境的语音数据。
在一个实施例中,说话人识别设备400还包括:总变化矩阵和已知说话人模型获取装置,其被配置为:以预定滑动步长滑动预定窗口的方式,扫描所述第二训练语料,针对每个已知说话人的每句话,从窗口对应的第二训练语料的数据中,提取特征向量,构成第三特征向量集;将针对每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,以得到每个已知说话人的每句话的第二向量值;根据每个已知说话人的每句话的第二向量值、GUSM,求解所述总变化矩阵和已知说话人的每句话的模型;将已知说话人的每句话的模型加和求平均,得到所述已知说话人模型;其中,所述第二训练语料包括来自已知说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周围环境的语音数据。
在一个实施例中,说话人识别装置43被进一步配置为:计算待识别说话人模型与已知说话人模型的相似度;将待识别说话人识别为:与待识别说话人模型的相似度最大且大于相似度阈值的已知说话人模型对应的已知说话人。
在一个实施例中,说话人识别装置43被进一步配置为:在待识别说话人模型与已知说话人模型的相似度的最大值小于或等于相似度阈值的情况下,将待识别说话人识别为已知说话人之外的说话人。
由于在根据本发明的说话人识别设备400中所包括的各个装置和单元中的处理分别与上面描述的说话人识别方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种说话人识别方法,包括:
从待识别说话人语料中,提取待识别说话人的语音特征;
基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及
比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
2.如附记1所述的方法,其中,从待识别说话人语料中,提取待识别说话人的语音特征包括:
以预定滑动步长滑动预定窗口的方式,扫描待识别说话人语料,从窗口对应的待识别说话人语料的数据中提取特征向量,构成第一特征向量集。
3.如附记2所述的方法,其中,基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型包括:
将第一特征向量集输入到UBM的微分函数中并取平均,以得到第一向量值;
将第一向量值和GUSM之差与总变化矩阵的伪逆矩阵之积,作为待识别说话人模型。
4.如附记1所述的方法,其中,UBM和GUSM通过如下步骤得到:
以预定滑动步长滑动预定窗口的方式,扫描第一训练语料,从窗口对应的第一训练语料的数据中提取特征向量,构成第二特征向量集;
利用第二特征向量集,训练UBM;
将第二特征向量集输入到UBM的微分函数中并取平均,以得到GUSM;
其中,所述第一训练语料包括来自各个说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周边环境的语音数据。
5.如附记1所述的方法,其中所述总变化矩阵和所述已知说话人模型通过如下步骤获得:
以预定滑动步长滑动预定窗口的方式,扫描所述第二训练语料,针对每个已知说话人的每句话,从窗口对应的第二训练语料的数据中,提取特征向量,构成第三特征向量集;
将针对每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,以得到每个已知说话人的每句话的第二向量值;
根据每个已知说话人的每句话的第二向量值、GUSM,求解所述总变化矩阵和已知说话人的每句话的模型;
将已知说话人的每句话的模型加和求平均,得到所述已知说话人模型;
其中,所述第二训练语料包括来自已知说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周围环境的语音数据。
6.如附记1所述的方法,其中,比较待识别说话人模型和所述已知说话人模型,以确定待识别说话人是否为已知说话人之一包括:
计算待识别说话人模型与已知说话人模型的相似度;
将待识别说话人识别为:与待识别说话人模型的相似度最大且大于相似度阈值的已知说话人模型对应的已知说话人。
7.如附记6所述的方法,其中,在待识别说话人模型与已知说话人模型的相似度的最大值小于或等于相似度阈值的情况下,将待识别说话人识别为已知说话人之外的说话人。
8.一种说话人识别设备,包括:
说话人语义特征提取装置,被配置为:从待识别说话人语料中,提取待识别说话人的语音特征;
说话人模型构建装置,被配置为:基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及
说话人识别装置,被配置为:比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
9.如附记8所述的设备,其中,说话人语义特征提取装置被进一步配置为:
以预定滑动步长滑动预定窗口的方式,扫描待识别说话人语料,从窗口对应的待识别说话人语料的数据中提取特征向量,构成第一特征向量集。
10.如附记9所述的设备,其中,说话人模型构建装置被进一步配置为:
将第一特征向量集输入到UBM的微分函数中并取平均,以得到第一向量值;
将第一向量值和GUSM之差与总变化矩阵的伪逆矩阵之积,作为待识别说话人模型。
11.如附记8所述的设备,还包括:UBM和GUSM获取装置,其被配置为:
以预定滑动步长滑动预定窗口的方式,扫描第一训练语料,从窗口对应的第一训练语料的数据中提取特征向量,构成第二特征向量集;
利用第二特征向量集,训练UBM;
将第二特征向量集输入到UBM的微分函数中并取平均,以得到GUSM;
其中,所述第一训练语料包括来自各个说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周边环境的语音数据。
12.如附记8所述的设备,还包括:总变化矩阵和已知说话人模型获取装置,其被配置为:
以预定滑动步长滑动预定窗口的方式,扫描所述第二训练语料,针对每个已知说话人的每句话,从窗口对应的第二训练语料的数据中,提取特征向量,构成第三特征向量集;
将针对每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,以得到每个已知说话人的每句话的第二向量值;
根据每个已知说话人的每句话的第二向量值、GUSM,求解所述总变化矩阵和已知说话人的每句话的模型;
将已知说话人的每句话的模型加和求平均,得到所述已知说话人模型;
其中,所述第二训练语料包括来自已知说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周围环境的语音数据。
13.如附记8所述的设备,其中,说话人识别装置被进一步配置为:
计算待识别说话人模型与已知说话人模型的相似度;
将待识别说话人识别为:与待识别说话人模型的相似度最大且大于相似度阈值的已知说话人模型对应的已知说话人。
14.如附记13所述的设备,其中,说话人识别装置被进一步配置为:在待识别说话人模型与已知说话人模型的相似度的最大值小于或等于相似度阈值的情况下,将待识别说话人识别为已知说话人之外的说话人。

Claims (10)

1.一种说话人识别方法,包括:
从待识别说话人语料中,提取待识别说话人的语音特征;
基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及
比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
2.如权利要求1所述的方法,其中,从待识别说话人语料中,提取待识别说话人的语音特征包括:
以预定滑动步长滑动预定窗口的方式,扫描待识别说话人语料,从窗口对应的待识别说话人语料的数据中提取特征向量,构成第一特征向量集。
3.如权利要求2所述的方法,其中,基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型包括:
将第一特征向量集输入到UBM的微分函数中并取平均,以得到第一向量值;
将第一向量值和GUSM之差与总变化矩阵的伪逆矩阵之积,作为待识别说话人模型。
4.如权利要求1所述的方法,其中,UBM和GUSM通过如下步骤得到:
以预定滑动步长滑动预定窗口的方式,扫描第一训练语料,从窗口对应的第一训练语料的数据中提取特征向量,构成第二特征向量集;
利用第二特征向量集,训练UBM;
将第二特征向量集输入到UBM的微分函数中并取平均,以得到GUSM;
其中,所述第一训练语料包括来自各个说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周边环境的语音数据。
5.如权利要求1所述的方法,其中所述总变化矩阵和所述已知说话人模型通过如下步骤获得:
以预定滑动步长滑动预定窗口的方式,扫描所述第二训练语料,针对每个已知说话人的每句话,从窗口对应的第二训练语料的数据中,提取特征向量,构成第三特征向量集;
将针对每个已知说话人的每句话的第三特征向量集输入到UBM的微分函数中并取平均,以得到每个已知说话人的每句话的第二向量值;
根据每个已知说话人的每句话的第二向量值、GUSM,求解所述总变化矩阵和已知说话人的每句话的模型;
将已知说话人的每句话的模型加和求平均,得到所述已知说话人模型;
其中,所述第二训练语料包括来自已知说话人的、使用各种音频捕获设备收集的、经由各种信道传输的、各种周围环境的语音数据。
6.如权利要求1所述的方法,其中,比较待识别说话人模型和所述已知说话人模型,以确定待识别说话人是否为已知说话人之一包括:
计算待识别说话人模型与已知说话人模型的相似度;
将待识别说话人识别为:与待识别说话人模型的相似度最大且大于相似度阈值的已知说话人模型对应的已知说话人。
7.如权利要求6所述的方法,其中,在待识别说话人模型与已知说话人模型的相似度的最大值小于或等于相似度阈值的情况下,将待识别说话人识别为已知说话人之外的说话人。
8.一种说话人识别设备,包括:
说话人语义特征提取装置,被配置为:从待识别说话人语料中,提取待识别说话人的语音特征;
说话人模型构建装置,被配置为:基于所提取的待识别说话人的语音特征、体现语音特征在特征空间中的分布的通用背景模型UBM、体现语音特征在特征空间中的分布的变化的统计值的梯度通用说话人模型GUSM、体现环境变化的总变化矩阵,得到待识别说话人模型;以及
说话人识别装置,被配置为:比较待识别说话人模型和已知说话人模型,以确定待识别说话人是否为已知说话人之一。
9.如权利要求8所述的设备,其中,说话人语义特征提取装置被进一步配置为:
以预定滑动步长滑动预定窗口的方式,扫描待识别说话人语料,从窗口对应的待识别说话人语料的数据中提取特征向量,构成第一特征向量集。
10.如权利要求9所述的设备,其中,说话人模型构建装置被进一步配置为:
将第一特征向量集输入到UBM的微分函数中并取平均,以得到第一向量值;
将第一向量值和GUSM之差与总变化矩阵的伪逆矩阵之积,作为待识别说话人模型。
CN201610216660.2A 2016-04-07 2016-04-07 说话人识别方法和说话人识别设备 Pending CN107274904A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610216660.2A CN107274904A (zh) 2016-04-07 2016-04-07 说话人识别方法和说话人识别设备
JP2017064889A JP2017187768A (ja) 2016-04-07 2017-03-29 話者認識方法及び話者認識装置
EP17163685.5A EP3229232A1 (en) 2016-04-07 2017-03-29 Method for speaker recognition and apparatus for speaker recognition
US15/477,687 US20170294191A1 (en) 2016-04-07 2017-04-03 Method for speaker recognition and apparatus for speaker recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610216660.2A CN107274904A (zh) 2016-04-07 2016-04-07 说话人识别方法和说话人识别设备

Publications (1)

Publication Number Publication Date
CN107274904A true CN107274904A (zh) 2017-10-20

Family

ID=58454997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610216660.2A Pending CN107274904A (zh) 2016-04-07 2016-04-07 说话人识别方法和说话人识别设备

Country Status (4)

Country Link
US (1) US20170294191A1 (zh)
EP (1) EP3229232A1 (zh)
JP (1) JP2017187768A (zh)
CN (1) CN107274904A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN108766465A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
CN112489678A (zh) * 2020-11-13 2021-03-12 苏宁云计算有限公司 一种基于信道特征的场景识别方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3501024B1 (en) * 2016-08-22 2020-03-18 Telefonaktiebolaget LM Ericsson (PUBL) Systems, apparatuses, and methods for speaker verification using artificial neural networks
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
EP3451330A1 (en) * 2017-08-31 2019-03-06 Thomson Licensing Apparatus and method for residential speaker recognition
KR102550598B1 (ko) * 2018-03-21 2023-07-04 현대모비스 주식회사 음성 화자 인식 장치 및 그 방법
CN109686377B (zh) * 2018-12-24 2019-11-05 龙马智芯(珠海横琴)科技有限公司 音频识别方法及装置、计算机可读存储介质
US11289098B2 (en) * 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration
WO2020035085A2 (en) * 2019-10-31 2020-02-20 Alipay (Hangzhou) Information Technology Co., Ltd. System and method for determining voice characteristics
CN113516987B (zh) * 2021-07-16 2024-04-12 科大讯飞股份有限公司 一种说话人识别方法、装置、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
WO2014048855A1 (en) * 2012-09-28 2014-04-03 Agnitio,S.L Speaker recognition
KR20150093059A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 화자 검증 장치 및 방법
US20150326571A1 (en) * 2012-02-24 2015-11-12 Agnitio Sl System and method for speaker recognition on mobile devices
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
EP2351023B1 (en) * 2008-10-29 2016-08-24 British Telecommunications PLC Speaker verification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2351023B1 (en) * 2008-10-29 2016-08-24 British Telecommunications PLC Speaker verification
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
US20150326571A1 (en) * 2012-02-24 2015-11-12 Agnitio Sl System and method for speaker recognition on mobile devices
WO2014048855A1 (en) * 2012-09-28 2014-04-03 Agnitio,S.L Speaker recognition
KR20150093059A (ko) * 2014-02-06 2015-08-17 주식회사 에스원 화자 검증 장치 및 방법
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TAUFIQ HASAN ET AL: "A Study on Universal Background Model Training in Speaker Verification", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
TOMI KINNUNEN ET AL: "An overview of text-independent speaker recognition:From features to supervectors", 《SPEECH COMMUNICATION》 *
UTPAL BHATTACHARJEE ET AL: "GMM-UBM Based Speaker Verification in Multilingual Environments", 《IJCSI INTERNATIONAL JOURNAL OF COMPUTER SCIENCE ISSUES》 *
张彩红等: "基于GMM-UBM 的说话人确认系统的研究", 《心智与计算》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074576A (zh) * 2017-12-14 2018-05-25 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN108074576B (zh) * 2017-12-14 2022-04-08 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
CN110188338A (zh) * 2018-02-23 2019-08-30 富士通株式会社 文本相关的说话人确认方法和设备
CN110188338B (zh) * 2018-02-23 2023-02-21 富士通株式会社 文本相关的说话人确认方法和设备
CN108766465A (zh) * 2018-06-06 2018-11-06 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN108766465B (zh) * 2018-06-06 2020-07-28 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN112489678A (zh) * 2020-11-13 2021-03-12 苏宁云计算有限公司 一种基于信道特征的场景识别方法及装置
CN112489678B (zh) * 2020-11-13 2023-12-05 深圳市云网万店科技有限公司 一种基于信道特征的场景识别方法及装置

Also Published As

Publication number Publication date
EP3229232A1 (en) 2017-10-11
JP2017187768A (ja) 2017-10-12
US20170294191A1 (en) 2017-10-12

Similar Documents

Publication Publication Date Title
CN107274904A (zh) 说话人识别方法和说话人识别设备
US20180277103A1 (en) Constructing speech decoding network for numeric speech recognition
KR101323061B1 (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
Hasan et al. A study on universal background model training in speaker verification
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
JP2016080916A (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
Kinnunen et al. Utterance verification for text-dependent speaker recognition: a comparative assessment using the RedDots corpus
Justin et al. Speaker de-identification using diphone recognition and speech synthesis
Mahmoodi et al. Age estimation based on speech features and support vector machine
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
Sinith et al. A novel method for text-independent speaker identification using MFCC and GMM
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
Tolba A high-performance text-independent speaker identification of Arabic speakers using a CHMM-based approach
CN108564956A (zh) 一种声纹识别方法和装置、服务器、存储介质
Kelly et al. Evaluation of VOCALISE under conditions reflecting those of a real forensic voice comparison case (forensic_eval_01)
Meyer et al. Anonymizing speech with generative adversarial networks to preserve speaker privacy
Chakraborty et al. Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion Recognition.
Ozaydin Design of a text independent speaker recognition system
CN109817196B (zh) 一种噪音消除方法、装置、系统、设备及存储介质
CN110188338B (zh) 文本相关的说话人确认方法和设备
Han et al. Reverberation and noise robust feature compensation based on IMM
Herrera-Camacho et al. Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE
CN109872721A (zh) 语音认证方法、信息处理设备以及存储介质
Zhang et al. Robust Speaker Recognition Using Improved GFCC and Adaptive Feature Selection
CN113516987A (zh) 一种说话人识别方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171020