CN102270451B - 说话人识别方法及系统 - Google Patents
说话人识别方法及系统 Download PDFInfo
- Publication number
- CN102270451B CN102270451B CN2011102378529A CN201110237852A CN102270451B CN 102270451 B CN102270451 B CN 102270451B CN 2011102378529 A CN2011102378529 A CN 2011102378529A CN 201110237852 A CN201110237852 A CN 201110237852A CN 102270451 B CN102270451 B CN 102270451B
- Authority
- CN
- China
- Prior art keywords
- microphone
- different
- user
- model
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及身份识别技术领域,公开了一种说话人识别方法及系统,该方法包括:采集不同信道下的用户注册语音信号;从采集的所述语音信号中分别提取声纹特征序列;利用所述声纹特征序列训练生成对应所述用户的说话人模型;根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。本发明说话人识别方法及系统,可以适应不同的信道环境,提高系统性能。
Description
技术领域
本发明涉及身份识别技术领域,特别涉及一种说话人识别方法及系统。
背景技术
说话人识别即根据采集到的语音信号判断说话人身份,该技术主要有两个方面的应用,即说话人确认和说话人识别。说话人确认是指判断当前输入语音是否为其申明的目标说话人的发音,属于一对一的判断问题;而说话人识别是指从目标说话人集合中选定对应于当前语音输入的发音人,属于一对多的模型辨识问题。说话人识别技术在军事、国家安全、刑侦领域和银行、证券等金融领域有着广泛的应用。
目前说话人识别最为主流的技术路线是GMM-UBM算法,即分别采用混合高斯模型(Gaussian Mixture Model,GMM)模拟各说话人模型及单独的通用背景模型(Universal Background Model,UBM),通过比较说话人模型及背景模型相对于输入语音信号的声纹特征的似然比确定说话人身份。具体地,在进行说话人确认时根据说话人模型及背景模型的似然比和预置阈值的大小判断是否为目标说话人,而在进行说话人识别时则比较所有说话人模型的似然比大小并选择具有最大似然比的说话人为识别结果。
通常,对说话人模型的模拟效果会随着训练数据量的增多而得到进一步的改善,从而使说话人识别系统的性能得到提高。然而在实际应用中,实际检测环境和模型训练环境往往不尽相同,语音通信中通信信道或通信工具的任何变化都会引起语音信号不同程度的畸变,进而导致训练数据和测试采集信道不匹配,训练模型不能很好地模拟测试数据,影响了系统性能。因此,如何改善说话人识别系统在不同信道环境下的识别稳定性,提高该系统的鲁棒性和普适性已成为当前亟待解决的实际问题。
发明内容
本发明实施例针对上述现有技术存在的问题,提供一种说话人识别方法及系统,以适应不同的信道环境,提高系统性能。
本发明实施例提供一种说话人识别方法,包括:
采集不同信道下的用户注册语音信号;
从采集的所述语音信号中分别提取声纹特征序列;
利用所述声纹特征序列训练生成对应所述用户的说话人模型;
根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
优选地,所述采集不同信道下的用户注册语音信号包括:
利用选定的多个不同的麦克风分别采集所述用户注册语音信号。
优选地,所述方法还包括:
检测不同麦克风与不同用户端设备的信道相似度;
根据得到的信道相似度选定多个不同的麦克风。
优选地,所述检测不同麦克风与不同用户设备的信道相似度包括:
将所述不同麦克风和所述不同用户端设备置于音箱的同一波束面上;
通过所述音箱播放用户录音;
利用所述不同麦克风和所述不同用户端设备对所述用户录音进行同步采集;
对于每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
优选地,所述根据得到的相似度选定多个不同的麦克风包括:
利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;
以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值分布的麦克风;
根据聚类结果选定多个不同的麦克风。
可选地,所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述不同用户端设备包括以下任意一种或多种:手机、录音笔。
优选地,所述利用所述声纹特征序列训练生成对应所述用户的说话人模型包括:
对于每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
对得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型。
优选地,对得到的对应不同信道的声纹模型进行合并包括:
将对应不同信道的声纹模型加权平均。
本发明实施例还提供一种说话人识别系统,包括:
采集单元,用于采集不同信道下的用户注册语音信号;
特征提取单元,用于从所述采集单元采集的所述语音信号中分别提取声纹特征序列;
模型训练单元,用于利用所述特征提取单元提取的声纹特征序列训练生成对应所述用户的说话人模型;
识别单元,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
优选地,所述采集单元,具体用于利用选定的多个不同的麦克风分别采集所述用户注册语音信号。
优选地,所述系统还包括:
检测子系统,用于检测不同麦克风与不同用户端设备的信道相似度;
选择单元,用于根据得到的信道相似度选定多个不同的麦克风。
优选地,所述检测子系统包括:
音箱,用于播放用户录音;
多个不同麦克风和多个不同用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;
计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
优选地,所述选择单元包括:
映射子单元,用于利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;
聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;
选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。
可选地,所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述不同用户端设备包括以下任意一种或多种:手机、录音笔。
优选地,所述模型训练单元包括:
训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型。
优选地,合并子单元,具体用于将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。
本发明实施例提供的说话人识别方法及系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本发明实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。
附图说明
为了更清楚地说明本发明实施的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例说话人识别方法的流程图;
图2是本发明实施例中背景模型参数训练过程的一种流程图;
图3是本发明实施例中选择麦克风的一种实现流程图;
图4是本发明实施例说话人识别系统的一种结构示意图;
图5是本发明实施例说话人识别系统的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例说话人识别方法及系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
如图1所示,是本发明实施例说话人识别方法的流程图,包括以下步骤:
步骤101,采集不同信道下的用户注册语音信号。
具体地,可以通过不同类型的采集设备来模拟不同的信道,比如,利用K个麦克风采集用户输入的每句注册语音。
步骤102,从采集的所述语音信号中分别提取声纹特征序列。
该声纹特征序列包含一组声纹特征,可以有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。
所述声纹特征主要有:谱包络参数语音特征,基音轮廓、共振峰频率带宽特征,线性预测系数,倒谱系数等。
步骤103,利用所述声纹特征序列训练生成对应所述用户的说话人模型。
本发明实施例中的每一个特定的信道都对应了一组声纹特征序列,因此可以首先对每个信道下的声纹特征序列分别训练,得到对应的声纹模型;然后,对得到的对应不同信道的多个声纹模型进行合并,比如加权平均,生成对应所述用户的说话人模型。
在对注册用语音样本进行训练时,可以采用传统声纹认证系统的自适应算法,根据样本统计量调整通用背景模型参数实现对说话人模型的估计,如目前最为常用的基于最大后验概率的自适应算法等。
自适应算法根据少量说话人数据将用户声纹共性自适应为当前说话人个性,其具体训练流程大致如下:
1)从用户注册语音信号中提取声纹特征。
2)利用所述声纹特征自适应更新背景模型混合高斯的均值μm:
其中,xt表示第t帧声纹特征,γm(xt)表示第t帧声纹特征落于第m个高斯的概率,τ是遗忘因子,用于平衡历史均值以及样本对新均值的更新力度。一般来说,τ值越大,则新均值主要受原始均值制约。而若τ值较小,则新均值主要由样本统计量决定,更多的体现了新样本分布的特点。
3)复制背景模型方差作为所述用户的说话人模型方差。
4)生成对应所述用户的说话人模型。
当然,本发明实施例并不仅限定上述自适应算法的训练方式,还可以采用其它方式,比如可以采用主流的联合因子分析算法等,在此不再一一列举描述。
这样,在得到对应不同信道的多个声纹模型后,对这些声纹模型进行合并,得到对应所述该说话人的声纹模型。
对多个不同信道的多个声纹模型的合并可以采用加权平均方法,比如,在混合高斯模型下,主要包括对高斯的均值和方差的加权平均,即:
其中,ωk是第k个声纹模型的加权系数,可以考虑和麦克风阵列中麦克风权重相关。在本实施例中,各声纹模型的加权系数可以相同,比如设置为K为麦克风阵列中麦克风的总个数。当然,各声纹模型的加权系数也可以不同。μm(k)表示第k个信道下的说话人声纹模型的第m个高斯分量的均值矢量,∑m(k)表示第k个信道下的说话人声纹模型的第m个高斯分量的方差矩阵。
另外,对多个不同信道的多个声纹模型的合并还可以采用分量聚类方法,具体地,在混合高斯模型下,将所有K*N(N为对应每个信道的声纹模型的高斯数)个高斯作为独立样本,通过各种聚类算法合并得到N个最具代表性的高斯分量作为所述说话人的声纹模型。
步骤104,根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
具体地,可以提取测试语音信号中的声纹特征序列,分别计算该声纹特征序列与对应目标说话人的说话人模型的似然度p(X|U)、以及所述声纹特征序列与背景模型的似然度p(X|UBM),然后,计算两者的似然比,即:
如果得到的似然比大于设定的阈值,则表明上述测试语音是目标说话人的发音。
上述似然度的计算过程与现有技术类似,在此不再详细说明。
在本发明实施例中,所述通用背景模型用于描述说话人声纹的共性,该通用背景模型需要预先构建,具体可以采用现有技术中的一些方式,比如,采用1024或者更大高斯数的混合高斯模型模拟背景模型,其模型参数训练过程如图2所示。
步骤201,从多说话人训练语音信号中分别提取声纹特征,每个声纹特征作为一个特征矢量。
步骤202,利用聚类算法对上述特征矢量进行聚类,得到K个高斯的初始化均值,K是预先设置的混合高斯模型个数。
比如,可以采用传统的LBG(Linde,Buzo,Gray)聚类算法,通过训练矢量集和一定的迭代算法来逼近最优的再生码本。
步骤203,利用EM(Expectation Maximization)算法迭代更新上述均值、方差及各高斯对应的加权系数,得到背景模型。
具体的迭代更新过程与现有技术相同,在此不再详细描述。
当然,还可以采用其他方式构建背景模型,对此本发明实施例不做限定。
本发明实施例说话人识别方法,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本发明实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。
需要说明的是,在上述步骤101中,可以利用任意多个麦克风模拟不同的信道,采集用户注册语音信号。当然,考虑到训练数据信道的覆盖面将直接影响到模型模拟的精度,一般来说选择的信道越多,则相应的模型越可以兼容不同环境下的声纹特点,进而覆盖实际信道差异。然而若信道过多,则一方面对硬件要求更高,另一方面模型描述得过于精细也容易影响其鲁棒性。为此,在本发明实施例中,可以优选利用少量典型信道模拟复杂的实际环境。比如,可以从大量麦克风中选出少量音质较好、同时对主流的信道有一定覆盖能力的麦克风,然后利用这些选定的麦克风模拟不同信道,采集用户注册语音信号。
在选择麦克风时,可以通过检测不同麦克风与不同用户端设备的信道相似度来确定用来模拟不同典型信道的多个麦克风,实现对现实应用中复杂信道的覆盖。
如图3所示,是本发明实施例中选择麦克风的一种具体流程,包括以下步骤:
步骤301,选择用户端声纹采集设备(以下将其简称为用户端设备)。
该用户端设备用于模拟在实际应用中获取的测试语音信号的来源端,考虑到本发明实施例在实际应用中,可以基于用户日常生活应用中可能产生的各种声纹数据进行说话人识别,因此,该用户端设备可以为通常使用的各种便携式设备,如手机、录音笔等。
步骤302,选择系统注册端的声纹采集设备(以下将其简称为系统端设备)。
系统注册端主要用于完成用户身份注册,主要是通过录制用户语音训练用户个性化说话人模型。为了和用户端信道相匹配,可以选择系统端设备为各种移动设备中使用较多的麦克风,包括动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风等,实现对主流麦克风信道的覆盖。
步骤303,采集不同信道数据。
具体地,可以将各麦克风和上述不同用户端设备置于音箱的同一波束面上;通过所述音箱播放用户录音;利用各麦克风和上述不同用户端设备对该用户录音进行同步采集。
步骤304,对于每个系统端设备和用户端设备,计算该系统端设备和该用户端设备在采集到的语音信号上的主观语音质量评估(PerceptualEvaluation of Speech Quality,PESQ)值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
PESQ是对客观平均意见值(Mean Opinion Score,MOS)的一种有效的评价方法。目前PESQ准则适用于编解码、系统评估、选择和优化等各方面。一般来说PESQ越高则说明两个麦克风越相近,因此可以定义第i个用户端设备及第j个系统端设备的信道相似度为第i个用户端设备采集到的语音信号和第j个系统端设备采集到的语音信号的PESQ值。
步骤305,根据得到的信道相似度确定所需的多个不同的麦克风。
具体地,可以选择PESQ值达到设定值的多个麦克风作为实际应用所需的多个不同的麦克风。
另外,还可以通过传统KL聚类算法获得K(K<N,N为上述步骤302选择的全部麦克风的个数)个典型麦克风,具体如下:
1)设置所有麦克风为初始类中心;
2)衡量用户端设备和各麦克风的信道相似度。
为了更好地衡量不同语音采集设备之间的差异,本发明实施例还可以对得到的原始PESQ值执行各种函数映射以通过特征变换的方式提高不同设备之间的区分性。具体地,可以采用简单的线性函数D=S-PESQ将设备的信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数,可根据PESQ的浮动范围设定,比如设S为4.5。
显然距离D越小,表示两个麦克风越相近。
3)以系统端各设备为起点,通过不断合并系统端设备和用户端设备相似的麦克风信道得到K(K<N)个最典型的麦克风。这里参数K可以根据实际应用需要预先设定,比如,设定K=8等。
对上述合并过程举例如下:假设当前存在N个类中心,则从N个类中心中选择具有最大相似度的两个类中心进行合并,并保留这两个类中心中具有更大覆盖力的那个,将类别总数从N个删减为N-1个。所谓两个类中心的相似度可以计算如下:
分别计算所考察的两个类中心的每个类中心和当前两个类中心覆盖的所有用户端设备的PESQ值的总和,记为合并后的类方差。随后计算合并后类方差和合并前两个独立类的类方差和的差值。差值越小则说明这两个类中心越相似。
本发明实施例说话人识别方法,通过有针对性地挑选最具代表性的典型信道,利用大量同步采集的训练数据更准确、更具方向性地估计出信道空间,在注册时采用多模型加权平均的方法生成具有高表征性的说话人模型,可以进一步消除注册数据中的信道影响,减小注册数据和测试数据之间的失配情况,提高系统的识别率及运算效率。本发明实施例说话人识别方法,在大量麦克风中选取最具代表性的典型麦克风构成多麦克风语音信号采集设备,不仅弥补了训练数据对信道覆盖面不足的问题,而且避免了过多麦克风导致系统复杂度增加。
相应地,本发明实施例还提供一种说话人识别系统,如图4所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
采集单元401,用于采集不同信道下的用户注册语音信号;
特征提取单元402,用于从所述采集单元401采集的语音信号中分别提取声纹特征序列;
模型训练单元403,用于利用所述特征提取单元402提取的声纹特征序列训练生成对应所述用户的说话人模型;
识别单元404,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
在本发明实施例中,采集单元401可以利用任意多个麦克风同步采集用户注册语音信号,以模拟多种不同的信道环境。当然,考虑到训练数据信道的覆盖面将直接影响到模型模拟的精度,一般来说选择的信道越多,则相应的模型越可以兼容不同环境下的声纹特点,进而覆盖实际信道差异。然而若信道过多,则训练时间过长,且对硬件要求更高,影响用户体验。为此,在本发明实施例中,还可以优选利用少量典型信道模拟复杂的实际环境。比如,可以从大量麦克风中选出少量音质较好、同时对主流的信道有一定覆盖能力的麦克风,采集单元401利用这些选定的多个麦克风模拟不同信道,采集用户注册语音信号。
本发明实施例中,特征提取单元402提取的每个声纹特征序列都对应了一个特定的信道,相应地,模型训练单元403可以首先对每个声纹特征序列分别训练,得到对应的声纹模型;然后,对得到的对应不同信道的多个声纹模型进行加权平均,生成对应所述用户的说话人模型。
为此,模型训练单元403的一种具体实现结构可以包括:训练子单元和加权子单元(未图示),其中:
所述训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
所述合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型,比如,将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。
所述训练子单元在对注册用语音样本进行训练时,可以采用传统声纹认证系统的自适应算法,根据样本统计量调整通用背景模型参数实现对说话人模型的估计,如目前最为常用的基于最大后验概率的自适应算法等,具体可参见前面本发明实施例说话人识别方法中的描述,在此不再赘述。
本发明实施例说话人识别系统,针对检测环境和模型训练环境不同情况下,由于测试语音和训练语音之间信道不匹配导致系统性能下降的问题,通过采集不同信道下的用户注册语音信号,并利用这些不同信道下的注册语音信号训练生成对应所述用户的说话人模型,根据该说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。相比于传统基于加噪语音训练得到的说话人模型对信道敏感的问题,本发明实施例中得到的说话人模型由于是基于多个不同信道数据训练得到的,因此能更好地覆盖不同信道下的声纹特点,具有更高的鲁棒性和针对性。即使在模型训练数据与信道空问不匹配的情况下,也可以得到更鲁棒的模型估计,较好地改善信道差异导致的系统性能下降的问题。
如图5所示,是本发明实施例说话人识别系统的另一种结构示意图。
与图4所示实施例不同的是,在该实施例中,所述系统还包括:检测子系统501和选择单元502。
所述检测子系统501用于检测不同麦克风与不同用户端设备的信道相似度。
其中,所述麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述用户端设备包括以下任意一种或多种:手机、录音笔。
所述选择单元502用于根据得到的相似度选定多个不同的麦克风。
相应地,在该实施例中,采集单元402利用选择单元502选定的多个不同的麦克风同步采集不同信道的用户注册语音信号。
在该实施例中,所述检测子系统501包括:
音箱,用于播放用户录音;
多个不同的麦克风和多个不同的用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;
计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
在该实施例中,选择单元502具体可以选择PESQ值达到设定值的多个麦克风作为实际应用所需的多个不同的麦克风。
另外,还可以通过各种聚类算法,挑选具有最大覆盖能力的主流麦克风作为实际需要所用的多个不同麦克风。
相应地,所述选择单元502的一种具体结构包括:映射子单元、聚类子单元和选择子单元,其中:
映射子单元,用于利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间;
聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;
选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。
当然,本发明实施例对选择单元502的具体结果不做限定,还可以有其它实现方式。
本发明实施例说话人识别系统,通过有针对性地挑选最具代表性的典型信道,利用大量同步采集的训练数据更准确、更具方向性地估计出信道空间,在注册时采用多模型加权平均的方法生成具有高表征性的说话人模型,可以进一步消除注册数据中的信道影响,减小注册数据和测试数据之间的失配情况,提高系统的识别率及运算效率。本发明实施例说话人识别方法,在大量麦克风中选取最具代表性的典型麦克风构成多麦克风语音信号采集设备,不仅弥补了训练数据对信道覆盖面不足的问题,而且避免了过多麦克风导致系统复杂度增加。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。
Claims (14)
1.一种说话人识别方法,其特征在于,包括:
采集不同信道下的用户注册语音信号;
从采集的所述语音信号中分别提取声纹特征序列;
对于每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
对得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型;
根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
2.如权利要求1所述的方法,其特征在于,所述采集不同信道下的用户注册语音信号包括:
利用选定的多个不同的麦克风分别采集所述用户注册语音信号。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
检测不同麦克风与不同用户端设备的信道相似度;
根据得到的信道相似度选定多个不同的麦克风。
4.如权利要求3所述的方法,其特征在于,所述检测不同麦克风与不同用户设备的信道相似度包括:
将所述不同麦克风和所述不同用户端设备置于音箱的同一波束面上;
通过所述音箱播放用户录音;
利用所述不同麦克风和所述不同用户端设备对所述用户录音进行同步采集;
对于每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
5.如权利要求4所述的方法,其特征在于,所述根据得到的相似度选定多个不同的麦克风包括:
利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;
以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值分布的麦克风;
根据聚类结果选定多个不同的麦克风。
6.如权利要求4所述的方法,其特征在于:
所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述不同用户端设备包括以下任意一种或多种:手机、录音笔。
7.如权利要求6所述的方法,其特征在于,对得到的对应不同信道的声纹模型进行合并包括:
将对应不同信道的声纹模型加权平均。
8.一种说话人识别系统,其特征在于,包括:
采集单元,用于采集不同信道下的用户注册语音信号;
特征提取单元,用于从所述采集单元采集的所述语音信号中分别提取声纹特征序列;
训练子单元,用于对每个信道采集到的所有声纹特征序列,训练得到对应该信道的声纹模型;
合并子单元,用于对所述训练子单元得到的对应不同信道的声纹模型进行合并,生成对应所述用户的说话人模型;识别单元,用于根据所述说话人模型及预先训练生成的通用背景模型对所述用户进行说话人识别。
9.如权利要求8所述的系统,其特征在于,
所述采集单元,具体用于利用选定的多个不同的麦克风分别采集所述用户注册语音信号。
10.如权利要求9所述的系统,其特征在于,所述系统还包括:
检测子系统,用于检测不同麦克风与不同用户端设备的信道相似度;
选择单元,用于根据得到的信道相似度选定多个不同的麦克风。
11.如权利要求10所述的系统,其特征在于,所述检测子系统包括:
音箱,用于播放用户录音;
多个不同麦克风和多个不同用户设备,用于在所述音箱的同一波束面上同步采集所述音箱播放的用户录音;
计算单元,用于对每个麦克风和用户端设备,计算该麦克风和该用户端设备在采集到的语音信号上的主观语音质量评估PESQ值,将PESQ值作为该麦克风和该用户端设备的信道相似度。
12.如权利要求11所述的系统,其特征在于,所述选择单元包括:
映射子单元,用于利用线性函数D=S-PESQ将所述信道相似度映射到新的距离度量空间,其中,D表示映射距离,S为系统参数;
聚类子单元,用于以各麦克风为聚类初始类中心,采用自下而上的聚类算法合并具有相似PESQ值的麦克风;
选择子单元,用于根据所述聚类子单元的聚类结果选定多个不同的麦克风。
13.如权利要求11所述的系统,其特征在于:
所述不同麦克风包括以下任意一种或多种:动圈式麦克风、电容式麦克风、驻极体麦克风、硅麦克风;
所述不同用户端设备包括以下任意一种或多种:手机、录音笔。
14.如权利要求8所述的系统,其特征在于,
合并子单元,具体用于将对应不同信道的声纹模型加权平均,生成对应所述用户的说话人模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102378529A CN102270451B (zh) | 2011-08-18 | 2011-08-18 | 说话人识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102378529A CN102270451B (zh) | 2011-08-18 | 2011-08-18 | 说话人识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102270451A CN102270451A (zh) | 2011-12-07 |
CN102270451B true CN102270451B (zh) | 2013-05-29 |
Family
ID=45052730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102378529A Active CN102270451B (zh) | 2011-08-18 | 2011-08-18 | 说话人识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102270451B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077719B (zh) * | 2012-12-27 | 2015-01-07 | 安徽科大讯飞信息科技股份有限公司 | 一种基于矩阵离线预计算的快速全空间因子处理方法 |
CN103971696A (zh) * | 2013-01-30 | 2014-08-06 | 华为终端有限公司 | 语音处理方法、装置及终端设备 |
CN103217167A (zh) * | 2013-03-25 | 2013-07-24 | 深圳市凯立德科技股份有限公司 | 声控导航方法及设备 |
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
US9792899B2 (en) | 2014-07-15 | 2017-10-17 | International Business Machines Corporation | Dataset shift compensation in machine learning |
CN105989842B (zh) * | 2015-01-30 | 2019-10-25 | 福建星网视易信息系统有限公司 | 对比声纹相似度的方法、装置及其在数字娱乐点播系统中的应用 |
CN105656756A (zh) * | 2015-12-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 好友推荐方法和装置 |
CN105679324B (zh) * | 2015-12-29 | 2019-03-22 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
CN106972990B (zh) * | 2016-01-14 | 2020-06-02 | 芋头科技(杭州)有限公司 | 基于声纹识别的智能家居设备 |
CN106971736A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种提升声纹识别准确度的方法和系统 |
CN105938716B (zh) * | 2016-03-30 | 2019-05-28 | 浙江大学 | 一种基于多精度拟合的样本复制语音自动检测方法 |
WO2017212206A1 (en) * | 2016-06-06 | 2017-12-14 | Cirrus Logic International Semiconductor Limited | Voice user interface |
CN107564513B (zh) * | 2016-06-30 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN107705791B (zh) * | 2016-08-08 | 2021-06-04 | 中国电信股份有限公司 | 基于声纹识别的来电身份确认方法、装置和声纹识别系统 |
CN107767863B (zh) * | 2016-08-22 | 2021-05-04 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN106341756B (zh) * | 2016-08-29 | 2020-07-31 | 北海爱飞数码科技有限公司 | 个性化智能音箱 |
CN107424248A (zh) * | 2017-04-13 | 2017-12-01 | 成都步共享科技有限公司 | 一种共享自行车的声纹开锁方法 |
CN108288467B (zh) * | 2017-06-07 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及语音识别引擎 |
CN107610708B (zh) * | 2017-06-09 | 2018-06-19 | 平安科技(深圳)有限公司 | 识别声纹的方法及设备 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN108074576B (zh) * | 2017-12-14 | 2022-04-08 | 讯飞智元信息科技有限公司 | 审讯场景下的说话人角色分离方法及系统 |
CN108260045A (zh) * | 2017-12-18 | 2018-07-06 | 佛山市创思特音响有限公司 | 一种记录用户使用习惯的音响系统 |
CN108229542A (zh) * | 2017-12-21 | 2018-06-29 | 中智诚征信有限公司 | 一种基于时序分析技术的循环借贷信用风险监测方法 |
CN108877809B (zh) * | 2018-06-29 | 2020-09-22 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN110164452B (zh) | 2018-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
TWI684874B (zh) * | 2018-10-18 | 2020-02-11 | 瑞軒科技股份有限公司 | 智慧型音箱及其操作方法 |
CN109800299B (zh) * | 2019-02-01 | 2021-03-09 | 浙江核新同花顺网络信息股份有限公司 | 一种说话人聚类方法及相关装置 |
CN111833882A (zh) * | 2019-03-28 | 2020-10-27 | 阿里巴巴集团控股有限公司 | 声纹信息管理方法、装置、系统及计算设备、存储介质 |
CN110400565A (zh) * | 2019-08-20 | 2019-11-01 | 广州国音智能科技有限公司 | 说话人识别方法、系统及计算机可读存储介质 |
CN111179941B (zh) * | 2020-01-06 | 2022-10-04 | 科大讯飞股份有限公司 | 智能设备唤醒方法、注册方法及装置 |
CN111312283B (zh) * | 2020-02-24 | 2023-03-21 | 中国工商银行股份有限公司 | 跨信道声纹处理方法及装置 |
CN113571054B (zh) * | 2020-04-28 | 2023-08-15 | 中国移动通信集团浙江有限公司 | 语音识别信号预处理方法、装置、设备及计算机存储介质 |
CN112185395B (zh) | 2020-09-04 | 2021-04-27 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于差分隐私的联邦声纹识别方法 |
CN112687295A (zh) * | 2020-12-22 | 2021-04-20 | 联想(北京)有限公司 | 一种输入控制方法及电子设备 |
CN113127673B (zh) * | 2021-03-23 | 2022-07-22 | 上海掌数科技有限公司 | 一种声纹数据库的构建方法及其数据调用方法 |
CN113593579B (zh) * | 2021-07-23 | 2024-04-30 | 马上消费金融股份有限公司 | 一种声纹识别方法、装置和电子设备 |
CN115101076B (zh) * | 2022-05-26 | 2023-09-12 | 燕山大学 | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6772119B2 (en) * | 2002-12-10 | 2004-08-03 | International Business Machines Corporation | Computationally efficient method and apparatus for speaker recognition |
US20080208581A1 (en) * | 2003-12-05 | 2008-08-28 | Queensland University Of Technology | Model Adaptation System and Method for Speaker Recognition |
CN102024455B (zh) * | 2009-09-10 | 2014-09-17 | 索尼株式会社 | 说话人识别系统及其方法 |
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
-
2011
- 2011-08-18 CN CN2011102378529A patent/CN102270451B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102270451A (zh) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102270451B (zh) | 说话人识别方法及系统 | |
CN110491391B (zh) | 一种基于深度神经网络的欺骗语音检测方法 | |
CN110189769B (zh) | 基于多个卷积神经网络模型结合的异常声音检测方法 | |
CN102238190B (zh) | 身份认证方法及系统 | |
Zhao et al. | Robust speaker identification in noisy and reverberant conditions | |
CN102509547B (zh) | 基于矢量量化的声纹识别方法及系统 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN102024455B (zh) | 说话人识别系统及其方法 | |
CN101833951B (zh) | 用于说话人识别的多背景模型建立方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110610708B (zh) | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN106098068A (zh) | 一种声纹识别方法和装置 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
Yu et al. | Adversarial network bottleneck features for noise robust speaker verification | |
Wang et al. | The dku-dukeece-lenovo system for the diarization task of the 2021 voxceleb speaker recognition challenge | |
Alluri et al. | IIIT-H Spoofing Countermeasures for Automatic Speaker Verification Spoofing and Countermeasures Challenge 2019. | |
CN110197665A (zh) | 一种用于公安刑侦监听的语音分离与跟踪方法 | |
Al-Kaltakchi et al. | Speaker identification evaluation based on the speech biometric and i-vector model using the timit and ntimit databases | |
Beritelli et al. | The role of voice activity detection in forensic speaker verification | |
Gupta et al. | Segment-level pyramid match kernels for the classification of varying length patterns of speech using SVMs | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
Zhang et al. | NPU-HC speaker verification system for far-field speaker verification challenge 2022 | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee |
Owner name: IFLYTEK CO., LTD. Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD. |
|
CP03 | Change of name, title or address |
Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666 Patentee after: Iflytek Co., Ltd. Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei Patentee before: Anhui USTC iFLYTEK Co., Ltd. |