CN102201236B - 一种高斯混合模型和量子神经网络联合的说话人识别方法 - Google Patents
一种高斯混合模型和量子神经网络联合的说话人识别方法 Download PDFInfo
- Publication number
- CN102201236B CN102201236B CN2011100849452A CN201110084945A CN102201236B CN 102201236 B CN102201236 B CN 102201236B CN 2011100849452 A CN2011100849452 A CN 2011100849452A CN 201110084945 A CN201110084945 A CN 201110084945A CN 102201236 B CN102201236 B CN 102201236B
- Authority
- CN
- China
- Prior art keywords
- rightarrow
- vector
- quantum
- sigma
- centerdot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种高斯混合模型和量子神经网络联合的说话人识别方法。包括:在训练阶段,对输入的训练语音信号分帧并提取特征参数,生成特征参数向量;之后,使用K均值方法和EM算法取得特征参数向量的高斯混合模型参数,最后使用所有训练语音信号的高斯混合模型参数训练量子神经网络。在识别阶段,得到被识别人语音的高斯混合模型参数,之后将此模型参数输入之前已训练好的神经网络,得到识别结果;本发明适用于样本数据少,样本数据不均衡情况下的说话人识别;同时利用量子神经网络本身所具有的能对存在交叉数据和模糊边界的说话人语音数据进行有效判决的能力,提高系统正确识别率。
Description
技术领域
本发明涉及一种说话人识别方法,特别是一种高斯混合模型和量子神经网络联合的说话人识别方法。
背景技术
目前,说话人识别系统所采用的方法主要包括以下几种:
1、基于矢量量化(Vector Quantization,VQ)的说话人识别方法。该方法在训练阶段首先从训练语音中提取特征向量,然后使用此特征向量通过聚类生成说话人模板;识别时,首先对待识别的语音提取特征向量,然后依次计算此特征向量和系统中已有模板的距离,并选取距离最小的模板对应的说话人作为本次识别的结果。每个模板只描述了该说话人语音特征向量在向量空间中的统计分布情况,在训练和测试语音较短的情况下,该方法的识别率会较低。
2、基于高斯混合模型(Gaussion Mixture Models,GMM)的说话人识别方法。该方法在训练阶段,通过期望最大化(Expectation Maximization,EM)算法,使用多个高斯分布的概率密度函数的组合逼近每个注册人语音信号特征向量在概率空间的分布;识别时,通过求解被识别语音特征向量相对于已知模型的最大后验概率来确定被识别信号所对应的说话人。为了得到准确的最大后验概率,要求模型必须能充分刻画向量信号在概率空间的分布,这就要求训练样本要足够多、模型阶数足够大、训练时间足够长,不适用于样本少、样本数据不均衡情况下的说话人识别。
3、基于人工神经网络(Artificial Neural Network,ANN)的说话人识别方法。该方法在训练阶段,通过一定的训练算法使网络能够学习语音特征向量在空间的分布特征,从注册信号的向量空间映射至注册信号对应的说话人;识别时,将被识别的语音特征向量输入已训练好的网络,得到识别结果。由于信号在向量空间中的分布存在着一定的随机性,使得学习后的神经网络对输入特征向量空间的划分存在着一定的误差,从而影响了识别的正确率。
因此,需要一种新的技术方案以解决上述问题。
发明内容
针对上述现有技术所存在的问题和不足,本发明的目的是提供一种克服高斯混合模型需要较长训练和识别数据的缺点以及提高识别率的高斯混合模型和量子神经网络联合的的说话人识别方法。
为实现上述目的,本发明高斯混合模型和量子神经网络联合的说话人识别方法可采用如下技术方案:
一种高斯混合模型和量子神经网络联合的说话人识别方法,该方法包括以下步骤:
(1)参数处理流程,该流程包括:一、输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵;二、使用K均值算法对提取到的特征向量进行聚类;三、对聚类结果进行EM迭代;四、得到高斯混合模型参数,并将参数合成为量子神经网络的输入矢量;
(2)训练流程:合成用于训练神经网络的目标向量并对量子神经网络进行训练;
(3)识别流程:对待识别语音信号按步骤(1)进行参数处理并输入训练好的量子神经网络进行识别。
本发明高斯混合模型和量子神经网络联合的说话人识别方法与现有技术相比具有以下优点:
1、高斯混合模型在训练和识别过程中均需要较多的数据样本,从而降低了其实用性。本方法采用高斯混合模型和量子神经网络联合的识别方法,结合了概率统计模型和判决模型的优点,能在较小数据样本条件下进行识别,克服了高斯混合模型需要较长训练和识别数据的缺点,更适用于样本数据少,样本数据不均衡(即某一类数据特别少)情况下的说话人识别,尤其是面向移动通信和互联网语音的说话人识别。
2、传统的人工神经网络方法,直接将特征向量空间映射到说话人目标向量空间,不能剔除离散度大的向量对分类的影响,因而降低了识别率;本方法首先使用高斯混合模型对语音信号特征向量的分布情况进行概率统计,并将统计所得参数经量子神经网络映射至目标向量空间,使分类的准确性得到提高;同时由于基于多层传递函数的量子神经网络本身具有一定的模糊性,能对存在交叉数据和模糊边界的说话人语音数据进行有效判决,因而能有效提高识别系统的识别率。
附图说明
图1为本发明高斯混合模型和量子神经网络联合的说话人识别方法的流程图。
图2为本发明高斯混合模型和量子神经网络联合的说话人识别方法中采用的量子神经网络的结构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供了一种高斯混合模型和量子神经网络联合的说话人识别方法,用以对说话人身份进行自动辨识,本方法所设计系统功能的实现分为训练和识别两个阶段。训练阶段,首先逐个对训练语音信号进行参数处理,并将结果存入数据库,之后从数据库取出所有数据对量子神经网络进行训练;识别阶段,首先对识别语音信号进行参数处理,之后将处理结果输入训练好的量子神经网络,则网络的输出经过一定处理后便能得到识别结果。
请结合图1所示,该高斯混合模型和量子神经网络联合的说话人识别方法包括以下步骤:
(1)参数处理流程,参数处理流程包括:一、输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵X,该第一矩阵X为D×B的矩阵,其中D为帧长,B为帧数;二、使用K均值算法对提取到的特征向量进行聚类;三、对聚类结果进行EM迭代;四、得到高斯混合模型参数,并将参数合成为量子神经网络的输入矢量;
其中:
使用K均值算法对提取到的特征向量进行聚类包括以下步骤:
(a)从第一矩阵X中随机选取M列作为初始的聚类中心;
(b)对第一矩阵X中的所有列,按最小距离准则划分到相应的类别;
(c)重新计算聚类中心;
(d)如果满足结束条件则执行(e),否则跳到(b)继续执行;
使用EM算法对提取到的特征向量进行聚类包括以下步骤:
其中:λ表示模型参数,
(b)如果不满足EM迭代结束条件,则跳到(a)继续执行,否则EM迭代结束。
将高斯混合模型的参数合成为量子神经网络的输入矢量包括以下步骤:
(2)合成用于训练神经网络的目标向量并对量子神经网络进行训练;
其中:
合成用于训练神经网络的目标向量包括以下步骤:
对量子神经网络训练包括以下步骤:
(a)将所有的训练输入向量逐次输入量子神经网络,量子神经网络结构采用三层前向神经网络,其结构如图2所示,其中输入层的节点数目为R,表示第k个输入向量;输出层为N个节点,隐层为H个节点, 分别为输出层和隐层在输入向量为时的响应,神经网络的相邻层节点全互连,同层节点之间不相连。其中,隐层的传递函数为:
将所有的训练输入向量逐次输入量子神经网络,并得到对应的网络输出向量;
(b)计算(a)步所得网络输出向量和目标向量的误差,并计算所有误差的平方和。依据后向传播算法,沿误差曲面的梯度下降方向调整网络的输入、输出参数矩阵;
(c)计算隐层神经元的平均类条件方差;采用后向传播算法,沿类条件方差曲面的梯度下降方向调整量子神经间隔。具体地,对于类别Cn(属于第n个说话人的输入向量和目标向量均记为属于类别Cn),第i个隐层量子神经元输出的类条件方差为:
其中
平均类条件方差为:
使用式为:
对隐层的量子间隔进行更新,其中,
Qmc为动量因子,满足0<Qmc<1;
(d)满足训练结束条件则结束,否则执行(a)。
(3)对待识别语音信号按步骤(1)进行参数处理得到参数向量,将参数向量输入网络进行识别的方法包括以下步骤:
(a)将所有参数向量输入网络,并得到输出向量,记第k个参数向量 对应的输出向量为
(b)对所有输出向量按式
进行二值化处理,其中,Index(ok,i)=i;
本发明高斯混合模型和量子神经网络联合的说话人识别方法具有以下优点:
1、高斯混合模型在训练和识别过程中均需要较多的数据样本,从而降低了其实用性。本方法采用高斯混合模型和量子神经网络联合的识别方法,结合了概率统计模型和判决模型的优点,能在较小数据样本条件下进行识别,克服了高斯混合模型需要较长训练和识别数据的缺点,更适用于样本数据少,样本数据不均衡(即某一类数据特别少)情况下的说话人识别,尤其是面向移动通信和互联网语音的说话人识别。
2、传统的人工神经网络方法,直接将特征向量空间映射到说话人目标向量空间,在映射时,不能剔除部分离散度大的特征向量对分类的影响,影响了识别率;本方法首先使用高斯混合模型对语音信号的分布情况进行概率统计,并将统计所得模型参数经量子神经网络映射到信号目标向量空间,使分类的准确性得到提高;同时由于基于多层传递函数的量子神经网络本身具有一定的模糊性,能对存在交叉数据和模糊边界的说话人语音数据进行有效判决,因此可有效提高系统的正确识别率。
Claims (4)
1.一种高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于,该方法包括以下步骤:
(1)参数处理流程,该流程包括:一、输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵;二、使用K均值算法对提取到的特征向量进行聚类;三、对聚类结果进行EM迭代;四、得到高斯混合模型参数,并将参数合成为量子神经网络的输入矢量;
(2)训练流程:合成用于训练神经网络的目标向量并对量子神经网络进行训练;
(3)识别流程:对待识别语音信号按步骤(1)进行参数处理并输入训练好的量子神经网络进行识别;
所述步骤(1)中的使用K均值算法对每帧语音的特征向量进行聚类包括以下步骤:
(1a)输入语音信号,对其分帧并提取每帧的特征向量,生成第一矩阵X,该第一矩阵X为D×B的矩阵,其中D为帧长,B为帧数,X中的第t列即是从第t帧语音信号中提取的特征向量,记为从第一矩阵X中随机选取M列作为初始的聚类中心;
(1b)对第一矩阵X中的所有列,按最小距离准则划分到相应的类别;
(1c)重新计算聚类中心;
(1d)如果满足结束条件则执行(1e),否则跳到(1b)继续执行;
(1e)分别计算U、E,其中是M维向量,U为每个聚类的中心,E为聚类的方差,U和E均为D×M的矩阵,其中D为帧长;M为聚类个数;U和E的第i列向量分别记为 其中Count(i)是属于第i类的特征向量个数,i为大于0的自然数;
所述步骤(1)中对聚类结果进行EM迭代包括以下步骤:
其中:λ表示模型参数,
(2b)如果不满足EM迭代结束条件,则跳到(2a)继续执行,否则EM迭代结束;
所述步骤(1)将高斯混合模型的参数合成为量子神经网络的输入矢量包括以下步骤:
3.根据权利要求2所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(2)中对量子神经网络的训练包括以下步骤:
(3a)将所有的训练输入向量逐次输入量子神经网络,量子神经网络结构采用三层前向神经网络,其中输入层的节点数目为R,表示第k个输入向量;输出层为N个节点,隐层为H个节点, 分别为输出层和隐层在输入向量为时的响应,神经网络的相邻层节点全互连,同层节点之间不相连;其中,隐层的传递函数为:
WT为输入权值矩阵,S为量子间隔数目,θr为量子间隔;
将所有的训练输入向量逐次输入量子神经网络,并得到对应的网络输出向量;
(3b)计算(3a)步所得网络输出向量和目标向量的误差,并计算所有误差的平方和,依据后向传播算法,沿误差曲面的梯度下降方向调整网络的输入、输出参数矩阵;
(3c)计算隐层神经元的平均类条件方差;采用后向传播算法,沿类条件方差曲面的梯度下降方向调整网络的量子神经间隔,具体地,对于类别Cn,属于第n个说话人的输入向量和目标向量均记为属于类别Cn,第i个隐层量子神经元输出的类条件方差为:
其中
使用式为:
对隐层的量子间隔进行更新,其中,
Qmc为动量因子,满足0<Qmc<1;
(3d)满足训练结束条件则结束,否则执行(3a)。
4.根据权利要求3所述的高斯混合模型和量子神经网络联合的说话人识别方法,其特征在于:所述步骤(3)中对待识别语音信号按步骤(1)进行参数处理得到参数向量后进行识别的方法包括以下步骤:
(4a)将所有参数向量输入网络,并得到输出向量,记第k个参数向量 对应的输出向量为
(4b)对所有输出向量按式:
进行二值化处理,其中,Index(ok,i)=i;
(4c)令 则 即为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100849452A CN102201236B (zh) | 2011-04-06 | 2011-04-06 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100849452A CN102201236B (zh) | 2011-04-06 | 2011-04-06 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102201236A CN102201236A (zh) | 2011-09-28 |
CN102201236B true CN102201236B (zh) | 2012-12-19 |
Family
ID=44661862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100849452A Expired - Fee Related CN102201236B (zh) | 2011-04-06 | 2011-04-06 | 一种高斯混合模型和量子神经网络联合的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102201236B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789594B (zh) * | 2012-06-28 | 2014-08-13 | 南京邮电大学 | 一种基于diva神经网络模型的语音生成方法 |
CN102880906B (zh) * | 2012-07-10 | 2015-01-28 | 南京邮电大学 | 一种基于diva神经网络模型的汉语元音发音方法 |
CN103310273A (zh) * | 2013-06-26 | 2013-09-18 | 南京邮电大学 | 基于diva模型的带声调的汉语元音发音方法 |
CN103310272B (zh) * | 2013-07-02 | 2016-06-08 | 南京邮电大学 | 基于声道动作知识库改进的diva神经网络模型发音方法 |
CN103971700A (zh) * | 2013-08-01 | 2014-08-06 | 哈尔滨理工大学 | 语音监控方法及装置 |
CN105469784B (zh) * | 2014-09-10 | 2019-01-08 | 中国科学院声学研究所 | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
DK3257043T3 (en) * | 2015-02-11 | 2019-01-14 | Bang & Olufsen As | Speaker recognition in a multimedia system |
US9721569B2 (en) * | 2015-05-27 | 2017-08-01 | Intel Corporation | Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams |
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106504773B (zh) * | 2016-11-08 | 2023-08-01 | 上海贝生医疗设备有限公司 | 一种可穿戴装置及语音与活动监测系统 |
CN106955112A (zh) * | 2017-03-17 | 2017-07-18 | 泉州装备制造研究所 | 基于量子小波神经网络模型的脑电波情绪认知方法 |
CN107146624B (zh) * | 2017-04-01 | 2019-11-22 | 清华大学 | 一种说话人确认方法及装置 |
CN107180246A (zh) * | 2017-04-17 | 2017-09-19 | 南京邮电大学 | 一种基于混合模型的iptv用户报障数据合成方法 |
CN108417226A (zh) * | 2018-01-09 | 2018-08-17 | 平安科技(深圳)有限公司 | 语音对比方法、终端及计算机可读存储介质 |
CN108417217B (zh) * | 2018-01-11 | 2021-07-13 | 思必驰科技股份有限公司 | 说话人识别网络模型训练方法、说话人识别方法及系统 |
CN108417224B (zh) * | 2018-01-19 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 双向神经网络模型的训练和识别方法及系统 |
CN108962237B (zh) * | 2018-05-24 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 混合语音识别方法、装置及计算机可读存储介质 |
CN109147798B (zh) * | 2018-07-27 | 2023-06-09 | 北京三快在线科技有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN113313208A (zh) * | 2021-02-05 | 2021-08-27 | 支付宝(杭州)信息技术有限公司 | 一种对象聚类方法和系统 |
CN113569910A (zh) * | 2021-06-25 | 2021-10-29 | 石化盈科信息技术有限责任公司 | 账户类型识别方法、装置、计算机设备及存储介质 |
CN114496227B (zh) * | 2022-01-26 | 2023-04-28 | 电子科技大学 | 基于量子神经网络的病情发展预测系统及平台 |
CN115641852A (zh) * | 2022-10-18 | 2023-01-24 | 中国电信股份有限公司 | 声纹识别方法、装置、电子设备和计算机可读存储介质 |
-
2011
- 2011-04-06 CN CN2011100849452A patent/CN102201236B/zh not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
Bing Xiang et al.Efficient text-independent speaker verification with structural Gaussian mixture models and neural network.《IEEE Transactions on Speech and Audio Processing》.2003,第11卷(第5期),第447-456页. * |
邱政权等.GMM/ANN混合说话人辨认模型.《计算机工程与应用》.2004,(第17期),第106-108页. * |
黄伟等.基于分类特征空间高斯混合模型和神经网络融合的说话人识别.《电子与信息学报》.2004,第26卷(第10期),第1607-1612页. * |
黄伟等.基于分类高斯混合模型和神经网络融合的与文本无关的说话人识别.《模式识别与人工智能》.2003,第16卷(第4期),423-428. * |
Also Published As
Publication number | Publication date |
---|---|
CN102201236A (zh) | 2011-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102201236B (zh) | 一种高斯混合模型和量子神经网络联合的说话人识别方法 | |
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
Tao et al. | An object detection system based on YOLO in traffic scene | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
Sainath et al. | Auto-encoder bottleneck features using deep belief networks | |
CN110097755A (zh) | 基于深度神经网络的高速公路交通流量状态识别方法 | |
CN103531199B (zh) | 基于快速稀疏分解和深度学习的生态声音识别方法 | |
CN107247938A (zh) | 一种高分辨率遥感影像城市建筑物功能分类的方法 | |
CN110534132A (zh) | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 | |
CN103729678A (zh) | 一种基于改进dbn模型的水军检测方法及系统 | |
CN106683661A (zh) | 基于语音的角色分离方法及装置 | |
CN104866810A (zh) | 一种深度卷积神经网络的人脸识别方法 | |
CN106503661B (zh) | 基于烟花深度信念网络的人脸性别识别方法 | |
CN103440495A (zh) | 一种复合绝缘子憎水等级自动识别方法 | |
CN106875007A (zh) | 用于语音欺骗检测的基于卷积长短期记忆端对端深度神经网络 | |
CN104751842A (zh) | 深度神经网络的优化方法及系统 | |
CN110459225A (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN103035239B (zh) | 一种基于局部学习的说话人识别方法 | |
CN109637526A (zh) | 基于个人身份特征的dnn声学模型的自适应方法 | |
CN110289002A (zh) | 一种端到端的说话人聚类方法及系统 | |
CN104050680B (zh) | 基于迭代自组织和多智能体遗传聚类算法的图像分割方法 | |
CN108461085A (zh) | 一种短时语音条件下的说话人识别方法 | |
CN108520986A (zh) | 一种基于生成对抗网络的动力电池配组方法 | |
CN108647772A (zh) | 一种用于边坡监测数据粗差剔除的方法 | |
CN105890600A (zh) | 基于手机传感器的地铁乘客位置推测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121219 Termination date: 20130406 |