CN107358947A

CN107358947A - 说话人重识别方法及系统

Info

Publication number: CN107358947A
Application number: CN201710488312.5A
Authority: CN
Inventors: 梁超; 吴�琳; 阮威健; 黄文军
Original assignee: SUZHOU INSTITUTE OF WUHAN UNIVERSITY; Wuhan University WHU
Current assignee: SUZHOU INSTITUTE OF WUHAN UNIVERSITY; Wuhan University WHU
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2017-11-17

Abstract

本发明公开了一种说话人重识别方法及系统，包括：S1构建多场景的人声语料库；S2对人声语料库中各语音样本分别进行预处理；S3基于人声语料库进行场景分析与聚类；S4，语音信号建模；S5在待查询语音库中查找与查询语音匹配的语音样本。本发明提出了说话人重识别这样的新问题，给定说话人在某一场景下的语音片段，将其它场景下属于该说话人的语音片段按照其身份的一致性从高到低进行排序，将排序最靠前的语音样本所对应的说话人作为说话人重识别的结果。

Description

说话人重识别方法及系统

技术领域

本发明属于说话人识别技术领域，尤其涉及一种说话人重识别方法及系统。

背景技术

近年来，在维护国家安全与公安机关侦查领域，视听资料作为我国刑事诉讼法42条规定的第七种证据，在案件侦察和证实犯罪中应用越来越多。通过视频侦查，可以迅速锁定犯罪嫌疑人、犯罪嫌疑车辆等，然而并不是每个案件都能获得相应的监控视频数据，在某些诸如电话恐吓、勒索、威胁或传递危害国家公共安全等敏感信息案件中，语音信息可能是侦破案件的唯一线索。

传统的说话人识别(Speaker Recognition，SR)技术通常先将话者的声音进行录制，提取话者独特的能表征说话人特点的模板存储在媒体库中，使用时将待识别的音频片段与媒体库中的特征模板进行比对，进而确定话者的身份。传统的说话人识别更加关注话者的语音特征，较少考虑说话人所处的场景多样性。传统的音频检索⁰更多应用在音乐检索，如哼唱检索，或是对数字音频内容进行归类统计，较少考虑场景因素。实际侦查应用中，一般很难获得嫌疑人大量的语音样本，怎样通过截获的一段或是几段语音在海量的多场景语音库中找到曾经出现过的类似特征语音并判断出犯罪嫌疑人的作案动机与轨迹是一个难点。

文中涉及如下参考文献：

[1]Kinnunen T,Li H.An overview of text-independent speakerrecognition:From features to supervectors[J].Speech Communication,2010,52(1):12-40.

[2]李晨,周明全.音频检索技术研究[J].计算机技术与发展,2008,18(8):215-218.

发明内容

本发明的目的是提供一种说话人重识别方法及系统，可判断不同场景下的语音信息是否属于同一目标对象。

为达到上述目的，本发明提供的说话人重识别方法，包括步骤：

S1 采集不同场景下不同人物涉及不同情感的语音样本，构建多场景的人声语料库；

S2 对人声语料库中各语音样本分别进行预处理，所述的预处理包括依次进行采样与量化、预加重和分帧加窗；

S3 基于人声语料库进行场景分析与聚类，具体为：

3.1 分场景提取预处理后语音样本各帧的特征；

3.2 采用各场景提取的特征分别训练各场景的混合高斯模型GMMs；

3.3 计算各场景的混合高斯模型间的距离，即场景间的差异性；

3.4 根据场景间的差异性对人声语料库中所有场景进行聚类；

S4，语音信号建模，具体为：

4.1 采用聚类后各类场景下语音样本各帧的特征，分别训练各类场景的混合高斯模型GMMs，所训练的混合高斯模型即各类场景的统一背景模型UBM；

4.2 结合各类场景下的统一背景模型UBM和该类场景下各语音样本特征向量，运用 MAP自适应技术，得到人声语料库中各语音样本的混合高斯模型GMMs；

S5 在人声语料库中查找与查询语音匹配的语音样本，具体为：

5.1 定义集合构建集合Q上的近邻图G＝<Q,E>，近邻图边E的权重值用亲和矩阵中对应的元素值表示；其中，x^p表示查询语音，表示人声语料库中第i个语音样本，n表示人声语料库中语音样本数；

5.2 根据亲和矩阵A和排序函数计算人声语料库中各语音样本对应的排序分数，根据排序分数获得与查询语音匹配的语音样本，从而实现说话人重识别。

进一步的，步骤S1具体为：

从视频资料和/或音频资料提取不同场景不同人物涉及不同情感的音频信息，从音频信息截取语音片段并进行采样率转换，保证每个语音片段只有一个人的声音；采样率转换后的语音片段即语音样本；

所述的不同场景包括室内场景、室外场景和电话场景，其中，室内场景进一步包括屋内场景、办公室场景、车内场景、餐厅场景、酒吧场景；室外场景进一步包括楼道场景、街道场景、公园场景；

所述的不同人物包括不同性别和不同年龄层的人物，其中，不同年龄层又包括幼年、少年、青年、中年和老年；

所述的不同情感包括高兴、抑郁、愤怒、悲伤、惊讶和疑惑。

子步骤3.1中，所述的特征为梅尔频率倒谱系数、线性梅尔频率倒谱系数、线性预测倒谱系数、耳蜗滤波器倒谱系数、时域特征中的短时能量、时域特征中的短时过零率或前述特征的高阶组合特征。

步骤3中，执行子步骤3.2前，对子步骤3.1提取的特征进行降维处理。所述的降维处理采用PCA线性降维法或线性判别分析法。

作为一种具体实施方式，PCA线性降维法具体为：

(1)设特征集X＝{x₁,x₂,x₃,…,x_n}，对特征集中所有特征向量x_i进行中心化处理；

(2)基于中心化后的特征向量，计算特征集中各特征向量的协方差矩阵，并求取各协方差矩阵的特征值；

(3)根据预设的重构阈值t和特征值选择维数d′,满足其中，λ_i表示协方差矩阵的特征值，有λ₁≥λ₂≥…≥λ_d；

(4)取最大的d′个特征值对应的特征向量，即投影矩阵。

进一步的，子步骤3.3中，采用无迹变换近似KL散度法、蒙特卡诺分析法、变分近似法或匹配约束近似法计算各场景的混合高斯模型间的距离。

进一步的，子步骤3.4中，采用谱聚类法、K-means聚类法、层次聚类法或改进的谱聚类法对人声语料库中所有场景进行聚类。

进一步的，步骤S3中所述的基于人声语料库进行场景分析与聚类，具体为：

3.1分场景提取预处理后语音样本各帧的特征；3.2根据语音样本各帧的特征计算场景间的差异性；3.3根据场景间的差异性对人声语料库中所有场景进行聚类。

进一步的，子步骤5.1中，亲和矩阵采用如下方法获得：

计算人声语料库中语音样本间的亲和矩阵A^g；

当待查询语音段x^p来到时，计算x^p到人声语料库中各语音样本间的距离d_p-g，将d_p-g添加至亲和矩阵A^g，获得亲和矩阵

进一步的，子步骤5.2具体为：

根据亲和矩阵A估计归一化拉普拉斯图矩阵L_n或非归一化拉普拉斯图矩阵L_u；

基于L_n或L_u，利用流形排序模型计算人声语料库中各语音样本对应的排序分数；

根据排序分数获得与待查询语音段匹配的语音样本。

本发明提供的说话人重识别系统，包括：

人声语料库构建模块，用来采集不同场景下不同人物涉及不同情感的语音样本，构建多场景的人声语料库；

预处理模块，用来对人声语料库中各语音样本分别进行预处理，所述的预处理包括依次进行采样与量化、预加重和分帧加窗；

场景分析与聚类模块，用来基于人声语料库进行场景分析与聚类；

所述的场景分析与聚类模块进一步包括特征提取模块、训练模块、距离计算模块和聚类模块；其中：

特征提取模块，用来分场景提取预处理后语音样本各帧的特征；

训练模块，用来采用各场景提取的特征分别训练各场景的混合高斯模型GMMs；

距离计算模块，用来计算各场景的混合高斯模型间的距离，即场景间的差异性；

聚类模块，用来根据场景间的差异性对人声语料库中所有场景进行聚类；

语音信号建模模块，用来语音信号建模；

所述的语音信号建模模块进一步包括统一背景模型训练模块和自适应处理模块，其中：

统一背景模型训练模块，用来采用聚类后各类场景下语音样本各帧的特征，分别训练各类场景的混合高斯模型，所训练的混合高斯模型即各类场景的统一背景模型UBM；

自适应处理模块，用来对各类场景的统一背景模型UBM和该类场景下各语音样本特征向量，运用MAP自适应技术，得到人声语料库中各语音样本的混合高斯模型 GMMs；

查询模块，用来在人声语料库中查找与查询语音匹配的语音样本；

所述的查询模块进一步包括近邻图构建模块和匹配模块，其中：

近邻图构建模块，用来定义集合构建集合Q上的近邻图G＝<Q,E>，近邻图边E的权重值用亲和矩阵中对应的元素值表示；其中，x^p表示待查询语音段，表示人声语料库中第i个语音样本，n表示人声语料库中语音样本数；

匹配模块，用来根据亲和矩阵A和排序函数估计人声语料库中各语音样本对应的排序分数，根据排序分数获得与查询语音匹配的语音样本，从而实现说话人重识别。

和现有技术相比，本发明具有如下优点和有益效果：

(1)提出了说话人重识别这样的新问题，给定说话人在某一场景下的语音片段，将其它场景下属于该说话人的语音片段查找并识别出来，并按照身份的一致性从高到低进行排序，将排序最靠前的语音样本所对应的说话人作为说话人重识别的结果。

(2)构建了多场景的人声语料库，能满足多种需求，对说话人重识别技术发展具有宝贵参考价值。

(3)不同于传统的说话人识别任务，在原有的说话人识别框架中加入了排序模块，实现了说话人重识别框架。

附图说明

图1为本发明具体的流程图；

图2为本发明实施例中基于谱聚类的场景聚类示意图。

具体实施方式

语音识别领域针对说话人重识别的技术尚且较少，提出跨场景下的说话人重识别显得尤为重要。现有的音频语料库录制环境单一，不能满足说话人重识别研究任务。本发明针对上述问题，构建了多场景的人声语料库，该人声语料库包含现实生活的真实场景和环境噪声，根据给定的任意场景下语音片段，从人声语料库中检索并识别出其它场景下属于同一说话人的语音片段。

下面通过附图结合实施例，对本发明的技术方案作进一步具体的说明。

传统的说话人识别较少考虑说话人场景的差异性，本发明说话人重识别方法在说话人识别的基础上，加入了说话人所处的场景信息，即背景噪声，不再是单纯的识别问题，而是检索加识别。

本发明流程见图1。本具体实施方式中，采用MATLAB2015b作为仿真实验平台，现有的公开语料库不能满足本发明的实施，本发明构建了一个全新的人声语料库，以场景为单位对语料库的语音进行聚类，见图2。

以下针对上述说话人重识别的具体实施方式进一步阐述本发明。

步骤1，多场景人声语料库的构建。

本具体实施方式中，人声语料来源于近几年国内外知名度较高的影视剧作品，题材涉及了国内外电视剧、电影、综艺节目。

本步骤进一步包括：

步骤1.1，作品与场景选取。

电视剧选取国产都市生活剧《欢乐颂》、国产室内情景剧《爱情公寓》、国内青春校园剧《微微一笑很倾城》、韩国偶像剧《蓝色大海的传说》；电影选取国产电影《致我们终将逝去的青春》(以下简称《致青春》)、美国电影《盗梦空间》；综艺节目选取《奔跑吧兄弟》。人声来自所选取影视剧作品的主角和主要配角，包括不同年龄层次的男性和女性；选取影视剧作品中常见的、区分性明显的室内场景、室外场景以及电话场景。其中，室内场景包括屋内场景、办公室场景、车内场景、餐厅场景、酒吧场景；室外场景包括楼道场景、街道场景、公园场景。

步骤1.2，语音样本采集。

选用的影视资源为公开视频资源，首先，通过格式工厂(Format Factory)从视频资料中提取格式为wav的音频信息。然后，通过Adobe Audition3.0软件人工截取语音片段并进行采样率转换，保证每个语音片段只有一个人的声音，每部影视剧作品中每个角色在每个场景下跨时段提取0～3段不等时长的语音。

本具体实施方式中，所用语音均为wav格式，8000Hz采样率，16位量化精度，单声道语音。具体实施时，本领域技术人员可自行选择音频提取与编辑软件，如迅雷看看播放器、暴风影音、多米音乐、GoldWave、Adobe Audition CS等。

表1 人物分布

经过收集整理，构建的多场景的人声语料库共包括119个不同人物，其中男性72个，女性47个；由1358段不同时长语音样本构成，总时长约为7838秒，其中男性779 段，女性579段，人声语料库大小约119MB。人声语料库中人物分布见表1，场景分布见表2，时长统计见表3，音频文件数见表4。

表2 场景分布

表3 时长信息

表4 音频文件数

本具体实施方式中的人声语料库包含以下特点：

(1)涵盖了国内外多种影视剧作品，涉及到多种语言，包括汉语、英语、韩语。

(2)人物包含幼年、少年、青年、中年、老年各个年龄层次的角色，其中以青年和中年为主。

(3)语音样本涉及到角色的各种情感，高兴、抑郁、愤怒、悲伤、惊讶、疑惑等。

(4)场景包括屋内、办公室、餐厅、酒吧、马路、电梯、楼道、公园、车内甚至电话等，不同场景对应着不同的环境噪声，且伴随着背景音乐。

(5)语音样本均为人工截取，所以样本大小，即语音长度并非一致，既包含例如电话语音样本中2～5秒这样的短语音，也包括日常对话这样10～20秒的长语音。

(6)每个人在每个场景下的语音有多段，这是为了避免在同一场景下，不同的时段或者说话人离麦克风远近所引起的差异。

步骤2，对人声语料库中各语音样本分别进行预处理。

本步骤进一步包括：

(1)采样与量化

对语音样本进行采样与量化，语音信号是连续的时间t的函数，用s_a(t)表示，语音信号处理过程中，需要将模拟信号转换成数字信号。根据采样定理，得到数字信号 s(n)＝s_a(nT)，n表示周期的整数倍，T表示采样周期，s(n)表示离散信号或数字信号，采样后得到一系列音频信号振幅片段，对这些片段处理前，需对这些振幅片段进行量化处理。本具体实施方式中，采样率为8000Hz，量化精度为16位。但采样率和量化精度并不限于此，具体实施时，可根据需要调整采样率和量化精度。

(2)预加重

由于人的口唇辐射会带来一定程度的能量损失，音频信号在高频处的能量明显低于中低频处，不方便进行统一处理，通过设定一定大小的预加重系数可弥补高频分量的能量损失。本具体实施方式中，通过传递函数为H(z)＝1-αz^-1的数字滤波器来完成语音信号的高频增强，其中，z＝e^a+jb＝e^a(cos b+j sin b)，a为实变数，b为实变量，α为预加重系数。本具体实施方式中，选取α＝0.9375。但α并不限于0.9375，其可取0～1范围内的任意值。本领域的技术人员不局限于软件实现预加重，也可用硬件实现。

(3)分帧加窗

音频信号具有短时平稳特性，在20ms～30ms内，语音特征参数基本保持不变，通过加窗处理将语音信号s(n)进行分段，每一段称作一帧，帧长记为N，单位为ms，每一帧，用窗函数τ(n)乘以原始信号s(n)获得含有N个样本的音频序列，加窗得到的音频采样序列为τ(n)×s(n)＝{s_τ(n)|n＝0,1,...N-1}，为保证连续两帧平滑过渡，设置帧间重合区域即帧移，实施例中帧长为32ms，帧移为10ms，窗函数选择汉明窗。

具体实施时，本领域技术人员在保证语音信号短时平稳性可适当调整帧长语帧移，但帧移通常为所取帧长的二分之一以下，窗函数也可选择矩形窗、汉宁窗等。

步骤3，人声语料库的场景分析与聚类。

步骤3.1，人声语料库场景分析。

完成人声语料库构建后，对人声语料库中语音样本进行充分分析与聚类，选出场景差异性最大的几个场景。

本步骤的具体实施过程如下：

(1)分场景提取人声语料库中所有预处理后语音样本的特征。

本具体实施方式中，分帧提取一阶线性预测梅尔频率倒谱系数lpmfcc、lpmfcc的一阶差分和短时过零率，共25维特征，得到9个场景所对应的大小为F_i×25的特征矩阵W_i，W_i表示第i个场景的特征矩阵，F_i表示第i个场景下的语音总帧数，i＝1,2,......9。

所提取特征并不局限于前述特征，也可以选取梅尔频率倒谱系数mfcc、线性预测倒谱系数lpcc、耳蜗滤波器倒谱系数cfcc、时域特征中的短时能量以及它们的高阶组合特征等。

(2)采用9个场景下的特征矩阵W_i分别训练各场景的混合高斯模型GMMs。

本具体实施方式中，混合高斯模型GMMs的阶数K参照“Figueiredo M A T,Jain AK. Unsupervised learning of finite mixture models[J]”，K最小值设为1，最大值设为10，迭代结果K＝4。

阶数K也可以人为设置，考虑到时间和混合高斯模型的复杂度，建议最大K值不超过20。

(3)计算各场景的混合高斯模型间的距离，得场景间的差异性显著度图。

本具体实施方式中，采用无迹变换(Unscented Transform，UT)近似KL散度法计算混合高斯模型之间的距离，即场景间差异性。由于无迹变换具有非对称性，即 d_UT(g₁,g₂)≠d_UT(g₂,g₁)，其中，d_UT(g₁,g₂)表示两个混合高斯模型g₁和g₂间的距离， d_UT(g₂,g₁)表示两个混合高斯模型g₂和g₁间的距离，因此分别计算两次距离，并取二者均值。场景间的差异性见表5，表中带下划线的数据为距离最大和最小的5个距离值。

表5 场景间差异性

场景	屋内	办公室	餐厅	车载	楼道	马路	酒吧	公园	电话
										屋内	0.00	0.07	0.22	0.48	0.11	0.35	0.74	0.17	0.40
办公室	0.07	0.00	0.10	0.62	0.05	0.24	0.77	0.11	0.48
										餐厅	0.22	0.10	0.00	1.00	0.10	0.21	0.90	0.15	0.62
车载	0.48	0.62	1.00	0.00	0.60	0.75	1.00	0.57	0.66
										楼道	0.11	0.05	0.10	0.60	0.00	0.20	0.78	0.12	0.52
马路	0.35	0.24	0.21	0.75	0.20	0.00	0.76	0.08	0.48
										酒吧	0.74	0.77	0.90	1.00	0.78	0.76	0.00	0.60	0.83
公园	0.17	0.11	0.15	0.57	0.12	0.08	0.60	0.00	0.45
										电话	0.40	0.48	0.62	0.66	0.52	0.48	0.83	0.45	0.00

除了前述无迹变换近似KL散度法，还可采用蒙特卡诺分析法、变分近似法(Variational Approximation)、匹配约束近似法(Matched Bound Approximation)等计算各场景混合高斯模型间的距离，也可直接跳过模型训练过程，直接计算步骤(1)所提取的特征之间的距离，如欧氏距离等。

高维特征表征能力强但含有一定信息冗余，为减少计算量，优选方案对步骤(1)提取的特征进行降维，步骤(2)～(3)均基于降维后的特征进行。

本具体实施方式中采用PCA线性降维法对特征进行降维，具体为：

(1)设特征集X＝{x₁,x₂,x₃,…,x_m}，m表示特征向量数，对特征集中所有特征向量x_i进行中心化即先对所有特征向量进行加权求平均，中心化后的特征向量即原特征向量减去该平均值。

(2)基于中心化后的特征向量，计算特征集中各特征向量的协方差矩阵，求取各协方差矩阵的特征值。

(3)设置重构阈值θ，根据重构阈值θ选择d′，如下：

取使左侧刚好大于θ的d′作为降维后的维数。

式(1)中，d′表示降维之后的维数，d表示原始维度，λ_i表示协方差矩阵的特征值，有λ₁≥λ₂≥…≥λ_d。

(4)取最大的d′个特征值，获得该d′个特征值对应的特征向量η₁、η₂、……η_d′，得到投影矩阵W＝(η₁,η₂,…η_d′)。

本具体实施方式中，重构阈值θ设为0.95。具体实施时，本领域技术人员可根据实际需求设置重构阈值θ，选值一般为0.8～1。除了PCA线性降维法，也可采用其他降维法，例如线性判别分析法(LDA)等，降维步骤实为实施例减少计算量和去噪，非必须步骤，亦可省略。

步骤3.2，人声语料库场景聚类。

选出场景差异性最大和最小的5组场景，见表5所示，根据场景间的差异性将人声语料库中9个场景进行聚类。

本具体实施方式中采用谱聚类方式，聚类数为5，具体实施过程如下：

首先，由9个场景混合高斯模型间的差异性得到拉普拉斯矩阵，计算拉普拉斯矩阵最大的K个特征值和对应的特征矢量，记为X＝{x'₁,x'₂,...,x'_K}；将矩阵X的行向量进行归一化处理，并将归一化后X的每一行看成空间中的一个点，进行K-means聚类，并得到K个类簇；如果该行向量被划分到某一类，其对应的场景也划分到那一类。

具体实施时，本领域技术人员可根据实际需要设置聚类数，聚类方式不局限于实施例中的谱聚类，可采用K-means、层次聚类、改进的谱聚类算法等。

步骤4，语音信号建模。

本步骤采用UBM-GMM-MAP，具体实施过程如下：

(1)对聚类后的5类场景分别训练各类场景下的统一背景模型UBM，UBM的训练实际即混合高斯模型GMM的训练过程，用来表征与说话人无关的特征分布。

对经过降维处理后的特征向量x，其对应的似然函数混合度定义：

式(2)中：

p(x|λ)由M个带权重的单高斯概率密度p_i(x)线性组合而成：

混合权重ω_i满足式

UBM的模型参数可以用λ＝{ω_i,μ_i,∑_i}，μ_i为均值向量，∑_i表示协方差矩阵， i＝1,...M。

通常，假设特征向量X＝{x₁,…,x_N}之间彼此独立，所以X模型λ的对数似然函数为：

其中，p(x_n|λ)可通过式(2)计算。

混合高斯模型的参数估计本质上就是对似然函数极大值的估计，即找到一组恰当的模型参数使混合高斯的似然函数值取最大。

GMM中的参数迭代如下：

权重迭代公式为：

均值迭代公式为：

方差迭代公式为：

其中，表示第i个混合分量的后验概率。模型初值通常采用K-means来设定。

(2)采用自适应技术(MAP)对各类场景的UBM进行处理，得到人声语料库中各语音样本的GMM模型，给定GMM模型和从各语音样本提取的特征向量 X＝{x₁,...,x_N}，计算特征向量在UBM混合成分中的概率密度。

对第i个混合成分，计算特征向量x_n在第i个混合成分中的概率密度Pr(i|x_n)：

通过Pr(i|x_n)和x_n计算第i个混合成分的权重、均值和方差的充分统计值：

式(8)～(10)中，n_i表示第i个混合成分的权重，E_i(x)表示第i个混合成分的均值，E_i(x²)表示第i个混合成分的方差。

n_i、E_i(x)和E_i(x²)即第i个混合成分的充分统计值。用训练样本的新的充分统计值来代替先前统计值n_i、E_i(x)和E_i(x²)得到第i个混合成分的MAP参数，如下：

式(11)～(13)中：

表示训练样本新的第i个混合成分的权值、均值和方差，即MAP参数

表示自适应系数，用来控制新旧估计值之间的平衡，其分别对应于权重、均值和方差。

自适应系数定义为ρ∈{ω,m,v}，r^ρ是固定参数因子，本实施例中r^ρ设为10。具体实施时，本领域相关人员可根据效果调整自适应系数，自适应参数可为权重、均值、方差中的任意一个或两个以上。

步骤5，流形排序，对于待查询语音段，在人声语料库中查找与之说话人身份匹配的语音样本。

步骤4获得了人声语料库中各语音样本的混合高斯模型GMMs，该模型的参数即权重ω_i、均值μ_i和方差本步骤则基于各语音样本的混合高斯模型GMMs度量语音样本的距离。

本步骤进一步包括：

(1)近邻图构建：

将人声语料库中每段语音样本看成是说话人独立的，对于每段语音样本，由步骤4其混合高斯模型表示为x_i＝{ω_i,μ_i,∑_i}。给定一查询语音x^p，赋予正样本标签+1，并将该查询信息“传递”给待查语音库中的无标签语音样本，待查语音库中每个语音样本赋予标签0。初始化标签向量y＝(y₁,y₂…y_n+1)^T表示，y_n+1表示查询语音段x^p的标签，y_i表示待查询库中第i个语音样本的标签。当x_i＝x^p时，y_i＝1，当x_i≠x^p，y_i＝0。定义一个集合和一排序函数f，通过排序函数可估计排序分数向量 c＝(c₁,...c_n+1)^T，排序分数向量表示对待查询库中每一段语音样本有对应的分数c_i；表示待查语音库中第i个语音样本。

流形排序的第一步是通过定义在集合Q上的K近邻(KNN)图G＝<Q,E>近似得到未知的流形结构，K近邻图边E的权重值用亲和矩阵A中对应的元素值表示， A∈R^(n+1)×(n+1)。

亲和矩阵A定义为：

式(14)中：

A_ij表示亲和矩阵A第i行第j列的元素；i≠j；若i＝j，A_ii＝0；

表示尺度参数，根据经验取值，一般取1～5。

为避免大量运算，首先，计算语音样本间的亲和矩阵A^g，A^g∈R^n×n。每当一段查询语音段来到时，只需计算查询语音段到待查语料库中各语音样本间的距离，并将该距离添加至亲和矩阵A^g，获得亲和矩阵A。查询语音到待查语音样本间的距离记为x^p为查询语音段，表示待查语料库中第j个语音样本，亲和矩阵

具体实施时，本领域技术人员可选择不同的模型距离度量方式，与步骤3.1类似，这里不再赘述。为节约时间成本，亲和矩阵A^g推荐事先离线计算。

(2)基于近邻图的流形排序(MRank)

根据亲和矩阵A估计归一化拉普拉斯图矩阵L_n和非归一化拉普拉斯图矩阵L_u：

L_n＝I-D^-1/2AD^-1/2＝I-S (15)

L_u＝D-A (16)

式(15)～(16)中，D表示对角矩阵，即D_ii＝Σ_jA_ij。

流形排序模型如下：

MRank-L_n：c＝(βI+L_n)^-1y (17)

MRank-L_u：c＝[(βI+L_u)^-1]^my (18)

参数β≥0，对式MRank-L_u要求m≥0，设α＝1/(1+β)∈[0,1)，实施例中采用非归一化拉普拉斯图模型MRank-L_u，α值设为0.3，排序函数f(t+1)＝αSf(t)+(1-α)y，f(t+1)和f(t)分别表示第t+1和t次迭代的结果，S＝D^-1/2AD^-1/2。

进行迭代，各次迭代中，会获得相邻单元样本的传播标签，并保持它的原始标签。两轮迭代的平衡通过参数α(即β)控制，迭代至序列{f(t)}收敛，并将收敛结果作为排序分数向量c。用c代替f(t+1)＝αSf(t)+(1-α)y中的f(t+1)和f(t)，有：

c＝(1-α)(I-αS)^-1y (19)

式(19)中，I是单位矩阵，将α＝1/(1+β)和L_u＝D-A带入式(19)，即可得到 MRank-L_u，即排序分数。

具体实施时，本领域技术人员亦可采用归一化拉普拉斯图模型，或其它排序法等。

本实施例，采用平均准确率mAP衡量本发明重识别效果。

mAP是信息检索中常用的评价指标，每次检索结果的好坏可通过AP(AveragePrecision)来衡量，mAP是对多次检索结果求平均。

首先，定义每个查询的平均精度AP：

式(20)中，k表示检索文档序列中文档排序，N₀检索文档的数量，P(k)表示第k 个文档的精度，rel(k)表示指示函数，当第k个文档恰好是关联文档时，rel(k)值为1，否则为0。

因而，定义一组查询的平均精度mAP为单个查询平均精度得分的平均值：

式(21)中，Q′表示查询数量，AP(q)表示第q个查询的平均精度。

本发明所述的实施例是说明性的，而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.说话人重识别方法，其特征是，包括：

S1采集不同场景下不同人物涉及不同情感的语音样本，构建多场景的人声语料库；

S2对人声语料库中各语音样本分别进行预处理，所述的预处理包括依次进行采样与量化、预加重和分帧加窗；

S3基于人声语料库进行场景分析与聚类，具体为：

3.1分场景提取预处理后语音样本各帧的特征；

3.2采用各场景提取的特征分别训练各场景的混合高斯模型GMMs；

3.3计算各场景的混合高斯模型间的距离，即场景间的差异性；

3.4根据场景间的差异性对人声语料库中所有场景进行聚类；

S4，语音信号建模，具体为：

4.1采用聚类后各类场景下语音样本各帧的特征，分别训练各类场景的混合高斯模型GMMs，所训练的混合高斯模型即各类场景的统一背景模型UBM；

4.2结合各类场景下的统一背景模型UBM和该类场景下各语音样本特征向量，运用MAP自适应技术，得到人声语料库中各语音样本的混合高斯模型GMMs；

S5在人声语料库中查找与查询语音匹配的语音样本，具体为：

5.1定义集合构建集合Q上的近邻图G＝<Q,E>，近邻图边E的权重值用亲和矩阵中对应的元素值表示；其中，x^p表示查询语音，表示人声语料库中第i个语音样本，n表示人声语料库中语音样本数；

5.2根据亲和矩阵A和排序函数估计人声语料库中各语音样本对应的排序分数，根据排序分数获得与查询语音匹配的语音样本，从而实现说话人重识别。

2.如权利要求1所述的说话人重识别方法，其特征是：

步骤S1具体为：

3.如权利要求1所述的说话人重识别方法，其特征是：

4.如权利要求1所述的说话人重识别方法，其特征是：

步骤3中，执行子步骤3.2前，对子步骤3.1提取的特征进行降维处理。

5.如权利要求1所述的说话人重识别方法，其特征是：

子步骤3.3中，采用无迹变换近似KL散度法、蒙特卡诺分析法、变分近似法或匹配约束近似法计算各场景的混合高斯模型间的距离。

6.如权利要求1所述的说话人重识别方法，其特征是：

步骤S3中所述的基于人声语料库进行场景分析与聚类，具体为：

7.如权利要求1所述的说话人重识别方法，其特征是：

子步骤5.1中，亲和矩阵采用如下方法获得：

计算人声语料库中语音样本间的亲和矩阵A^g；

8.如权利要求1所述的说话人重识别方法，其特征是：

子步骤5.2具体为：

根据排序分数获得与待查询语音段匹配的语音样本。

9.说话人重识别系统，其特征是，包括：

训练模块，用来采用各场景提取的特征分别训练各场景的混合高斯模型；

语音信号建模模块，用来语音信号建模；

自适应处理模块，用来对各类场景的统一背景模型UBM和该类场景下各语音样本特征向量，运用MAP自适应技术，得到人声语料库中各语音样本的混合高斯模型GMMs；

近邻图构建模块，用来定义集合构建集合Q上的近邻图G＝<Q,E>，近邻图边E的权重值用亲和矩阵中对应的元素值表示；其中，x^p表示查询语音，表示人声语料库中第i个语音样本，n表示人声语料库中语音样本数；