CN107358947A - 说话人重识别方法及系统 - Google Patents
说话人重识别方法及系统 Download PDFInfo
- Publication number
- CN107358947A CN107358947A CN201710488312.5A CN201710488312A CN107358947A CN 107358947 A CN107358947 A CN 107358947A CN 201710488312 A CN201710488312 A CN 201710488312A CN 107358947 A CN107358947 A CN 107358947A
- Authority
- CN
- China
- Prior art keywords
- scene
- voice
- speech samples
- scenes
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本发明公开了一种说话人重识别方法及系统,包括:S1构建多场景的人声语料库;S2对人声语料库中各语音样本分别进行预处理;S3基于人声语料库进行场景分析与聚类;S4,语音信号建模;S5在待查询语音库中查找与查询语音匹配的语音样本。本发明提出了说话人重识别这样的新问题,给定说话人在某一场景下的语音片段,将其它场景下属于该说话人的语音片段按照其身份的一致性从高到低进行排序,将排序最靠前的语音样本所对应的说话人作为说话人重识别的结果。
Description
技术领域
本发明属于说话人识别技术领域,尤其涉及一种说话人重识别方法及系统。
背景技术
近年来,在维护国家安全与公安机关侦查领域,视听资料作为我国刑事诉讼法42条规定的第七种证据,在案件侦察和证实犯罪中应用越来越多。通过视频侦查,可以迅 速锁定犯罪嫌疑人、犯罪嫌疑车辆等,然而并不是每个案件都能获得相应的监控视频数 据,在某些诸如电话恐吓、勒索、威胁或传递危害国家公共安全等敏感信息案件中,语 音信息可能是侦破案件的唯一线索。
传统的说话人识别(Speaker Recognition,SR)技术通常先将话者的声音进行录制, 提取话者独特的能表征说话人特点的模板存储在媒体库中,使用时将待识别的音频片段 与媒体库中的特征模板进行比对,进而确定话者的身份。传统的说话人识别更加关注话者的语音特征,较少考虑说话人所处的场景多样性。传统的音频检索0更多应用在音乐 检索,如哼唱检索,或是对数字音频内容进行归类统计,较少考虑场景因素。实际侦查 应用中,一般很难获得嫌疑人大量的语音样本,怎样通过截获的一段或是几段语音在海 量的多场景语音库中找到曾经出现过的类似特征语音并判断出犯罪嫌疑人的作案动机 与轨迹是一个难点。
文中涉及如下参考文献:
[1]Kinnunen T,Li H.An overview of text-independent speakerrecognition:From features to supervectors[J].Speech Communication,2010,52(1):12-40.
[2]李晨,周明全.音频检索技术研究[J].计算机技术与发展,2008,18(8):215-218.
发明内容
本发明的目的是提供一种说话人重识别方法及系统,可判断不同场景下的语音信息 是否属于同一目标对象。
为达到上述目的,本发明提供的说话人重识别方法,包括步骤:
S1 采集不同场景下不同人物涉及不同情感的语音样本,构建多场景的人声语料库;
S2 对人声语料库中各语音样本分别进行预处理,所述的预处理包括依次进行采样 与量化、预加重和分帧加窗;
S3 基于人声语料库进行场景分析与聚类,具体为:
3.1 分场景提取预处理后语音样本各帧的特征;
3.2 采用各场景提取的特征分别训练各场景的混合高斯模型GMMs;
3.3 计算各场景的混合高斯模型间的距离,即场景间的差异性;
3.4 根据场景间的差异性对人声语料库中所有场景进行聚类;
S4,语音信号建模,具体为:
4.1 采用聚类后各类场景下语音样本各帧的特征,分别训练各类场景的混合高斯模 型GMMs,所训练的混合高斯模型即各类场景的统一背景模型UBM;
4.2 结合各类场景下的统一背景模型UBM和该类场景下各语音样本特征向量,运用 MAP自适应技术,得到人声语料库中各语音样本的混合高斯模型GMMs;
S5 在人声语料库中查找与查询语音匹配的语音样本,具体为:
5.1 定义集合构建集合Q上的近邻图G=<Q,E>,近邻图边E的权重值用亲和矩阵中对应的元素值表示;其中,xp表示查询语音,表示人声语料库中 第i个语音样本,n表示人声语料库中语音样本数;
5.2 根据亲和矩阵A和排序函数计算人声语料库中各语音样本对应的排序分数,根 据排序分数获得与查询语音匹配的语音样本,从而实现说话人重识别。
进一步的,步骤S1具体为:
从视频资料和/或音频资料提取不同场景不同人物涉及不同情感的音频信息,从音频 信息截取语音片段并进行采样率转换,保证每个语音片段只有一个人的声音;采样率转 换后的语音片段即语音样本;
所述的不同场景包括室内场景、室外场景和电话场景,其中,室内场景进一步包括屋内场景、办公室场景、车内场景、餐厅场景、酒吧场景;室外场景进一步包括楼道场 景、街道场景、公园场景;
所述的不同人物包括不同性别和不同年龄层的人物,其中,不同年龄层又包括幼年、 少年、青年、中年和老年;
所述的不同情感包括高兴、抑郁、愤怒、悲伤、惊讶和疑惑。
子步骤3.1中,所述的特征为梅尔频率倒谱系数、线性梅尔频率倒谱系数、线性预测倒谱系数、耳蜗滤波器倒谱系数、时域特征中的短时能量、时域特征中的短时过零率 或前述特征的高阶组合特征。
步骤3中,执行子步骤3.2前,对子步骤3.1提取的特征进行降维处理。所述的降 维处理采用PCA线性降维法或线性判别分析法。
作为一种具体实施方式,PCA线性降维法具体为:
(1)设特征集X={x1,x2,x3,…,xn},对特征集中所有特征向量xi进行中心化处理;
(2)基于中心化后的特征向量,计算特征集中各特征向量的协方差矩阵,并求取各协方差矩阵的特征值;
(3)根据预设的重构阈值t和特征值选择维数d′,满足其中,λi表示 协方差矩阵的特征值,有λ1≥λ2≥…≥λd;
(4)取最大的d′个特征值对应的特征向量,即投影矩阵。
进一步的,子步骤3.3中,采用无迹变换近似KL散度法、蒙特卡诺分析法、变分 近似法或匹配约束近似法计算各场景的混合高斯模型间的距离。
进一步的,子步骤3.4中,采用谱聚类法、K-means聚类法、层次聚类法或改进的 谱聚类法对人声语料库中所有场景进行聚类。
进一步的,步骤S3中所述的基于人声语料库进行场景分析与聚类,具体为:
3.1分场景提取预处理后语音样本各帧的特征;3.2根据语音样本各帧的特征计算场 景间的差异性;3.3根据场景间的差异性对人声语料库中所有场景进行聚类。
进一步的,子步骤5.1中,亲和矩阵采用如下方法获得:
计算人声语料库中语音样本间的亲和矩阵Ag;
当待查询语音段xp来到时,计算xp到人声语料库中各语音样本间的距离dp-g, 将dp-g添加至亲和矩阵Ag,获得亲和矩阵
进一步的,子步骤5.2具体为:
根据亲和矩阵A估计归一化拉普拉斯图矩阵Ln或非归一化拉普拉斯图矩阵Lu;
基于Ln或Lu,利用流形排序模型计算人声语料库中各语音样本对应的排序分数;
根据排序分数获得与待查询语音段匹配的语音样本。
本发明提供的说话人重识别系统,包括:
人声语料库构建模块,用来采集不同场景下不同人物涉及不同情感的语音样本,构 建多场景的人声语料库;
预处理模块,用来对人声语料库中各语音样本分别进行预处理,所述的预处理包括 依次进行采样与量化、预加重和分帧加窗;
场景分析与聚类模块,用来基于人声语料库进行场景分析与聚类;
所述的场景分析与聚类模块进一步包括特征提取模块、训练模块、距离计算模块和 聚类模块;其中:
特征提取模块,用来分场景提取预处理后语音样本各帧的特征;
训练模块,用来采用各场景提取的特征分别训练各场景的混合高斯模型GMMs;
距离计算模块,用来计算各场景的混合高斯模型间的距离,即场景间的差异性;
聚类模块,用来根据场景间的差异性对人声语料库中所有场景进行聚类;
语音信号建模模块,用来语音信号建模;
所述的语音信号建模模块进一步包括统一背景模型训练模块和自适应处理模块,其 中:
统一背景模型训练模块,用来采用聚类后各类场景下语音样本各帧的特征,分别训 练各类场景的混合高斯模型,所训练的混合高斯模型即各类场景的统一背景模型UBM;
自适应处理模块,用来对各类场景的统一背景模型UBM和该类场景下各语音样本特征向量,运用MAP自适应技术,得到人声语料库中各语音样本的混合高斯模型 GMMs;
查询模块,用来在人声语料库中查找与查询语音匹配的语音样本;
所述的查询模块进一步包括近邻图构建模块和匹配模块,其中:
近邻图构建模块,用来定义集合构建集合Q上的近邻图G=<Q,E>,近邻图边E的权重值用亲和矩阵中对应的元素值表示;其中,xp表示待查询语音段,表示人声语料库中第i个语音样本,n表示人声语料库中语音样本数;
匹配模块,用来根据亲和矩阵A和排序函数估计人声语料库中各语音样本对应的排 序分数,根据排序分数获得与查询语音匹配的语音样本,从而实现说话人重识别。
和现有技术相比,本发明具有如下优点和有益效果:
(1)提出了说话人重识别这样的新问题,给定说话人在某一场景下的语音片段,将其它场景下属于该说话人的语音片段查找并识别出来,并按照身份的一致性从高到低进行排序,将排序最靠前的语音样本所对应的说话人作为说话人重识别的结果。
(2)构建了多场景的人声语料库,能满足多种需求,对说话人重识别技术发展具有宝贵参考价值。
(3)不同于传统的说话人识别任务,在原有的说话人识别框架中加入了排序模块,实现了说话人重识别框架。
附图说明
图1为本发明具体的流程图;
图2为本发明实施例中基于谱聚类的场景聚类示意图。
具体实施方式
语音识别领域针对说话人重识别的技术尚且较少,提出跨场景下的说话人重识别显 得尤为重要。现有的音频语料库录制环境单一,不能满足说话人重识别研究任务。本发明针对上述问题,构建了多场景的人声语料库,该人声语料库包含现实生活的真实场景 和环境噪声,根据给定的任意场景下语音片段,从人声语料库中检索并识别出其它场景 下属于同一说话人的语音片段。
下面通过附图结合实施例,对本发明的技术方案作进一步具体的说明。
传统的说话人识别较少考虑说话人场景的差异性,本发明说话人重识别方法在说话 人识别的基础上,加入了说话人所处的场景信息,即背景噪声,不再是单纯的识别问题,而是检索加识别。
本发明流程见图1。本具体实施方式中,采用MATLAB2015b作为仿真实验平台, 现有的公开语料库不能满足本发明的实施,本发明构建了一个全新的人声语料库,以场 景为单位对语料库的语音进行聚类,见图2。
以下针对上述说话人重识别的具体实施方式进一步阐述本发明。
步骤1,多场景人声语料库的构建。
本具体实施方式中,人声语料来源于近几年国内外知名度较高的影视剧作品,题材 涉及了国内外电视剧、电影、综艺节目。
本步骤进一步包括:
步骤1.1,作品与场景选取。
电视剧选取国产都市生活剧《欢乐颂》、国产室内情景剧《爱情公寓》、国内青春校园剧《微微一笑很倾城》、韩国偶像剧《蓝色大海的传说》;电影选取国产电影《致我们 终将逝去的青春》(以下简称《致青春》)、美国电影《盗梦空间》;综艺节目选取《奔跑 吧兄弟》。人声来自所选取影视剧作品的主角和主要配角,包括不同年龄层次的男性和 女性;选取影视剧作品中常见的、区分性明显的室内场景、室外场景以及电话场景。其 中,室内场景包括屋内场景、办公室场景、车内场景、餐厅场景、酒吧场景;室外场景 包括楼道场景、街道场景、公园场景。
步骤1.2,语音样本采集。
选用的影视资源为公开视频资源,首先,通过格式工厂(Format Factory)从视频资 料中提取格式为wav的音频信息。然后,通过Adobe Audition3.0软件人工截取语音片段并进行采样率转换,保证每个语音片段只有一个人的声音,每部影视剧作品中每个角 色在每个场景下跨时段提取0~3段不等时长的语音。
本具体实施方式中,所用语音均为wav格式,8000Hz采样率,16位量化精度,单 声道语音。具体实施时,本领域技术人员可自行选择音频提取与编辑软件,如迅雷看看 播放器、暴风影音、多米音乐、GoldWave、Adobe Audition CS等。
表1 人物分布
经过收集整理,构建的多场景的人声语料库共包括119个不同人物,其中男性72个,女性47个;由1358段不同时长语音样本构成,总时长约为7838秒,其中男性779 段,女性579段,人声语料库大小约119MB。人声语料库中人物分布见表1,场景分布 见表2,时长统计见表3,音频文件数见表4。
表2 场景分布
表3 时长信息
表4 音频文件数
本具体实施方式中的人声语料库包含以下特点:
(1)涵盖了国内外多种影视剧作品,涉及到多种语言,包括汉语、英语、韩语。
(2)人物包含幼年、少年、青年、中年、老年各个年龄层次的角色,其中以青年 和中年为主。
(3)语音样本涉及到角色的各种情感,高兴、抑郁、愤怒、悲伤、惊讶、疑惑等。
(4)场景包括屋内、办公室、餐厅、酒吧、马路、电梯、楼道、公园、车内甚至 电话等,不同场景对应着不同的环境噪声,且伴随着背景音乐。
(5)语音样本均为人工截取,所以样本大小,即语音长度并非一致,既包含例如 电话语音样本中2~5秒这样的短语音,也包括日常对话这样10~20秒的长语音。
(6)每个人在每个场景下的语音有多段,这是为了避免在同一场景下,不同的时段或者说话人离麦克风远近所引起的差异。
步骤2,对人声语料库中各语音样本分别进行预处理。
本步骤进一步包括:
(1)采样与量化
对语音样本进行采样与量化,语音信号是连续的时间t的函数,用sa(t)表示,语音信号处理过程中,需要将模拟信号转换成数字信号。根据采样定理,得到数字信号 s(n)=sa(nT),n表示周期的整数倍,T表示采样周期,s(n)表示离散信号或数字信号, 采样后得到一系列音频信号振幅片段,对这些片段处理前,需对这些振幅片段进行量化 处理。本具体实施方式中,采样率为8000Hz,量化精度为16位。但采样率和量化精度 并不限于此,具体实施时,可根据需要调整采样率和量化精度。
(2)预加重
由于人的口唇辐射会带来一定程度的能量损失,音频信号在高频处的能量明显低于 中低频处,不方便进行统一处理,通过设定一定大小的预加重系数可弥补高频分量的能量损失。本具体实施方式中,通过传递函数为H(z)=1-αz-1的数字滤波器来完成语音 信号的高频增强,其中,z=ea+jb=ea(cos b+j sin b),a为实变数,b为实变量,α为预 加重系数。本具体实施方式中,选取α=0.9375。但α并不限于0.9375,其可取0~1范 围内的任意值。本领域的技术人员不局限于软件实现预加重,也可用硬件实现。
(3)分帧加窗
音频信号具有短时平稳特性,在20ms~30ms内,语音特征参数基本保持不变,通过加窗处理将语音信号s(n)进行分段,每一段称作一帧,帧长记为N,单位为ms,每一帧, 用窗函数τ(n)乘以原始信号s(n)获得含有N个样本的音频序列,加窗得到的音频采样序 列为τ(n)×s(n)={sτ(n)|n=0,1,...N-1},为保证连续两帧平滑过渡,设置帧间重合区域 即帧移,实施例中帧长为32ms,帧移为10ms,窗函数选择汉明窗。
具体实施时,本领域技术人员在保证语音信号短时平稳性可适当调整帧长语帧移, 但帧移通常为所取帧长的二分之一以下,窗函数也可选择矩形窗、汉宁窗等。
步骤3,人声语料库的场景分析与聚类。
步骤3.1,人声语料库场景分析。
完成人声语料库构建后,对人声语料库中语音样本进行充分分析与聚类,选出场景 差异性最大的几个场景。
本步骤的具体实施过程如下:
(1)分场景提取人声语料库中所有预处理后语音样本的特征。
本具体实施方式中,分帧提取一阶线性预测梅尔频率倒谱系数lpmfcc、lpmfcc的一 阶差分和短时过零率,共25维特征,得到9个场景所对应的大小为Fi×25的特征矩阵Wi,Wi表示第i个场景的特征矩阵,Fi表示第i个场景下的语音总帧数,i=1,2,......9。
所提取特征并不局限于前述特征,也可以选取梅尔频率倒谱系数mfcc、线性预测倒 谱系数lpcc、耳蜗滤波器倒谱系数cfcc、时域特征中的短时能量以及它们的高阶组合特征等。
(2)采用9个场景下的特征矩阵Wi分别训练各场景的混合高斯模型GMMs。
本具体实施方式中,混合高斯模型GMMs的阶数K参照“Figueiredo M A T,Jain AK. Unsupervised learning of finite mixture models[J]”,K最小值设为1,最大值设为10,迭 代结果K=4。
阶数K也可以人为设置,考虑到时间和混合高斯模型的复杂度,建议最大K值不 超过20。
(3)计算各场景的混合高斯模型间的距离,得场景间的差异性显著度图。
本具体实施方式中,采用无迹变换(Unscented Transform,UT)近似KL散度法计算混合高斯模型之间的距离,即场景间差异性。由于无迹变换具有非对称性,即 dUT(g1,g2)≠dUT(g2,g1),其中,dUT(g1,g2)表示两个混合高斯模型g1和g2间的距离, dUT(g2,g1)表示两个混合高斯模型g2和g1间的距离,因此分别计算两次距离,并取二者 均值。场景间的差异性见表5,表中带下划线的数据为距离最大和最小的5个距离值。
表5 场景间差异性
场景 | 屋内 | 办公室 | 餐厅 | 车载 | 楼道 | 马路 | 酒吧 | 公园 | 电话 |
屋内 | 0.00 | 0.07 | 0.22 | 0.48 | 0.11 | 0.35 | 0.74 | 0.17 | 0.40 |
办公室 | 0.07 | 0.00 | 0.10 | 0.62 | 0.05 | 0.24 | 0.77 | 0.11 | 0.48 |
餐厅 | 0.22 | 0.10 | 0.00 | 1.00 | 0.10 | 0.21 | 0.90 | 0.15 | 0.62 |
车载 | 0.48 | 0.62 | 1.00 | 0.00 | 0.60 | 0.75 | 1.00 | 0.57 | 0.66 |
楼道 | 0.11 | 0.05 | 0.10 | 0.60 | 0.00 | 0.20 | 0.78 | 0.12 | 0.52 |
马路 | 0.35 | 0.24 | 0.21 | 0.75 | 0.20 | 0.00 | 0.76 | 0.08 | 0.48 |
酒吧 | 0.74 | 0.77 | 0.90 | 1.00 | 0.78 | 0.76 | 0.00 | 0.60 | 0.83 |
公园 | 0.17 | 0.11 | 0.15 | 0.57 | 0.12 | 0.08 | 0.60 | 0.00 | 0.45 |
电话 | 0.40 | 0.48 | 0.62 | 0.66 | 0.52 | 0.48 | 0.83 | 0.45 | 0.00 |
除了前述无迹变换近似KL散度法,还可采用蒙特卡诺分析法、变分近似法(Variational Approximation)、匹配约束近似法(Matched Bound Approximation)等计算各场 景混合高斯模型间的距离,也可直接跳过模型训练过程,直接计算步骤(1)所提取的特征之间的距离,如欧氏距离等。
高维特征表征能力强但含有一定信息冗余,为减少计算量,优选方案对步骤(1)提取的特征进行降维,步骤(2)~(3)均基于降维后的特征进行。
本具体实施方式中采用PCA线性降维法对特征进行降维,具体为:
(1)设特征集X={x1,x2,x3,…,xm},m表示特征向量数,对特征集中所有特征向 量xi进行中心化即先对所有特征向量进行加权求平均,中心化后的 特征向量即原特征向量减去该平均值。
(2)基于中心化后的特征向量,计算特征集中各特征向量的协方差矩阵,求取各协方差矩阵的特征值。
(3)设置重构阈值θ,根据重构阈值θ选择d′,如下:
取使左侧刚好大于θ的d′作为降维后的维数。
式(1)中,d′表示降维之后的维数,d表示原始维度,λi表示协方差矩阵的特征 值,有λ1≥λ2≥…≥λd。
(4)取最大的d′个特征值,获得该d′个特征值对应的特征向量η1、η2、……ηd′, 得到投影矩阵W=(η1,η2,…ηd′)。
本具体实施方式中,重构阈值θ设为0.95。具体实施时,本领域技术人员可根据实际需求设置重构阈值θ,选值一般为0.8~1。除了PCA线性降维法,也可采用其他降维 法,例如线性判别分析法(LDA)等,降维步骤实为实施例减少计算量和去噪,非必须 步骤,亦可省略。
步骤3.2,人声语料库场景聚类。
选出场景差异性最大和最小的5组场景,见表5所示,根据场景间的差异性将人声语料库中9个场景进行聚类。
本具体实施方式中采用谱聚类方式,聚类数为5,具体实施过程如下:
首先,由9个场景混合高斯模型间的差异性得到拉普拉斯矩阵,计算拉普拉斯矩阵最大的K个特征值和对应的特征矢量,记为X={x'1,x'2,...,x'K};将矩阵X的行向量进 行归一化处理,并将归一化后X的每一行看成空间中的一个点,进行K-means聚类,并 得到K个类簇;如果该行向量被划分到某一类,其对应的场景也划分到那一类。
具体实施时,本领域技术人员可根据实际需要设置聚类数,聚类方式不局限于实施 例中的谱聚类,可采用K-means、层次聚类、改进的谱聚类算法等。
步骤4,语音信号建模。
本步骤采用UBM-GMM-MAP,具体实施过程如下:
(1)对聚类后的5类场景分别训练各类场景下的统一背景模型UBM,UBM的训 练实际即混合高斯模型GMM的训练过程,用来表征与说话人无关的特征分布。
对经过降维处理后的特征向量x,其对应的似然函数混合度定义:
式(2)中:
p(x|λ)由M个带权重的单高斯概率密度pi(x)线性组合而成:
混合权重ωi满足式
UBM的模型参数可以用λ={ωi,μi,∑i},μi为均值向量,∑i表示协方差矩阵, i=1,...M。
通常,假设特征向量X={x1,…,xN}之间彼此独立,所以X模型λ的对数似然函数为:
其中,p(xn|λ)可通过式(2)计算。
混合高斯模型的参数估计本质上就是对似然函数极大值的估计,即找到一组恰当的 模型参数使混合高斯的似然函数值取最大。
GMM中的参数迭代如下:
权重迭代公式为:
均值迭代公式为:
方差迭代公式为:
其中,表示第i个混合分量的后验概率。模型初值通常采用K-means来设定。
(2)采用自适应技术(MAP)对各类场景的UBM进行处理,得到人声语料库中 各语音样本的GMM模型,给定GMM模型和从各语音样本提取的特征向量 X={x1,...,xN},计算特征向量在UBM混合成分中的概率密度。
对第i个混合成分,计算特征向量xn在第i个混合成分中的概率密度Pr(i|xn):
通过Pr(i|xn)和xn计算第i个混合成分的权重、均值和方差的充分统计值:
式(8)~(10)中,ni表示第i个混合成分的权重,Ei(x)表示第i个混合成分的均 值,Ei(x2)表示第i个混合成分的方差。
ni、Ei(x)和Ei(x2)即第i个混合成分的充分统计值。用训练样本的新的充分统计值来代替先前统计值ni、Ei(x)和Ei(x2)得到第i个混合成分的MAP参数,如 下:
式(11)~(13)中:
表示训练样本新的第i个混合成分的权值、均值和方差,即MAP参数
表示自适应系数,用来控制新旧估计值之间的平衡,其分别对应于权重、 均值和方差。
自适应系数定义为ρ∈{ω,m,v},rρ是固定参数因子,本实施例中rρ设为10。具体实施时,本领域相关人员可根据效果调整自适应系数,自适应参数可为权 重、均值、方差中的任意一个或两个以上。
步骤5,流形排序,对于待查询语音段,在人声语料库中查找与之说话人身份匹配的语音样本。
步骤4获得了人声语料库中各语音样本的混合高斯模型GMMs,该模型的参数即权重ωi、均值μi和方差本步骤则基于各语音样本的混合高斯模型GMMs度量语音样 本的距离。
本步骤进一步包括:
(1)近邻图构建:
将人声语料库中每段语音样本看成是说话人独立的,对于每段语音样本,由步骤4其混合高斯模型表示为xi={ωi,μi,∑i}。给定一查询语音xp,赋予正样本标签+1,并将 该查询信息“传递”给待查语音库中的无标签语音样本,待查语音库中每个语音样本赋 予标签0。初始化标签向量y=(y1,y2…yn+1)T表示,yn+1表示查询语音段xp的标签,yi表 示待查询库中第i个语音样本的标签。当xi=xp时,yi=1,当xi≠xp,yi=0。定义一 个集合和一排序函数f,通过排序函数可估计排序分数向量 c=(c1,...cn+1)T,排序分数向量表示对待查询库中每一段语音样本有对应的分数ci; 表示待查语音库中第i个语音样本。
流形排序的第一步是通过定义在集合Q上的K近邻(KNN)图G=<Q,E>近似得到 未知的流形结构,K近邻图边E的权重值用亲和矩阵A中对应的元素值表示, A∈R(n+1)×(n+1)。
亲和矩阵A定义为:
式(14)中:
Aij表示亲和矩阵A第i行第j列的元素;i≠j;若i=j,Aii=0;
表示尺度参数,根据经验取值,一般取1~5。
为避免大量运算,首先,计算语音样本间的亲和矩阵Ag,Ag∈Rn×n。每当一段查 询语音段来到时,只需计算查询语音段到待查语料库中各语音样本间的距离,并将该距 离添加至亲和矩阵Ag,获得亲和矩阵A。查询语音到待查语音样本间的距离记为xp为查询语音段,表示待查语料库中第j个语音样本,亲和矩阵
具体实施时,本领域技术人员可选择不同的模型距离度量方式,与步骤3.1类似,这里不再赘述。为节约时间成本,亲和矩阵Ag推荐事先离线计算。
(2)基于近邻图的流形排序(MRank)
根据亲和矩阵A估计归一化拉普拉斯图矩阵Ln和非归一化拉普拉斯图矩阵Lu:
Ln=I-D-1/2AD-1/2=I-S (15)
Lu=D-A (16)
式(15)~(16)中,D表示对角矩阵,即Dii=ΣjAij。
流形排序模型如下:
MRank-Ln:c=(βI+Ln)-1y (17)
MRank-Lu:c=[(βI+Lu)-1]my (18)
参数β≥0,对式MRank-Lu要求m≥0,设α=1/(1+β)∈[0,1),实施例中采用非 归一化拉普拉斯图模型MRank-Lu,α值设为0.3,排序函数f(t+1)=αSf(t)+(1-α)y,f(t+1)和f(t)分别表示第t+1和t次迭代的结果,S=D-1/2AD-1/2。
进行迭代,各次迭代中,会获得相邻单元样本的传播标签,并保持它的原始标签。两轮迭代的平衡通过参数α(即β)控制,迭代至序列{f(t)}收敛,并将收敛结果作为 排序分数向量c。用c代替f(t+1)=αSf(t)+(1-α)y中的f(t+1)和f(t),有:
c=(1-α)(I-αS)-1y (19)
式(19)中,I是单位矩阵,将α=1/(1+β)和Lu=D-A带入式(19),即可得到 MRank-Lu,即排序分数。
具体实施时,本领域技术人员亦可采用归一化拉普拉斯图模型,或其它排序法等。
本实施例,采用平均准确率mAP衡量本发明重识别效果。
mAP是信息检索中常用的评价指标,每次检索结果的好坏可通过AP(AveragePrecision)来衡量,mAP是对多次检索结果求平均。
首先,定义每个查询的平均精度AP:
式(20)中,k表示检索文档序列中文档排序,N0检索文档的数量,P(k)表示第k 个文档的精度,rel(k)表示指示函数,当第k个文档恰好是关联文档时,rel(k)值为1, 否则为0。
因而,定义一组查询的平均精度mAP为单个查询平均精度得分的平均值:
式(21)中,Q′表示查询数量,AP(q)表示第q个查询的平均精度。
本发明所述的实施例是说明性的,而不是限定性的。因此本发明包括并不限于具体 实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实 施方式,同样属于本发明保护的范围。
Claims (9)
1.说话人重识别方法,其特征是,包括:
S1采集不同场景下不同人物涉及不同情感的语音样本,构建多场景的人声语料库;
S2对人声语料库中各语音样本分别进行预处理,所述的预处理包括依次进行采样与量化、预加重和分帧加窗;
S3基于人声语料库进行场景分析与聚类,具体为:
3.1分场景提取预处理后语音样本各帧的特征;
3.2采用各场景提取的特征分别训练各场景的混合高斯模型GMMs;
3.3计算各场景的混合高斯模型间的距离,即场景间的差异性;
3.4根据场景间的差异性对人声语料库中所有场景进行聚类;
S4,语音信号建模,具体为:
4.1采用聚类后各类场景下语音样本各帧的特征,分别训练各类场景的混合高斯模型GMMs,所训练的混合高斯模型即各类场景的统一背景模型UBM;
4.2结合各类场景下的统一背景模型UBM和该类场景下各语音样本特征向量,运用MAP自适应技术,得到人声语料库中各语音样本的混合高斯模型GMMs;
S5在人声语料库中查找与查询语音匹配的语音样本,具体为:
5.1定义集合构建集合Q上的近邻图G=<Q,E>,近邻图边E的权重值用亲和矩阵中对应的元素值表示;其中,xp表示查询语音,表示人声语料库中第i个语音样本,n表示人声语料库中语音样本数;
5.2根据亲和矩阵A和排序函数估计人声语料库中各语音样本对应的排序分数,根据排序分数获得与查询语音匹配的语音样本,从而实现说话人重识别。
2.如权利要求1所述的说话人重识别方法,其特征是:
步骤S1具体为:
从视频资料和/或音频资料提取不同场景不同人物涉及不同情感的音频信息,从音频信息截取语音片段并进行采样率转换,保证每个语音片段只有一个人的声音;采样率转换后的语音片段即语音样本;
所述的不同场景包括室内场景、室外场景和电话场景,其中,室内场景进一步包括屋内场景、办公室场景、车内场景、餐厅场景、酒吧场景;室外场景进一步包括楼道场景、街道场景、公园场景;
所述的不同人物包括不同性别和不同年龄层的人物,其中,不同年龄层又包括幼年、少年、青年、中年和老年;
所述的不同情感包括高兴、抑郁、愤怒、悲伤、惊讶和疑惑。
3.如权利要求1所述的说话人重识别方法,其特征是:
子步骤3.1中,所述的特征为梅尔频率倒谱系数、线性梅尔频率倒谱系数、线性预测倒谱系数、耳蜗滤波器倒谱系数、时域特征中的短时能量、时域特征中的短时过零率或前述特征的高阶组合特征。
4.如权利要求1所述的说话人重识别方法,其特征是:
步骤3中,执行子步骤3.2前,对子步骤3.1提取的特征进行降维处理。
5.如权利要求1所述的说话人重识别方法,其特征是:
子步骤3.3中,采用无迹变换近似KL散度法、蒙特卡诺分析法、变分近似法或匹配约束近似法计算各场景的混合高斯模型间的距离。
6.如权利要求1所述的说话人重识别方法,其特征是:
步骤S3中所述的基于人声语料库进行场景分析与聚类,具体为:
3.1分场景提取预处理后语音样本各帧的特征;3.2根据语音样本各帧的特征计算场景间的差异性;3.3根据场景间的差异性对人声语料库中所有场景进行聚类。
7.如权利要求1所述的说话人重识别方法,其特征是:
子步骤5.1中,亲和矩阵采用如下方法获得:
计算人声语料库中语音样本间的亲和矩阵Ag;
当待查询语音段xp来到时,计算xp到人声语料库中各语音样本间的距离dp-g,将dp-g添加至亲和矩阵Ag,获得亲和矩阵
8.如权利要求1所述的说话人重识别方法,其特征是:
子步骤5.2具体为:
根据亲和矩阵A估计归一化拉普拉斯图矩阵Ln或非归一化拉普拉斯图矩阵Lu;
基于Ln或Lu,利用流形排序模型计算人声语料库中各语音样本对应的排序分数;
根据排序分数获得与待查询语音段匹配的语音样本。
9.说话人重识别系统,其特征是,包括:
人声语料库构建模块,用来采集不同场景下不同人物涉及不同情感的语音样本,构建多场景的人声语料库;
预处理模块,用来对人声语料库中各语音样本分别进行预处理,所述的预处理包括依次进行采样与量化、预加重和分帧加窗;
场景分析与聚类模块,用来基于人声语料库进行场景分析与聚类;
所述的场景分析与聚类模块进一步包括特征提取模块、训练模块、距离计算模块和聚类模块;其中:
特征提取模块,用来分场景提取预处理后语音样本各帧的特征;
训练模块,用来采用各场景提取的特征分别训练各场景的混合高斯模型;
距离计算模块,用来计算各场景的混合高斯模型间的距离,即场景间的差异性;
聚类模块,用来根据场景间的差异性对人声语料库中所有场景进行聚类;
语音信号建模模块,用来语音信号建模;
所述的语音信号建模模块进一步包括统一背景模型训练模块和自适应处理模块,其中:
统一背景模型训练模块,用来采用聚类后各类场景下语音样本各帧的特征,分别训练各类场景的混合高斯模型,所训练的混合高斯模型即各类场景的统一背景模型UBM;
自适应处理模块,用来对各类场景的统一背景模型UBM和该类场景下各语音样本特征向量,运用MAP自适应技术,得到人声语料库中各语音样本的混合高斯模型GMMs;
查询模块,用来在人声语料库中查找与查询语音匹配的语音样本;
所述的查询模块进一步包括近邻图构建模块和匹配模块,其中:
近邻图构建模块,用来定义集合构建集合Q上的近邻图G=<Q,E>,近邻图边E的权重值用亲和矩阵中对应的元素值表示;其中,xp表示查询语音,表示人声语料库中第i个语音样本,n表示人声语料库中语音样本数;
匹配模块,用来根据亲和矩阵A和排序函数估计人声语料库中各语音样本对应的排序分数,根据排序分数获得与查询语音匹配的语音样本,从而实现说话人重识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710488312.5A CN107358947A (zh) | 2017-06-23 | 2017-06-23 | 说话人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710488312.5A CN107358947A (zh) | 2017-06-23 | 2017-06-23 | 说话人重识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107358947A true CN107358947A (zh) | 2017-11-17 |
Family
ID=60273518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710488312.5A Pending CN107358947A (zh) | 2017-06-23 | 2017-06-23 | 说话人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358947A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109612A (zh) * | 2017-12-07 | 2018-06-01 | 苏州大学 | 一种基于自适应降维的语音识别分类方法 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN110473548A (zh) * | 2019-07-31 | 2019-11-19 | 华中师范大学 | 一种基于声学信号的课堂交互网络分析方法 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN113255362A (zh) * | 2021-05-19 | 2021-08-13 | 平安科技(深圳)有限公司 | 人声过滤与识别方法、装置、电子设别及存储介质 |
CN114684047A (zh) * | 2022-04-18 | 2022-07-01 | 润芯微科技(江苏)有限公司 | 一种通过语音识别驾驶者身份并配置驾驶座舱参数的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102486922A (zh) * | 2010-12-03 | 2012-06-06 | 株式会社理光 | 说话人识别方法、装置和系统 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
CN103824557A (zh) * | 2014-02-19 | 2014-05-28 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
KR20150093059A (ko) * | 2014-02-06 | 2015-08-17 | 주식회사 에스원 | 화자 검증 장치 및 방법 |
-
2017
- 2017-06-23 CN CN201710488312.5A patent/CN107358947A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833951A (zh) * | 2010-03-04 | 2010-09-15 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
CN102486922A (zh) * | 2010-12-03 | 2012-06-06 | 株式会社理光 | 说话人识别方法、装置和系统 |
CN102945670A (zh) * | 2012-11-26 | 2013-02-27 | 河海大学 | 一种用于语音识别系统的多环境特征补偿方法 |
KR20150093059A (ko) * | 2014-02-06 | 2015-08-17 | 주식회사 에스원 | 화자 검증 장치 및 방법 |
CN103824557A (zh) * | 2014-02-19 | 2014-05-28 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
Non-Patent Citations (1)
Title |
---|
周国鑫 等: "基于GMM-UBM模型的说话人辨识研究", 《无线电工程》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109612A (zh) * | 2017-12-07 | 2018-06-01 | 苏州大学 | 一种基于自适应降维的语音识别分类方法 |
CN108615532A (zh) * | 2018-05-03 | 2018-10-02 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108615532B (zh) * | 2018-05-03 | 2021-12-07 | 张晓雷 | 一种应用于声场景的分类方法及装置 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN110473548A (zh) * | 2019-07-31 | 2019-11-19 | 华中师范大学 | 一种基于声学信号的课堂交互网络分析方法 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN113255362A (zh) * | 2021-05-19 | 2021-08-13 | 平安科技(深圳)有限公司 | 人声过滤与识别方法、装置、电子设别及存储介质 |
CN113255362B (zh) * | 2021-05-19 | 2024-02-02 | 平安科技(深圳)有限公司 | 人声过滤与识别方法、装置、电子设别及存储介质 |
CN114684047A (zh) * | 2022-04-18 | 2022-07-01 | 润芯微科技(江苏)有限公司 | 一种通过语音识别驾驶者身份并配置驾驶座舱参数的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358947A (zh) | 说话人重识别方法及系统 | |
CN105405439B (zh) | 语音播放方法及装置 | |
EP1989701B1 (en) | Speaker authentication | |
Dhanalakshmi et al. | Classification of audio signals using AANN and GMM | |
Kekre et al. | Speaker identification by using vector quantization | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
WO2012075641A1 (en) | Device and method for pass-phrase modeling for speaker verification, and verification system | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Omar et al. | Training Universal Background Models for Speaker Recognition. | |
CN110047504A (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
Mansour et al. | Emotional speaker recognition in real life conditions using multiple descriptors and i-vector speaker modeling technique | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
Sekkate et al. | Speaker identification for OFDM-based aeronautical communication system | |
Nyodu et al. | Automatic identification of Arunachal language using K-nearest neighbor algorithm | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Koolagudi et al. | Speaker recognition in the case of emotional environment using transformation of speech features | |
Akinrinmade et al. | Creation of a Nigerian voice corpus for indigenous speaker recognition | |
Ghonem et al. | Classification of stuttering events using i-vector | |
Sarhan | Smart voice search engine | |
CN112992155A (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
CN110807370A (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Jarina et al. | Development of a reference platform for generic audio classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20201211 |