CN102522086A - 一种有序序列相似性对比方法的声纹识别应用 - Google Patents
一种有序序列相似性对比方法的声纹识别应用 Download PDFInfo
- Publication number
- CN102522086A CN102522086A CN2011104439226A CN201110443922A CN102522086A CN 102522086 A CN102522086 A CN 102522086A CN 2011104439226 A CN2011104439226 A CN 2011104439226A CN 201110443922 A CN201110443922 A CN 201110443922A CN 102522086 A CN102522086 A CN 102522086A
- Authority
- CN
- China
- Prior art keywords
- label
- similarity
- sequence
- voiceprint recognition
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种有序序列相似性对比方法的声纹识别应用,该声纹识别的过程包括语音特征空间建立,子空间划分,训练语句特征提取,测试语句特征提取及声纹序列比对识别。特别地,该声纹序列比对识别采用有序序列相似性对比方法得到,包括步骤:1)将序列转化为特征数组;2)比较两个数组的列数;3)对两数组进行标号匹配;4)计算各标号对相似性贡献大小;5)计算整体相似性。采用本发明方法计算两条有序序列的相似性,充分利用了序列的排列顺序信息,具有计算量小,节省存储资源等优点,克服了基于概率统计的建模方法存在的问题,适合于系统资源有限的嵌入式系统使用。
Description
技术领域
本发明涉及一种声纹识别技术,尤其涉及一种将极具运算简化性序列对比方法引入新型的声纹识别的一种应用技术。
背景技术
说话人识别和指纹,虹膜,人脸识别等一样,属于生物识别的一种,被认为是最自然的生物特征识别身份鉴定方式,又称“声纹”识别。说话人识别具有采集设备简单,系统价格低廉,容易被人们接受等优点。门禁系统、保险柜、个人设备(汽车、电脑、手机、PDA等)使用权限控制等使用场合,文本相关的说话人确认方法,可以通过说话人语音生物特征和语音内容双方面进行验证,同时短语音即可实现学习和测试过程,具有突出的应用优势。
说话人识别的基本过程为语音采集,特征提取,分类模型。常见的语音特征提取方法是利用语音的短时平稳特性,采用美倒谱变换(MFCC)方法将语音转换为语音特征点集。之后经过学习过程对说话人语音进行建模得到说话人的分类模型。隐马尔可夫模型(HMM)是目前公认的在文本相关的说话人识别中效果最好的建模方法。HMM一方面用隐含的状态对应于声学层相对稳定的发音单位,并通过状态转移和状态驻留来描述发音的变化;另一方面它引入了概率统计模型,用概率密度函数计算语音参数对HMM模型的输出概率,通过搜索最佳状态序列,以最大后验概率为准则找到识别结果。但其存在几个问题:(1)需要更多学习样本。(2)计算复杂度高。(3)得到的模型数据量大。对于资源有限的嵌入式系统,以上问题,限制了算法的使用。因此需要一种新的方法解决上述问题。
为了解决这一问题,设计了一种新的说话人特征变换方法(声纹识别方法,专利申请号为:2011106714601),这种新的特征变换方法将一段语音转换为一段有序序列,将说话人识别问题转换为有序序列的相似性比较问题。该序列具有时序性,不等长,同时相同符号间“杂质”较多(即相同符号间存在其它与相同符号无关的符号)的情况,传统的以编辑距离为基础的字符串比较方法存在未能考虑字符串序列的时序特性,同时计算复杂度高,依赖序列长度等问题。
发明内容
本发明的目的在于提出一种有序序列相似性对比方法的声纹识别应用,以解决计算复杂度高,依赖序列长度等问题。
为了解决以上技术问题,本发明一种有序序列相似性对比方法的声纹识别应用,所述声纹识别的过程包括语音特征空间建立,子空间划分,训练语句特征提取,测试语句特征提取及声纹序列比对识别,其特征在于:所述声纹序列比对识别采用有序序列相似性对比方法得到,包括步骤:Ⅰ、将两组有序序列转化为特征数组,对于任一组有序序列,所述特征数组按行分包括序列的标号、连续相同的该标号的个数和连续相同的首个标号的起始位置;Ⅱ、比较两个特征数组的列数,区分长、短数组;Ⅲ、对两个特征数组进行标号匹配,按序查找两组特征数组中具有相似位置特征的所有标号,并标记该些标号具有相似性贡献;Ⅳ、计算各具相似性贡献的标号的贡献大小,求和得到两组有序序列的整体相似性;Ⅴ、设定整体相似性相关的声纹判定阀值,得出声纹识别结果。
进一步地,所述特征数组的构成包括第一行为按出现次序记入的序列标号,连续相同的标号只记录一次,第二行为对应标号每个连续相同标号的个数,第三行为每个标号之前的所有标号个数取和与全部标号个数总和的商值。
进一步地,步骤Ⅲ中所述进行标号匹配是指顺序提取短数组中的标号,在长数组中查找该标号的位置并记录,每个短数组标号在长数组中的起始查找位置为上一个被记录的位置,遍历短数组全部标号,且当在长数组中找到匹配的标号时,对比标号在两数组中的位置相似型。
进一步地,步骤Ⅳ中所述贡献大小的计算为将判定为有贡献的两组标号的数量相除,比值小于1时取比值,比值大于1时取比值的倒数,之后乘以各组号数量分别占各自序列长度的比例。
实施本发明的有益效果为:通过将该序列相似性对比方法引入声纹识别应用,实现声纹的阀值可控判定,具有计算量小,节省存储资源等优点,克服了基于概率统计方法数据处理甚巨的问题,适合于系统资源有限的嵌入式系统使用。
附图说明
图1为有序序列相似性对比流程示意图。
图2为序列转化为特征数组的示意图。
图3为数组标号匹配示意图。
具体实施方式
鉴于背景技术中介绍的当前关于声纹识别研究中存在的问题,并且延续在先申请“一种声纹识别方法”的方法,出于节省存储资源及减少声纹识别要求的系统配置等需求,本发明创新提出了一种将有序序列相似性对比方法引入声纹识别的应用方案。
从前案可以简单认识到,所提出的声纹识别的过程大致包括语音特征空间建立,子空间划分,训练语句特征提取,测试语句特征提取及声纹序列比对识别等几个步骤。本发明的应用特征即体现在最后一步的声纹序列比对,该声纹序列比对识别采用有序序列相似性对比方法得到,包括步骤:Ⅰ、将两组有序序列转化为特征数组,对于任一组有序序列,所述特征数组按行分包括序列的标号、连续相同的该标号的个数和连续相同的首个标号的起始位置;Ⅱ、比较两个特征数组的列数,区分长、短数组;Ⅲ、对两个特征数组进行标号匹配,按序查找两组特征数组中具有相似位置特征的所有标号,并标记该些标号具有相似性贡献;Ⅳ、计算各具相似性贡献的标号的贡献大小,求和得到两组有序序列的整体相似性;Ⅴ、设定整体相似性相关的声纹判定阀值,得出声纹识别结果。
结合附图具体来看:步骤Ⅰ、将序列转化为特征数组。如图2所示,按照标号出现的次序记入特征数组第一行(连续的相同标号只记一个),对每个连续相同标号的个数进行计数,对应的记入特征数组第二行,将每个标号之前所有标号的个数取和除以全部标号个数的总和,对应的记入特征数组的第三行。
步骤Ⅱ、比较两个数组的列数,本步骤无特殊说明,只为区分长、短数组。
步骤Ⅲ、对两数组进行标号匹配。如图3所示,顺序提取短数组中的标号,在长数组中查找该标号的位置,记录该位置,如果长数组中找不到该标号,则提取下一个短数组标号继续查找,直到短数组中所有的标号都完成查找。每个短数组标号在长数组中的起始查找位置为为上一个被记录的位置,在长数组中找到标号时,对比该标号在长短数组中的位置是否相似,如果相似则认为该组标号对相似性有贡献。对该组标号进行标记。
步骤Ⅳ、计算各标号对相似性贡献大小。各标号相似性贡献大小采用以下方式计算,将判定为有贡献的两组标号的数量相除,比值小于1时取比值,比值大于1时取比值倒数,之后乘以各标号数量分别占各自序列长度的比例。结合图3所示,第一列标号对相似性的贡献大小为:(3/4)*(4/12)*(3/13)≈0.058。
步骤Ⅴ、计算整体相似性。将按上述方法获得的各个具相似贡献的标号对相似性贡献大小取和,就得到两序列的整体相似性。
经过上述步骤得到的整体相似性结果,作为说话人确认的判断依据,设定阈值,即可准确得到确认结果。
除上述实施例外,本发明有序序列相似性对比方法还可以有其它多种实施方式。凡采用等同替换或等效变换形成的技术方案,并应用于该种声纹识别技术,均落在本发明要求的保护范围。
Claims (4)
1.一种有序序列相似性对比方法的声纹识别应用,所述声纹识别的过程包括语音特征空间建立,子空间划分,训练语句特征提取,测试语句特征提取及声纹序列比对识别,其特征在于:所述声纹序列比对识别采用有序序列相似性对比方法得到,包括步骤:
Ⅰ、将两组有序序列转化为特征数组,对于任一组有序序列,所述特征数组按行分包括序列的标号、连续相同的该标号的个数和连续相同的首个标号的起始位置;
Ⅱ、比较两个特征数组的列数,区分长、短数组;
Ⅲ、对两个特征数组进行标号匹配,按序查找两组特征数组中具有相似位置特征的所有标号,并标记该些标号具有相似性贡献;
Ⅳ、计算各具相似性贡献的标号的贡献大小,求和得到两组有序序列的整体相似性;
Ⅴ、设定整体相似性相关的声纹判定阀值,得出声纹识别结果。
2.根据权利要求1所述的一种有序序列相似性对比方法的声纹识别应用,其特征在于:所述特征数组的构成包括第一行为按出现次序记入的序列标号,连续相同的标号只记录一次,第二行为对应标号每个连续相同标号的个数,第三行为每个标号之前的所有标号个数取和与全部标号个数总和的商值。
3.根据权利要求1所述的一种有序序列相似性对比方法的声纹识别应用,其特征在于:步骤Ⅲ中所述进行标号匹配是指顺序提取短数组中的标号,在长数组中查找该标号的位置并记录,每个短数组标号在长数组中的起始查找位置为上一个被记录的位置,遍历短数组全部标号,且当在长数组中找到匹配的标号时,对比标号在两数组中的位置相似型。
4.根据权利要求1所述的一种有序序列相似性对比方法的声纹识别应用,其特征在于:步骤Ⅳ中所述贡献大小的计算为将判定为有贡献的两组标号的数量相除,比值小于1时取比值,比值大于1时取比值的倒数,之后乘以各组号数量分别占各自序列长度的比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104439226A CN102522086A (zh) | 2011-12-27 | 2011-12-27 | 一种有序序列相似性对比方法的声纹识别应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104439226A CN102522086A (zh) | 2011-12-27 | 2011-12-27 | 一种有序序列相似性对比方法的声纹识别应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102522086A true CN102522086A (zh) | 2012-06-27 |
Family
ID=46292983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104439226A Pending CN102522086A (zh) | 2011-12-27 | 2011-12-27 | 一种有序序列相似性对比方法的声纹识别应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102522086A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635228A (zh) * | 2018-12-07 | 2019-04-16 | 北京锐安科技有限公司 | 有序数组间差异度的确定方法、装置、设备及存储介质 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006033044A2 (en) * | 2004-09-23 | 2006-03-30 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
CN101055718A (zh) * | 2007-05-11 | 2007-10-17 | 华东师范大学 | 一种基于矢量量化的声纹识别方法 |
CN101226742A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于情感补偿的声纹识别方法 |
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
-
2011
- 2011-12-27 CN CN2011104439226A patent/CN102522086A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006033044A2 (en) * | 2004-09-23 | 2006-03-30 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
CN101055718A (zh) * | 2007-05-11 | 2007-10-17 | 华东师范大学 | 一种基于矢量量化的声纹识别方法 |
CN101226742A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于情感补偿的声纹识别方法 |
CN101540170A (zh) * | 2008-03-19 | 2009-09-23 | 中国科学院半导体研究所 | 一种基于仿生模式识别的声纹识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635228A (zh) * | 2018-12-07 | 2019-04-16 | 北京锐安科技有限公司 | 有序数组间差异度的确定方法、装置、设备及存储介质 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN109994116B (zh) * | 2019-03-11 | 2021-01-19 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
Muscariello et al. | Audio keyword extraction by unsupervised word discovery | |
CN101562012B (zh) | 语音分级测定方法及系统 | |
Dey et al. | Deep neural network based posteriors for text-dependent speaker verification | |
TW201430830A (zh) | 一種聲紋識別方法和裝置 | |
Fang et al. | Channel adversarial training for cross-channel text-independent speaker recognition | |
Saleem et al. | Forensic speaker recognition: A new method based on extracting accent and language information from short utterances | |
Peng et al. | Search results based n-best hypothesis rescoring with maximum entropy classification | |
Shokouhi et al. | Did you say U2 or YouTube? Inferring implicit transcripts from voice search logs | |
Fan et al. | Deep Hashing for Speaker Identification and Retrieval. | |
CN102623008A (zh) | 声纹识别方法 | |
Tran et al. | Fuzzy c-means clustering-based speaker verification | |
Jung et al. | Additional shared decoder on Siamese multi-view encoders for learning acoustic word embeddings | |
Yue et al. | Online Speaker Diarization with Core Samples Selection. | |
Aronowitz et al. | Context and uncertainty modeling for online speaker change detection | |
Ghaemmaghami et al. | Speaker attribution of australian broadcast news data | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN102522086A (zh) | 一种有序序列相似性对比方法的声纹识别应用 | |
Bigot et al. | Combining acoustic name spotting and continuous context models to improve spoken person name recognition in speech | |
Wilkinghoff et al. | Two-dimensional embeddings for low-resource keyword spotting based on dynamic time warping | |
Zhang et al. | Merge-weighted dynamic time warping for speech recognition | |
Shen et al. | Speaker clustering using decision tree-based phone cluster models with multi-space probability distributions | |
Feng et al. | Exploiting language-mismatched phoneme recognizers for unsupervised acoustic modeling | |
Li et al. | English sentence recognition based on hmm and clustering | |
Anidjar et al. | A Thousand Words are Worth More Than One Recording: Word-Embedding Based Speaker Change Detection. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120627 |