CN108091340A - 声纹识别方法和声纹识别系统 - Google Patents

声纹识别方法和声纹识别系统 Download PDF

Info

Publication number
CN108091340A
CN108091340A CN201611035943.3A CN201611035943A CN108091340A CN 108091340 A CN108091340 A CN 108091340A CN 201611035943 A CN201611035943 A CN 201611035943A CN 108091340 A CN108091340 A CN 108091340A
Authority
CN
China
Prior art keywords
audio
sample
tested
eigenmatrix
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611035943.3A
Other languages
English (en)
Other versions
CN108091340B (zh
Inventor
雷利博
薛韬
罗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201611035943.3A priority Critical patent/CN108091340B/zh
Priority to PCT/CN2017/106886 priority patent/WO2018095167A1/zh
Publication of CN108091340A publication Critical patent/CN108091340A/zh
Application granted granted Critical
Publication of CN108091340B publication Critical patent/CN108091340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种声纹识别方法和系统,所述方法包括:接收待测试音频并将其分割为第一和第二部分;选择一个样本音频并将其分割为第一和第二部分;通过使用梅尔倒谱系数的提取方法,提取针对待测试音频和样本音频的特征矩阵;通过将待测试音频的第一部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分与第二类样本的匹配程度;以类似方式针对样本音频的第一部分、待测试音频的第一部分和样本音频的第二部分,分别计算其与对应作为第二类样本的待测试音频、所选样本音频和待测试音频的匹配程度;根据上述各匹配程度,确定待测试音频和样本音频是否来自同一个人的声音。

Description

声纹识别方法和声纹识别系统
技术领域
本发明涉及声纹识别领域,具体地,涉及一种声纹识别方法和声纹识别系统。
背景技术
声纹是指通过特殊的电声转换仪器(诸如,声谱仪、语图仪等)绘制的展现声波特征的波谱图形,是各种声学特征图谱的集合。对于人体来说,声纹是长期稳定的特征信号,由于发声器官先天的生理差异和后天形成的行为差异,每个人的声纹都带着强烈的个人色彩。
声纹识别是根据人语音中所包含的独一无二的发音生理和行为特征等特征参数,自动对说话人身份进行识别的生物识别方法。声纹识别主要采集人的语音信息,提取特有的语音特征并将它转化成数字符号,且将其存成特征模板,使得在应用时将待识别语音与数据库中的模板进行匹配,从而判别说话人的身份。20世纪60年代开始,关于声谱分析的研究技术开始提出并应用于说话人特征分析。目前声纹识别技术已相对成熟并走向实用。
声谱分析在现代人的生活中发挥着重大作用,例如,工业生产中机械的安装、调整和运转可借助声谱分析进行监察。此外,声谱分析在乐器制作工艺的科学检验、珠宝鉴定、通信和广播设备的有效利用方面都有广泛的应用。在通信方面,可以利用“声纹识别”技术来进行身份认证,从而判别说话人的身份。目前该领域的研究成果大多是基于文本相关性的,即,被验证者必需按照规定的文本发音,从而使该项技术的发展受到了限制。此外,现有算法的容错性太差,基本都是靠一个相似度的得分来评定两份语音特征的样本是否属于同一个人。如果样本量不够大或者样本的语音特征相似度较高,则难以做出准确判断。
因此,需要一种文本无关型的声纹识别技术,使得能够更加灵活地应用声纹识别技术。本发明提供了一种文本无关型的声纹识别方法和声纹识别系统,其中所述声纹识别方法能够在小样本的情况下有效提高声纹识别的容错性,快速高效地识别出两段音频是否属于同一个人,从而具有广阔的应用前景。通过声纹识别技术中的说话人识别,可以实现利用语音信息进行身份鉴别。
发明内容
本公开的方面在于解决至少上述问题和/或缺点并提供至少下述优点。
根据本发明的第一方面,提供了一种声纹识别方法,可以包括:接收待测试音频并将待测试音频分割为第一部分和第二部分;从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;通过使用梅尔倒谱系数的提取方法,提取针对所述待测试音频以及所选样本音频的特征矩阵;通过将待测试音频的第一部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分属于第二类样本的比例a;通过将所选样本音频的第一部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第二部分属于第二类样本的比例b;通过将待测试音频的第二部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第一部分属于第二类样本的比例c;通过将所选样本音频的第二部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第一部分属于第二类样本的比例d;根据计算出的a、b、c和d,计算待测试音频与所选样本音频的匹配程度,以便确定待测试音频和所选样本音频是否来自同一个人的声音。
优选地,所述方法还包括:对所接收的待测试音频进行预处理,其中所述预处理包括以下操作中的至少一个:对待检测音频进行预加重;通过使用交叠分段的分帧方法对待测试音频进行分帧;施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。
优选地,所述将待测试音频分割为第一部分和第二部分包括将待测试音频分割为长度相等的两部分。
优选地,所述将所选样本音频分割为第一部分和第二部分包括将所选样本音频分割为长度相等的两部分。
优选地,所述计算待测试音频与样本音频的匹配程度包括:计算a、b、c和d的平均值;以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
根据本发明的第二方面,提供了一种声纹识别系统,可以包括:接收器,配置为接收待测试音频;样本数据库,配置为存储一个或更多个样本音频;支持向量机,配置为根据分类样本对测试数据进行分类;控制器,配置为:将来自接收器的待测试音频分割为第一部分和第二部分,并从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;通过使用梅尔倒谱系数的提取方法,提取针对待测试音频以及所选样本音频的特征矩阵;通过向支持向量机输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第二部分属于第二类样本的比例a;通过向支持向量机输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第二部分属于第二类样本的比例b;通过向支持向量机输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第一部分属于第二类样本的比例c;通过向支持向量机输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第一部分属于第二类样本的比例d;根据计算出的a、b、c和d,计算待测试音频与样本音频的匹配程度,以便确定待测试音频和样本音频是否来自同一个人的声音。
优选地,所述控制器还可以配置为对所接收的待测试音频进行预处理;其中所述预处理包括以下操作中的至少一个:对待检测音频进行预加重;通过使用交叠分段的分帧方法对待测试音频进行分帧;施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。
优选地,所述控制器还配置为将待测试音频分割为长度相等的两部分。
优选地,所述控制器还配置为将所选样本音频分割为长度相等的两部分。
优选地,所述控制器还配置为:计算a、b、c和d的平均值;以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
附图说明
以下结合附图,将更清楚本公开的示例实施例的上述和其它方面、特征以及优点,附图中:
图1示出了根据本发明的示例实施例的声纹识别系统的结构框图;
图2示出了根据本发明的示例实施例的声纹识别方法的操作逻辑图;
图3示出了根据本发明的示例实施例的声纹识别方法的流程图;以及
图4示出了图3中的训练支持向量机并计算音频匹配度的处理中的一个示例图。
具体实施方式
以下参考附图描述了本发明的示例实施。本发明提供了一种文本无关型的声纹识别方法和声纹识别系统,其中所述声纹识别方法能够在小样本的情况下有效提高声纹识别的容错性,快速高效地识别出两段音频是否属于同一个人,从而具有广阔的应用前景。通过声纹识别技术中的说话人识别,可以实现利用语音信息进行身份鉴别。
图1示出了根据本发明的示例实施例的声纹识别系统100的结构框图。如图1所示,声纹识别系统100包括接收器110,配置为接收待测试音频;样本数据库120,配置为存储一个或更多个样本音频;支持向量机130,配置为根据分类样本对测试数据进行分类;以及控制器140。支持向量机130能够执行分类功能,具体地,对于线性不可分的情况,首先通过非线性变换将输入空间变换到一个高维空间,使样本被变换为线性可分的情况,其中这里提到的非线性变换是通过适当的内积函数实现的;然后在新的空间中寻求最优的线性分类面,从而实现分类功能。所述控制器140可以配置为:将来自接收器110的待测试音频分割为第一部分和第二部分,并从样本数据库130中选择一个样本音频并将所选样本音频分割为第一部分和第二部分,例如,将待测试音频和所选样本音频均分割为长度相等的两部分。尽管上述实施例描述了将待测试音频和所选样本音频均分割为长度相等的两部分,然而应注意,还可以以不同的分割比例来分割待测试音频和所选样本音频,且二者的分割比例可以是不一样的。接着,控制器140通过使用梅尔倒谱系数(MFCC)的提取方法,提取针对待测试音频以及所选样本音频的特征矩阵。梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。目前MFCC及其提取方法已经广泛地应用在语音识别领域。
随后,控制器140通过使用支持向量机来确定待测试音频和所选样本音频是否来自同一个人。具体地,通过向支持向量机130输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机130,计算待测试音频的第二部分属于第二类样本的比例a;通过向支持向量机130输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机130,计算所选样本音频的第二部分属于第二类样本的比例b;通过向支持向量机130输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机130,计算待测试音频的第一部分属于第二类样本的比例c;通过向支持向量机130输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机130,计算所选样本音频的第一部分属于第二类样本的比例d;并且根据计算出的a、b、c和d,计算待测试音频与样本音频的匹配程度,以便确定待测试音频和样本音频是否来自同一个人的声音。在一个实施例中,控制器140可以通过计算a、b、c和d的平均值,并将所述平均值与0.5的比值确定为待测试音频与样本音频的匹配程度。
在备选实施例中,所述控制器140还可以配置为对所接收的待测试音频进行预处理,例如,对待检测音频进行预加重;前值滤波和高频补偿;接着通过使用交叠分段的分帧方法对待测试音频进行分帧;然后施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。由于声音信号往往是连续变化的,为了将连续变化信号简化,假设在一个短时间尺度内,音频信号不发生改变,使得将信号以多个取样点集合成一个单位,称为“讯框”,即“一帧”。一帧往往为20-40毫秒,如果讯框长度更短,那每个讯框内的取样点将不足以做出可靠的频谱计算,但若长度太长,则每个讯框信号会变化太大。
图2示出了根据本发明的示例实施例的声纹识别方法的操作逻辑图。首先,在操作S01,通过接收器接收待测试音频;接着在操作S05,对待测试音频进行预处理,例如,前值滤波和高频补偿;接着通过使用交叠分段的分帧方法对待测试音频进行分帧;然后施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧。在操作S10,将待测试音频分割为第一和第二部分。此外,在操作S15,可以从样本数据库选择样本音频,并在操作S20将所选样本音频分为第一部分和第二部分。随后,在操作S25,通过使用梅尔倒谱系数的提取方法,提取针对待测试音频和所选样本音频的各个部分的特征向量,以便在操作S30用所述特征向量中的一个或更多个来训练支持向量机。最后,在操作S35,确定待测试音频和所选样本音频是否来自同一个人。
图3示出了根据本发明的示例实施例的声纹识别方法的流程图。在步骤S305,接收待测试音频A并将待测试音频A分割为第一部分A1和第二部分A2。在步骤S310,从样本数据库中选择一个样本音频B并将所选样本音频B分割为第一部分B1和第二部分B2。例如,可以将待测试音频A从中间分割成长度相等的A1和A2两部分,同时将样本音频B同样地从中间分割成B1和B2两部分。此外,除了上述分割方式之外,还可以以其他分割比例来分割待测试音频和所选样本音频,例如,将待测试音频分割为1∶2的两个部分,且将所选样本音频分割为2∶3∶的两个部分。
此外,在执行步骤S305之前,所述方法还可以包括对待测试音频进行预处理,例如,对待检测音频进行预加重;通过使用交叠分段的分帧方法对待测试音频进行分帧;施加汉明窗以消除吉布斯效应;以及区分语音帧和非语音帧并舍弃非语音帧等。在一个实施例中,首先根据语音信号的频率特点设计了一个特殊的滤波器对信号进行滤波、高频补偿;然后采用交叠分段的分帧方法进行分帧;其次给信号加上了汉明窗以消除吉布斯效应;接着利用端点检测的方法,按照短时能量和短时平均过零率的高低区分语音帧和非语音帧,并将非语音帧舍弃。
接着,在步骤S315,通过使用梅尔倒谱系数的提取方法,提取针对所述待测试音频以及所选样本音频的特征矩阵。也就是说,根据梅尔倒谱系数的提取方法从每一个说话人的语音的每一帧都中提取出一个1行20列的向量作为其特征向量,那么一个人的n帧就构成了一个n行20列的特征矩阵。
接下来,执行训练支持向量机的步骤。在步骤S320,通过将待测试音频的第一部分A1的特征矩阵作为第一类样本,并将所选样本音频B的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分A2属于第二类样本的比例a,以便判别待测试音频的第二部分A2是否属于所选样本音频;接着在步骤S325,通过将所选样本音频的第一部分B1的特征矩阵作为第一类样本,并将待测试音频A的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第二部分B2属于第二类样本的比例b;然后,在步骤S330,通过将待测试音频的第二部分A2的特征矩阵作为第一类样本,并将所选样本音频B的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第一部分A1属于第二类样本的比例c;以及在步骤S335,通过将所选样本音频的第二部分B2的特征矩阵作为第一类样本,并将待测试音频A的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第一部分B1属于第二类样本的比例d。上述操作S320至S335中的任一操作可以示例性地表示为图4。图4示出了上述操作S320至S335中的训练支持向量机并计算音频匹配度的处理中的一个示例图。
最后,继续参考图3,在步骤S340,根据计算出的a、b、c和d,计算待测试音频与所选样本音频的匹配程度,以便确定待测试音频和所选样本音频是否来自同一个人的声音。例如,可以计算a、b、c和d的平均值,以及将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。在这种情况下,如果待测试音频与所选样本音频属于一个人的,则平均值的大小应该接近0.5。如果不是来自同一个人,则平均值的比例应该接近0。因此,可以将该平均值与0.5的比值视为待测试音频与样本音频的匹配度。根据这个匹配度,能确认匹配结果与测试样本是否为一个人的声音,防止误判。
应注意,可以基于不同应用环境的需求,设置不同的比例阈值来确定待测试音频与样本音频是否来自同一个人。例如,在安全性较低的情况下,可以通过将阈值设置为较低值,例如,70%,来确定样本音频和待测试音频是否来自同一个人,即,如果计算出的比值大于或等于70%,则认为二者来自同一个人,否则认为二者来自不同的人的声音。在安全性较高的情况下(例如,门禁系统),可以通过将阈值设置为较高值,例如,95%,来确定样本音频和待测试音频是否来自同一个人。这样能够实现根据应用需要来调整识别准确度的效果,更便于用户使用。
因此,本发明所提出的声纹识别方法和系统能够通过分割待匹配音频和样本音频,使得在小样本的条件下以不同方式组合分割后的样本进行分类,达到高容错性、高效率的准确身份识别。
应注意,以上方案仅是示出本发明构思的一个具体实现方案,本发明不限于上述实现方案。可以省略或跳过上述实现方案中的一部分处理,而不脱离本发明的精神和范围。
前面的方法可以通过多种计算机装置以可执的程序命令形式实现并记录在计算机可读记录介质中。在这种情况下,计算机可读记录介质可以包括单独的程序命令、数据文件、数据结构或其组合。同时,记录在记录介质中的程序命令可以专门设计或配置用于本发明,或是计算机软件领域的技术人员已知应用的。计算机可读记录介质包括例如硬盘、软盘或磁带等磁性介质、例如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD)等光学介质、例如光磁软盘的磁光介质以及例如存储和执行程序命令的ROM、RAM、闪存等硬件装置。此外,程序命令包括编译器形成的机器语言代码和计算机通过使用解释程序可执行的高级语言。前面的硬件装置可以配置成作为至少一个软件模块操作以执行本发明的操作,并且逆向操作也是一样的。
尽管以特定顺序示出并描述了本文方法的操作,然而可以改变每个方法的操作的顺序,使得可以以相反顺序执行特定操作或使得可以至少部分地与其它操作同时来执行特定操作。此外,本发明不限于上述示例实施例,它可以在不脱离本公开的精神和范围的前提下,包括一个或多个其他部件或操作,或省略一个或多个其他部件或操作。
以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

Claims (10)

1.一种声纹识别方法,包括:
接收待测试音频并将待测试音频分割为第一部分和第二部分;
从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;
通过使用梅尔倒谱系数的提取方法,提取针对所述待测试音频以及所选样本音频的特征矩阵;
通过将待测试音频的第一部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第二部分属于第二类样本的比例a;
通过将所选样本音频的第一部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第二部分属于第二类样本的比例b;
通过将待测试音频的第二部分的特征矩阵作为第一类样本,并将所选样本音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算待测试音频的第一部分属于第二类样本的比例c;
通过将所选样本音频的第二部分的特征矩阵作为第一类样本,并将待测试音频的特征矩阵作为第二类样本,执行支持向量机训练,并计算所选样本音频的第一部分属于第二类样本的比例d;
根据计算出的a、b、c和d,计算待测试音频与所选样本音频的匹配程度,以便确定待测试音频和所选样本音频是否来自同一个人的声音。
2.根据权利要求1所述的方法,还包括:对所接收的待测试音频进行预处理,其中所述预处理包括以下操作中的至少一个:
对待检测音频进行预加重;
通过使用交叠分段的分帧方法对待测试音频进行分帧;
施加汉明窗以消除吉布斯效应;以及
区分语音帧和非语音帧并舍弃非语音帧。
3.根据权利要求1所述的方法,其中所述将待测试音频分割为第一部分和第二部分包括将待测试音频分割为长度相等的两部分。
4.根据权利要求1所述的方法,其中所述将所选样本音频分割为第一部分和第二部分包括将所选样本音频分割为长度相等的两部分。
5.根据权利要求1所述的方法,其中所述计算待测试音频与样本音频的匹配程度包括:
计算a、b、c和d的平均值;以及
将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
6.一种声纹识别系统,包括:
接收器,配置为接收待测试音频;
样本数据库,配置为存储一个或更多个样本音频;
支持向量机,配置为根据分类样本对测试数据进行分类;
控制器,配置为:
将来自接收器的待测试音频分割为第一部分和第二部分,并从样本数据库中选择一个样本音频并将所选样本音频分割为第一部分和第二部分;
通过使用梅尔倒谱系数的提取方法,提取针对待测试音频以及所选样本音频的特征矩阵;
通过向支持向量机输入作为第一类样本的待测试音频的第一部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第二部分属于第二类样本的比例a;
通过向支持向量机输入作为第一类样本的所选样本音频的第一部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第二部分属于第二类样本的比例b;
通过向支持向量机输入作为第一类样本的待测试音频的第二部分的特征矩阵以及作为第二类样本的所选样本音频的特征矩阵并训练所述支持向量机,计算待测试音频的第一部分属于第二类样本的比例c;
通过向支持向量机输入作为第一类样本的所选样本音频的第二部分的特征矩阵以及作为第二类样本的待测试音频的特征矩阵并训练所述支持向量机,计算所选样本音频的第一部分属于第二类样本的比例d;
根据计算出的a、b、c和d,计算待测试音频与样本音频的匹配程度,以便确定待测试音频和样本音频是否来自同一个人的声音。
7.根据权利要求6所述的系统,其中所述控制器还配置为对所接收的待测试音频进行预处理;其中所述预处理包括以下操作中的至少一个:
对待检测音频进行预加重;
通过使用交叠分段的分帧方法对待测试音频进行分帧;
施加汉明窗以消除吉布斯效应;以及
区分语音帧和非语音帧并舍弃非语音帧。
8.根据权利要求6所述的系统,其中所述控制器还配置为将待测试音频分割为长度相等的两部分。
9.根据权利要求6所述的系统,其中所述控制器还配置为将所选样本音频分割为长度相等的两部分。
10.根据权利要求6所述的系统,其中所述控制器还配置为:
计算a、b、c和d的平均值;以及
将所述平均值与0.5的比值确定作为待测试音频与样本音频的匹配程度。
CN201611035943.3A 2016-11-22 2016-11-22 声纹识别方法、声纹识别系统和计算机可读存储介质 Active CN108091340B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611035943.3A CN108091340B (zh) 2016-11-22 2016-11-22 声纹识别方法、声纹识别系统和计算机可读存储介质
PCT/CN2017/106886 WO2018095167A1 (zh) 2016-11-22 2017-10-19 声纹识别方法和声纹识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611035943.3A CN108091340B (zh) 2016-11-22 2016-11-22 声纹识别方法、声纹识别系统和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108091340A true CN108091340A (zh) 2018-05-29
CN108091340B CN108091340B (zh) 2020-11-03

Family

ID=62168704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611035943.3A Active CN108091340B (zh) 2016-11-22 2016-11-22 声纹识别方法、声纹识别系统和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN108091340B (zh)
WO (1) WO2018095167A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108908377A (zh) * 2018-07-06 2018-11-30 达闼科技(北京)有限公司 说话人识别方法、装置和机器人
CN110889008A (zh) * 2018-09-10 2020-03-17 珠海格力电器股份有限公司 一种音乐推荐方法、装置、计算装置和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109031961B (zh) * 2018-06-29 2021-04-06 百度在线网络技术(北京)有限公司 用于控制操作对象的方法和装置
CN111489756B (zh) * 2020-03-31 2024-03-01 中国工商银行股份有限公司 一种声纹识别方法及装置
CN115100776B (zh) * 2022-05-30 2023-12-26 厦门快商通科技股份有限公司 一种基于语音识别的门禁认证方法、系统及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318692A (ja) * 2000-05-11 2001-11-16 Yasutaka Sakamoto 音声認識による人物同定システム
US20070239457A1 (en) * 2006-04-10 2007-10-11 Nokia Corporation Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management
CN101562012A (zh) * 2008-04-16 2009-10-21 创而新(中国)科技有限公司 语音分级测定方法及系统
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN103562993A (zh) * 2011-12-16 2014-02-05 华为技术有限公司 说话人识别方法及设备
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置
CN106062871A (zh) * 2014-03-28 2016-10-26 英特尔公司 使用所选择的群组样本子集来训练分类器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
CN102737633B (zh) * 2012-06-21 2013-12-25 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
CN104464756A (zh) * 2014-12-10 2015-03-25 黑龙江真美广播通讯器材有限公司 一种小型说话人情感识别系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001318692A (ja) * 2000-05-11 2001-11-16 Yasutaka Sakamoto 音声認識による人物同定システム
US20070239457A1 (en) * 2006-04-10 2007-10-11 Nokia Corporation Method, apparatus, mobile terminal and computer program product for utilizing speaker recognition in content management
CN101562012A (zh) * 2008-04-16 2009-10-21 创而新(中国)科技有限公司 语音分级测定方法及系统
CN103562993A (zh) * 2011-12-16 2014-02-05 华为技术有限公司 说话人识别方法及设备
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN106062871A (zh) * 2014-03-28 2016-10-26 英特尔公司 使用所选择的群组样本子集来训练分类器
CN104485102A (zh) * 2014-12-23 2015-04-01 智慧眼(湖南)科技发展有限公司 声纹识别方法和装置
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN105244031A (zh) * 2015-10-26 2016-01-13 北京锐安科技有限公司 说话人识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALARIFI, A: "SVM based Arabic speaker verification system for mobile devices", 《2012 INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY AND E-SERVICES (ICITES)》 *
傅庚申: "说话人识别算法研究", 《中国优秀博硕士学位论文全文数据库 (硕士)信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108908377A (zh) * 2018-07-06 2018-11-30 达闼科技(北京)有限公司 说话人识别方法、装置和机器人
CN108908377B (zh) * 2018-07-06 2020-06-23 达闼科技(北京)有限公司 说话人识别方法、装置和机器人
CN110889008A (zh) * 2018-09-10 2020-03-17 珠海格力电器股份有限公司 一种音乐推荐方法、装置、计算装置和存储介质

Also Published As

Publication number Publication date
CN108091340B (zh) 2020-11-03
WO2018095167A1 (zh) 2018-05-31

Similar Documents

Publication Publication Date Title
Gomez-Alanis et al. A light convolutional GRU-RNN deep feature extractor for ASV spoofing detection
CN108091340A (zh) 声纹识别方法和声纹识别系统
Bhakre et al. Emotion recognition on the basis of audio signal using Naive Bayes classifier
Chuangsuwanich et al. Robust Voice Activity Detector for Real World Applications Using Harmonicity and Modulation Frequency.
Veena et al. Speaker identification and verification of noisy speech using multitaper MFCC and Gaussian Mixture models
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
Bhukya Effect of gender on improving speech recognition system
Hassan et al. Autonomous framework for person identification by analyzing vocal sounds and speech patterns
Tzudir et al. Dialect Identification Using Tonal and Spectral Features in Two Dialects of Ao.
Krishna et al. Emotion recognition using dynamic time warping technique for isolated words
Raghib et al. Emotion analysis and speech signal processing
Hamidi et al. Automatic meter classification in Persian poetries using support vector machines
Papadopoulos et al. Global SNR Estimation of Speech Signals for Unknown Noise Conditions Using Noise Adapted Non-Linear Regression.
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Phyu et al. Building Speaker Identification Dataset for Noisy Conditions
Bora et al. Speaker identification for biometric access control using hybrid features
Lingam Speaker based language independent isolated speech recognition system
Wu et al. Dku-tencent submission to oriental language recognition ap18-olr challenge
Nair et al. Transfer learning for speech based emotion recognition
Shinde et al. Speech processing for isolated Marathi word recognition using MFCC and DTW features
Majda-Zdancewicz et al. Text independent automatic speaker recognition system using fusion of features
Dawande et al. Analysis of different feature extraction techniques for speaker recognition system: A review
Sun et al. Unsupervised speaker segmentation framework based on sparse correlation feature
Pawar et al. Analysis of FFSR, VFSR, MFSR techniques for feature extraction in speaker recognition: a review
Kaur et al. Comparative analysis of speech processing techniques for gender recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant