CN111508503B - 一种识别同一说话人的方法和装置 - Google Patents

一种识别同一说话人的方法和装置 Download PDF

Info

Publication number
CN111508503B
CN111508503B CN202010545180.7A CN202010545180A CN111508503B CN 111508503 B CN111508503 B CN 111508503B CN 202010545180 A CN202010545180 A CN 202010545180A CN 111508503 B CN111508503 B CN 111508503B
Authority
CN
China
Prior art keywords
threshold
audio
speaker
noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010545180.7A
Other languages
English (en)
Other versions
CN111508503A (zh
Inventor
张晴晴
贾艳明
张雪璐
岑吴镕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingshu Intelligent Technology Co ltd
Original Assignee
Beijing Aishu Wisdom Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aishu Wisdom Technology Co ltd filed Critical Beijing Aishu Wisdom Technology Co ltd
Priority to CN202010545180.7A priority Critical patent/CN111508503B/zh
Publication of CN111508503A publication Critical patent/CN111508503A/zh
Application granted granted Critical
Publication of CN111508503B publication Critical patent/CN111508503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种识别同一说话人的方法和装置,该方法包括以下步骤:采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;获取与所述第一背景环境对应的第一阈值;判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。本发明针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。

Description

一种识别同一说话人的方法和装置
技术领域
本发明涉及音频技术领域,特别涉及一种识别同一说话人的方法和装置。
背景技术
人类语言的产生,是人体语言中枢与发音器官之间一个复杂的生理物理过程。人在讲话时使用的发声器官(舌、牙齿、喉头、肺和鼻腔)在尺寸和形态方面,每个人的差异很大,所以,任何两个人的声纹图谱都有差异。所谓声纹(Voiceprint),是指用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟和伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
作为生物识别技术的一种,声纹识别也称为说话人识别,包括说话人辨认和说话人确认。声纹识别技术将声音信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,例如,缩小刑侦范围时,可能需要说话人辨认技术,而银行交易时,则需要说话人确认技术。
与其他生物特征相比,声纹识别的应用仍具有以下优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率为15.8%,仅次于基于指纹和掌纹的生物特征识别,并有不断上升的趋势。
然而,现有技术中,由于不同背景环境(如车载噪声,电话信道)以及语种等因素影响,会导致声纹识别结果不可靠。
发明内容
本发明提供了一种识别同一说话人的方法和装置,以解决现有技术中声纹识别结果不可靠的缺陷。
本发明提供了一种识别同一说话人的方法,包括以下步骤:
采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
获取与所述第一背景环境对应的第一阈值;
判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
可选地,所述获取与所述第一背景环境对应的第一阈值,包括:
根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
可选地,所述根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值,包括:
获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;
根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
可选地,所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值,确定所述第一阈值,包括:
将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。
可选地,不同的噪声类型对应不同的噪声阈值,不同的说话语种对应不同的语种阈值,不同的信噪比对应不同的信噪比阈值。
可选地,所述的方法,还包括:
采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
获取与所述第二背景环境对应的第二阈值;
如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明还提供了一种识别同一说话人的装置,包括:
第一采集模块,用于采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
第一获取模块,用于获取与所述第一背景环境对应的第一阈值;
确定模块,用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
可选地,所述第一获取模块,具体用于根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
可选地,所述第一获取模块,具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
可选地,所述的装置,还包括:
第二采集模块,用于采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
第二获取模块,用于获取与所述第二背景环境对应的第二阈值;
所述确定模块,还用于如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
附图说明
图1为本发明实施例中的一种识别同一说话人的方法流程图;
图2为本发明实施例中的另一种识别同一说话人的方法流程图;
图3为本发明实施例中的一种识别同一说话人的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种识别同一说话人的方法,如图1所示,包括以下步骤:
步骤101,采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
步骤102,获取与所述第一背景环境对应的第一阈值;
具体地,可以根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
其中,信噪比的判断方法为:通过音频声学模型,确定人声段时间和噪声段时间,从而获得信噪比参数;噪声类型的判断方法为:根据噪声段时间,提取对应音频噪声,根据已训练的噪声类型识别模型判断噪声类型;说话语种的判断方法为:通过语种识别模型训练得到说话语种。
本实施例中,可以获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。其中,不同的噪声类型可以对应不同的噪声阈值,不同的说话语种可以对应不同的语种阈值,不同的信噪比可以对应不同的信噪比阈值。噪声类型包含但不限于四类:安静无噪声、车载噪声、电话噪声和其他噪声;说话语种包含但不仅限于普通话,粤语,上海话,武汉话,闽南语,菲律宾语,马来语,泰语,英语,印度英语,澳大利亚英语,土耳其语等语种;信噪比包含并不限于四档:大于30,5至30,1至5,小于1。
作为一种优选的实施方式,可以将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。
例如,四种噪声阈值为0(安静无噪声),30(车载),40(电话),10(其他噪声);四档信噪比阈值为0(大于30),10(5至30),30(1至5),50(小于1);说话语种阈值根据具体语种而定,如普通话阈值为30,马来语阈值为70。第一阈值的计算方法为:第一阈值 = 第一语种阈值 + 第一噪声阈值 + 第一信噪比阈值。
步骤103,判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
本实施例中,在模型训练部分,将说话人音频背景进行标注,而后混合;利用PLDA(概率线性判别分析)信道补偿技术,调整音频提取背景模型,该模型与具体说话人以及信道无关;根据音频提取背景模型及标注内容,进行分析,获得多阈值策略。在数据检测部分,采集不同环境的说话人音频,并混合;根据音频的噪声类型、说话语种、信噪比等,判断出说话人的背景类型;根据不同的类型,采取不同的阈值策略,两两判断说话人是重复。
本发明实施例针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率,由原先的94%提高到95%以上,并降低误判率,由原先的10%以上降低到3%以下。
在上述实施例中,针对不同的背景环境,基于不同阈值对音频进行判断,背景环境越复杂,判断越严格。若两种音频分属于不同的背景环境,则基于较低的阈值对音频进行判断,具体实施方式,如图2所示,包括以下步骤:
步骤201,采集第一音频和第三音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第三音频为第三说话人在第二背景环境下输出的人声;
步骤202,获取与所述第一背景环境对应的第一阈值以及与所述第二背景环境对应的第二阈值;
具体地,可以根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值;根据所述第三音频的噪声类型、说话语种和信噪比,确定与所述第二背景环境对应的第二阈值。
本实施例中,可以获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。相应地,可以获取与所述第三音频的噪声类型对应的第二噪声阈值、与所述第三音频的说话语种对应的第二语种阈值,以及与所述第三音频的信噪比对应的第二信噪比阈值;根据所述第二噪声阈值、所述第二语种阈值和所述第二信噪比阈值,确定所述第二阈值。
其中,不同的噪声类型可以对应不同的噪声阈值,不同的说话语种可以对应不同的语种阈值,不同的信噪比可以对应不同的信噪比阈值。
作为一种优选的实施方式,可以将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值;将所述第二噪声阈值、所述第二语种阈值和所述第二信噪比阈值相加之和作为所述第二阈值。
步骤203,如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
步骤204,如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明实施例针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
基于上述识别同一说话人的方法,本发明实施例还提供了一种识别同一说话人的装置,如图3所示,包括:
第一采集模块310,用于采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
第一获取模块320,用于获取与所述第一背景环境对应的第一阈值;
确定模块330,用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
具体地,上述第一获取模块320,具体用于根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
本实施例中,第一获取模块320,具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
其中,所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值,确定所述第一阈值,包括:将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。不同的噪声类型对应不同的噪声阈值,不同的说话语种对应不同的语种阈值,不同的信噪比对应不同的信噪比阈值。
进一步地,上述装置还包括:
第二采集模块,用于采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
第二获取模块,用于获取与所述第二背景环境对应的第二阈值;
所述确定模块330,还用于如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明实施例针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种识别同一说话人的方法,其特征在于,包括以下步骤:
采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
获取与所述第一背景环境对应的第一阈值;
判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人;
所述获取与所述第一背景环境对应的第一阈值,包括:
根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值,包括:
获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;
根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值,确定所述第一阈值,包括:
将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。
4.如权利要求2所述的方法,其特征在于,不同的噪声类型对应不同的噪声阈值,不同的说话语种对应不同的语种阈值,不同的信噪比对应不同的信噪比阈值。
5.如权利要求1所述的方法,其特征在于,还包括:
采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
获取与所述第二背景环境对应的第二阈值;
如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
6.一种识别同一说话人的装置,其特征在于,包括:
第一采集模块,用于采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
第一获取模块,用于获取与所述第一背景环境对应的第一阈值;
确定模块,用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人;
所述第一获取模块,具体用于根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
7.如权利要求6所述的装置,其特征在于,
所述第一获取模块,具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
8.如权利要求6所述的装置,其特征在于,还包括:
第二采集模块,用于采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
第二获取模块,用于获取与所述第二背景环境对应的第二阈值;
所述确定模块,还用于如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
CN202010545180.7A 2020-06-16 2020-06-16 一种识别同一说话人的方法和装置 Active CN111508503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010545180.7A CN111508503B (zh) 2020-06-16 2020-06-16 一种识别同一说话人的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010545180.7A CN111508503B (zh) 2020-06-16 2020-06-16 一种识别同一说话人的方法和装置

Publications (2)

Publication Number Publication Date
CN111508503A CN111508503A (zh) 2020-08-07
CN111508503B true CN111508503B (zh) 2020-10-20

Family

ID=71875345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010545180.7A Active CN111508503B (zh) 2020-06-16 2020-06-16 一种识别同一说话人的方法和装置

Country Status (1)

Country Link
CN (1) CN111508503B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
CN108288470B (zh) * 2017-01-10 2021-12-21 富士通株式会社 基于声纹的身份验证方法和装置
CN110164453A (zh) * 2019-05-24 2019-08-23 厦门快商通信息咨询有限公司 一种多模型融合的声纹识别方法、终端、服务器及存储介质
CN110491392A (zh) * 2019-08-29 2019-11-22 广州国音智能科技有限公司 一种基于说话人身份的音频数据清洗方法、装置和设备

Also Published As

Publication number Publication date
CN111508503A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
Kinnunen Spectral features for automatic text-independent speaker recognition
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
Reynolds Automatic speaker recognition: Current approaches and future trends
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN111583936A (zh) 一种智能语音电梯控制方法及装置
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
Nandyal et al. MFCC based text-dependent speaker identification using BPNN
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN113782032B (zh) 一种声纹识别方法及相关装置
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
Kekre et al. Speaker recognition using Vector Quantization by MFCC and KMCG clustering algorithm
CN107093430A (zh) 一种基于小波包变换的声纹特征提取算法
CN111508503B (zh) 一种识别同一说话人的方法和装置
Saleema et al. Voice biometrics: the promising future of authentication in the internet of things
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN113077794A (zh) 一种人声识别系统
Singh et al. Features and techniques for speaker recognition
Kabir et al. Vector quantization in text dependent automatic speaker recognition using mel-frequency cepstrum coefficient
Komlen et al. Text independent speaker recognition using LBG vector quantization
Nguyen et al. Vietnamese speaker authentication using deep models
Yang et al. User verification based on customized sentence reading

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088

Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd.

Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing

Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD.