CN111508503A - 一种识别同一说话人的方法和装置 - Google Patents
一种识别同一说话人的方法和装置 Download PDFInfo
- Publication number
- CN111508503A CN111508503A CN202010545180.7A CN202010545180A CN111508503A CN 111508503 A CN111508503 A CN 111508503A CN 202010545180 A CN202010545180 A CN 202010545180A CN 111508503 A CN111508503 A CN 111508503A
- Authority
- CN
- China
- Prior art keywords
- threshold
- audio
- speaker
- noise
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007613 environmental effect Effects 0.000 abstract description 6
- 230000001755 vocal effect Effects 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明公开一种识别同一说话人的方法和装置,该方法包括以下步骤:采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;获取与所述第一背景环境对应的第一阈值;判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。本发明针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
Description
技术领域
本发明涉及音频技术领域,特别涉及一种识别同一说话人的方法和装置。
背景技术
人类语言的产生,是人体语言中枢与发音器官之间一个复杂的生理物理过程。人在讲话时使用的发声器官(舌、牙齿、喉头、肺和鼻腔)在尺寸和形态方面,每个人的差异很大,所以,任何两个人的声纹图谱都有差异。所谓声纹(Voiceprint),是指用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟和伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
作为生物识别技术的一种,声纹识别也称为说话人识别,包括说话人辨认和说话人确认。声纹识别技术将声音信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,例如,缩小刑侦范围时,可能需要说话人辨认技术,而银行交易时,则需要说话人确认技术。
与其他生物特征相比,声纹识别的应用仍具有以下优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率为15.8%,仅次于基于指纹和掌纹的生物特征识别,并有不断上升的趋势。
然而,现有技术中,由于不同背景环境(如车载噪声,电话信道)以及语种等因素影响,会导致声纹识别结果不可靠。
发明内容
本发明提供了一种识别同一说话人的方法和装置,以解决现有技术中声纹识别结果不可靠的缺陷。
本发明提供了一种识别同一说话人的方法,包括以下步骤:
采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
获取与所述第一背景环境对应的第一阈值;
判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
可选地,所述获取与所述第一背景环境对应的第一阈值,包括:
根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
可选地,所述根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值,包括:
获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;
根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
可选地,所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值,确定所述第一阈值,包括:
将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。
可选地,不同的噪声类型对应不同的噪声阈值,不同的说话语种对应不同的语种阈值,不同的信噪比对应不同的信噪比阈值。
可选地,所述的方法,还包括:
采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
获取与所述第二背景环境对应的第二阈值;
如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明还提供了一种识别同一说话人的装置,包括:
第一采集模块,用于采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
第一获取模块,用于获取与所述第一背景环境对应的第一阈值;
确定模块,用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
可选地,所述第一获取模块,具体用于根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
可选地,所述第一获取模块,具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
可选地,所述的装置,还包括:
第二采集模块,用于采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
第二获取模块,用于获取与所述第二背景环境对应的第二阈值;
所述确定模块,还用于如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
附图说明
图1为本发明实施例中的一种识别同一说话人的方法流程图;
图2为本发明实施例中的另一种识别同一说话人的方法流程图;
图3为本发明实施例中的一种识别同一说话人的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种识别同一说话人的方法,如图1所示,包括以下步骤:
步骤101,采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
步骤102,获取与所述第一背景环境对应的第一阈值;
具体地,可以根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
其中,信噪比的判断方法为:通过音频声学模型,确定人声段时间和噪声段时间,从而获得信噪比参数;噪声类型的判断方法为:根据噪声段时间,提取对应音频噪声,根据已训练的噪声类型识别模型判断噪声类型;说话语种的判断方法为:通过语种识别模型训练得到说话语种。
本实施例中,可以获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。其中,不同的噪声类型可以对应不同的噪声阈值,不同的说话语种可以对应不同的语种阈值,不同的信噪比可以对应不同的信噪比阈值。噪声类型包含但不限于四类:安静无噪声、车载噪声、电话噪声和其他噪声;说话语种包含但不仅限于普通话,粤语,上海话,武汉话,闽南语,菲律宾语,马来语,泰语,英语,印度英语,澳大利亚英语,土耳其语等语种;信噪比包含并不限于四档:大于30,5至30,1至5,小于1。
作为一种优选的实施方式,可以将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。
例如,四种噪声阈值为0(安静无噪声),30(车载),40(电话),10(其他噪声);四档信噪比阈值为0(大于30),10(5至30),30(1至5),50(小于1);说话语种阈值根据具体语种而定,如普通话阈值为30,马来语阈值为70。第一阈值的计算方法为:第一阈值 = 第一语种阈值 + 第一噪声阈值 + 第一信噪比阈值。
步骤103,判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
本实施例中,在模型训练部分,将说话人音频背景进行标注,而后混合;利用PLDA(概率线性判别分析)信道补偿技术,调整音频提取背景模型,该模型与具体说话人以及信道无关;根据音频提取背景模型及标注内容,进行分析,获得多阈值策略。在数据检测部分,采集不同环境的说话人音频,并混合;根据音频的噪声类型、说话语种、信噪比等,判断出说话人的背景类型;根据不同的类型,采取不同的阈值策略,两两判断说话人是重复。
本发明实施例针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率,由原先的94%提高到95%以上,并降低误判率,由原先的10%以上降低到3%以下。
在上述实施例中,针对不同的背景环境,基于不同阈值对音频进行判断,背景环境越复杂,判断越严格。若两种音频分属于不同的背景环境,则基于较低的阈值对音频进行判断,具体实施方式,如图2所示,包括以下步骤:
步骤201,采集第一音频和第三音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第三音频为第三说话人在第二背景环境下输出的人声;
步骤202,获取与所述第一背景环境对应的第一阈值以及与所述第二背景环境对应的第二阈值;
具体地,可以根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值;根据所述第三音频的噪声类型、说话语种和信噪比,确定与所述第二背景环境对应的第二阈值。
本实施例中,可以获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。相应地,可以获取与所述第三音频的噪声类型对应的第二噪声阈值、与所述第三音频的说话语种对应的第二语种阈值,以及与所述第三音频的信噪比对应的第二信噪比阈值;根据所述第二噪声阈值、所述第二语种阈值和所述第二信噪比阈值,确定所述第二阈值。
其中,不同的噪声类型可以对应不同的噪声阈值,不同的说话语种可以对应不同的语种阈值,不同的信噪比可以对应不同的信噪比阈值。
作为一种优选的实施方式,可以将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值;将所述第二噪声阈值、所述第二语种阈值和所述第二信噪比阈值相加之和作为所述第二阈值。
步骤203,如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
步骤204,如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明实施例针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
基于上述识别同一说话人的方法,本发明实施例还提供了一种识别同一说话人的装置,如图3所示,包括:
第一采集模块310,用于采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
第一获取模块320,用于获取与所述第一背景环境对应的第一阈值;
确定模块330,用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
具体地,上述第一获取模块320,具体用于根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
本实施例中,第一获取模块320,具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
其中,所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值,确定所述第一阈值,包括:将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。不同的噪声类型对应不同的噪声阈值,不同的说话语种对应不同的语种阈值,不同的信噪比对应不同的信噪比阈值。
进一步地,上述装置还包括:
第二采集模块,用于采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
第二获取模块,用于获取与所述第二背景环境对应的第二阈值;
所述确定模块330,还用于如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
本发明实施例针对声纹识别的环境因素、语种等外部因素,判断音频背景环境并进行分类,从而确定阈值,并基于该阈值判断两个说话人是否为同一说话人,能够提升说话人识别的正确率。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种识别同一说话人的方法,其特征在于,包括以下步骤:
采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
获取与所述第一背景环境对应的第一阈值;
判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
2.如权利要求1所述的方法,其特征在于,所述获取与所述第一背景环境对应的第一阈值,包括:
根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值,包括:
获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;
根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值,确定所述第一阈值,包括:
将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。
5.如权利要求3所述的方法,其特征在于,不同的噪声类型对应不同的噪声阈值,不同的说话语种对应不同的语种阈值,不同的信噪比对应不同的信噪比阈值。
6.如权利要求1所述的方法,其特征在于,还包括:
采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
获取与所述第二背景环境对应的第二阈值;
如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;
如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
7.一种识别同一说话人的装置,其特征在于,包括:
第一采集模块,用于采集第一音频和第二音频,所述第一音频为第一说话人在第一背景环境下输出的人声,所述第二音频为第二说话人在所述第一背景环境下输出的人声;
第一获取模块,用于获取与所述第一背景环境对应的第一阈值;
确定模块,用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第二说话人为同一说话人。
8.如权利要求7所述的装置,其特征在于,
所述第一获取模块,具体用于根据所述第一音频的噪声类型、说话语种和信噪比,确定与所述第一背景环境对应的第一阈值。
9.如权利要求8所述的装置,其特征在于,
所述第一获取模块,具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值,以及与所述第一音频的信噪比对应的第一信噪比阈值;根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值,确定所述第一阈值。
10.如权利要求7所述的装置,其特征在于,还包括:
第二采集模块,用于采集第三音频,所述第三音频为第三说话人在第二背景环境下输出的人声;
第二获取模块,用于获取与所述第二背景环境对应的第二阈值;
所述确定模块,还用于如果所述第一阈值大于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人;如果所述第一阈值小于所述第二阈值,则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值,若是,则确定所述第一说话人和所述第三说话人为同一说话人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010545180.7A CN111508503B (zh) | 2020-06-16 | 2020-06-16 | 一种识别同一说话人的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010545180.7A CN111508503B (zh) | 2020-06-16 | 2020-06-16 | 一种识别同一说话人的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508503A true CN111508503A (zh) | 2020-08-07 |
CN111508503B CN111508503B (zh) | 2020-10-20 |
Family
ID=71875345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010545180.7A Active CN111508503B (zh) | 2020-06-16 | 2020-06-16 | 一种识别同一说话人的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508503B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0680480B2 (ja) * | 1983-12-19 | 1994-10-12 | クセルト セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオ−ニ・エツセ・ピ−・ア− | 通話者検証用装置 |
CN108288470A (zh) * | 2017-01-10 | 2018-07-17 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
CN110060694A (zh) * | 2014-06-24 | 2019-07-26 | 谷歌有限责任公司 | 用于说话者验证的动态阈值 |
CN110164453A (zh) * | 2019-05-24 | 2019-08-23 | 厦门快商通信息咨询有限公司 | 一种多模型融合的声纹识别方法、终端、服务器及存储介质 |
CN110491392A (zh) * | 2019-08-29 | 2019-11-22 | 广州国音智能科技有限公司 | 一种基于说话人身份的音频数据清洗方法、装置和设备 |
-
2020
- 2020-06-16 CN CN202010545180.7A patent/CN111508503B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0680480B2 (ja) * | 1983-12-19 | 1994-10-12 | クセルト セントロ・ステユデイ・エ・ラボラトリ・テレコミニカチオ−ニ・エツセ・ピ−・ア− | 通話者検証用装置 |
CN110060694A (zh) * | 2014-06-24 | 2019-07-26 | 谷歌有限责任公司 | 用于说话者验证的动态阈值 |
CN108288470A (zh) * | 2017-01-10 | 2018-07-17 | 富士通株式会社 | 基于声纹的身份验证方法和装置 |
CN110164453A (zh) * | 2019-05-24 | 2019-08-23 | 厦门快商通信息咨询有限公司 | 一种多模型融合的声纹识别方法、终端、服务器及存储介质 |
CN110491392A (zh) * | 2019-08-29 | 2019-11-22 | 广州国音智能科技有限公司 | 一种基于说话人身份的音频数据清洗方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111508503B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251874B (zh) | 一种语音门禁和安静环境监控方法及系统 | |
Kinnunen | Spectral features for automatic text-independent speaker recognition | |
WO2020181824A1 (zh) | 声纹识别方法、装置、设备以及计算机可读存储介质 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
CN113223536A (zh) | 声纹识别方法、装置及终端设备 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
Nandyal et al. | MFCC based text-dependent speaker identification using BPNN | |
CN115171731A (zh) | 一种情绪类别确定方法、装置、设备及可读存储介质 | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
Usman | On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes | |
CN113241059B (zh) | 语音唤醒方法、装置、设备及存储介质 | |
Kekre et al. | Speaker recognition using Vector Quantization by MFCC and KMCG clustering algorithm | |
CN107093430A (zh) | 一种基于小波包变换的声纹特征提取算法 | |
CN111508503B (zh) | 一种识别同一说话人的方法和装置 | |
Saleema et al. | Voice biometrics: the promising future of authentication in the internet of things | |
CN109003613A (zh) | 结合空间信息的声纹识别支付信息防伪方法 | |
CN113077794A (zh) | 一种人声识别系统 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Nguyen et al. | Vietnamese speaker authentication using deep models | |
CN113327590A (zh) | 一种语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd. Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD. |