CN111508503A

CN111508503A - 一种识别同一说话人的方法和装置

Info

Publication number: CN111508503A
Application number: CN202010545180.7A
Authority: CN
Inventors: 张晴晴; 贾艳明; 张雪璐; 岑吴镕
Original assignee: Beijing Aishu Wisdom Technology Co ltd
Current assignee: Beijing Qingshu Intelligent Technology Co ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-08-07
Anticipated expiration: 2040-06-16
Also published as: CN111508503B

Abstract

本发明公开一种识别同一说话人的方法和装置，该方法包括以下步骤：采集第一音频和第二音频，所述第一音频为第一说话人在第一背景环境下输出的人声，所述第二音频为第二说话人在所述第一背景环境下输出的人声；获取与所述第一背景环境对应的第一阈值；判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第二说话人为同一说话人。本发明针对声纹识别的环境因素、语种等外部因素，判断音频背景环境并进行分类，从而确定阈值，并基于该阈值判断两个说话人是否为同一说话人，能够提升说话人识别的正确率。

Description

一种识别同一说话人的方法和装置

技术领域

本发明涉及音频技术领域，特别涉及一种识别同一说话人的方法和装置。

背景技术

人类语言的产生，是人体语言中枢与发音器官之间一个复杂的生理物理过程。人在讲话时使用的发声器官（舌、牙齿、喉头、肺和鼻腔）在尺寸和形态方面，每个人的差异很大，所以，任何两个人的声纹图谱都有差异。所谓声纹(Voiceprint)，是指用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟和伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

作为生物识别技术的一种，声纹识别也称为说话人识别，包括说话人辨认和说话人确认。声纹识别技术将声音信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，例如，缩小刑侦范围时，可能需要说话人辨认技术，而银行交易时，则需要说话人确认技术。

与其他生物特征相比，声纹识别的应用仍具有以下优势：（1）蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；（2）获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；（3）适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路（通讯网络或互联网络）实现远程登录；（4）声纹辨认和确认的算法复杂度低；（5）配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，声纹识别的世界市场占有率为15.8%，仅次于基于指纹和掌纹的生物特征识别，并有不断上升的趋势。

然而，现有技术中，由于不同背景环境（如车载噪声，电话信道）以及语种等因素影响，会导致声纹识别结果不可靠。

发明内容

本发明提供了一种识别同一说话人的方法和装置，以解决现有技术中声纹识别结果不可靠的缺陷。

本发明提供了一种识别同一说话人的方法，包括以下步骤：

采集第一音频和第二音频，所述第一音频为第一说话人在第一背景环境下输出的人声，所述第二音频为第二说话人在所述第一背景环境下输出的人声；

获取与所述第一背景环境对应的第一阈值；

判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第二说话人为同一说话人。

可选地，所述获取与所述第一背景环境对应的第一阈值，包括：

根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值。

可选地，所述根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值，包括：

获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值，以及与所述第一音频的信噪比对应的第一信噪比阈值；

根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值，确定所述第一阈值。

可选地，所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值，确定所述第一阈值，包括：

将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。

可选地，不同的噪声类型对应不同的噪声阈值，不同的说话语种对应不同的语种阈值，不同的信噪比对应不同的信噪比阈值。

可选地，所述的方法，还包括：

采集第三音频，所述第三音频为第三说话人在第二背景环境下输出的人声；

获取与所述第二背景环境对应的第二阈值；

如果所述第一阈值大于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人；

如果所述第一阈值小于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人。

本发明还提供了一种识别同一说话人的装置，包括：

第一采集模块，用于采集第一音频和第二音频，所述第一音频为第一说话人在第一背景环境下输出的人声，所述第二音频为第二说话人在所述第一背景环境下输出的人声；

第一获取模块，用于获取与所述第一背景环境对应的第一阈值；

确定模块，用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第二说话人为同一说话人。

可选地，所述第一获取模块，具体用于根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值。

可选地，所述第一获取模块，具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值，以及与所述第一音频的信噪比对应的第一信噪比阈值；根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值，确定所述第一阈值。

可选地，所述的装置，还包括：

第二采集模块，用于采集第三音频，所述第三音频为第三说话人在第二背景环境下输出的人声；

第二获取模块，用于获取与所述第二背景环境对应的第二阈值；

所述确定模块，还用于如果所述第一阈值大于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人；如果所述第一阈值小于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人。

本发明针对声纹识别的环境因素、语种等外部因素，判断音频背景环境并进行分类，从而确定阈值，并基于该阈值判断两个说话人是否为同一说话人，能够提升说话人识别的正确率。

附图说明

图1为本发明实施例中的一种识别同一说话人的方法流程图；

图2为本发明实施例中的另一种识别同一说话人的方法流程图；

图3为本发明实施例中的一种识别同一说话人的装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种识别同一说话人的方法，如图1所示，包括以下步骤：

步骤101，采集第一音频和第二音频，所述第一音频为第一说话人在第一背景环境下输出的人声，所述第二音频为第二说话人在所述第一背景环境下输出的人声；

步骤102，获取与所述第一背景环境对应的第一阈值；

具体地，可以根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值。

其中，信噪比的判断方法为：通过音频声学模型，确定人声段时间和噪声段时间，从而获得信噪比参数；噪声类型的判断方法为：根据噪声段时间，提取对应音频噪声，根据已训练的噪声类型识别模型判断噪声类型；说话语种的判断方法为：通过语种识别模型训练得到说话语种。

本实施例中，可以获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值，以及与所述第一音频的信噪比对应的第一信噪比阈值；根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值，确定所述第一阈值。其中，不同的噪声类型可以对应不同的噪声阈值，不同的说话语种可以对应不同的语种阈值，不同的信噪比可以对应不同的信噪比阈值。噪声类型包含但不限于四类：安静无噪声、车载噪声、电话噪声和其他噪声；说话语种包含但不仅限于普通话，粤语，上海话，武汉话，闽南语，菲律宾语，马来语，泰语，英语，印度英语，澳大利亚英语，土耳其语等语种；信噪比包含并不限于四档：大于30，5至30，1至5，小于1。

作为一种优选的实施方式，可以将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。

例如，四种噪声阈值为0(安静无噪声)，30(车载)，40(电话)，10(其他噪声)；四档信噪比阈值为0(大于30)，10(5至30)，30(1至5)，50(小于1)；说话语种阈值根据具体语种而定，如普通话阈值为30，马来语阈值为70。第一阈值的计算方法为：第一阈值 = 第一语种阈值 + 第一噪声阈值 + 第一信噪比阈值。

步骤103，判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第二说话人为同一说话人。

本实施例中，在模型训练部分，将说话人音频背景进行标注，而后混合；利用PLDA（概率线性判别分析）信道补偿技术，调整音频提取背景模型，该模型与具体说话人以及信道无关；根据音频提取背景模型及标注内容，进行分析，获得多阈值策略。在数据检测部分，采集不同环境的说话人音频，并混合；根据音频的噪声类型、说话语种、信噪比等，判断出说话人的背景类型；根据不同的类型，采取不同的阈值策略，两两判断说话人是重复。

本发明实施例针对声纹识别的环境因素、语种等外部因素，判断音频背景环境并进行分类，从而确定阈值，并基于该阈值判断两个说话人是否为同一说话人，能够提升说话人识别的正确率，由原先的94%提高到95%以上，并降低误判率，由原先的10%以上降低到3%以下。

在上述实施例中，针对不同的背景环境，基于不同阈值对音频进行判断，背景环境越复杂，判断越严格。若两种音频分属于不同的背景环境，则基于较低的阈值对音频进行判断，具体实施方式，如图2所示，包括以下步骤：

步骤201，采集第一音频和第三音频，所述第一音频为第一说话人在第一背景环境下输出的人声，所述第三音频为第三说话人在第二背景环境下输出的人声；

步骤202，获取与所述第一背景环境对应的第一阈值以及与所述第二背景环境对应的第二阈值；

具体地，可以根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值；根据所述第三音频的噪声类型、说话语种和信噪比，确定与所述第二背景环境对应的第二阈值。

本实施例中，可以获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值，以及与所述第一音频的信噪比对应的第一信噪比阈值；根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值，确定所述第一阈值。相应地，可以获取与所述第三音频的噪声类型对应的第二噪声阈值、与所述第三音频的说话语种对应的第二语种阈值，以及与所述第三音频的信噪比对应的第二信噪比阈值；根据所述第二噪声阈值、所述第二语种阈值和所述第二信噪比阈值，确定所述第二阈值。

其中，不同的噪声类型可以对应不同的噪声阈值，不同的说话语种可以对应不同的语种阈值，不同的信噪比可以对应不同的信噪比阈值。

作为一种优选的实施方式，可以将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值；将所述第二噪声阈值、所述第二语种阈值和所述第二信噪比阈值相加之和作为所述第二阈值。

步骤203，如果所述第一阈值大于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人；

步骤204，如果所述第一阈值小于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人。

本发明实施例针对声纹识别的环境因素、语种等外部因素，判断音频背景环境并进行分类，从而确定阈值，并基于该阈值判断两个说话人是否为同一说话人，能够提升说话人识别的正确率。

基于上述识别同一说话人的方法，本发明实施例还提供了一种识别同一说话人的装置，如图3所示，包括：

第一采集模块310，用于采集第一音频和第二音频，所述第一音频为第一说话人在第一背景环境下输出的人声，所述第二音频为第二说话人在所述第一背景环境下输出的人声；

第一获取模块320，用于获取与所述第一背景环境对应的第一阈值；

确定模块330，用于判断所述第一音频和所述第二音频的相似度是否大于所述第一阈值，若是，则确定所述第一说话人和所述第二说话人为同一说话人。

具体地，上述第一获取模块320，具体用于根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值。

本实施例中，第一获取模块320，具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值，以及与所述第一音频的信噪比对应的第一信噪比阈值；根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值，确定所述第一阈值。

其中，所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值，确定所述第一阈值，包括：将所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值相加之和作为所述第一阈值。不同的噪声类型对应不同的噪声阈值，不同的说话语种对应不同的语种阈值，不同的信噪比对应不同的信噪比阈值。

进一步地，上述装置还包括：

所述确定模块330，还用于如果所述第一阈值大于所述第二阈值，则判断所述第一音频和所述第三音频的相似度是否大于所述第二阈值，若是，则确定所述第一说话人和所述第三说话人为同一说话人；

结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别同一说话人的方法，其特征在于，包括以下步骤：

获取与所述第一背景环境对应的第一阈值；

2.如权利要求1所述的方法，其特征在于，所述获取与所述第一背景环境对应的第一阈值，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述第一噪声阈值、所述第一语种阈值和所述第一信噪比阈值，确定所述第一阈值，包括：

5.如权利要求3所述的方法，其特征在于，不同的噪声类型对应不同的噪声阈值，不同的说话语种对应不同的语种阈值，不同的信噪比对应不同的信噪比阈值。

6.如权利要求1所述的方法，其特征在于，还包括：

获取与所述第二背景环境对应的第二阈值；

7.一种识别同一说话人的装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，

所述第一获取模块，具体用于根据所述第一音频的噪声类型、说话语种和信噪比，确定与所述第一背景环境对应的第一阈值。

9.如权利要求8所述的装置，其特征在于，

所述第一获取模块，具体用于获取与所述第一音频的噪声类型对应的第一噪声阈值、与所述第一音频的说话语种对应的第一语种阈值，以及与所述第一音频的信噪比对应的第一信噪比阈值；根据所述第一噪声阈值、第一语种阈值和所述第一信噪比阈值，确定所述第一阈值。

10.如权利要求7所述的装置，其特征在于，还包括：