CN109979466B

CN109979466B - 一种声纹身份同一性鉴定方法、装置及计算机可读存储介质

Info

Publication number: CN109979466B
Application number: CN201910217724.4A
Authority: CN
Inventors: 张越; 段旭恒
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2021-09-17
Anticipated expiration: 2039-03-21
Also published as: CN109979466A

Abstract

本发明提供了一种声纹身份同一性鉴定方法、装置及计算机可读存储介质，该方法包括：获取用于同一性验证的各个待鉴定音频；对各个待鉴定音频进行共振峰提取，得到包含各个待鉴定音频的共振峰走向的宽带声纹图，其中，宽带声纹图的横坐标为带宽，纵坐标为频率；在宽带声纹图中，确定各个待鉴定音频的对应共振峰之间的特征参数；判断特征参数是否在预置范围内，若是，则通过同一性验证，若否，则不通过同一性验证。本发明通过将音频的声纹信息展示成横坐标为带宽、纵坐标为频率的宽带声纹图，可以更为直观的展示出音频的声纹特征，帮助快速验证声纹特征和验证身份同一性，提高声纹鉴定的效率。

Description

一种声纹身份同一性鉴定方法、装置及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声纹身份同一性鉴定方法、装置及计算机可读存储介质。

背景技术

声纹鉴定又称语声鉴定，是对有声言语进行个人身份识别的专门技术，通过声纹同一性鉴定，可以很准确地判断若干段音频是否是同一个人发出的，因此，可以应用于很多场景，如司法中犯罪嫌疑人的辨别。

现有的声纹鉴定中，常规的二维语谱图(声纹宽带图)横坐标是时间，纵坐标是频率，坐标点的颜色深浅表示音强，颜色深浅度难以量化，音强、共振峰走势等声纹特征不够直观，需要会花费大量的人力成本去观察比对。

发明内容

本发明实施例提供了一种声纹身份同一性鉴定方法、装置及计算机可读存储介质，用于解决传统的声纹鉴定中由于二维语谱图的声纹特征不够直观所导致的需要花费大量人力成本去观察比对的技术问题。

根据本发明的一个方面，提供一种声纹身份同一性鉴定方法，包括：

获取用于同一性验证的各个待鉴定音频；

对各个所述待鉴定音频进行共振峰提取，得到包含各个所述待鉴定音频的共振峰走向的宽带声纹图，其中，所述宽带声纹图的横坐标为带宽，纵坐标为频率；

在所述宽带声纹图中，确定各个所述待鉴定音频的对应共振峰之间的特征参数；

判断所述特征参数是否在预置范围内，若是，则通过所述同一性验证，若否，则不通过所述同一性验证。

优选地，所述获取用于同一性验证的各个待鉴定音频之前还包括：

获取各个目标音频，在各个所述目标音频中分别提取具有相同音素的子音频，对应得到用于同一性验证的各个所述待鉴定音频。

优选地，所述在各个所述目标音频中分别提取具有相同音素的子音频具体为：

对各个所述目标音频中分别进行音素检索，确定各个所述目标音频共同具有的相同音素，提取每个所述目标音频中包含所述相同音素的子音频。

优选地，所述对各个所述待鉴定音频进行共振峰提取具体为：

通过线性预测编码技术对各个所述待鉴定音频进行共振峰提取。

优选地，所述在所述宽带声纹图中，确定各个所述待鉴定音频的对应共振峰之间的特征参数具体为：

在所述宽带声纹图的所有共振峰中，依次计算每两个所述待鉴定音频中数量编号相同的所述共振峰之间的特征参数。

优选地，所述特征参数包括：频率、能量和波峰尖锐度差值。

根据本发明的另一方面，提供一种声纹身份同一性鉴定装置，包括：

获取模块，用于获取用于同一性验证的各个待鉴定音频；

第一提取模块，用于对各个所述待鉴定音频进行共振峰提取，得到包含各个所述待鉴定音频的共振峰走向的宽带声纹图，其中，所述宽带声纹图的横坐标为带宽，纵坐标为频率；

确定模块，用于在所述宽带声纹图中，确定各个所述待鉴定音频的对应共振峰之间的特征参数；

判断模块，用于判断所述特征参数是否在预置范围内，若是，则通过所述同一性验证，若否，则不通过所述同一性验证。

优选地，本发明提供的一种声纹身份同一性鉴定装置，还包括：

第二提取模块，用于获取各个目标音频，在各个所述目标音频中分别提取具有相同音素的子音频，对应得到用于同一性验证的各个所述待鉴定音频。

根据本发明的另一方面，提供一种声纹身份同一性鉴定装置，包括处理器和存储器，所述存储器上存储有计算机程序指令，当所述程序指令被处理器执行时实现如以上项所述的声纹身份同一性鉴定方法。

根据本发明的另一方面，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，当所述程序指令被处理器执行时实现如以上所述的声纹身份同一性鉴定方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种声纹身份同一性鉴定方法的一个实施例的流程示意图；

图2为本发明提供的一种声纹身份同一性鉴定方法的另一个实施例的流程示意图；

图3为宽带声纹图的应用例示意图；

图4为本发明提供的一种声纹身份同一性鉴定装置的一个实施例的流程示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种声纹身份同一性鉴定方法的一个实施例，包括：

101、获取用于同一性验证的各个待鉴定音频；

102、对各个待鉴定音频进行共振峰提取，得到包含各个待鉴定音频的共振峰走向的宽带声纹图，其中，宽带声纹图的横坐标为带宽，纵坐标为频率；

103、在宽带声纹图中，确定各个待鉴定音频的对应共振峰之间的特征参数；

104、判断特征参数是否在预置范围内，若是，则通过同一性验证，若否，则不通过同一性验证。

本发明通过将音频的声纹信息展示成横坐标为带宽、纵坐标为频率的宽带声纹图，可以更为直观的展示出音频的声纹特征，帮助快速验证声纹特征和验证身份同一性，提高声纹鉴定的效率。

以上为一种声纹身份同一性鉴定方法的一个实施例，为进行更具体的说明，下面提供一种声纹身份同一性鉴定方法的另一个实施例，请参阅图2，本发明提供的一种声纹身份同一性鉴定方法的另一个实施例，包括：

201、获取各个目标音频，在各个目标音频中分别提取具有相同音素的子音频，对应得到用于同一性验证的各个待鉴定音频；

在本发明实施例中，当需要进行声纹身份验证时，可以先获取用于验证的一批目标音频，通常为两个音频(例如样本录音和检材录音)，为方便说明，以下以两个目标音频进行说明(实际操作中，可以为三个目标音频、四个目标音频等等，此处仅举例进行说明，具体数量不做限制，可根据实际需求进行相应调整)。然后在这两个目标音频中，再进行音素检索，找出两者的相同音素，并在两个目标音频中提取具有该相同音素的子音频，即可以得到两个用于同一性验证的待鉴定音频。

202、获取用于同一性验证的各个待鉴定音频；

得到待鉴定音频后，需要先获取待鉴定音频以进行后续的同一性验证。

203、通过线性预测编码技术对各个待鉴定音频进行共振峰提取，得到包含各个待鉴定音频的共振峰走向的宽带声纹图，其中，宽带声纹图的横坐标为带宽，纵坐标为频率；

通过线性预测编码技术(LPC技术)对两个待鉴定音频进行共振峰提取，可以得到如图3所示的包含两个待鉴定音频的共振峰走向的宽带声纹图。需要说明的是，该宽带声纹图的横坐标为带宽，纵坐标为频率，且每个共振峰走向曲线通过具备4个共振峰。

204、在宽带声纹图的所有共振峰中，依次计算每两个待鉴定音频中数量编号相同的共振峰之间的特征参数；

如图3所示，在宽带声纹图所示出的两个待鉴定音频各自对应的曲线中，每条曲线通常具有4个共振峰，本发明通过计算数量编号相同的共振峰之间的特征参数，以形成辅助线更为直观量化地体现出声学特征信息。具体的，在图3中(图3仅以两个待鉴定音频作为示例)，将曲线a的第一个共振峰和曲线b的第一个共振峰进行比对，通常特征参数可以为频率、能量和波峰尖锐度差值，需要说明的是，两个共振峰的顶点F1和F4之间的横坐标差值为频率，两个共振峰的顶点F1和F4之间的纵坐标差值为能量，两个共振峰的宽度(此处宽度是指，纵坐标即高度一定的前提下，共振峰跨越的宽度)分别为e和f，e和f之间的差值为波峰尖锐度差值。同理，可以得到曲线a和曲线b的第二个共振峰之间、第三共振峰之间和第四共振峰之间的三个特征参数，然后判断这四组参数是否均在预置范围内，以进行同一性验证。

为方便说明，以上是以两个待鉴定音频作为示例进行说明的，若在实际操作中，出现两个以上的待鉴定音频，可以逐次在所有曲线中将每两个待鉴定音频对应的曲线进行如上比对即可，直至完成所有曲线组合的比对。

205、判断特征参数是否在预置范围内，若是，则通过同一性验证，若否，则不通过同一性验证。

本发明为了进行同一性验证，需要先提前设置用于判断特征参数是否合格的预置范围，该预置范围通常包含三个单位，即预置频率范围、预置能量范围、预置波峰尖锐度差值范围，当步骤204得到的三个特征参数均落入对应的范围，即说明待鉴定音频可以通过同一性验证，若部分未落入或全部未落入对应的范围，即说明待鉴定音频无法通过同一性验证。

本发明的带辅助线(即上述特征参数)的宽带声纹图相比传统的二维语谱图相比，语音的频域、音强、共振峰数量、共振峰走向等声学特征信息更加直观容易量化，帮助快速验证声纹特征和验证身份同一性，提高声纹鉴定的效率。

以上是对本发明提供的一种声纹身份同一性鉴定方法进行的详细说明，以下将对本发明提供的一种声纹身份同一性鉴定装置的结构和连接关系进行说明，请查阅图4，本发明提供的一种声纹身份同一性鉴定装置的一个实施例，包括：

获取模块401，用于获取用于同一性验证的各个待鉴定音频；

第一提取模块402，用于对各个待鉴定音频进行共振峰提取，得到包含各个待鉴定音频的共振峰走向的宽带声纹图，其中，宽带声纹图的横坐标为带宽，纵坐标为频率；

确定模块403，用于在宽带声纹图中，确定各个待鉴定音频的对应共振峰之间的特征参数；

判断模块404，用于判断特征参数是否在预置范围内，若是，则通过同一性验证，若否，则不通过同一性验证。

更进一步地，本发明提供的一种声纹身份同一性鉴定装置，还包括：

第二提取模块400，用于获取各个目标音频，在各个目标音频中分别提取具有相同音素的子音频，对应得到用于同一性验证的各个待鉴定音频。

更进一步地，第二提取模块400还用于获取各个目标音频，对各个目标音频中分别进行音素检索，确定各个目标音频共同具有的相同音素，提取每个目标音频中包含相同音素的子音频，对应得到用于同一性验证的各个待鉴定音频。

更进一步地，第一提取模块402还用于通过线性预测编码技术对各个待鉴定音频进行共振峰提取，得到包含各个待鉴定音频的共振峰走向的宽带声纹图，其中，宽带声纹图的横坐标为带宽，纵坐标为频率。

更进一步地，确定模块403还用于在宽带声纹图的所有共振峰中，依次计算每两个待鉴定音频中数量编号相同的共振峰之间的特征参数。

更进一步地，特征参数包括：频率、能量和波峰尖锐度差值。

本发明提供的一种声纹身份同一性鉴定装置的另一个实施例，包括处理器和存储器，该存储器上存储有计算机程序指令，当该程序指令被处理器执行时实现如以上项所述的声纹身份同一性鉴定方法。

本发明还涉及一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，当该程序指令被处理器执行时实现如以上所述的声纹身份同一性鉴定方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹身份同一性鉴定方法，其特征在于，包括：

获取各个目标音频，在各个所述目标音频中分别提取具有相同音素的子音频，对应得到用于同一性验证的各个待鉴定音频；

获取用于同一性验证的各个待鉴定音频；

对各个所述待鉴定音频进行共振峰提取，得到包含各个所述待鉴定音频的共振峰走向的宽带声纹图，其中，所述宽带声纹图的横坐标为频率，纵坐标为带宽；

在所述宽带声纹图中，确定各个所述待鉴定音频的对应共振峰之间的特征参数；所述特征参数包括：频率、能量和波峰尖锐度差值；所述波峰尖锐度差值为两个待鉴定音频的两个共振峰跨越的宽度；

具体为：

在所述宽带声纹图的所有共振峰中，依次计算每两个所述待鉴定音频中数量编号相同的所述共振峰之间的特征参数；

2.根据权利要求1所述的声纹身份同一性鉴定方法，其特征在于，所述在各个所述目标音频中分别提取具有相同音素的子音频具体为：

3.根据权利要求1所述的声纹身份同一性鉴定方法，其特征在于，所述对各个所述待鉴定音频进行共振峰提取具体为：

4.一种声纹身份同一性鉴定装置，其特征在于，包括：

第二提取模块，用于获取各个目标音频，在各个所述目标音频中分别提取具有相同音素的子音频，对应得到用于同一性验证的各个待鉴定音频；

获取模块，用于获取用于同一性验证的各个待鉴定音频；

第一提取模块，用于对各个所述待鉴定音频进行共振峰提取，得到包含各个所述待鉴定音频的共振峰走向的宽带声纹图，其中，所述宽带声纹图的横坐标为频率，纵坐标为带宽；

确定模块，用于在所述宽带声纹图中，确定各个所述待鉴定音频的对应共振峰之间的特征参数；所述特征参数包括：频率、能量和波峰尖锐度差值；所述波峰尖锐度差值为两个待鉴定音频的两个共振峰跨越的宽度；

具体为：

5.一种声纹身份同一性鉴定装置，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序指令，当所述程序指令被处理器执行时实现如权利要求1至权利要求3中任一项所述的声纹身份同一性鉴定方法。

6.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序指令，当所述程序指令被处理器执行时实现如权利要求1至权利要求3中任一项所述的声纹身份同一性鉴定方法。