CN110634490A

CN110634490A - 一种声纹鉴定方法、装置和设备

Info

Publication number: CN110634490A
Application number: CN201910990127.5A
Authority: CN
Inventors: 郑琳琳
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2019-12-31
Anticipated expiration: 2039-10-17
Also published as: CN110634490B

Abstract

本申请公开了一种声纹鉴定方法、装置和设备，其中方法包括：获取待鉴定音频样本中预置音素的语谱图，语谱图中包括预置音素的多个共振峰；对语谱图进行分割，得到多个子语谱图，每个子语谱图中只包括预置音素的一个共振峰；对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰；计算每个子共振峰的斜率；保留斜率小于阈值的子共振峰，去除斜率大于或等于阈值的子共振峰；在每个共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰；将比对共振峰与检材中的预置音素的共振峰进行比对，得到声纹鉴定结果，解决了现有的声纹鉴定方法直接采用不平滑的共振峰进行鉴定，从而导致鉴定准确率较低的技术问题。

Description

一种声纹鉴定方法、装置和设备

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种声纹鉴定方法、装置和设备。

背景技术

声纹鉴定技术是生物识别技术中的一种，在刑事侦查或司法鉴定等领域中应用比较多。现有的声纹鉴定方法主要是将获得的音频输入到声纹鉴定系统中，获得语谱图，将获得的待鉴定语谱图中的共振峰与数据库中的检材语谱图中的共振峰进行比对，获得鉴定结果。现有的声纹鉴定方法一般是直接采用共振峰进行比对，受发音的影响，共振峰并不都是平滑的，很容易造成将不平滑的共振峰拿去比对，从而导致鉴定准确率较低。

发明内容

本申请提供了一种声纹鉴定方法、装置和设备，用于解决现有的声纹鉴定方法直接采用不平滑的共振峰进行鉴定，从而导致鉴定准确率较低的技术问题。

有鉴于此，本申请第一方面提供了一种声纹鉴定方法，包括：

获取待鉴定音频样本中预置音素的语谱图，所述语谱图中包括所述预置音素的多个共振峰；

对所述语谱图进行分割，得到多个子语谱图，每个所述子语谱图中只包括所述预置音素的一个共振峰；

对每个所述子语谱图中的共振峰进行平均分割，得到多个子共振峰；

计算每个所述子共振峰的斜率；

保留所述斜率小于阈值的子共振峰，去除所述斜率大于或等于所述阈值的子共振峰；

在每个所述共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰；

将所述比对共振峰与检材中的所述预置音素的共振峰进行比对，得到声纹鉴定结果。

可选的，所述对所述语谱图进行分割，得到多个子语谱图，所述子语谱图中只包括所述预置音素的一个共振峰，之前还包括：

将所述语谱图缩放到预置大小。

可选的，所述对每个所述子语谱图中共振峰进行平均分割，得到多个子共振峰，具体包括：

基于时域对每个所述子语谱图中的共振峰进行平均分割，得到多个子共振峰。

可选的，所述计算每个所述子共振峰的斜率，具体包括：

根据每个所述子共振峰的起始位置和终点位置，计算每个所述子共振峰的斜率。

可选的，所述在每个所述共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰，具体包括：

在每个所述共振峰的所述子共振峰中选择最大重合的子共振峰，得到比对共振峰。

本申请第二方面提供了一种声纹鉴定装置，包括：

获取模块，用于获取待鉴定音频样本中预置音素的语谱图，所述语谱图中包括所述预置音素的多个共振峰；

第一分割模块，用于对所述语谱图进行分割，得到多个子语谱图，每个所述子语谱图中只包括所述预置音素的一个共振峰；

第二分割模块，用于对每个所述子语谱图中的共振峰进行平均分割，得到多个子共振峰；

计算模块，用于计算每个所述子共振峰的斜率；

处理模块，用于保留所述斜率小于阈值的子共振峰，去除所述斜率大于或等于所述阈值的子共振峰；

选择模块，用于在每个所述共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰；

鉴定模块，用于将所述比对共振峰与检材中的所述预置音素的共振峰进行比对，得到声纹鉴定结果。

可选的，还包括：

缩放模块，用于将所述语谱图缩放到预置大小。

可选的，所述第二分割模块，具体用于：

本申请第三方面提供了一种声纹鉴定设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一项所述的声纹鉴定方法。

本申请第四方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任意一项所述的声纹鉴定方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种声纹鉴定方法，包括：获取待鉴定音频样本中预置音素的语谱图，语谱图中包括预置音素的多个共振峰；对语谱图进行分割，得到多个子语谱图，每个子语谱图中只包括预置音素的一个共振峰；对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰；计算每个子共振峰的斜率；保留斜率小于阈值的子共振峰，去除斜率大于或等于阈值的子共振峰；在每个共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰；将比对共振峰与检材中的预置音素的共振峰进行比对，得到声纹鉴定结果。

本申请中提供的声纹鉴定方法，通过对获得的待鉴定音频样本中预置音素的语谱图进行分割，得到多个子语谱图，对该子语谱图中的共振峰进行平均分割，得到多个子共振峰，计算每个子共振峰的斜率，通过比较斜率与阈值的大小，去除掉斜率大于或等于阈值的子共振峰，即去除不平滑的子共振峰，保留斜率小于阈值的子共振峰，即保留平滑的子共振峰，通过斜率筛选出平滑的共振峰，去除不平滑的共振峰，从保留的平滑的子共振峰中选择多个连续的子共振峰作为比对共振峰，用来与检材中的相同预置音素的共振峰进行比对，避免了将不平滑的的共振峰用于声纹鉴定，从而提高了声纹鉴定的准确率，解决了现有的声纹鉴定方法直接采用不平滑的共振峰进行鉴定，从而导致鉴定准确率较低的技术问题。

附图说明

图1为本申请提供的一种声纹鉴定方法的一个实施例的流程示意图；

图2为本申请提供的一种声纹鉴定方法的另一个实施例的流程示意图；

图3为本申请提供的一种声纹鉴定装置的一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种声纹鉴定方法的一个实施例，包括：

步骤101、获取待鉴定音频样本中预置音素的语谱图。

需要说明的是，可以将待鉴定音频样本导入到声纹鉴定系统中，得到语谱图，也可以采用其他的方式，在此不做具体的限定，其中，该语谱图中包括预置音素的多个共振峰，采用多个共振峰是为了避免采用一个共振峰进行处理，存在偶然性误差，从而影响声纹鉴定结果。

步骤102、对语谱图进行分割，得到多个子语谱图。

需要说明的是，可以根据语谱图中的共振峰的个数对该语谱图进行分割，得到与共振峰数量相同的多个子语谱图，其中，每个子语谱图中只包括预置音素的一个共振峰。

步骤103、对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰。

需要说明的是，对每个子语谱图中的共振峰进行平均分割，得到n等份的子共振峰，以便于后续计算每个子共振峰的斜率。

步骤104、计算每个子共振峰的斜率。

需要说明的是，考虑到不平滑的共振峰对声纹鉴定结果的影响，本申请实施例中通过计算每个子共振峰的斜率以便于后续判断子共振峰是否是平滑的子共振峰。

步骤105、保留斜率小于阈值的子共振峰，去除斜率大于或等于阈值的子共振峰。

需要说明的是，考虑到一个音素的共振峰受发音影响，共振峰并不都是平滑的，尤其在首尾会有较大的起伏，而采用不平滑的共振峰进行声纹鉴定，会影响声纹鉴定的准确率，因此，本申请实施例中通过判断斜率与阈值的大小，保留小于阈值的斜率对应的子共振峰，去除大于或等于阈值的斜率对应的子共振峰，从而去除不平滑的子共振峰，保留平滑的子共振峰。

步骤106、在每个共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰。

需要说明的是，对每个共振峰的子共振峰进行斜率筛选，去除了不平滑的子共振峰，在每个共振峰保留的多个平滑子共振峰中选出多个子共振峰作为比对共振峰，其中，比对共振峰中的子共振峰需是连续的，以便于后续进行声纹比对。

步骤107、将比对共振峰与检材中的预置音素的共振峰进行比对，得到声纹鉴定结果。

需要说明的是，得到的比对共振峰是平滑的共振峰，将平滑的比对共振峰与检材中的相同预置音素的共振峰进行比对，得到声纹鉴定结果。

本申请实施例提供了一种声纹鉴定方法，包括：获取待鉴定音频样本中预置音素的语谱图，语谱图中包括预置音素的多个共振峰；对语谱图进行分割，得到多个子语谱图，每个子语谱图中只包括预置音素的一个共振峰；对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰；计算每个子共振峰的斜率；保留斜率小于阈值的子共振峰，去除斜率大于或等于阈值的子共振峰；在每个共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰；将比对共振峰与检材中的预置音素的共振峰进行比对，得到声纹鉴定结果。

本申请实施例中提供的声纹鉴定方法，通过对获得的待鉴定音频样本中预置音素的语谱图进行分割，得到多个子语谱图，对该子语谱图中的共振峰进行平均分割，得到多个子共振峰，计算每个子共振峰的斜率，通过比较斜率与阈值的大小，去除掉斜率大于或等于阈值的子共振峰，即去除不平滑的子共振峰，保留斜率小于阈值的子共振峰，即保留平滑的子共振峰，通过斜率筛选出平滑的共振峰，去除不平滑的共振峰，从保留的平滑的子共振峰中选择多个连续的子共振峰作为比对共振峰，用来与检材中的相同预置音素的共振峰进行比对，避免了将不平滑的的共振峰用于声纹鉴定，从而提高了声纹鉴定的准确率，解决了现有的声纹鉴定方法直接采用不平滑的共振峰进行鉴定，从而导致鉴定准确率较低的技术问题。

为了便于理解，请参考图2，本申请提供的一种声纹鉴定方法的另一个实施例，包括：

步骤201、获取待鉴定音频样本中预置音素的语谱图。

需要说明的是，可以将待鉴定音频样本导入到声纹鉴定系统中，得到语谱图，也可以采用其他的方式，在此不做具体的限定，其中，该语谱图中包括预置音素的多个共振峰，共振峰的个数可以是4个或5个。

步骤202、将语谱图缩放到预置大小。

需要说明的是，为了便于观察和后续操作，可以对语谱图进行缩放，可以将该语谱图放大到预置大小，预置大小可以是2000％，预置大小可以根据实际情况进行设置。

步骤203、对语谱图进行分割，得到多个子语谱图。

需要说明的是，可以根据语谱图中的共振峰的个数对该语谱图进行分割，得到与共振峰数量相同的多个子语谱图，可以根据每个共振峰的起始位置和终点位置对语谱图进行分割，得到多个子语谱图，其中，每个子语谱图中只包括预置音素的一个共振峰。例如，共振峰有4个，分割后的子语谱图数量也为4个。

步骤204、对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰。

需要说明的是，基于时域对每个子语谱图中的共振峰进行平均分割，得到n等份的子共振峰，以便于后续计算每个子共振峰的斜率，n为大于0的整数，n的取值可以根据实际情况进行设置，n可以是10、16或20。例如，共振峰的数量为4个，分别为F1、F2、F3和F4，可以基于时域对每个共振峰进行平均分割，可以分割成10等份的子共振峰，依次分别表示为A、B、C、D、E、F、G、H、I和J，第一条共振峰的第一子共振峰为F1A，第二条共振峰的第二子共振峰为F2B。

步骤205、计算每个子共振峰的斜率。

可以根据每个子共振峰的起始位置和终点位置，计算每个子共振峰的斜率。

步骤206、保留斜率小于阈值的子共振峰，去除斜率大于或等于阈值的子共振峰。

需要说明的是，考虑到一个音素的共振峰受发音影响，共振峰并不都是平滑的，尤其在首尾会有较大的起伏，而采用不平滑的共振峰进行声纹鉴定，会影响声纹鉴定的准确率，因此，本申请实施例中通过判断斜率与阈值的大小，保留小于阈值的斜率对应的子共振峰，去除大于或等于阈值的斜率对应的子共振峰，从而去除不平滑的子共振峰，保留平滑的可供比对的子共振峰，需要注意的是，保留的平滑的子共振峰需是连续的子共振峰。

可以是计算完所有的子共振峰的斜率后，再进行判断，也可以是计算完一个子共振峰的斜率，就进行判断，阈值可以根据实际情况进行设置，可以设置为0.577。例如，沿用前述例子，4个共振峰分别表示为F1、F2、F3和F4，每个共振峰被平均分成10等份，依次分别表示为A、B、C、D、E、F、G、H、I和J，以第一条共振峰F1为例，根据第一条共振峰F1的各个子共振峰的起始位置和终点位置，计算得到F1A、F1B、F1C、F1D、F1E、F1F、F1G、F1H、F1I和F1J的斜率分别为0.500、0.640、0.495、0.522、0.532、0.548、0.550、0.562、0.602和0.588，假设阈值为0.577，可知，F1B、F1I和F1J的斜率大于0.577，所以F1B、F1I和F1J这三条子共振峰为不平滑的，则去除F1B、F1I和F1J；F1A、F1C、F1D、F1E、F1F、F1G和F1H的斜率均小于0.577，所以F1A、F1C、F1D、F1E、F1F、F1G和F1H这7条子共振峰为平滑的，由于F1A和F1C之间是不连续的，所以F1A去除，最终F1保留的平滑的连续子共振峰是CDEFGH。

步骤207、在每个共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰。

需要说明的是，对每个共振峰的子共振峰进行斜率筛选，去除了不平滑的子共振峰，在每个共振峰保留的多个平滑子共振峰中选择最大重合的子共振峰作为比对共振峰，以便于后续进行声纹比对，其中每个共振峰最大重合的子共振峰数不能少于预置数量，该预置数量可以是4个或5个，可以根据实际情况进行设置，并且选取的重合的子共振峰一定是连续的。例如，假设预先设置共振峰的数量为4个，最大重合的子共振峰数量为4个，最终F1保留的平滑的子共振峰是CDEFGH，F2最终保留的子共振峰为DEFGH，F3最终保留的子共振峰为DEFG，以及F4最终保留的子共振峰为DEFGHI，在F1、F2、F3和F4中剩余的子共振峰中选出的最大重合的子共振峰为DEFG，并且DEFG的子共振峰的数量为4个，满足要求，因此，F1、F2、F3和F4每个共振峰筛选出来的子共振峰DEFG组成了比对共振峰，该比对共振峰包含了4组子共振峰DEFG，分别为F1DF1EF1FF1G、F2DF2EF2FF2G、F3DF3EF3FF3G和F4DF4EF4FF4G。

步骤208、将比对共振峰与检材中的相同预置音素的共振峰进行比对，得到声纹鉴定结果。

需要说明的是，可以通过检材音频中的预置音素的语谱图获得检材中预置音素的共振峰，检材中预置音素的该共振峰数量与待鉴定音频样本中预置音素的共振峰数量一致，可以对检测中的语谱图进行分割，得到子语谱图，然后对子语谱图中的共振峰进行平均分割，得到多个子共振峰，可以从检材中的多个子共振峰中选择与比对共振峰对应的多个子共振峰，作为检材共振峰，可以计算比对共振峰与检测共振峰的各个共振峰的频率偏差，若得到各个共振峰的频率偏差在预置范围内，则认为该待鉴定音频样本中的声纹与检材音频中的声纹为同一声纹，若得到各个共振峰的频率偏差有一个频率偏差不在预置范围内，则认为该待鉴定音频样本中的声纹与检材音频中的声纹为不同声纹。例如，沿用上述例子，待鉴定音频样本中预置音素的共振峰数量为4个，那么获取的检材中预置音素的共振峰数量也为4个，其中，判断是否为同一声纹的条件是第一个共振峰的频率偏差小于12％，第二个共振峰的频率偏差小于9％，第三个共振峰的频率偏差在5％-6％之间，第四个共振峰的频率偏差在5％-6％之间。待鉴定音频样本通过斜率筛选掉了不平滑的子共振峰，最终选择的重合的子共振峰为DEFG，那么，同样的，也可以对检材中的4个共振峰进行平均分割，分成10等份，选择每个共振峰中的子共振峰DEFG用于与比对共振峰进行比对，得到检材共振峰，计算比对共振峰中的4个共振峰与检材共振峰中对应的4个共振峰的频率偏差，假设计算得到的频率偏差分别为10％、6％、5.5％和7％，可知第四个共振峰的频率偏差不在5％-6％之间，所以待鉴定音频中的声纹与检测音频中的该声纹不是同一声纹，即不是同一人，可以在检材音频中继续选择该预置音素的其他音频，再进行比对。

为了便于理解，请参阅图3，本申请提供的一种声纹鉴定装置的一个实施例，包括：

获取模块301，用于获取待鉴定音频样本中预置音素的语谱图，语谱图中包括所述预置音素的多个共振峰；

第一分割模块302，用于对语谱图进行分割，得到多个子语谱图，每个子语谱图中只包括预置音素的一个共振峰；

第二分割模块303，用于对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰；

计算模块304，用于计算每个子共振峰的斜率；

处理模块305，用于保留斜率小于阈值的子共振峰，去除斜率大于或等于阈值的子共振峰；

选择模块306，用于在每个共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰；

鉴定模块307，用于将比对共振峰与检材中的预置音素的共振峰进行比对，得到声纹鉴定结果。

进一步的，还包括：

缩放模块308，用于将语谱图缩放到预置大小。

进一步的，第二分割模块303，具体用于：

基于时域对每个子语谱图中的共振峰进行平均分割，得到多个子共振峰。

本申请提供了一种声纹鉴定设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述声纹鉴定方法实施例中的声纹鉴定方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述声纹鉴定方法实施例中的声纹鉴定方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种声纹鉴定方法，其特征在于，包括：

计算每个所述子共振峰的斜率；

2.根据权利要求1所述的声纹鉴定方法，其特征在于，所述对所述语谱图进行分割，得到多个子语谱图，所述子语谱图中只包括所述预置音素的一个共振峰，之前还包括：

将所述语谱图缩放到预置大小。

3.根据权利要求1所述的声纹鉴定方法，其特征在于，所述对每个所述子语谱图中共振峰进行平均分割，得到多个子共振峰，具体包括：

4.根据权利1所述的声纹鉴定方法，其特征在于，所述计算每个所述子共振峰的斜率，具体包括：

5.根据权利1所述的声纹鉴定方法，其特征在于，所述在每个所述共振峰保留的子共振峰中选出多个子共振峰，得到比对共振峰，具体包括：

6.一种声纹鉴定装置，其特征在于，包括：

计算模块，用于计算每个所述子共振峰的斜率；

7.根据权利要求6所述的声纹鉴定装置，其特征在于，还包括：

缩放模块，用于将所述语谱图缩放到预置大小。

8.根据权利要求6所述的声纹鉴定装置，其特征在于，所述第二分割模块，具体用于：

9.一种声纹鉴定设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的声纹鉴定方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任意一项所述的声纹鉴定方法。