CN110164454B

CN110164454B - 一种基于共振峰偏差的音频同一性判别方法及装置

Info

Publication number: CN110164454B
Application number: CN201910440519.4A
Authority: CN
Inventors: 郑琳琳; 李�浩; 谢擎天; 曹虎
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-08-24
Anticipated expiration: 2039-05-24
Also published as: CN110164454A

Abstract

本申请实施例公开了一种基于共振峰偏差的音频同一性判别方法及装置，包括以下步骤：从同一文件中获取若干同一音素样本作为样本集合进行偏差分析，得到各音素样本的第一共振峰频率偏差值；判断样本集合中是否存在第一共振峰频率偏差值超过了预设的共振峰频率最大偏差，若是，剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并重新新的音素样本至样本集合中得到新的样本集合，将新的样本集合进行偏差分析，并反复迭代，直到样本集合中所有音素样本均属于同一个人。本申请对不需要依赖于鉴定人员的技术和经验，通过提取共振峰频率，在数据上做出更加准确的对比和判定，具有较高的可靠性。

Description

一种基于共振峰偏差的音频同一性判别方法及装置

技术领域

本申请涉及音频同一性鉴定技术领域，尤其涉及一种基于共振峰偏差的音频同一性判别方法及装置。

背景技术

数字音频司法鉴定常用的鉴定方法是对音频证物中说话者身份的鉴定，即对涉案人的语音与样本语音(当事人或嫌疑人的语音)的语言学特征进行综合对比分析，确定两者是否是属于同一个人的语音。司法鉴定领域称之为同一性鉴定。

在以往的音频同一性鉴定中，往往是通过观测共振峰位置、走势等宏观特性作为判定依据。这种宏观上的测评技术对鉴定人的技术、经验依赖性较高，同时也受到检材音频状况的影响较大，并且可靠性不高。

发明内容

本申请实施例提供了一种基于共振峰偏差的音频同一性判别方法及装置，解决了现有技术中仅通过观测共振峰位置、走势等宏观特性作为判定依据，对鉴定人的技术、经验依赖性较高，同时也受到检材音频状况的影响较大，可靠性不高的技术问题。

有鉴于此，本申请第一方面提供了一种基于共振峰偏差的音频同一性判别方法，所述方法包括：

101、从同一文件中获取若干同一音素样本作为样本集合，对所述样本集合中的所述音素样本进行偏差分析，得到各音素样本的第一共振峰频率偏差值，所述同一音素样本为元音音素或辅音音素；

102、判断样本集合中是否存在第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，若是，则执行步骤103，若否，则执行步骤104；

103、剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并从所述同一文件中获取与剔除音素样本数量相同的同一音素样本，将同一音素样本添加至样本集合中得到新的样本集合，若同一文件下同一音素样本的数目小于剔除的音素样本数目，则将同一文件下剩余同一音素样本添加到样本集合中得到新的样本，对新的样本集合进行偏差分析，并返回执行步骤102；

104、得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人。

优选地，所述所述步骤104之后还包括：

105、统计最终样本集合中音素样本的第二共振峰频率偏差值，并得到最大统计偏差；最大统计偏差为最终样本集合中音素样本的第二共振峰频率偏差值的最大值；

106、将待测音素样本加入最终样本集合进行偏差分析，得到待测音素样本的第三共振峰频率偏差值；

107、若第三共振峰频率偏差值未超过最大统计偏差，则输出判定结果为该待测音素样本与最终样本集合中的音素样本属于同一个人。

优选地，所述偏差分析具体包括：

获取每个音素样本在同一共振峰的中心频率，得到音素样本在同一共振峰中心频率的中位数；

根据中位数和预置计算公式计算每个音素样本在同一共振峰下的共振峰频率偏差值，计算公式为：

优选地，所述共振峰包括：第一共振峰F1、第二共振峰F2、第三共振峰F3、第四共振峰F4、第五共振峰F5和第六共振峰F6。

本申请第二方面提供一种基于共振峰偏差的音频同一性判别装置，包括：

第一偏差值获取单元，用于将从同一文件中获取的若干同一音素样本作为样本集合，对所述样本集合中的所述音素样本进行偏差分析，得到各音素样本的第一共振峰频率偏差值；

第一判断单元，用于判断样本集合中是否存在第一共振峰频率偏差值超过了预设的共振峰频率最大偏差；

样本替换单元，用于剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并从所述同一文件中获取与剔除音素样本数量相同的同一音素样本，将同一音素样本添加至样本集合中得到新的样本集合，若同一文件下同一音素样本的数目小于剔除的音素样本数目，则将同一文件下剩余同一音素样本添加到样本集合中得到新的样本，对新的样本集合进行偏差分析，并回到第一判断单元进行判断；

集合输出单元，用于得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人。

优选地，还包括：

偏差值统计单元，用于统计最终样本集合中音素样本的第二共振峰频率偏差值，并得到最大统计偏差；最大统计偏差为最终样本集合中音素样本的第二共振峰频率偏差值的最大值；

第二偏差值获取单元，用于在最终样本集合中加入待测音素样本并进行偏差分析，得到待测音素样本的第三共振峰频率偏差值；

第二判断单元，用于判断第三共振峰频率偏差值是否超过最大统计偏差，若没有超过，则输出判定结果为该待测音素样本与最终样本集合中的音素样本属于同一个人。

所述偏差分析单元具体用于：

本申请第三方面提供一种基于共振峰偏差的音频同一性判别设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的一种基于共振峰偏差的音频同一性判别方法的步骤。

本申请的第四方面包括，一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的一种基于共振峰偏差的音频同一性判别方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种基于共振峰偏差的音频同一性判别方法，本申请通过将共振峰频率偏差值作为同一性判别依据来得到客观的数据，而不是通过人为观测共振峰位置、走势等宏观特性判断同一性，从而对数据做出更加准确的对比和客观的判定；另一方面通过迭代的方法，不断迭代的去除共振峰频率偏差大的音素样本，从而准确地确定音素样本是否满足同一性，解决了现有技术中需要人为通过观测共振峰位置、走势等宏观特性作为判定依据，对鉴定人经验技术要求高，可靠性低的问题。

附图说明

图1为本申请提供的一种基于共振峰偏差的音频同一性判别方法的一个实施例的流程示意图；

图2为本申请提供的一种基于共振峰偏差的音频同一性判别方法的另一个实施例的流程示意图；

图3为本申请提供的一种基于共振峰偏差的音频同一性判别装置的一个实施例的结构示意图；

图4为本申请提供的一种基于共振峰偏差的音频同一性判别装置的另一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供的一种基于共振峰偏差的音频同一性判别方法的一个实施例，如图1所示，包括：

101、从同一文件中获取若干同一音素样本作为样本集合，对样本集合中的音素样本进行偏差分析，得到各音素样本的第一共振峰频率偏差值，同一音素样本为元音音素或辅音音素；

在本实施例中，音素样本为当事人或嫌疑人的语音样本，首先获取同一个文件中的同一元音或同一辅音的所有音素样本，从同一音素样本中选取若干音素样本进行偏差分析，每个音素样本均存在多个共振峰频率，通过偏差分析得到样本集合中每个共振峰频率偏差值。

在本实施例中，系统的预设有共振峰频率最大偏差，当样本集合中出现有音素样本的共振峰频率偏差值大于共振峰频率最大偏差，即该音素样本和样本集合中其他音素样本相比，有极大可能不属于同一个人，因此需要将该样本剔除。

103、剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并从同一文件中获取与剔除音素样本数量相同的同一音素样本，将同一音素样本添加至样本集合中得到新的样本集合，若同一文件下同一音素样本的数目小于剔除的音素样本数目，则将同一文件下剩余同一音素样本添加到样本集合中得到新的样本，对新的样本集合进行偏差分析，并返回执行步骤102；

在本实施例中，由于剔除了非同一人的音素样本，因此需要加入新的样本进行反复的偏差分析，通过重复步骤102，直到样本集合中所有音素样本的共振峰频率偏差值均不超过预设的共振峰频率最大偏差，即将样本集合中大概率不属于同一人的音素样本全部剔除，则该样本集合得到的音素样本均属于同一个人，需要注意的是同一文件下同一音素的数量有限，因此当剩余同一音素的样本数目少于剔除的样本数目时，只需要将剩余同一音素的样本添加到样本集合中。

在本实施例中，通过将共振峰频率偏差值作为同一性判别依据来得到客观的数据，而不是通过人为观测共振峰位置、走势等宏观特性判断同一性，从而对数据做出更加准确的对比和客观的判定；另一方面通过迭代的方法，不断迭代的去除共振峰频率偏差大的音素样本，从而准确地确定音素样本是否满足同一性，解决了现有技术中需要人为通过观测共振峰位置、走势等宏观特性作为判定依据，对鉴定人经验技术要求高，可靠性低的问题。

本发明提供的一种基于共振峰偏差的音频同一性判别方法的另一个实施例，如图2所示，包括：

201、从同一文件中获取若干同一音素样本作为样本集合，对样本集合中的所述音素样本进行偏差分析，得到各音素样本的第一共振峰频率偏差值，同一音素样本为元音音素或辅音音素；

在一种实施例中，偏差分析具体包括：首先获取每个音素样本在同一共振峰的中心频率；

得到音素样本在同一共振峰的中心频率的中位数，若音素样本的个数为奇数，则中位数只有一个，将其作为音素样本的中位数；若音素样本的个数为偶数，其中位数有两个，则将两个中位数的平均值作为音素样本的中位数；

计算每个音素样本在同一共振峰下的共振峰频率偏差值，其计算公式为：

在本实施例中，共振频率可以包含多个；其中的一种实施例的共振峰包括第一共振峰F1、第二共振峰F2、第三共振峰F3、第四共振峰F4、第五共振峰F5和第六共振峰F6。

在一种实施例中，通过获取音素样本在6个共振峰下的中心频率值，分别计算音素样本在每一个共振峰的共振峰偏差值与预设的共振峰频率最大偏差进行比较，分别判别音素样本在第一共振峰F1、第二共振峰F2、第三共振峰F3、第四共振峰F4、第五共振峰F5和第六共振峰F6的共振峰频率是否超过预设的共振峰频率最大偏差，从而能够更加准确的判断音素样本是否满足同一性，降低的判断的误差。

202、判断样本集合中是否存在第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，若是，则执行步骤203，若否，则执行步骤204；

203、剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并从同一文件中获取与剔除音素样本数量相同的同一音素样本，将同一音素样本添加至样本集合中得到新的样本集合，若同一文件下同一音素样本的数目小于剔除的音素样本数目，则将同一文件下剩余同一音素样本添加到样本集合中得到新的样本，对新的样本集合进行偏差分析，并返回执行步骤202；

在本实施例中，由于剔除了非同一人的音素样本，因此需要加入新的样本进行反复的偏差分析，通过重复步骤202，直到样本集合中所有音素样本的共振峰频率偏差值均不超过预设的共振峰频率最大偏差，即将样本集合中大概率不属于同一人的音素样本全部剔除，则该样本集合得到的音素样本均属于同一个人，需要注意的是同一文件下同一音素的数量有限，因此当剩余同一音素的样本数目少于剔除的样本数目时，只需要将剩余同一音素的样本添加到样本集合中。

204、得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人。

在本实施例中得到属于同一个人的最终的样本集合，可以用到后续步骤中进一步的对检材进行统一性分析。

205、统计最终样本集合中音素样本的第二共振峰频率偏差值，并得到最大统计偏差；最大统计偏差为最终样本集合中音素样本的第二共振峰频率偏差值的最大值；

在本实施例中，通过统计样本集合中音素样本的共振峰频率偏差值得到其中的最大统计偏差；利用最大偏差值代替系统预设的共振峰频率最大偏差，修正所需的阈值，从而降低判断同一性的误差。

206、将待测音素样本加入最终样本集合进行偏差分析，得到待测音素样本的第三共振峰频率偏差值；

在本实施例中，需要重新选取音素样本，选取的音素样本为待测的检材，可以是当事人或嫌疑人的语音。

207、若第三共振峰频率偏差值未超过最大统计偏差，则输出判定结果为该待测音素样本与最终样本集合中的音素样本属于同一个人。

在本实施例中，通过将共振峰频率偏差值作为同一性判别依据来得到客观的数据，而不是通过人为观测共振峰位置、走势等宏观特性判断同一性，从而对数据做出更加准确的对比和客观的判定；另一方面通过迭代的方法，不断迭代的去除共振峰频率偏差大的音素样本，从而准确地确定音素样本是否满足同一性；统计同一人的音素样本得到最大统计偏差代替系统预设的共振峰频率最大偏差，修正所需的阈值，从而降低判断同一性的误差；进一步的，通过多共振频率下的一一比对，避免的单一比对容易出现判定错误的问题

如图3所示，是本发明提供的一种基于共振峰偏差的音频同一性判别装置得一个实施例，包括：

第一偏差值获取单元301，用于将从同一文件中获取的若干同一音素样本作为样本集合进行偏差分析，得到各音素样本的第一共振峰频率偏差值；

第一判断单元302，用于判断样本集合中是否存在第一共振峰频率偏差值超过了预设的共振峰频率最大偏差；

样本替换单元303，用于剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并从同一文件中获取与剔除音素样本数量相同的同一音素样本至样本集合中得到新的样本集合，若同一文件下同一音素样本的数目小于剔除的音素样本数目，则将同一文件下剩余同一音素样本添加到样本集合中得到新的样本，对新的样本集合进行偏差分析，并回到第一判断单元进行判断；

集合输出单元304，得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人。

如图4所示，是本发明提供的一种基于共振峰偏差的音频同一性判别装置得一个实施例，包括：

第一偏差值获取单元401，用于将从同一文件中获取的若干同一音素样本作为样本集合进行偏差分析，得到各音素样本的第一共振峰频率偏差值；

第一判断单元402，用于判断样本集合中是否存在第一共振峰频率偏差值超过了预设的共振峰频率最大偏差；

样本替换单元403，用于剔除所有第一共振峰频率偏差值超过预置共振峰频率最大偏差的音素样本，并从同一文件中获取与剔除音素样本数量相同的同一音素样本至样本集合中得到新的样本集合，若同一文件下同一音素样本的数目小于剔除的音素样本数目，则将同一文件下剩余同一音素样本添加到样本集合中得到新的样本，对新的样本集合进行偏差分析，并回到第一判断单元进行判断；

集合输出单元404，得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人。

偏差值统计单元405，用于统计最终样本集合中音素样本的第二共振峰频率偏差值，并得到最大统计偏差；最大统计偏差为最终样本集合中音素样本的第二共振峰频率偏差值的最大值；

第二偏差值获取单元406，用于在最终样本集合中加入待测音素样本并进行偏差分析，得到待测音素样本的第三共振峰频率偏差值；

第二判断单元407，用于判断第三共振峰频率偏差值是否超过最大统计偏差，若没有超过，则该音素样本与最终样本集合中的音素样本属于同一个人。

本申请实施例还提供了另一种基于共振峰偏差的音频同一性判别设备，设备包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行如实施例一或实施例二中的一种基于共振峰偏差的音频同一性判别方法。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例的一种基于共振峰偏差的音频同一性判别方法中的任意一种实施方式。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于共振峰偏差的音频同一性判别方法，其特征在于，包括以下步骤：

104、得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人；

105、统计最终样本集合中音素样本的第二共振峰频率偏差值，并得到最大统计偏差；所述最大统计偏差为最终样本集合中音素样本的第二共振峰频率偏差值的最大值；

107、若所述第三共振峰频率偏差值未超过最大统计偏差，则输出判定结果为所述待测音素样本与最终样本集合中的音素样本属于同一个人。

2.根据权利要求1所述的一种基于共振峰偏差的音频同一性判别方法，其特征在于，所述偏差分析具体包括：

获取每个音素样本在同一共振峰的中心频率，得到所述音素样本在同一共振峰中心频率的中位数；

根据中位数和预置计算公式计算所述每个音素样本在同一共振峰下的共振峰频率偏差值，计算公式为：

3.根据权利要求2所述的一种基于共振峰偏差的音频同一性判别方法，其特征在于，所述共振峰包括：第一共振峰F1、第二共振峰F2、第三共振峰F3、第四共振峰F4、第五共振峰F5和第六共振峰F6。

4.一种基于共振峰偏差的音频同一性判别装置，其特征在于，包括：

集合输出单元，用于得到最终样本集合，输出判定结果为最终样本集合中的所有音素样本均属于同一个人；

还包括：

偏差值统计单元，用于统计最终样本集合中音素样本的第二共振峰频率偏差值，并得到最大统计偏差；所述最大统计偏差为最终样本集合中音素样本的第二共振峰频率偏差值的最大值；

第二判断单元，用于判断所述第三共振峰频率偏差值是否超过最大统计偏差，若没有超过，则输出判定结果为所述待测音素样本与最终样本集合中的音素样本属于同一个人。

5.根据权利要求4所述的一种基于共振峰偏差的音频同一性判别装置，其特征在于，还包括：

偏差分析单元，用于获取每个音素样本在同一共振峰的中心频率，得到所述音素样本在同一共振峰中心频率的中位数；

根据中位数和预置计算公式计算所述每个音素样本在同一共振峰下的共振峰频率偏差值，所述预置计算公式为：

6.根据权利要求5所述的一种基于共振峰偏差的音频同一性判别装置，其特征在于，所述共振峰包括：第一共振峰F1、第二共振峰F2、第三共振峰F3、第四共振峰F4、第五共振峰F5和第六共振峰F6。

7.一种基于共振峰偏差的音频同一性判别设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-3一项所述的一种基于共振峰偏差的音频同一性判别方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-3任一项所述的一种基于共振峰偏差的音频同一性判别方法。