CN109448733A

CN109448733A - 一种语谱图生成方法、系统及相关装置

Info

Publication number: CN109448733A
Application number: CN201910012744.8A
Authority: CN
Inventors: 李�浩; 段旭恒; 潘雷明
Original assignee: Guangzhou Speakin Network Technology Co Ltd
Current assignee: Guangzhou Speakin Network Technology Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-03-08

Abstract

本申请所提供的一种语谱图生成方法，包括：对采集到的语音进行参数配置处理，生成二维语谱图；提取二维语谱图的坐标点信息；利用坐标点信息进行动态建模，生成三维语谱图。该方法先是对采集到的语音进行参数配置处理，生成二维语谱图，再提取二维语谱图的坐标点信息，最后利用坐标点信息进行动态建模，生成三维语谱图。可见，该方法利用二维语谱图的坐标点信息进行动态建模，生成三维语谱图，相比于相关技术中的二维图谱能够更加直观、准确地体现声纹特征，避免花费大量的资源成本去观察比对，进而提高声纹鉴定效率。本申请还提供一种语谱图生成系统、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种语谱图生成方法、系统及相关装置

技术领域

本申请涉及语谱图生成领域，特别涉及一种语谱图生成方法、系统、设备及计算机可读存储介质。

背景技术

目前，常规的声纹身份同一性检验方法是将语音显示为语谱，把声纹特性在图形上显示出来，即生成语谱图，再将生成的语谱图与预设的语谱图进行声纹特征信息的比对，进而进行身份验证。

在声纹鉴定中最常用的是宽带声纹图。它是用带宽为300HZ的带通滤波器分析出来的声纹。每一字的声纹前部(乱纹)是清辅音的频谱，后部是元音频谱；元音频谱中由加强的纵线条构成的水平方向的黑带为共振峰，共振峰的数量、走向及其频率是声纹分析的重要特征，故需要查找相似的元音，逐一比对声纹特征。

但是，在声纹鉴定中常规的二维语谱图横坐标是时间，纵坐标是频率，坐标点的颜色深浅表示音强，颜色深浅度难以量化，音强、共振峰走势等声纹特征不够直观，也就是说二维语谱图难以准确地体现声纹特征，导致花费大量的资源成本去观察比对，声纹鉴定效率低下。

因此，如何生成更加准确地体现声纹特征的语谱图，进而提高声纹鉴定效率是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种语谱图生成方法、系统、设备及计算机可读存储介质，能够生成更加准确地体现声纹特征的语谱图，进而提高声纹鉴定效率。

为解决上述技术问题，本申请提供一种语谱图生成方法，包括：

对采集到的语音进行参数配置处理，生成二维语谱图；

提取所述二维语谱图的坐标点信息；

利用所述坐标点信息进行动态建模，生成三维语谱图。

优选地，生成三维语谱图之后，还包括：

获取所述三维语谱图的声纹特征信息；

将所述声纹特征信息与预设声纹特征信息进行匹配，得到匹配结果；

根据所述匹配结果，执行相应的操作。

优选地，所述提取所述二维语谱图的坐标点信息，包括：

将所述二维语谱图的各个像素点转换为对应的三维顶点作为所述坐标点信息。

优选地，所述利用所述坐标点信息进行动态建模，生成三维语谱图，包括：

利用各个所述三维顶点建立对应的三维网格模型，生成所述三维语谱图。

本申请还提供一种语谱图生成系统，包括：

二维语谱图生成模块，用于对采集到的语音进行参数配置处理，生成二维语谱图；

坐标点信息提取模块，用于提取所述二维语谱图的坐标点信息；

三维语谱图生成模块，用于利用所述坐标点信息进行动态建模，生成三维语谱图。

优选地，该语谱图生成系统还包括：

声纹特征信息获取模块，用于获取所述三维语谱图的声纹特征信息；

匹配模块，用于将所述声纹特征信息与预设声纹特征信息进行匹配，得到匹配结果；

操作执行模块，用于根据所述匹配结果，执行相应的操作。

优选地，所述坐标点信息提取模块，包括：

转换单元，用于将所述二维语谱图的各个像素点转换为对应的三维顶点作为所述坐标点信息。

优选地，所述三维语谱图生成模块，包括：

三维语谱图生成单元，用于利用各个所述三维顶点建立对应的三维网格模型，生成所述三维语谱图。

本申请还提供一种设备，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现上述所述的语谱图生成方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的语谱图生成方法的步骤。

本申请所提供的一种语谱图生成方法，包括：对采集到的语音进行参数配置处理，生成二维语谱图；提取所述二维语谱图的坐标点信息；利用所述坐标点信息进行动态建模，生成三维语谱图。

该方法先是对采集到的语音进行参数配置处理，生成二维语谱图，再提取所述二维语谱图的坐标点信息，最后利用所述坐标点信息进行动态建模，生成三维语谱图。可见，该方法利用二维语谱图的坐标点信息进行动态建模，生成三维语谱图，相比于相关技术中的二维图谱能够更加直观、准确地体现声纹特征，避免花费大量的资源成本去观察比对，进而提高声纹鉴定效率。本申请还提供一种语谱图生成系统、设备及计算机可读存储介质，均具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种语谱图生成方法的流程图；

图2为本申请实施例所提供的一种语谱图生成系统的结构框图。

具体实施方式

本申请的核心是提供一种语谱图生成方法，能够生成更加准确地体现声纹特征的语谱图，进而提高声纹鉴定效率。本申请的另一核心是提供一种语谱图生成系统、设备及计算机可读存储介质。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，常规的声纹身份同一性检验方法是将语音显示为语谱，把声纹特性在图形上显示出来，即生成语谱图，再将生成的语谱图与预设的语谱图进行声纹特征信息的比对，进而进行身份验证。但是，在声纹鉴定中常规的二维语谱图横坐标是时间，纵坐标是频率，坐标点的颜色深浅表示音强，颜色深浅度难以量化，音强、共振峰走势等声纹特征不够直观，也就是说二维语谱图难以准确地体现声纹特征，导致花费大量的资源成本去观察比对，声纹鉴定效率低下。本申请实施例能够生成更加准确地体现声纹特征的语谱图，进而提高声纹鉴定效率，具体请参考图1，图1为本申请实施例所提供的一种语谱图生成方法的流程图。

S101、对采集到的语音进行参数配置处理，生成二维语谱图；

本申请实施例先是对采集到的语音进行参数配置处理，生成二维语谱图。在此对采集语音的设备不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常为录音终端，例如可以为录音机或录音笔。本申请实施例对于采集到的语音的时长、内容均不作具体限定，需根据实际情况而定。在此对上述语音配置的参数的数量及类型也均不作具体限定，需根据实际情况而定，配置的参数通常包括：带宽、动态范围、采样范围、衰减、高频提升系数、加窗类型。对于生成二维语谱图的方式，在此也不作具体限定，例如可以通过傅里叶变换得到语音信号的图形数据，即生成二维语谱图。

语谱图，即语音频谱分析视图，显示的是声纹图谱，所有的声纹特性都可以直观的在图形上显示出来。二维语谱图的横坐标是时间，纵坐标是频率，坐标点的浓淡表示音强(语音数据能量)。在声纹鉴定中最常用的是宽带声纹图。它是用带宽为300HZ的带通滤波器分析出来的声纹。每一字的声纹前部(乱纹)是清辅音的频谱，后部是元音频谱；元音频谱中由加强的纵线条构成的水平方向的黑带为共振峰。共振峰的数量、走向及其频率是声纹分析的重要特征。

S102、提取二维语谱图的坐标点信息；

本申请实施例在生成二维语谱图后，提取二维语谱图的坐标点信息。在此对坐标点信息不作具体限定，应由本领域技术人员根据实际情况作出相应的设定，通常包括时间信息、频率信息及音强信息。在此对提取二维语谱图的坐标点信息的方式不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。

进一步地，提取二维语谱图的坐标点信息，通常包括：将二维语谱图的各个像素点转换为对应的三维顶点作为坐标点信息。在此对二维语谱图中像素点的数量不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。由于像素点的数量不作具体限定，故与像素点对应的三维顶点的数量也不作具体限定。进一步地，该三维顶点的三个坐标轴分别表示不同的坐标点信息，设三个坐标轴分别为x轴、y轴和z轴，故x轴、y轴和z轴可以分别表示不同的坐标点信息，例如可以x轴表示时间信息，y轴表示频率信息，z轴表示音强信息。

S103、利用坐标点信息进行动态建模，生成三维语谱图。

本申请实施例在提取二维语谱图的坐标点信息后，利用坐标点信息进行动态建模，生成三维语谱图。由上文可知，坐标点信息通常包括时间信息、频率信息及音强信息，故可以利用时间信息、频率信息及音强信息进行动态建模，生成三维语谱图。

进一步地，利用坐标点信息进行动态建模，生成三维语谱图，通常包括：利用各个三维顶点建立对应的三维网格模型，生成三维语谱图。由上文可知，本申请实施例对三维顶点的数量不作具体限定，故利用三维顶点建立对应的三维网格模型的数量也不作具体限定，应由本领域技术人员根据实际情况作出相应的设定。进一步地，对于上述利用各个三维顶点建立对应的三维网格模型，生成三维语谱图的过程，在此也不作具体限定，通常将每三个顶点构成一个三角形面，再将所有三角形面连接起来构成网络模型，可将该网络模型作为上述三维语谱图。其中，对于三角形面的数量在此不作具体限定，需根据实际情况而定。进一步地，每一个三角形面的形状在此也不作具体限定，需根据实际情况而定。

进一步地，生成三维语谱图之后，通常还可以包括：获取三维语谱图的声纹特征信息；将声纹特征信息与预设声纹特征信息进行匹配，得到匹配结果；根据匹配结果，执行相应的操作。在此对于上述三维语谱图中的声纹特征信息不作具体限定，通常包括音素频率、共振峰数量、共振峰走势等特征中的至少一种。其中，音素是语音中的最小单位，依据音节里的发音动作来分析，一个动作构成一个音素，音素分为元音、辅音两大类。故上述音素频率包括元音频率和辅音频率。进一步地，对于上述三维语谱图中的音素频率、共振峰数量、共振峰走势等特征均不作具体限定，需根据实际情况而定。

由上文可知，上述三维语谱图中的声纹特征信息通常包括音素频率、共振峰数量、共振峰走势等特征中的至少一种，故预设声纹特征信息通常也包括音素频率、共振峰数量、共振峰走势等特征中的至少一种，具体需由本领域技术人员根据实际情况作出相应的设定。上述将声纹特征信息与预设声纹特征信息进行匹配，即将声纹特征信息和预设声纹特征信息进行相似度比对。具体地，将声纹特征信息中音素频率与预设声纹特征信息中音素频率进行相似度比对；将声纹特征信息中共振峰数量与预设声纹特征信息中共振峰数量进行相似度比对；将声纹特征信息中共振峰走势与预设声纹特征信息中共振峰走势进行相似度比对。在将声纹特征信息与预设声纹特征信息进行匹配后，得到匹配结果，也即相似度。由上文可知，本申请实施例根据匹配结果，执行相应的操作，具体操作在此不作限定，需根据实际情况而定。例如，当匹配结果为声纹特征信息与预设声纹特征信息之间的相似度高时，则身份验证通过；当匹配结果为声纹特征信息与预设声纹特征信息之间的相似度低时，则身份验证不通过。也就是说，本申请实施例能够进行同一性鉴定，所谓同一性鉴定就是利用待识别者的声纹资料对鉴定录音中的声音进行身份认证。同一性鉴定是指通过对未知说话人或不确定说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对，做出两者是否同一的结论的过程。未知说话人或不确定说话人通常是涉案人，在侦查初期身份不明或者身份尚不能确定，已知说话人指的就是被怀疑者或者被指认者，利用二者的声学特征作比对来确定是否同一。

本申请实施例能够进行同一性鉴定的原因在于每个人的声纹(Voiceprint)都是有差异的，声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

本申请先是对采集到的语音进行参数配置处理，生成二维语谱图，再提取二维语谱图的坐标点信息，最后利用坐标点信息进行动态建模，生成三维语谱图。可见，该方法利用二维语谱图的坐标点信息进行动态建模，生成三维语谱图，相比于相关技术中的二维图谱能够更加直观、准确地体现声纹特征，避免花费大量的资源成本去观察比对，进而提高声纹鉴定效率。

下面对本申请实施例提供的一种语谱图生成系统、设备及计算机可读存储介质进行介绍，下文描述的语谱图生成系统、设备及计算机可读存储介质与上文描述的语谱图生成方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种语谱图生成系统的结构框图；该语谱图生成系统包括：

二维语谱图生成模块201，用于对采集到的语音进行参数配置处理，生成二维语谱图；

坐标点信息提取模块202，用于提取二维语谱图的坐标点信息；

三维语谱图生成模块203，用于利用坐标点信息进行动态建模，生成三维语谱图。

基于上述实施例，本实施例中语谱图生成系统通常还可以包括：

声纹特征信息获取模块，用于获取三维语谱图的声纹特征信息；

匹配模块，用于将声纹特征信息与预设声纹特征信息进行匹配，得到匹配结果；

操作执行模块，用于根据匹配结果，执行相应的操作。

基于上述实施例，本实施例中坐标点信息提取模块202，通常包括：

转换单元，用于将二维语谱图的各个像素点转换为对应的三维顶点作为坐标点信息。

基于上述实施例，本实施例中三维语谱图生成模块203，通常包括：

三维语谱图生成单元，用于利用各个三维顶点建立对应的三维网格模型，生成三维语谱图。

本申请还提供一种设备，包括：存储器和处理器；其中，存储器用于存储计算机程序，处理器用于执行计算机程序时实现上述任意实施例的语谱图生成方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的语谱图生成方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种语谱图生成方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种语谱图生成方法，其特征在于，包括：

对采集到的语音进行参数配置处理，生成二维语谱图；

提取所述二维语谱图的坐标点信息；

利用所述坐标点信息进行动态建模，生成三维语谱图。

2.根据权利要求1所述的语谱图生成方法，其特征在于，生成三维语谱图之后，还包括：

获取所述三维语谱图的声纹特征信息；

根据所述匹配结果，执行相应的操作。

3.根据权利要求1所述的语谱图生成方法，其特征在于，所述提取所述二维语谱图的坐标点信息，包括：

4.根据权利要求3所述的语谱图生成方法，其特征在于，所述利用所述坐标点信息进行动态建模，生成三维语谱图，包括：

5.一种语谱图生成系统，其特征在于，包括：

6.根据权利要求5所述的语谱图生成系统，其特征在于，还包括：

操作执行模块，用于根据所述匹配结果，执行相应的操作。

7.根据权利要求5所述的语谱图生成系统，其特征在于，所述坐标点信息提取模块，包括：

8.根据权利要求7所述的语谱图生成系统，其特征在于，所述三维语谱图生成模块，包括：

9.一种设备，其特征在于，包括：

存储器和处理器；其中，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的语谱图生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的语谱图生成方法的步骤。