CN109087651B

CN109087651B - 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Info

Publication number: CN109087651B
Application number: CN201811033064.6A
Authority: CN
Inventors: 黎智勇
Original assignee: Speakin Technologies Co ltd
Current assignee: GUANGZHOU SPEAKIN INTELLIGENT TECHNOLOGY Co.,Ltd.
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2021-01-19
Anticipated expiration: 2038-09-05
Also published as: CN109087651A

Abstract

本发明公开了一种基于视频与语谱图的声纹鉴定方法，包括获取与音频文件对应的语谱图，其中音频文件与视频文件相对应；在视频文件和语谱图上分别建立对时间的关联关系，以便在视频文件和语谱图两者任一者中任选一个时间点时，在另一者中定位相同时间点，根据关联关系获得对应的视频和共振峰；结合视频和共振峰对声纹进行鉴定，以判断待识别者的身份。通过得到与视频文件对应的音频文件的语谱图，在视频文件和语谱图中建立关联关系后，当在视频文件和语谱图任一者中任选一个时间点后，另一者中则定位同样的时间点，得到视频和共振峰，观察待识别者说话时嘴型、表情等，增加鉴定依据。本发明还提供具有上述优点的系统、设备及计算机可读存储介质。

Description

一种基于视频与语谱图的声纹鉴定方法、系统及设备

技术领域

本发明涉及语音识别领域，特别是涉及一种基于视频与语谱图的声纹鉴定方法、系统、设备及计算机可读存储介质。

背景技术

每个人说话的声音都各不相同，人说话的声音就像人的指纹一样，具有“人各不一”的特征。特别是当人成年以后，发音器官已经成熟，语言习惯已经形成，除疾病影响等特殊情况下，语音都是稳定的。又因为每个人的生理结构、生活环境等因素不同，人的语音又有特定性。因此，通过对声纹鉴定进行人身辨别是一种重要的科学技术。

现有的鉴定方法是通过语谱图上共振峰的的形状和走势作为声纹鉴定最重要的依据。将得到的音频放入声音鉴定系统，将音频转换成语谱图，在进行鉴定时，只能通过听声音和观看语谱图上的共振峰对音频中的某一段音素进行鉴定。当鉴定人员得到的是一段视频时，通过声音对应语谱图来鉴定声纹，鉴定依据单一，鉴定结果的准确率低。

发明内容

本发明的目的是提供一种基于视频与语谱图的声纹鉴定方法、系统、设备及计算机可读存储介质，以解决现有技术中通过声音对应语谱图来鉴定，鉴定结果的准确率不高的问题。

本发明提供一种基于视频与语谱图的声纹鉴定方法，包括：

获取与音频文件对应的语谱图，其中所述音频文件与视频文件相对应；

在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时，在另一者中定位相同时间点，根据所述关联关系获得对应的视频和共振峰；

结合所述视频和所述共振峰对声纹进行鉴定，以判断待识别者的身份。

可选地，所述获取与音频文件对应的语谱图包括：

获取音频文件中的语谱参数，所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种，以构建与所述音频文件对应的语谱图。

可选地，所述关联关系具体为回调函数。

可选地，所述结合所述视频和所述共振峰对声纹进行鉴定包括：

选取所述音频文件中用于分析的音节；

结合所述音节对应的共振峰和视频进行鉴定。

本发明还提供一种基于视频与语谱图的声纹鉴定系统，包括：

获取模块，用于获取与音频文件对应的语谱图，其中所述音频文件与视频文件相对应；

构建模块，用于在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时，在另一者中定位相同的时间点，根据所述关联关系获得对应的视频和共振峰；

验证模块，用于结合所述视频和所述共振峰对声纹进行鉴定，以判断待识别者的身份。

可选地，所述获取模块具体为:

获取音频文件中的语谱参数，所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种，以构建与所述音频文件对应的语谱图的模块。

可选地，所述构建模块具体为：

在所述视频文件和所述语谱图上分别建立对时间的回调函数的模块。

可选地，所述验证模块具体为：

选取所述音频文件中用于分析的音节；

结合所述音节对应的共振峰和视频进行鉴定的模块。

本发明还提供一种基于视频与语谱图的声纹鉴定设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种所述基于视频与语谱图的声纹鉴定方法的步骤。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种所述基于视频与语谱图的声纹鉴定方法的步骤。

本发明所提供的一种基于视频与语谱图的声纹鉴定方法，通过获取与音频文件对应的语谱图，其中所述音频文件与视频文件相对应；在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件或所述语谱图中任选一个时间点时，在另一者中定位所述时间点，根据所述关联关系获得对应的视频和共振峰；结合所述视频和所述共振峰对声纹进行鉴定，以便判断待识别者的身份。本申请中获取与视频文件对应的音频文件的语谱图，然后在视频文件和语谱图中分别建立对时间的关联关系，当在视频文件和语谱图任何一者中任选一个时间点后，则在另外一者中定位同样的时间点，根据建立的关联关系得到对应的视频和共振峰，进而根据视频和对应的共振峰对声纹进行鉴定，鉴定人员可以获得待识别者说话时的嘴型、表情等信息，增加了鉴定人员的鉴定依据。本发明还提供具有上述优点的系统、设备及计算机可读存储介质。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于视频与语谱图的声纹鉴定方法的一种具体实施方式的流程图；

图2为本发明实施例提供的基于视频与语谱图的声纹鉴定方法的另一种具体实施方式的流程图；

图3为本发明实施例提供的基于视频与语谱图的声纹鉴定方法的又一种具体实施方式的流程图；

图4为本发明实施例提供的一种基于视频与语谱图的声纹鉴定系统的结构框图。

具体实施方式

本发明的核心是提供一种基于视频与语谱图的声纹鉴定方法、系统、设备及计算机可读存储介质。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的一种基于视频与语谱图的声纹鉴定方法的一种具体实施方式的流程图，包括：

步骤S101：获取与音频文件对应的语谱图，其中所述音频文件与视频文件相对应。

本实施例中对音频文件的来源并不做具体限定，例如，音频文件可以是在视频文件中提取所得到，也可以是已经预先从视频文件中提取完毕的音频文件，当然还可以为不是从视频文件中提取，但是音频文件中的音频与视频文件中的视频在各个时间点上一致。本实例中的音频文件与视频文件相对应是指音频文件中的音频与视频文件中的视频在任何时刻的内容一致。

步骤S102：在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时，在另一者中定位相同时间点，根据所述关联关系获得对应的视频和共振峰。

本实施例中的关联关系可以为回调函数，当然也可以是任何能够实现在视频文件和语谱图两者当中的任何一个任意选择一个时间点，在另外一个中也定位到相同的时间点的其他形式的关联关系。

作为一种具体实施方式，可以在语谱图上建立回调函数，每次在语谱图上选择一个时间点，都会定位到视频文件上相同的时间点，在视频文件上也建立回调函数，每次在视频文件上选择一个时间点，都会定位到语谱图上相同的时间点。

步骤S103：结合所述视频和所述共振峰对声纹进行鉴定，以判断待识别者的身份。

本实施例所提供的一种基于视频与语谱图的声纹鉴定方法，通过得到与视频文件对应的音频文件的语谱图，然后在视频文件和语谱图中分别建立对时间的关联关系，当在视频文件和语谱图任何一者中任选一个时间点后，则在另外一者中定位同样的时间点，根据建立的关联关系得到对应的视频和共振峰，进而根据视频和对应的共振峰对声纹进行鉴定，鉴定人员可以获得待识别者说话时的嘴型、表情等信息，增加了鉴定人员的鉴定依据。当关联关系为回调函数时，操作简便，且在视频文件和语谱图任何一者中任选一个时间点，在另外一者中定位同样的时间点的过程中消耗时间短，提升鉴定效率。

请参考图2，图2为本发明所提供的一种基于视频与语谱图的声纹鉴定方法的另一种具体实施方式的流程图，该方法包括:

步骤S201：获取音频文件中的语谱参数，所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种，以构建与所述音频文件对应的语谱图；

步骤S202：在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时，在另一者中定位相同时间点，根据所述关联关系获得对应的视频和共振峰；

步骤S203：结合所述视频和所述共振峰对声纹进行鉴定，以判断待识别者的身份。

本实施例所提供的一种基于视频与语谱图的声纹鉴定方法，通过获取包括带宽、动态范围、衰减系数、高频提升系数和加窗类型在内的语谱参数，进而得到语谱图，在后续的声纹鉴定过程中，当语谱图上的某处共振峰的显示或者走向趋势不清楚时，可以通过调整上述语谱参数使共振峰的显示或者走向趋势更加清楚、明显，为鉴定人员提供更加可靠的信息，使鉴定人员做出更加正确的判断，提高鉴定正确的概率。

请参考图3，图3为本发明所提供的一种基于视频与语谱图的声纹鉴定方法的又一种具体实施方式的流程图。在上述实施例的基础上，作为一种具体实施方式，所述结合所述视频和所述共振峰对声纹进行鉴定包括：

选取所述音频文件中用于分析的音节；

结合所述音节对应的共振峰和视频进行鉴定。

本实施例中对音节不做具体限定，可以是在汉语中的音节，一般情况下一个汉字的读音即为一个音节，分为两拼音节、三拼音节、整体认读音节和自成音节四类，也可以是英语中的音节，英语单词中一个个读音的基本单位即为一个音节，当然还可以为其他任何语言中的音节，只要能达到鉴定的目的即可。

本实施例中鉴定人员可以根据需要选定音频文件中的单个音节，根据单个音节来进行鉴定，对一个个的音节进行分析和鉴定，可以使鉴定人员的鉴定工作更加细致，给鉴定人员带来更多的鉴定参考点，得出正确的鉴定结果。

下面对本发明实施例提供的一种基于视频与语谱图的声纹鉴定系统进行介绍，下文描述的一种基于视频与语谱图的声纹鉴定系统与上文描述的一种基于视频与语谱图的声纹鉴定方法可相互对应参照。

图4为本发明实施例提供的一种基于视频与语谱图的声纹鉴定系统的结构框图，参照图4一种基于视频与语谱图的声纹鉴定系统可以包括：

获取模块100，用于获取与音频文件对应的语谱图，其中所述音频文件与视频文件相对应；

构建模块200，用于在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时，在另一者中定位相同的时间点，根据所述关联关系获得对应的视频和共振峰；

验证模块300，用于结合所述视频和所述共振峰对声纹进行鉴定，以判断待识别者的身份。

作为一种具体实施方式，所述获取模块具体为:

作为一种具体实施方式，所述构建模块具体为：

作为一种具体实施方式，所述验证模块具体为：

选取所述音频文件中用于分析的音节；

结合所述音节对应的共振峰和视频进行鉴定的模块。

本实施例所提供的基于视频与语谱图的声纹鉴定系统通过获取与视频文件对应的音频文件的语谱图，然后在视频文件和语谱图中分别建立对时间的关联关系，当在视频文件和语谱图任何一者中任选一个时间点后，则在另外一者中定位同样的时间点，根据建立的关联关系得到对应的视频和共振峰，进而根据视频和对应的共振峰对声纹进行鉴定，鉴定人员可以获得待识别者说话时的嘴型、表情等信息，增加了鉴定人员的鉴定依据。

下面对本发明实施例提供的一种基于视频与语谱图的声纹鉴定设备进行介绍，下文描述的一种基于视频与语谱图的声纹鉴定设备与上文描述的一种基于视频与语谱图的声纹鉴定方法可相互对应参照。

本实施还提供一种基于视频与语谱图的声纹鉴定设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一实施例所述的基于视频与语谱图的声纹鉴定方法的步骤。

本发明实施例所提供的声纹鉴定设备，通过获取与视频文件对应的音频文件的语谱图，然后在视频文件和语谱图中分别建立对时间的关联关系，当在视频文件和语谱图任何一者中任选一个时间点后，则在另外一者中定位同样的时间点，根据建立的关联关系得到对应的视频和共振峰，进而根据视频和对应的共振峰对声纹进行鉴定，鉴定人员可以获得待识别者说话时的嘴型、表情等信息，增加了鉴定人员的鉴定依据。

下面对本发明实施例提供的一种基于视频与语谱图的声纹鉴定计算机可读存储介质进行介绍，下文描述的一种基于视频与语谱图的声纹鉴定计算机可读存储介质与上文描述的一种基于视频与语谱图的声纹鉴定方法可相互对应参照。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的基于视频与语谱图的声纹鉴定方法的步骤。例如计算机程序被处理器执行时实现获取与音频文件对应的语谱图，其中所述音频文件与视频文件相对应；在所述视频文件和所述语谱图上分别建立对时间的关联关系，以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时，在另一者中定位相同时间点，根据所述关联关系获得对应的视频和共振峰；结合所述视频和所述共振峰对声纹进行鉴定，以判断待识别者的身份。

本实施例所提供的基于视频与语谱图的声纹鉴定的计算机可读存储介质通过获取与视频文件对应的音频文件的语谱图，然后在视频文件和语谱图中分别建立对时间的关联关系，当在视频文件和语谱图任何一者中任选一个时间点后，则在另外一者中定位同样的时间点，根据建立的关联关系得到对应的视频和共振峰，进而根据视频和对应的共振峰对声纹进行鉴定，鉴定人员可以获得待识别者说话时的嘴型、表情等信息，增加了鉴定人员的鉴定依据。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于视频与语谱图的声纹鉴定方法、系统设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于视频与语谱图的声纹鉴定方法，其特征在于，包括：

2.如权利要求1所述的基于视频与语谱图的声纹鉴定方法，其特征在于，所述获取与音频文件对应的语谱图包括：

3.如权利要求2所述的基于视频与语谱图的声纹鉴定方法，其特征在于，所述关联关系具体为回调函数。

4.如权利要求3所述的基于视频与语谱图的声纹鉴定方法，其特征在于，所述结合所述视频和所述共振峰对声纹进行鉴定包括：

选取所述音频文件中用于分析的音节；

结合所述音节对应的共振峰和视频进行鉴定。

5.一种基于视频与语谱图的声纹鉴定系统，其特征在于，包括：

6.如权利要求5所述的基于视频与语谱图的声纹鉴定系统，其特征在于，所述获取模块具体为:

7.如权利要求6所述的基于视频与语谱图的声纹鉴定系统，其特征在于，所述构建模块具体为：

8.如权利要求7所述的基于视频与语谱图的声纹鉴定系统，其特征在于，所述验证模块具体为：

选取所述音频文件中用于分析的音节；

结合所述音节对应的共振峰和视频进行鉴定的模块。

9.一种基于视频与语谱图的声纹鉴定设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述基于视频与语谱图的声纹鉴定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于视频与语谱图的声纹鉴定方法的步骤。