CN109378004B

CN109378004B - 一种音素比对的方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109378004B
Application number: CN201811544946.9A
Authority: CN
Inventors: 郑琳琳; 张锦华; 陈昊亮
Original assignee: Speakin Technologies Co ltd
Current assignee: Speakin Technologies Co ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2022-05-27
Anticipated expiration: 2038-12-17
Also published as: CN109378004A

Abstract

本申请公开了一种音素比对的方法，包括：接收输入的检材音频文件及样本音频文件；对检材音频文件进行自动音素检索，得到第一检索音素；接收输入的第一人工标记音素，并将第一人工标记音素与第一检索音素结合，得到检材音素；根据检材音素对样本音频文件进行全量比对，得到第一比对结果。本申请所提供的技术方案，使得得到的第一比对结果综合了自动音素检索与人工标记音素的检索结果，具有更高的参照价值；同时，不需要用户手动进行比对，避免了人力资源的浪费，节省了音素识别的时间，极大的提高了音素比对的效率。本申请同时还提供了一种音素比对的装置、设备及计算机可读存储介质，具有上述有益效果。

Description

一种音素比对的方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及语音识别领域，特别涉及一种音素比对的方法、装置、设备及计算机可读存储介质。

背景技术

成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终相同。基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。

在声纹鉴定办案审理中，经常需要通过对未知说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对，做出两者是否同一的结论，即同一性检验。未知说话人通常是涉案人，在侦查初期身份不明或者身份尚不能确定，已知说话人即为被怀疑者。

现有的身份同一性检验方法中，会采用自动音素检索，快速自动检索出检材音频文件与样本音频文件中含有的音素，辅助传统的语谱分析、听觉分析完成身份同一性验证，然而，在面对自动音素检索及人工音素标注检索得到的结果时，需要用户分别进行比对，极大的浪费了人力资源，导致音素识别的时间较长，使得音素比对的效率较低。

因此，如何提高音素比对的效率是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种音素比对的方法、装置、设备及计算机可读存储介质，用于提高音素比对的效率。

为解决上述技术问题，本申请提供一种音素比对的方法，该方法包括：

接收输入的检材音频文件及样本音频文件；

对所述检材音频文件进行自动音素检索，得到第一检索音素；

接收输入的第一人工标记音素，并将所述第一人工标记音素与所述第一检索音素结合，得到检材音素；

根据所述检材音素对所述样本音频文件进行全量比对，得到第一比对结果。

可选的，对所述检材音频文件进行自动音素检索，得到第一检索音素，包括：

将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

获取所述检材音频文件的语音特征参数；

将所述语音特征参数输入至所述音素识别模型中进行检索，得到所述第一检索音素。

可选的，获取所述检材音频文件的语音特征参数，包括：

获取所述检材音频文件的梅尔频率倒谱系数。

可选的，在所述得到第一比对结果之后，还包括：

对所述样本音频文件进行自动音素检索，得到第二检索音素；

接收输入的第二人工标记音素，并将所述第二人工标记音素与所述第二检索音素结合，得到样本音素；

根据所述样本音素对所述检材音频文件进行全量比对，得到第二比对结果；

将所述第一比对结果与所述第二比对结果结合，得到总比对结果。

可选的，在所述得到总比对结果之后，还包括：

将所述总比对结果按照预设顺序进行排列。

本申请还提供一种音素比对的装置，该装置包括：

接收模块，用于接收输入的检材音频文件及样本音频文件；

第一自动音素检索模块，用于对所述检材音频文件进行自动音素检索，得到第一检索音素；

第一音素结合模块，用于接收输入的第一人工标记音素，并将所述第一人工标记音素与所述第一检索音素结合，得到检材音素；

第一全量比对模块，用于根据所述检材音素对所述样本音频文件进行全量比对，得到第一比对结果。

可选的，该装置还包括：

第二自动音素检索模块，用于对所述样本音频文件进行自动音素检索，得到第二检索音素；

第二音素结合模块，用于接收输入的第二人工标记音素，并将所述第二人工标记音素与所述第二检索音素结合，得到样本音素；

第二全量比对模块，用于根据所述样本音素对所述检材音频文件进行全量比对，得到第二比对结果；

结果结合模块，用于将所述第一比对结果与所述第二比对结果结合，得到总比对结果。

可选的，该装置还包括：

排序模块，用于将所述总比对结果按照预设顺序进行排列。

本申请还提供一种音素比对设备，该音素比对设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述音素比对的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述音素比对的方法的步骤。

本申请所提供音素比对的方法，包括：接收输入的检材音频文件及样本音频文件；对检材音频文件进行自动音素检索，得到第一检索音素；接收输入的第一人工标记音素，并将第一人工标记音素与第一检索音素结合，得到检材音素；根据检材音素对样本音频文件进行全量比对，得到第一比对结果。

本申请所提供的技术方案，通过将对检材音频文件进行自动音素检索得到的第一检索音素与接收到的第一人工标记音素进行结合，得到检材音素，然后根据检材音素对样本音频文件进行全量比对，使得得到的第一比对结果综合了自动音素检索与人工标记音素的检索结果，具有更高的参照价值；同时，不需要用户手动进行比对，避免了人力资源的浪费，节省了音素识别的时间，极大的提高了音素比对的效率。本申请同时还提供了一种音素比对的装置、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种音素比对的方法的流程图；

图2为图1所提供的一种音素比对的方法中S102的一种实际表现方式的流程图；

图3为本申请实施例所提供的另一种音素比对的方法的流程图；

图4为本申请实施例所提供的一种音素比对的装置的结构图；

图5为本申请实施例所提供的另一种音素比对的装置的结构图；

图6为本申请实施例所提供的一种音素比对设备的结构图。

具体实施方式

本申请的核心是提供一种音素比对的方法、装置、设备及计算机可读存储介质，用于提高音素比对的效率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种音素比对的方法的流程图。

其具体包括如下步骤：

S101：接收输入的检材音频文件及样本音频文件；

在声纹鉴定办案审理中，经常需要通过对未知说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对，做出两者是否同一的结论，即同一性检验。未知说话人通常是涉案人，在侦查初期身份不明或者身份尚不能确定，已知说话人即为被怀疑者，在本申请中，检材音频文件即为获取到的未知说话人的音频文件，样本音频文件即为获取到的已知说话人的音频文件。

S102：对检材音频文件进行自动音素检索，得到第一检索音素；

在接收到检材音频文件时，对其进行自动音素检索，得到第一检索音素，该检索结果具体可以为列表形式或图表形式，本申请对此不做具体限定；

可选的，这里提到的对检材音频文件进行自动音素检索，其具体可以为通过预设模型或预设算法在检材音频文件中自动标注出国际音标中的元音音素及音素组合；

优选的，其具体也可以为如图2所示的步骤，下面结合图2进行说明，请参考图2，图2为图1所提供的一种音素比对的方法中S102的一种实际表现方式的流程图。

其具体包括以下步骤：

S201：将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

优选的，该音素识别模型还可以支持常用音素及音素组合的自动标记；

S202：获取检材音频文件的语音特征参数；

可选的，这里提到的获取检材音频文件的语音特征参数，其具体可以为：

获取检材音频文件的梅尔频率倒谱系数；

这里提到的梅尔频率倒谱系数(MFCC，Mel-Frequency Cepstral Coefficients)是一种在主动语音和谈话人识别中广泛使用的特征。

S203：将语音特征参数输入至音素识别模型中进行检索，得到第一检索音素。

本申请实施例先根据预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型，然后获取检材音频文件的语音特征参数，最后将语音特征参数输入至音素识别模型中进行检索，得到第一检索音素，相较于根据预设模型得到的检索结果更为准确。

S103：接收输入的第一人工标记音素，并将第一人工标记音素与第一检索音素结合，得到检材音素；

这里提到第一人工标记音素，即为用户输入的用于在样本音频文件中进行检索的音素；

基于现有技术中，在面对自动音素检索及人工音素标注检索得到的结果时，需要用户分别进行比对，极大的浪费了人力资源，导致音素识别的时间较长，使得音素比对的效率较低，本申请将第一人工标记音素与第一检索音素结合，得到检材音素，然后根据检材音素对样本音频文件进行全量比对，使得得到的第一比对结果综合了自动音素检索与人工标记音素的检索结果，具有更高的参照价值。

S104：根据检材音素对样本音频文件进行全量比对，得到第一比对结果。

这里提到的全量比对，即为检索检材音素在样本音频文件中的相似音素，并确定各相似因素的相似度比对得分；

优选的，在得到第一比对结果之后，还可以对该第一比对结果按照预设顺序进行排序，例如可以按照相关性由高到低的顺序进行排序；

优选的，在得到第一比对结果之后，还可以将其发送至指定位置，并发送相应的提示信息，方便用户查看。

基于上述技术方案，本申请所提供的一种音素比对的方法，通过将对检材音频文件进行自动音素检索得到的第一检索音素与接收到的第一人工标记音素进行结合，得到检材音素，然后根据检材音素对样本音频文件进行全量比对，使得得到的第一比对结果综合了自动音素检索与人工标记音素的检索结果，具有更高的参照价值；同时，不需要用户手动进行比对，避免了人力资源的浪费，节省了音素识别的时间，极大的提高了音素比对的效率。

基于上述实施例，为进一步提高音素比对的准确度，还可以对检材音频文件进行全量比对，下面结合图3进行说明。

请参考图3，图3为本申请实施例所提供的另一种音素比对的方法的流程图。

其具体包括以下步骤：

S301：对样本音频文件进行自动音素检索，得到第二检索音素；

S302：接收输入的第二人工标记音素，并将第二人工标记音素与第二检索音素结合，得到样本音素；

这里提到第二人工标记音素，即为用户输入的用于在检材音频文件中进行检索的音素。

S303：根据样本音素对检材音频文件进行全量比对，得到第二比对结果；

S304：将第一比对结果与第二比对结果结合，得到总比对结果。

优选的，在得到总比对结果之后，还可以将总比对结果按照预设顺序进行排列。

本申请实施例将第二人工标记音素与第二检索音素结合，得到样本音素，然后根据检材音素对样本音频文件进行全量比对，得到的第二比对结果，最后综合第一比对结果与第二比对结果得到总比对结果，进一步提高音素比对的准确度，具有更高的参照价值。

请参考图4，图4为本申请实施例所提供的一种音素比对的装置的结构图。

该装置可以包括：

接收模块100，用于接收输入的检材音频文件及样本音频文件；

第一自动音素检索模块200，用于对检材音频文件进行自动音素检索，得到第一检索音素；

第一音素结合模块300，用于接收输入的第一人工标记音素，并将第一人工标记音素与第一检索音素结合，得到检材音素；

第一全量比对模块400，用于根据检材音素对样本音频文件进行全量比对，得到第一比对结果。

请参考图5，图5为本申请实施例所提供的另一种音素比对的装置的结构图。

该第一自动音素检索模块200可以包括：

模型构建子模块，用于将预置的音素词典、预置的声学模型和预置的音素语言模型输入至音素识别器中构建音素识别模型；

参数获取子模块，用于获取检材音频文件的语音特征参数；

音素检索子模块，用于将语音特征参数输入至音素识别模型中进行检索，得到第一检索音素。

进一步的，该参数获取子模块可以包括：

参数获取单元，用于获取检材音频文件的梅尔频率倒谱系数。

该装置还可以包括：

第二自动音素检索模块，用于对样本音频文件进行自动音素检索，得到第二检索音素；

第二音素结合模块，用于接收输入的第二人工标记音素，并将第二人工标记音素与第二检索音素结合，得到样本音素；

第二全量比对模块，用于根据样本音素对检材音频文件进行全量比对，得到第二比对结果；

结果结合模块，用于将第一比对结果与第二比对结果结合，得到总比对结果。

该装置还可以包括：

排序模块，用于将总比对结果按照预设顺序进行排列。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图6，图6为本申请实施例所提供的一种音素比对设备的结构图。

该音素比对设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在音素比对设备600上执行存储介质630中的一系列指令操作。

音素比对设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作装置641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图3所描述的音素比对的方法中的步骤由音素比对设备基于该图6所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种音素比对的方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音素比对的方法，其特征在于，包括：

接收输入的检材音频文件及样本音频文件；

根据所述检材音素对所述样本音频文件进行全量比对，得到第一比对结果；其中，在得到第一比对结果之后，将所述第一比对结果发送至指定位置，并发送相应的提示信息，以便用户查看；

在所述得到第一比对结果之后，还包括：

2.根据权利要求1所述的方法，其特征在于，对所述检材音频文件进行自动音素检索，得到第一检索音素，包括：

获取所述检材音频文件的语音特征参数；

3.根据权利要求2所述的方法，其特征在于，获取所述检材音频文件的语音特征参数，包括：

获取所述检材音频文件的梅尔频率倒谱系数。

4.根据权利要求1所述的方法，其特征在于，在所述得到总比对结果之后，还包括：

将所述总比对结果按照预设顺序进行排列。

5.一种音素比对的装置，其特征在于，包括：

接收模块，用于接收输入的检材音频文件及样本音频文件；

第一全量比对模块，用于根据所述检材音素对所述样本音频文件进行全量比对，得到第一比对结果；其中，在得到第一比对结果之后，将所述第一比对结果发送至指定位置，并发送相应的提示信息，以便用户查看；

所述的装置还包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

排序模块，用于将所述总比对结果按照预设顺序进行排列。

7.一种音素比对设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述音素比对的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述音素比对的方法的步骤。