CN116935835A

CN116935835A - 齿音识别、消除方法、系统、介质及设备

Info

Publication number: CN116935835A
Application number: CN202210375304.0A
Authority: CN
Inventors: 陈修凯; 李建华; 朱马
Original assignee: Shanghai Awinic Technology Co Ltd
Current assignee: Shanghai Awinic Technology Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-10-24

Abstract

一种齿音识别、消除方法、系统、介质及设备，识别方法包括通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值；根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。本申请的齿音识别方法通过深度学习方式获取音频信号中的齿音判断值，齿音判断值包括第一齿音判断值和第二齿音判断值，并使用第一齿音判断值和第二齿音判断值中的至少一种进行齿音判断以识别出音频信号中的齿音信号，提高了齿音信号识别的准确度。

Description

齿音识别、消除方法、系统、介质及设备

技术领域

本申请涉及电子技术领域，具体涉及一种齿音识别、消除方法、系统、介质及设备。

背景技术

当音乐中或视频中的字声母是j、q、x、zh、ch、sh、z、c、s时，由于在发这些音时演唱者舌尖需要顶住上门牙，气流和牙齿会发生摩擦，因此会产生齿音。齿音属于边缘音，没有固定基频，所以在语谱图中呈现出的是一片雾状物。齿音的频率主要在4KHz(赫兹)-8KHz左右，属于人耳听觉的敏感区域，因此当齿音较大时听起来会比较刺耳，有明显的刺耳感，导致音乐整体听感不好。

现有技术中多使用单个特征信息进行声音信号分析，导致齿音识别的准确度较低。

发明内容

鉴于此，本申请提供一种齿音识别、消除方法、系统、介质及设备，以解决现有的使用单个特征信息进行声音信号分析，导致齿音识别的准确度较低的问题。

本申请提供的一种齿音识别方法，包括：通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值；根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。

可选的，所述根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号的步骤，包括：当根据所述第一齿音判断值识别所述音频信号中的齿音信号时，在所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号；当根据所述第二齿音判断值识别所述音频信号中的齿音信号时，在所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号；当根据所述第一齿音判断值和所述第二齿音判断值识别所述音频信号中的齿音信号时，在所述第二齿音判断值小于所述第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号。

可选的，所述第一齿音判断值包括齿音幅值和齿音幅值比例，所述齿音幅值比例通过对所述齿音幅值进行归一化处理得到；所述第一判断阈值包括第一幅值阈值和第一幅值比例阈值；所述在所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号的步骤，包括：在所述齿音幅值大于所述第一幅值阈值或所述齿音幅值比例大于所述第一幅值比例阈值时认定所述音频信号为齿音信号。

可选的，所述第二齿音判断值包括齿音预测值和齿音识别比例，所述齿音预测值的大小与所述齿音信号的大小正相关，所述齿音识别比例通过对所述齿音预测值进行归一化处理得到；所述第二判断阈值包括第一预测阈值和第一识别比例阈值；所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号的步骤，包括：在所述齿音预测值大于所述第一预测阈值或所述齿音识别比例大于所述第一识别比例阈值时认定所述音频信号为齿音信号。

可选的，所述第三判断阈值包括第二幅值阈值和第二幅值比例阈值；

所述在所述第二齿音判断值小于所述第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号的步骤，包括：在所述齿音预测值小于所述第一预测阈值或所述齿音识别比例小于所述第一识别比例阈值时，继续获取对应音频信号的齿音幅值或齿音幅值比例，在所述齿音幅值大于所述第二幅值阈值或所述齿音幅值比例大于所述第二幅值比例阈值时，认定所述音频信号为齿音信号。

可选的，所述通过深度学习方式获取音频信号的齿音判断值的步骤，包括：通过卷积神经网络模型、深度神经网络模型、循环神经网络模型和支持向量机模型中的至少一种获取音频信号的齿音判断值。

可选的，所述归一化处理包括使用线性归一化公式进行归一化处理；所述线性归一化公式为：

其中，x为所述音频信号、f(x)为所述齿音预测值、f(x)_min为所述齿音预测值中的最小值、f(x)_max为所述齿音预测值中的最大值、g(x)为所述齿音识别比例。

本申请还提供一种齿音消除方法，包括：使用所述的齿音识别方法识别出所述音频信号中的齿音信号；对所述齿音信号的幅值进行压制以消除所述齿音信号。

可选的，所述对所述齿音信号的幅值进行压制以消除所述齿音信号的步骤具体包括：在所述第一齿音判断值大于第一判断阈值时，以第一增益值对所述齿音信号的幅值进行压制；在所述第二齿音判断值大于第二判断阈值时，以第二增益值对所述齿音信号的幅值进行压制；在所述第二齿音判断值小于所述第二判断阈值时，实时获取所述第一齿音判断值，并根据所述第一齿音判断值的大小控制齿音压制时的增益值以实现动态齿音压制。

可选的，所述根据所述第一齿音判断值的大小控制齿音压制时的增益值以实现动态齿音压制的步骤，包括：在第一齿音判断值大于第三判断阈值且小于第四判断阈值时，以第三增益值对所述齿音信号的幅值进行压制；在第一齿音判断值小于第三判断阈值时，以第四增益值对所述齿音信号的幅值进行压制；在第一齿音判断值大于第四判断阈值时，以第五增益值对所述齿音信号的幅值进行压制。

本申请还提供一种齿音识别系统，包括：信号获取模块，用于通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值；齿音识别模块，用于根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。

本申请还提供一种齿音消除系统，包括所述的齿音识别系统以识别出所述音频信号中的齿音信号；所述齿音消除系统还包括：

齿音压制模块，用于对所述齿音信号的幅值进行压制以消除所述齿音信号。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的齿音识别方法，或，所述计算机程序被处理器执行时实现所述的齿音消除方法。

本申请还提供一种电子设备，包括处理器和存储介质；所述存储介质上存储有程序代码；所述处理器用于调用所述存储介质存储的程序代码，以执行所述的齿音识别方法，或，所述的齿音消除方法。

本申请的齿音识别方法、系统、介质及设备，通过深度学习方式获取音频信号中的齿音判断值，齿音判断值包括第一齿音判断值和第二齿音判断值，并使用第一齿音判断值和第二齿音判断值中的至少一种进行齿音判断以识别出音频信号中的齿音信号，提高了齿音信号识别的准确度。

进一步的，使用第一齿音判断值和第二齿音判断值进行齿音判断，并设置多个阈值进行细分比较，进一步提高了齿音信号识别的准确度。

本申请的齿音消除方法，在使用上述齿音识别方法识别出齿音信号后，再对该齿音信号进行幅值压制以消除齿音，由于本申请的齿音消除方法是先检测出来齿音信号，并仅仅对齿音信号进行幅值压制，对非齿音部分不进行压制，避免了非齿音部分音效的影响，进一步减小了对音频信号的音效的影响。

进一步的，在第二齿音判断值大于第二判断阈值时被确定为齿音信号，后续进行直接压制，在第二齿音判断值小于第二判断阈值时，再结合第一齿音判断值进行进一步判断，在第一齿音判断值大于第三判断阈值时音频信号为齿音信号，后续对该齿音信号进行幅值压制以消除齿音，避免了非齿音部分音效的影响，进一步减小了对音频信号的音效的影响。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例的齿音识别方法的流程示意图；

图2为本申请一实施例的齿音识别算法流程图；

图3为本申请一实施例的幅值检测算法流程图；

图4为本申请一实施例的齿音消除方法的流程示意图；

图5为本申请一实施例的齿音消除方法的流程图；

图6为本申请一实施例的幅值检测算法流程图；

图7为本申请一实施例的齿音消除方法的流程示意图

图8为本申请一实施例的齿音信号的语谱图；

图9为本申请一实施例的非齿音信号的语谱图；

图10为本申请一实施例的原始音频波形图；

图11为图10中的原始音频齿音消除后的音频波形图；

图12为本申请一实施例的齿音识别系统的结构示意图；

图13为本申请一实施例的齿音消除系统的结构示意图；

图14为本申请一实施例的齿音消除系统的结构示意图；

图15为本申请一实施例的电子设备结构示意图。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。

请参看图1，本申请一实施例的齿音识别方法的流程示意图。

本实施例的齿音识别方法，包括以下步骤：

S11、通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值。

音频信号包括播放的歌曲中的声音和播放的视频的声音。齿音指的是声音中发字声母是j、q、x、zh、ch、sh、z、c、s时，由于舌尖需要顶住上门牙，气流和牙齿会发生摩擦而产生的声音。齿音属于边缘音，没有固定基频，所以在语谱图中呈现出的是一片雾状物。齿音的频率主要在4KHz(赫兹)-8KHz左右，属于人耳听觉的敏感区域。

S12、根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。

本申请的齿音识别方法，通过深度学习方式获取音频信号中的齿音判断值，齿音判断值包括第一齿音判断值和第二齿音判断值，并使用第一齿音判断值和第二齿音判断值中的至少一种进行齿音判断以识别出音频信号中的齿音信号，提高了齿音信号识别的准确度。

在可选的一种实施方式中，步骤S12具体包括：当根据所述第一齿音判断值识别所述音频信号中的齿音信号时，在所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号；当根据所述第二齿音判断值识别所述音频信号中的齿音信号时，在所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号；当根据所述第一齿音判断值和所述第二齿音判断值识别所述音频信号中的齿音信号时，在所述第二齿音判断值小于所述第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号。

具体的，当根据所述第一齿音判断值识别所述音频信号中的齿音信号时，将第一齿音判断值与第一判断阈值比较，大于该第一判断阈值时认定对应的音频信号为齿音信号，该第一判断阈值为最大判断阈值。通过设置第一判断阈值，并将第一齿音判断值与第一判断阈值比较，所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号，可以识别出音频信号中的齿音信号。当根据所述第二齿音判断值识别所述音频信号中的齿音信号时，将第二齿音判断值与第二判断阈值比较，大于该第二判断阈值时认定对应的音频信号为齿音信号，该第二判断阈值可为最大判断阈值。通过设置第二判断阈值，并将第二齿音判断值与第二判断阈值比较，在所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号，可以识别出音频信号中的齿音信号。

第一齿音判断值与第二齿音判断值是不同的齿音判断值，该齿音判断值包括表征是否为齿音信号的能量预测值、幅度预测值、信号类型预测值和对预测值处理后得到的识别比例值等。该齿音判断值可以通过模型识别或数学公式计算输入的音频信号以得到对应的齿音判断值。

当根据所述第一齿音判断值和所述第二齿音判断值识别所述音频信号中的齿音信号时，对于所述第二齿音判断值小于第二判断阈值的音频信号进一步获取与所述第二齿音判断值对应的音频信号的第一齿音判断值，该第一齿音判断值与第二齿音判断值不同，并将第一齿音判断值与第三判断阈值比较，在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号，在小于该第三判断阈值时认定对应的音频信号为非齿音信号。通过使用第一齿音判断值和第二齿音判断值进行齿音判断，并设置多个阈值进行细分比较，进一步提高了齿音信号识别的准确度。

在可选的一种实施方式中，所述第一齿音判断值包括齿音幅值和齿音幅值比例，所述齿音幅值比例通过对所述齿音幅值进行归一化处理得到；所述第一判断阈值包括第一幅值阈值和第一幅值比例阈值；所述在所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号的步骤，包括：在所述齿音幅值大于所述第一幅值阈值或所述齿音幅值比例大于所述第一幅值比例阈值时认定所述音频信号为齿音信号。通过使用齿音幅值或齿音幅值比例进行齿音识别，提高了齿音信号识别的准确度。

在可选的一种实施方式中，所述第二齿音判断值包括齿音预测值和齿音识别比例，所述齿音预测值的大小与所述齿音信号的大小正相关，所述齿音识别比例通过对所述齿音预测值进行归一化处理得到；所述第二判断阈值包括第二预测阈值和第一识别比例阈值；所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号的步骤，包括：在所述齿音预测值大于所述第一预测阈值或所述齿音识别比例大于所述第一识别比例阈值时认定所述音频信号为齿音信号。通过齿音预测值与第一预测阈值进行比较或通过所述齿音识别比例与所述第一识别比例阈值进行比较，可以识别出音频信号中的齿音信号，识别准确性高。

在可选的一种实施方式中，所述第三判断阈值包括第二幅值阈值和第二幅值比例阈值；所述在所述第二齿音判断值小于所述第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号的步骤，包括：在所述齿音预测值小于所述第一预测阈值或所述齿音识别比例小于所述第一识别比例阈值时，继续获取对应音频信号的齿音幅值或齿音幅值比例，在所述齿音幅值大于所述第二幅值阈值或所述齿音幅值比例大于所述第二幅值比例阈值时，认定所述音频信号为齿音信号。通过在所述齿音预测值小于所述第一预测阈值或所述齿音识别比例小于所述第一识别比例阈值时继续获取对应的齿音幅值或齿音幅值比例，并进行二次阈值比较，可以进一步识别出小于所述第一预测阈值的齿音信号，避免了单个阈值比较，提高了齿音信号识别的准确度，提高了齿音信号识别结果的准确性。

在可选的一种实施方式中，所述通过深度学习方式获取音频信号的齿音判断值的步骤，包括：通过卷积神经网络模型、深度神经网络、循环神经网络和支持向量机模型中的至少一种获取音频信号的齿音判断值。通过卷积神经网络模型、深度神经网络模型、循环神经网络模型和支持向量机模型中的至少一种获取所述音频信号的齿音预测值，提高了齿音识别结果的准确性。

具体的，提取所述音频信号的特征，所述特征包括频域特征和时域特征；将所述特征输入至经过齿音训练的卷积神经网络模型、深度神经网络模型、循环神经网络模型和支持向量机模型中的至少一种以获取所述音频信号的齿音预测值。具体的，通过对所述音频信号进行分帧、加窗、快速傅里叶变换中的至少一种处理以提取所述音频信号的特征，通过对所述音频信号进行分帧、加窗、快速傅里叶变换中的至少一种处理提取所述音频信号的频域特征和时域特征，再利用上述模型获取所述音频信号的齿音预测值，提高了齿音预测值的准确性，提高了后续判断齿音信号的准确性。

由于支持向量机(Support Vector Machine，SVM)模型结构简单，计算速度快，下面以支持向量机模型为例，通过支持向量机模型获取所述音频信号的齿音预测值的步骤具体如下：

将输入的音频信号直接输入到支持向量机(Support Vector Machine，SVM)模型获取所述音频信号的齿音预测值，或是将输入的音频信号经过一系列处理后再输入到SVM模型以获取所述音频信号的齿音预测值。所述齿音判断值包括第二齿音判断值。所述第二齿音判断值包括齿音预测值。

SVM模型的数学表达式可以表示为：

f(x)＝*x+b(1)

其中，w和b是通过SVM训练后得到的两个参数，w为权重矩阵，b为偏置矩阵，x为音源信号的特征向量，包括时域特征向量和频域特征向量。

本申请的齿音识别方法还包括SVM模型训练，先将齿音信号和非齿音信号打上标签形成训练样本，将打标签后的训练样本输入后SVM模式中，得到参数w和b。将满足识别准确率的参数w和b作为训练好的SVM模型参数进行后续齿音识别中使用。

在SVM模型中，如果齿音预测值位于超平面w*x+b＝1的上方，则说明该齿音预测值对应的频率信号为齿音信号的可能性很大；反之，如果齿音预测值位于超平面w*x+b＝-1的下方，则说明该齿音预测值对应的音频信号为非齿音信号的可能性很大。

当所述齿音预测值小于所述第一预测阈值时，此时会对所述齿音预测值对应的音频信号的第一齿音判断值进行进一步判断，当所述第一齿音判断值大于第三判断阈值时认定对应的音频信号为齿音信号。当所述第一齿音判断值小于第三判断阈值时，则认定所述齿音预测值对应的音频信号为非齿音信号。

本实施例的齿音识别方法，首先通过SVM模型获取输入的音频信号中的齿音信号的齿音预测值，并设置多个阈值进行细分比较，在齿音预测值大于第一预测阈值时被确定为齿音信号；在齿音预测值小于第一预测阈值时进一步获取对应音频信号的第一齿音判断值，在第一齿音判断值大于第三判断阈值时认定对应的音频信号为齿音信号，在第一齿音判断值小于第三判断阈值时认定对应的音频信号为非齿音信号，直接输出。通过SVM模型对齿音信号进行预测，提高了齿音识别结果的准确性。

在可选的另一种实施方式中，所述第二齿音判断值还包括齿音识别比例，所述齿音识别比例的大小与所述齿音信号的大小正相关；所述第二判断阈值还包括第一识别比例阈值；所述获取音频信号的第二齿音判断值的步骤，还包括：对所述齿音预测值进行归一化处理得到齿音信号的齿音识别比例。

具体的，将所述齿音预测值进行归一化处理，归一化处理方式不限制于线性归一化、零均值归一化、以及非线性归一化等任何归一化的方式。以下仅以齿音预测值线性归一化的数学表达式为例，其数学表达式可以表示为：

其中，f(x)为输入音源信号中齿音预测值，f(x)_min为输入音源信号齿音预测值中的最小值，f(x)_max为输入音源信号齿音预测值中的最大值，g(x)为输入音源信号中齿音识别比例(大小为0到1之间范围内的值)。

此时，所述根据所述第二齿音判断值识别所述音频信号中的齿音信号的步骤具体包括：在所述齿音识别比例大于第一识别比例阈值时认定对应的音频信号为齿音信号。通过齿音识别比例进行齿音判断，提高了齿音判断结果的准确性。

在可选的一种实施方式中，所述根据所述第一齿音判断值和所述第二齿音判断值识别所述音频信号中的齿音信号的步骤，包括：在所述齿音识别比例小于所述第一识别比例阈值时，获取所述齿音识别比例对应的音频信号的齿音幅值或齿音幅值比例，在所述齿音幅值大于所述第二幅值阈值或所述齿音幅值比例大于所述第二幅值比例阈值时，认定所述音频信号为齿音信号。通过齿音识别比例进行初次齿音判断，再结合齿音幅值或齿音幅值比例结合的方式进行再次判断，提高了齿音信号判断结果的准确性。

具体的，当g(x)的值越大，大于第一识别比例阈值时，说明是齿音的可能性也就越大；反之，当g(x)的值越小时，说明是非齿音的可能性越大。

由于输入的音频信号为一整首歌曲等一段比较长的信号，获取的对应的齿音预测值的数量和数值都是比较庞大的，再进行后续的阈值比较时计算量会比较大。本实施例方式中，经过将所述齿音预测值进行归一化处理，得到齿音识别比例，该齿音识别比例的范围在0到1之间，比如，第一识别比例阈值为0.9，第二识别比例阈值为0.6，当齿音识别比例大于0.9时，认定该音频信号为齿音信号，当齿音识别比例小于0.9且大于0.6时，认定其中音频信号可以还会包含齿音信号，因此需要进一步获取齿音幅值或齿音幅值比例进行进一步的识别，提高了齿音识别结果的准确性。同时将齿音识别比例进行阈值比较以识别齿音可以大大降低计算量，提高齿音识别的速度，提高实时齿音检测的准确性。

在可选的另一种实施方式中，通过谱熵、梅尔倒谱系数、线性预测倒谱系数和线谱对中的至少一种进行音频信号的齿音预测值计算，提高了齿音预测值的准确性，提高了判断齿音信号的准确性。

请参看图2，本申请一实施例的齿音识别算法流程图。

本实施例的齿音识别算法，首先对输入的音源信号进行分帧和加窗处理，然后进行快速傅里叶变换(FastFourierTransform，FFT)，并提取输入音源信号的频域特征和时域特征。

在特征提取过程中，所使用的特征包括谱熵(SpectralEntropy)、梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)、线性预测倒谱系数(Linear PredictionCepstrum Coefficient，LPCC)和线谱对(Line Spectrum Pair，LSP)等，所述特征具体包括：谱熵、梅尔倒谱系数、线性预测倒谱系数和线谱对中的至少一种。这是由于在频域内齿音的能量相对比较集中，其谱熵值较大，而非齿音的能量则分布相对比较均匀，其谱熵值较小，因此能够很好的区分开齿音与非齿音；MFCC能够很好的体现人耳听觉特性；LPCC包含了信号谱的包络信息。

再将提取到的频域特征和时域特征输入到经过训练的支持向量机SVM模型进行齿音识别，再进行齿音判断，Y表示是齿音信号，N表示非齿音信号。经过分帧、加窗、FFT后可以将输入的音频信号划分成各个频段或特定频点，后续可以对各个频段或特定频点进行齿音识别和实时检测齿音频点的幅值，可以提高齿音识别的准确性。

在可选的另一种实施方式中，所述第一齿音判断值包括齿音幅值，所述第一判断阈值包括第一幅值阈值；在所述齿音预测值小于所述第一预测阈值或所述齿音识别比例小于所述第一识别比例阈值时，继续获取对应音频信号的齿音幅值，在所述齿音幅值大于所述第二幅值阈值时，认定所述音频信号为齿音信号。

请参看图3，本申请一实施例的幅值检测算法流程图。

本实施例的幅值检测方法包括：获取输入的音频输入，通过幅值检测来确定输入音源信号中齿音频点的齿音幅值，判断该齿音幅值是否小于最小幅值阈值，该最小幅值阈值即为第一幅值阈值，若是Y，表示在该齿音幅值小于最小幅值阈值时该频点的信号为非齿音信号，若是N，表示在该齿音幅值大于最小幅值阈值时该频点的信号为齿音信号。可选的，再进一步判断该齿音幅值是否大于最大幅值阈值，若是Y表示在该齿音信号幅值较大，若是N，表示在该齿音信号幅值较小。通过幅值比较的方法较简单，实现更容易。

在可选的一种实施方式中，所述第一齿音判断值还包括齿音幅值比例，所述第三判断阈值包括第二幅值比例阈值；在所述齿音预测值小于所述第一预测阈值或所述齿音识别比例小于所述第一识别比例阈值时，继续获取对应音频信号的齿音幅值比例，在所述齿音幅值比例大于所述第二幅值比例阈值时，认定所述音频信号为齿音信号。

具体的，当前帧音源信号的幅值进行归一化，归一化方式不限于线性归一化、零均值归一化、以及非线性归一化等任何归一化的方式。以下仅以当前帧音源信号幅值的线性归一化为例，其数学表达式可以表示为：

其中，y为输入音源信号中当前帧的幅值，y_max为输入音源信号中幅值的最大值，y_min为输入音源信号中幅值的最小值，f(y)为输入音源齿音幅值比例(大小为0到1范围内的值)，比如，第一幅值比例阈值为0.9，第二幅值比例阈值为0.95。当输入的音源信号中检测到齿音信号时，再结合当前帧的齿音幅值比例，实现不同幅值的齿音信号识别，通过齿音预测值或齿音识别比例与齿音幅值或齿音幅值比例结合的方式进行齿音识别，提高了齿音识别的准确性。

现有技术中的齿音消除方法通常是对整个音乐频段进行整体压制，虽然能够消除齿音，但是会影响非齿音部分的听感，会让整个音乐声音变闷，对音效影响较大。

为了解决上述问题，本申请还提供一种齿音消除方法，通过使用上述齿音识别方法识别出音频信号中的齿音信号后，再对该齿音信号进行幅值压制以消除齿音，由于本申请的齿音消除方法是先检测出来齿音信号，并仅仅对齿音信号进行幅值压制，对非齿音部分不进行压制，避免了非齿音部分音效的影响，进一步减小了对音频信号的音效的影响。

请参看图4，本申请一实施例的齿音消除方法的流程示意图。

本实施例的齿音消除方法，包括以下步骤：

步骤S41、使用上述所述的齿音识别方法识别出所述音频信号中的齿音信号。

步骤S42、对所述齿音信号的幅值进行压制以消除所述齿音信号。

本实施例的齿音消除方法，通过使用上述齿音识别方法识别出音频信号中的齿音信号后，再对该齿音信号进行幅值压制以消除齿音，由于本申请的齿音消除方法是先检测出来齿音信号，并仅仅对齿音信号进行幅值压制，对非齿音部分不进行压制，避免了非齿音部分音效的影响，进一步减小了对音频信号的音效的影响。

在可选的一种实施方式中，步骤S42具体包括：通过均衡化或多带宽动态范围调整方法对所述齿音信号的负增益值进行调整以压制齿音信号的幅值，实现消除齿音信号；所述负增益值的大小与所述齿音信号的幅值成反比例关系，负的增益值越大，幅值越小；负的增益值越小，幅值越大。

具体的，在识别出齿音信号后，采用静态EQ(均衡化)，比如滤波器，或者通过MBDRC(Multiband Dynamic Range Control，多带宽动态范围调整)的方式来消除齿音信号。压制方式主要是通过EQ/MBDRC方式等，但凡通过齿音识别得到动态压制幅度的方式都在本申请范围内，不限压制方式，不限压制频带/频点个数的排列组合架构。若不是齿音信号，则不进行幅值压制，因此能够有效避免对非齿音部分音效的影响。

在可选的一种实施方式中，步骤S42具体包括：在所述第一齿音判断值大于第一判断阈值时，以第一增益值对所述齿音信号的幅值进行压制；在所述第二齿音判断值大于第二判断阈值时，以第二增益值对所述齿音信号的幅值进行压制；在所述第二齿音判断值小于所述第二判断阈值时，实时获取所述第一齿音判断值，并根据所述第一齿音判断值的大小控制齿音压制时的增益值以实现动态齿音压制。比如，在第一齿音判断值大于该第一判断阈值时以一种压制方式进行压制；在第二齿音判断值大于该第二判断阈值时以另一种压制方式进行压制；对第二齿音判断值小于第二判断阈值的音频信号再进一步判断，在所述第二齿音判断值大于第三判断阈值时以另一种压制方式进行压制。通过幅值检测实时检测齿音频点信号的幅值，并根据齿音频点的幅值比例进行压制，齿音的幅值比例越大则压制越多，幅值比例越小则压制越小，使得在有效消除齿音的同时，减小了对其他非齿音音效的影响。

在可选的一种实施方式中，所述根据所述第一齿音判断值的大小控制齿音压制时的增益值以实现动态齿音压制的步骤包括：在第一齿音判断值小于第三判断阈值时，以第四增益值对所述齿音信号的幅值进行压制；在第一齿音判断值大于第三判断阈值且小于第四判断阈值时，以第三增益值对所述齿音信号的幅值进行压制；在第一齿音判断值大于第四判断阈值时，以第五增益值对所述齿音信号的幅值进行压制。比如，第四判断阈值为图3中的最大幅值阈值，当齿音幅值大于该最大幅值阈值时，认为需要进行较大幅度的压制，通过设置第三判断阈值和第四判断阈值，并对应的设置第一增益值、第二增益值、第三增益值、第四增益值和第五增益值对齿音信号进行不同的幅值压制，实现了动态的齿音压制方法，进一步减小了齿音对音效的影响，提高了齿音信号消除的准确性。

本实施例的齿音消除方法，首先对音频信号中的齿音信号进行识别，使用第一齿音判断值和第二齿音判断值进行齿音判断，并设置多个阈值进行细分比较，在第一齿音判断值大于第一判断阈值时或在第二齿音判断值大于第二判断阈值时被确定为齿音信号，后续进行直接压制，在第二齿音判断值大于第二判断阈值时，再结合第一齿音判断值进行进一步判断，在第一齿音判断值大于第三判断阈值时音频信号为齿音信号，后续对该齿音信号进行幅值压制以消除齿音。由于本申请的齿音消除方法会先检测出来齿音信号，并仅仅对齿音信号进行幅值压制，对非齿音部分不进行压制，避免了非齿音部分音效的影响，进一步减小了对音频信号的音效的影响。

请参看图5，本申请一实施例的齿音消除方法的流程图。

本实施例的齿音消除方法，首先对输入的音源信号进行分帧和加窗处理，然后进行快速傅里叶变换(FastFourierTransform，FFT)，并提取输入音源信号的频域特征和时域特征。

再将提取到的频域特征和时域特征输入到经过训练的支持向量机SVM模型进行齿音识别，再进行齿音判断，Y表示是齿音信号，此时需要齿音压制，N表示非齿音信号，直接将音频信号作音频输出。

经过分帧、加窗、FFT后可以将输入的音频信号划分成各个频段或特定频点，后续可以对各个频段或特定频点进行齿音识别和实时检测齿音频点的幅值，可以提高齿音消除的准确性。

请参看图6，本申请一实施例的幅值压制方法的流程图。

获取输入的音频输入，通过幅值检测来确定输入音源信号中齿音频点的齿音幅值，判断该齿音幅值是否小于最小幅值阈值，若是Y，表示在该齿音幅值小于最小幅值阈值时该频点的信号为非齿音信号，可以直接进行音频输出。判断该齿音幅值是否大于最大幅值阈值，若是Y表示在该齿音幅值大于最大幅值阈值时对该频点的信号进行较大幅度压制，若是N，表示在该幅值小于最大幅值阈值时对该频点的信号进行较小幅度压制，并将压制后的信号进行音频输出。

具体的压制方式是根据当前帧的幅值识别比例和幅值比例按一定的权重系数进行压制，通过调整信号的负增益的大小以调整信号的幅值，压制的幅值越大负增益值越小，压制的幅值越小负增益值越大，以此实现动态幅值压制，进一步减小压制频点对音效的影响。

请参看图7，本申请一实施例的齿音消除方法的流程图。

本实施例中的齿音消除方法中，第一齿音判断值为幅值比例，第二齿音判断值包括齿音识别比例，第二判断阈值为齿音识别最大比例阈值第三判断阈值为幅值最小比例阈值，第四判断阈值为幅值最大比例阈值。

压制方式一为以第一增益值或以第二增益值对所述齿音信号的幅值进行压制；压制方式三为以第三增益值对所述齿音信号的幅值进行压制；压制方式四为以第四增益值对所述齿音信号的幅值进行压制；压制方式二为以第五增益值对所述齿音信号的幅值进行压制。

本实施例的齿音消除方法，首先对音源输入的信号进行分帧和加窗处理，然后进行FFT(快速傅里叶变换)进行特征提取，提取的特征包括输入音源信号的频域特征和时域特征。再将提取特征输入到经过训练的支持向量机SVM模型进行齿音识别，输出当前帧的齿音预测值，再将该齿音预测值进行归一化处理后得到当前帧的齿音识别比例，得到第一齿音判断值，该第一齿音判断值包括齿音预测值和齿音识别比例。判断齿音识别比例是否小于齿音识别最小比例阈值，进行齿音判断，Y表示识别比例小于齿音识别最小比例阈值，是非齿音信号，不需要进行压制，直接作为音源输出，N表示识别比例大于或等于齿音识别最小比例阈值，需要进一步判断该识别比例是否大于齿音识别最大比例阈值，该最大比例阈值即第二判断阈值，若是Y，则以压制方式一进行压制，若是N，需要进一步获取当前帧的幅值预测值。

在获取当前帧的幅值预测值之前，通过对音频输入的信号进行分帧后以获取当前帧的幅值预测值。将该幅值预测值进行归一化处理后得到当前帧的幅值比例，判断幅值比例是否小于幅值最小比例阈值，该幅值最小比例阈值即第三判断阈值，若是Y，则以压制方式四对该帧信号进行压制，若是N，需要进一步判断幅值比例是否大于幅值最大比例阈值，该幅值最大比例阈值即第四判断阈值，若是Y，则对该帧信号以压制方式二进行压制，若是N，则对该帧信号以压制方式三进行压制，将经过各个压制方式后的信号作为音频输出信号，实现齿音的消除。

具体的压制方式是根据当前帧的识别比例和/或幅值比例按一定的权重系数进行设置的，压制方式一、压制方式二、压制方式三和压制方式四进行压制的权重系数从大到小依次降低，即压制方式一对信号的压制强度最大，压制方式四对信号的压制强度最小，以实现齿音信号的精准压制，避免对非齿音信号的影响。

在其他可选的实施方式中，压制方式一、压制方式二、压制方式三和压制方式四也可以根据其他方式设置，具体的强度大小也可以不是依次减小的，具体可根据实际情况设置。

请参看图8，本申请一实施例的齿音信号的语谱图。

图8中，齿音信号的语谱图呈现出的是一片雾状，并且没有基频和共振峰等，图中白色部分表示齿音信号的能量较高。

请参看图9，本申请一实施例的非齿音信号的语谱图。

图9中非齿音信号的语谱图呈现出的是一片有规则的形状，包含了基频和共振峰等特征，图中白色的部分明显较少，表示齿音能量较低。

请参看图10，本申请一实施例的原始音频波形图。

图10中是从一段输入音频中截取的部分原始音频波形图，该原始音频波形图中包含“知”、“是”和“介”字处的信号幅值较大，具体的，“知”字的音频波形幅值接近0.6，“是”字的音频波形幅值超过0.8，“介”字的音频波形幅值大于0.6，可知，“知”、“是”和“介”字处的信号包含齿音信号。

请参看图11，为图10中的原始音频齿音消除后的音频波形图。

图11为使用本申请的齿音消除方法对图10中的原始音频波形对应的信号进行处理后的波形图。可见，经过齿音消除处理后，图11中的包含“知”、“是”和“介”字处的信号幅值大大降低，具体的，“知”字的音频波形幅值接近0.4，“是”字的音频波形幅值远小于0.8，“介”字的音频波形幅值接近0.6，可见，“知”、“是”和“介”字处的齿音信号被消除了，而其他非齿音信号的频点信号幅值依然保持不变。

本实施例的齿音消除方法，由于齿音信号只出现在齿音部分，进行了齿音检测，保证只对齿音部分生效，从而避免了对其他非齿音部分音效的影响。同时，实时检测齿音频点信号的幅值，采用大齿音信号压制多，小齿音信号压制少的动态压制方式，减小了对音效的影响。

请参看图12，本申请一实施例的齿音识别系统的结构示意图。

本实施例的齿音识别系统100，包括：

信号获取模块1，用于通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值。

齿音识别模块2，用于根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。

本申请的齿音识别系统100，首先使用信号获取模块1通过深度学习方式获取音频信号中的齿音判断值，使用齿音识别模块2对第一齿音判断值和第二齿音判断值中的至少一种进行齿音判断以识别出音频信号中的齿音信号，提高了齿音信号识别的准确度。

请参看图13，本申请一实施例的齿音消除系统的结构示意图。

本实施例的齿音消除系统200，包括上述的齿音识别系统100以识别出所述音频信号中的齿音信号。

所述齿音消除系统200还包括：齿音压制模块3，用于对所述齿音信号的幅值进行压制以消除所述齿音信号。

本实施例的齿音消除系统，通过使用上述齿音识别系统100使用齿音识别算法检测出歌曲中人声的齿音部分，并保证齿音压制模块3只在检测出的齿音部分生效，从而有效避免了对非齿音部分的影响；使用动态压制齿音，通过幅值检测算法实时检测齿音频点信号的幅值，并根据齿音频点的幅值比例进行压制，齿音的幅值比例越大则压制越多，幅值比例越小则压制越小，使得在有效消除齿音的同时，减小了对其他非齿音音效的影响。

请参看图14，本申请一实施例的齿音消除系统的结构示意图。

本实施例的齿音消除系统中，信号获取模块1，通过模型识别或数学公式计算得到输入的音频信号中的齿音判断值，该齿音判断值包括表征是否为齿音信号的能量预测值、幅度预测值、信号类型预测值和对预测值处理后得到的识别比例值等。

齿音识别模块2具体包括：齿音识别单元21和幅值检测单元22；所述齿音识别单元21，用于在所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号；所述幅值检测单元22用于在所述第二齿音判断值小于第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号。

具体的，先将第二齿音判断值与第二判断阈值比较，大于该第二判断阈值时认定对应的音频信号为齿音信号，需要进行压制。对于小于该第二判断阈值的音频信号再进一步获取所述第二齿音判断值对应的音频信号的第一齿音判断值，该第一齿音判断值与第二齿音判断值不同，并将一齿音判断值与第三判断阈值比较，在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号。

本实施例的齿音消除系统，首先对音频信号中的齿音信号进行识别，使用第一齿音判断值和第二齿音判断值进行齿音判断，并设置多个阈值进行细分比较，在第二齿音判断值大于第二判断阈值时被确定为齿音信号，后续进行直接压制，在第二齿音判断值小于第二判断阈值时，再结合第一齿音判断值进行进一步判断，在第一齿音判断值大于第三判断阈值时音频信号为齿音信号，后续对该齿音信号进行幅值压制以消除齿音。由于本申请的齿音消除方法会先检测出来齿音信号，并仅仅对齿音信号进行幅值压制，对非齿音部分不进行压制，避免了非齿音部分音效的影响，进一步减小了对音频信号的音效的影响。

本申请还提供一种电子设备，参考图15所示，该电子设备包括处理器620和存储介质630；所述存储介质630上存储有控制代码；所述处理器620用于调用所述存储介质630存储的控制代码，以执行上述任一实施例提供的齿音识别方法，或，齿音消除方法。

本申请还提供一种芯片，包括运算电路；所述运算电路用于执行上述任一种齿音识别方法，或，齿音消除方法。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种齿音识别方法，或，齿音消除方法。

在本申请提供的芯片和计算机存储介质的实施例中，可以包含任一种齿音识别方法，或，齿音消除方法的全部技术特征，说明书拓展和解释内容与上述各方法的各实施例基本相同，在此不做再赘述。

尽管已经相对于一个或多个实现方式示出并描述了本申请，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本申请包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本说明书的示范性实现方式中的功能的公开结构不等同。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，例如各实施例之间技术特征的相互结合，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种齿音识别方法，其特征在于，包括：

通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值；

根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。

2.如权利要求1所述的齿音识别方法，其特征在于，所述根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号的步骤，包括：

当根据所述第一齿音判断值识别所述音频信号中的齿音信号时，在所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号；

当根据所述第二齿音判断值识别所述音频信号中的齿音信号时，在所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号；

当根据所述第一齿音判断值和所述第二齿音判断值识别所述音频信号中的齿音信号时，在所述第二齿音判断值小于所述第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号。

3.如权利要求2所述的齿音识别方法，其特征在于，所述第一齿音判断值包括齿音幅值和齿音幅值比例，所述齿音幅值比例通过对所述齿音幅值进行归一化处理得到；

所述第一判断阈值包括第一幅值阈值和第一幅值比例阈值；

所述在所述第一齿音判断值大于第一判断阈值时认定所述音频信号为齿音信号的步骤，包括：

在所述齿音幅值大于所述第一幅值阈值或所述齿音幅值比例大于所述第一幅值比例阈值时认定所述音频信号为齿音信号。

4.如权利要求3所述的齿音识别方法，其特征在于，所述第二齿音判断值包括齿音预测值和齿音识别比例，所述齿音预测值的大小与所述齿音信号的大小正相关，所述齿音识别比例通过对所述齿音预测值进行归一化处理得到；

所述第二判断阈值包括第一预测阈值和第一识别比例阈值；

所述第二齿音判断值大于第二判断阈值时认定所述音频信号为齿音信号的步骤，包括：

在所述齿音预测值大于所述第一预测阈值或所述齿音识别比例大于所述第一识别比例阈值时认定所述音频信号为齿音信号。

5.如权利要求4所述的齿音识别方法，其特征在于，所述第三判断阈值包括第二幅值阈值和第二幅值比例阈值；

所述在所述第二齿音判断值小于所述第二判断阈值时，获取所述第二齿音判断值对应的音频信号的第一齿音判断值；在所述第一齿音判断值大于第三判断阈值时认定所述音频信号为齿音信号的步骤，包括：

在所述齿音预测值小于所述第一预测阈值或所述齿音识别比例小于所述第一识别比例阈值时，继续获取对应音频信号的齿音幅值或齿音幅值比例，在所述齿音幅值大于所述第二幅值阈值或所述齿音幅值比例大于所述第二幅值比例阈值时，认定所述音频信号为齿音信号。

6.如权利要求1所述的齿音识别方法，其特征在于，所述通过深度学习方式获取音频信号的齿音判断值的步骤，包括：

通过卷积神经网络模型、深度神经网络模型、循环神经网络模型和支持向量机模型中的至少一种获取音频信号的齿音判断值。

7.如权利要求4所述的齿音识别方法，其特征在于，所述归一化处理包括使用线性归一化公式进行归一化处理；

所述线性归一化公式为：

8.一种齿音消除方法，其特征在于，包括：

使用如权利要求1-7中任意一项所述的齿音识别方法识别出所述音频信号中的齿音信号；

对所述齿音信号的幅值进行压制以消除所述齿音信号。

9.如权利要求8所述的齿音消除方法，其特征在于，所述对所述齿音信号的幅值进行压制以消除所述齿音信号的步骤具体包括：

在所述第一齿音判断值大于第一判断阈值时，以第一增益值对所述齿音信号的幅值进行压制；

在所述第二齿音判断值大于第二判断阈值时，以第二增益值对所述齿音信号的幅值进行压制；

在所述第二齿音判断值小于所述第二判断阈值时，实时获取所述第一齿音判断值，并根据所述第一齿音判断值的大小控制齿音压制时的增益值以实现动态齿音压制。

10.如权利要求9所述的齿音消除方法，其特征在于，所述根据所述第一齿音判断值的大小控制齿音压制时的增益值以实现动态齿音压制的步骤，包括：

在第一齿音判断值大于第三判断阈值且小于第四判断阈值时，以第三增益值对所述齿音信号的幅值进行压制；

在第一齿音判断值小于第三判断阈值时，以第四增益值对所述齿音信号的幅值进行压制；

在第一齿音判断值大于第四判断阈值时，以第五增益值对所述齿音信号的幅值进行压制。

11.一种齿音识别系统，其特征在于，包括：

信号获取模块，用于通过深度学习方式获取音频信号的齿音判断值，所述齿音判断值包括第一齿音判断值和第二齿音判断值；

齿音识别模块，用于根据所述第一齿音判断值和所述第二齿音判断值中的至少一个识别所述音频信号中的齿音信号。

12.一种齿音消除系统，其特征在于，包括如权利要求11所述的齿音识别系统以识别出所述音频信号中的齿音信号；

所述齿音消除系统还包括：

13.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的齿音识别方法，或，所述计算机程序被处理器执行时实现如权利要求8至10中任一项所述的齿音消除方法。

14.一种电子设备，其特征在于，包括处理器和存储介质；所述存储介质上存储有程序代码；所述处理器用于调用所述存储介质存储的程序代码，以执行如权利要求1至7任一项所述的齿音识别方法，或，如权利要求8至10中任一项所述的齿音消除方法。