CN117998254A

CN117998254A - 破音修复方法、装置及存储介质

Info

Publication number: CN117998254A
Application number: CN202410404996.6A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-05-07
Anticipated expiration: 2044-04-07
Also published as: CN117998254B

Abstract

本申请公开了一种破音修复方法、装置及存储介质，破音修复方法包括：通过第一拾音器和第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中，主音频信号和辅音频信号帧对齐；对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息；根据功率谱包络信息对主音频信号中的破音信号进行修复。本申请实施例基于辅音频信号的功率谱包络信息对主音频信号中的破音信号进行修复，能够提高对破音信号的修复效果。

Description

破音修复方法、装置及存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种破音修复方法、装置及存储介质。

背景技术

常见的破音现象是因为用户嘴巴在距离麦克风很近的位置发声，由于发声过程中产生的强烈气流冲击麦克风，导致麦克风的模拟感应器件超出正常物理工作范围或模数转换后的数值达到或超过正常数值范围而被数字截顶，从而引起信号失真的问题。现有的破音修复方案是在检测到破音信号之后，通过在破音信号的相邻信号处进行正常信号的采样，然后利用采样到的正常信号对破音信号进行修复。

但是，目前的这种破音修复方案只对短时破音有效，例如对一个到数个破音信号采样点有效，如果破音信号采样点的数量比较大，这种破音修复方案的修复效果会比较差或者可能会修复无效。因此，如何提高对破音信号的修复效果，是亟待解决的技术问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供了一种破音修复方法、装置及存储介质，能够提高对破音信号的修复效果。

一方面，本申请实施例提供了一种破音修复方法，应用于终端，所述终端包括第一拾音器和第二拾音器，所述方法包括：

通过所述第一拾音器和所述第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中，所述主音频信号和所述辅音频信号帧对齐；

对所述主音频信号进行破音检测，当确定所述主音频信号存在破音信号，获取所述辅音频信号的功率谱包络信息；

根据所述功率谱包络信息对所述主音频信号中的所述破音信号进行修复。

另一方面，本申请实施例还提供了一种破音修复装置，所述破音修复装置包括第一拾音器和第二拾音器，所述破音修复装置还包括：

第一信号获取单元，用于通过所述第一拾音器和所述第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中，所述主音频信号和所述辅音频信号帧对齐；

第二信号获取单元，用于对所述主音频信号进行破音检测，当确定所述主音频信号存在破音信号，获取所述辅音频信号的功率谱包络信息；

破音信号修复单元，用于根据所述功率谱包络信息对所述主音频信号中的所述破音信号进行修复。

可选地，所述破音信号修复单元还用于：

获取所述主音频信号中的所述破音信号的信号峰波值；

根据所述功率谱包络信息和所述信号峰波值，对所述主音频信号中的所述破音信号进行修复。

可选地，所述破音信号修复单元还用于：

对所述主音频信号中的所述破音信号进行时频域转换，得到所述破音信号的破音功率谱；

根据所述破音功率谱中的最大值和最小值，计算得到所述破音信号的信号峰波值。

可选地，所述破音信号修复单元还用于：

获取所述功率谱包络信息中的包络最大值；

根据所述信号峰波值和所述包络最大值，计算得到所述主音频信号和所述辅音频信号之间的功率谱峰值比；

根据所述功率谱峰值比和所述功率谱包络信息，计算得到所述主音频信号的目标功率谱；

根据所述目标功率谱和所述破音功率谱，计算得到破音修复系数；

根据所述破音修复系数对所述主音频信号中的所述破音信号进行修复。

可选地，所述目标功率谱包括多个频点的目标功率谱值，所述破音功率谱包括多个频点的破音功率谱值，所述目标功率谱值所对应的频点和所述破音功率谱值所对应的频点一一对应；所述破音信号修复单元还用于：

对于每一个频点，将对应的所述目标功率谱值和所述破音功率谱值中的最小值确定为修复功率谱值；

计算所述修复功率谱值和所述破音功率谱值的比值的平方根，得到每一个频点的破音修复系数。

可选地，所述第一信号获取单元还用于：

通过所述第一拾音器和所述第二拾音器采集两路音频信号；

计算两路所述音频信号的实时平滑能量值；

比较两路所述音频信号的所述实时平滑能量值的大小，将数值大的一个所对应的所述音频信号确定为主音频信号，并将数值小的一个所对应的所述音频信号确定为辅音频信号。

可选地，每路所述音频信号均包括多个第一音频帧；所述第一信号获取单元还用于：

对于每路所述音频信号，计算上一个所述第一音频帧的第一平滑能量值，并根据所述第一平滑能量值计算得到当前的所述第一音频帧的第二平滑能量值；

将每路所述音频信号的所述第二平滑能量值作为每路所述音频信号的实时平滑能量值。

可选地，所述第一信号获取单元还用于：

计算当前的所述第一音频帧的能量值；

对所述能量值和所述第一平滑能量值进行加权求和，得到当前的所述第一音频帧的第二平滑能量值。

可选地，所述第二信号获取单元还用于：

对所述主音频信号分别进行基于时域的破音检测以及基于频域的破音检测，得到时域检测结果和频域检测结果；

基于所述时域检测结果和所述频域检测结果，确定所述主音频信号是否存在破音信号。

可选地，所述第二信号获取单元还用于：

获取所述时域检测结果和所述频域检测结果各自的置信度；

如果所述时域检测结果和所述频域检测结果中存在所述置信度大于或等于置信度阈值的情况，根据大于或等于所述置信度阈值的任意一个所述置信度所对应的检测结果，确定所述主音频信号是否存在破音信号，或者，如果所述时域检测结果的所述置信度和所述频域检测结果的所述置信度均小于所述置信度阈值，重新对所述主音频信号进行破音检测。

可选地，所述破音修复装置还包括辅助修复单元，所述辅助修复单元在所述破音信号修复单元根据所述功率谱包络信息对所述主音频信号中的所述破音信号进行修复得到所述主音频信号所对应的第一修复信号之后，用于：

将所述辅音频信号作为自适应滤波器的参考信号，对所述主音频信号中的所述破音信号进行修复，得到所述主音频信号所对应的第二修复信号；

调用音频修复模型利用所述辅音频信号对所述主音频信号中的所述破音信号进行修复，得到所述主音频信号所对应的第三修复信号；

计算所述主音频信号与所述第一修复信号之间的第一修复比例、所述主音频信号与所述第二修复信号之间的第二修复比例，以及所述主音频信号与所述第三修复信号之间的第三修复比例；

根据所述第一修复比例、所述第二修复比例和所述第三修复比例，在所述第一修复信号、所述第二修复信号和所述第三修复信号中，确定所述主音频信号所对应的目标修复信号。

另一方面，本申请实施例还提供了一种电子设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的破音修复方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的破音修复方法。

另一方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或所述计算机指令存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令，所述处理器执行所述计算机程序或所述计算机指令，使得所述电子设备执行如前面所述的破音修复方法。

本申请实施例至少包括以下有益效果：先通过第一拾音器和第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中主音频信号和辅音频信号帧对齐，然后对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，并根据功率谱包络信息对主音频信号中的破音信号进行修复。由于主音频信号的能量值会大于辅音频信号的能量值，因此当检测到主音频信号中存在破音信号时，可以认为能量值更小的辅音频信号并不存在破音信号，所以可以利用辅音频信号的功率谱包络信息对主音频信号中的破音信号进行修复。由于是利用不存在破音信号的辅音频信号对主音频信号中的破音信号进行修复，因此并不会受到破音信号采样点的数量的限制，也就是说，本申请实施例并不受限于对短时破音的修复，即使是破音信号采样点的数量比较大的长时破音，本申请实施例也能够对其进行有效的修复，所以，本申请实施例能够有效提高对破音信号的修复效果。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的破音修复方法的应用场景的界面示意图；

图3是本申请实施例提供的一种破音修复方法的流程图；

图4是本申请实施例提供的根据功率谱包络信息对主音频信号中的破音信号进行修复的流程图；

图5是本申请实施例提供的获取主音频信号中的破音信号的信号峰波值的流程图；

图6是本申请实施例提供的根据功率谱包络信息和信号峰波值对主音频信号中的破音信号进行修复的流程图；

图7是本申请实施例提供的根据目标功率谱和破音功率谱计算得到破音修复系数的流程图；

图8是本申请实施例提供的根据破音修复系数对主音频信号中的破音信号进行修复的流程图；

图9是本申请实施例提供的通过第一拾音器和第二拾音器获取主音频信号和辅音频信号的流程图；

图10是本申请实施例提供的计算两路音频信号的实时平滑能量值的流程图；

图11是本申请实施例提供的根据第一平滑能量值计算得到当前的第一音频帧的第二平滑能量值的流程图；

图12是本申请实施例提供的对主音频信号进行破音检测的流程图；

图13是本申请实施例提供的基于时域检测结果和频域检测结果确定主音频信号是否存在破音信号的流程图；

图14是本申请实施例提供的根据功率谱包络信息对主音频信号中的破音信号进行修复得到主音频信号所对应的第一修复信号之后还包括的一种破音修复方法的流程图；

图15是本申请实施例提供的获取辅音频信号的功率谱包络信息的流程图；

图16是本申请实施例提供的根据每个第二音频帧在频域各频点的功率谱值计算得到辅音频信号的功率谱包络信息的流程图；

图17是本申请一个具体例子提供的一种破音修复方法的流程图；

图18是本申请实施例提供的一种破音修复装置的示意图；

图19是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）人工智能（Artificial Intelligence，AI），是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2）拾音器，是用来采集现场环境声音再传送到后端设备的一个器件，它是由麦克风和音频放大电路构成。拾音器一般分为数字拾音器和模拟拾音器，数字拾音器就是通过数字信号处理系统将模拟的音频信号转换成数字信号并进行相应的数字信号处理的声音传感设备。模拟拾音器就只是用一般的模拟电路放大麦克风采集到的声音。

3）音频信号，是带有语音、音乐或音效的有规律的声波的频率、幅度变化的信息载体。

4）功率谱，是指在有限信号的情况下，单位频带范围内信号功率的变换状况，功率随频率而变化，从而表现成为功率谱，它是专门对功率能量的可用有限信号进行分析所表现的能量。而信号的传播都是看不见的，但是它以波的形式存在着，这类信号会产生功率，单位频带的信号功率就被称之为功率谱。它可以显示在一定的区域中信号功率随着频率变化的分布情况。

5）包络信息，是指一个高频调幅信号，其幅度是按低频调制信号变化的。如果把高频调幅信号的峰点连接起来，就可以得到一个与低频调制信号相对应的曲线。这条曲线就是包络线。简单的说就是能够把信号波形包起来的曲线。含有包络信号的信息，可以称为包络信息。

6）破音修复，是一种用于修复音频中的破音问题的技术。在日常的语音类应用中，破音现象是比较常见的，主要原因是说话人距离麦克风过近、说话声音音量过大导致麦克风的模拟感应器件超出正常工作物理范围而产生的声音失真，或者采集到的声音信号超过了麦克风的数字信号的有效范围而产生的数字信号“截顶”现象，从而引起声音失真的一种现象。

目前常用的破音修复方法，主要是基于单个麦克风采集的声音信号，经过时域、频域等破音特征对采集的声音信号进行判决，识别出破音信号，然后在破音信号的相邻信号处进行正常信号的采样，接着利用采样到的正常信号对破音信号进行修复。这种方法一般只对短时破音有效，例如对一个到数个破音信号采样点有效，但是当破音损伤程度比较明显、破音比较严重时，破音信号从时域上看持续了很多个破音信号采样点（例如连续十多个、几十个样点以上）从而呈现出“连续截顶”现象，对于这种破音信号采样点的数量比较大的长时破音，目前的这种破音修复方法的修复效果会比较差或者可能会修复无效。

为了能够提高对破音信号的修复效果，本申请实施例提供了一种破音修复方法、破音修复装置、电子设备、计算机可读存储介质以及计算机程序产品，先通过第一拾音器和第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中，第一拾音器与发声源的距离和第二拾音器与发声源的距离可以不相等，并且主音频信号和辅音频信号帧对齐，然后对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，并根据功率谱包络信息对主音频信号中的破音信号进行修复。由于第一拾音器与发声源的距离和第二拾音器与发声源的距离不相等，因此可以确定主音频信号的能量值会与辅音频信号的能量值不相同，并且可以确定主音频信号的能量值会大于辅音频信号的能量值，因此当检测到主音频信号中存在破音信号时，可以认为能量值更小的辅音频信号并不存在破音信号，所以可以利用辅音频信号的功率谱包络信息对主音频信号中的破音信号进行修复。由于是利用不存在破音信号的辅音频信号对主音频信号中的破音信号进行修复，因此并不会受到破音信号采样点的数量的限制，也就是说，本申请实施例并不受限于对短时破音的修复，即使是破音信号采样点的数量比较大的长时破音，本申请实施例也能够对其进行有效的修复，所以，本申请实施例能够有效提高对破音信号的修复效果。

图1是本申请实施例提供的一种实施环境的示意图。参照图1，该实施环境包括终端101和发声源104。其中，终端101中设置有第一拾音器102和第二拾音器103，并且第一拾音器102与发声源104的距离和第二拾音器103与发声源104的距离不相等。

终端101可以包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等智能设备。

在一实施例中，终端101能够通过第一拾音器102和第二拾音器103获取来源于发声源104的主音频信号和辅音频信号，其中，主音频信号和辅音频信号帧对齐，然后对主音频信号进行破音检测，当确定主音频信号存在破音信号，终端101能够获取辅音频信号的功率谱包络信息，并根据功率谱包络信息对主音频信号中的破音信号进行修复。

参照图1所示，在一应用场景中，假设终端101为智能手机，并且终端101中设置有第一拾音器102和第二拾音器103，而且第一拾音器102与用户（即发声源104）的距离和第二拾音器103与用户的距离不相等，其中，第一拾音器102相对更加靠近使用终端101的用户，而第二拾音器103则相对更加远离使用终端101的用户。终端101在进行声音采集的过程中，由于第一拾音器102相对更加靠近使用终端101的用户，因此第一拾音器102容易受到来自用户嘴巴的气流冲击，从而容易导致第一拾音器102所采集到的音频信号出现破音问题，而由于第二拾音器103相对更加远离使用终端101的用户，因此第二拾音器103承受用户嘴巴的气流冲击较少，从而使得第二拾音器103所采集到的音频信号不易破音。在用户通过终端101进行语音业务而发出声音时，终端101通过第一拾音器102和第二拾音器103获取来源于用户的主音频信号和辅音频信号，其中，主音频信号和辅音频信号帧对齐，然后，终端101对主音频信号进行破音检测，当确定主音频信号存在破音信号，终端101获取辅音频信号的功率谱包络信息，然后根据功率谱包络信息对主音频信号中的破音信号进行修复。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据目标对象（例如用户等）的属性信息或属性信息集合等与目标对象的特性相关的数据进行相关处理时，都会先获得目标对象的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取目标对象的属性信息时，会通过弹窗或跳转到确认页面等方式获得目标对象的单独许可或者单独同意，在明确获得目标对象的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的目标对象的相关数据。

下面以一些实际例子说明本申请实施例的应用场景。

需要说明的是，参照图2，本申请实施例提供的破音修复方法可应用于针对双人社交媒体语音的破音修复任务的执行、针对多人社交媒体语音的破音修复任务的执行、针对直播或者广播的破音修复任务的执行、针对游戏语音的破音修复任务的执行，下面以针对双人社交媒体语音的破音修复任务的执行场景、针对多人社交媒体语音的破音修复任务的执行场景、针对直播或者广播的破音修复任务、针对游戏语音的破音修复任务的执行场景为例进行说明。

其中，本申请实施例提供的破音修复方法可以应用于针对双人社交媒体语音的破音修复任务的执行场景，例如，当用户利用安装于终端的社交媒体客户端进行双人语音通话时，社交媒体客户端会利用基于终端朝向不同的麦克风接收用户的声源信息，并且会将麦克风接收到的声源信息形成主音频信号和辅音频信号，发送给终端或者远程服务器进行数据处理。当终端或者远程服务器接收到主音频信号和辅音频信号之后，终端或者远程服务器可以将主音频信号和辅音频信号帧对齐，再对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，最后根据功率谱包络信息对主音频信号中的破音信号进行修复。

另外，本申请实施例提供的破音修复方法还可以应用于针对多人社交媒体语音的破音修复任务的执行场景，例如，参照图2的由左至右数的第一个界面，当用户利用安装于终端的社交媒体客户端进行多人语音通话时，社交媒体客户端会利用基于终端朝向不同的麦克风接收用户的声源信息，并且会将麦克风接收到的声源信息形成主音频信号和辅音频信号，发送给终端或者远程服务器进行数据处理。当终端或者远程服务器接收到主音频信号和辅音频信号之后，终端或者远程服务器可以将主音频信号和辅音频信号帧对齐，再对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，最后根据功率谱包络信息对主音频信号中的破音信号进行修复。

此外，本申请实施例提供的破音修复方法还可以应用于针对直播或者广播的破音修复任务的执行场景，例如，参照图2的由左至右数的第二至第四个界面，当用户利用安装于终端的直播客户端或者广播客户端进行直播或者广播时，直播客户端或者广播客户端会利用基于终端朝向不同的麦克风接收用户的声源信息，并且会将麦克风接收到的声源信息形成主音频信号和辅音频信号，发送给终端或者远程服务器进行数据处理，由于直播或者广播场景中可能存在多个用户的声源信息，因此可能出现需要多个终端进行每个用户一一对应处理，甚至，终端进行每个用户一一对应处理之后，还需要增加多个麦克风来接收辅音频信号。但是，破音修复方法针对每个终端都有，当终端或者远程服务器接收到主音频信号和辅音频信号之后，终端或者远程服务器可以将主音频信号和辅音频信号帧对齐，再对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，最后根据功率谱包络信息对主音频信号中的破音信号进行修复。

另外，本申请实施例提供的破音修复方法还可以应用于针对游戏语音的破音修复任务的执行场景，例如，参照图2的由左至右数的第五个界面，当用户利用安装于终端的游戏客户端进行语音沟通时，游戏客户端会利用基于终端朝向不同的麦克风接收用户的声源信息，并且会将麦克风接收到的声源信息形成主音频信号和辅音频信号，发送给终端或者远程服务器进行数据处理，由于游戏客户端的用户可能随时调整手机握持姿态，因此麦克风离用户声源的位置也随时进行改变，导致主音频信号和辅音频信号不同通过麦克风在终端的位置定义。但是，破音修复方法针对游戏客户端的麦克风离用户声源的位置随时进行改变，通过平滑能量值定义了主音频信号和辅音频信号的选择方式，因此能够对每个终端都有，当终端或者远程服务器接收到主音频信号和辅音频信号之后，终端或者远程服务器可以将主音频信号和辅音频信号帧对齐，再对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，最后根据功率谱包络信息对主音频信号中的破音信号进行修复。

图3是本申请实施例提供的一种破音修复方法的流程图，该破音修复方法可以由终端执行。在该终端中，包括有第一拾音器和第二拾音器，其中，第一拾音器与发声源（例如用户）的距离和第二拾音器与发声源的距离不相等。参照图2，该破音修复方法包括但不限于步骤310至步骤330。

步骤310：通过第一拾音器和第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中，主音频信号和辅音频信号帧对齐。

步骤320：对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息。

步骤330：根据功率谱包络信息对主音频信号中的破音信号进行修复。

在一实施例中，第一拾音器和第二拾音器的种类，均可以是三线制拾音器，或者可以是四线制拾音器，还可以是有源拾音器或无源拾音器等，此处不作具体限定。

在一实施例中，主音频信号和辅音频信号帧对齐，是指主音频信号的音频帧和辅音频信号的音频帧对齐。终端在通过第一拾音器和第二拾音器获取到主音频信号和辅音频信号之后，可以先对主音频信号和辅音频信号进行分析，提取各自的音频帧，然后在时域上将主音频信号的音频帧和辅音频信号的音频帧进行对齐。另外，终端在时域上将主音频信号的音频帧和辅音频信号的音频帧进行对齐时，可以先获取主音频信号的第一个音频帧以及辅音频信号的第一个音频帧，然后提取主音频信号的第一个音频帧的音频信息以及辅音频信号的第一个音频帧的音频信息，接着将两个音频信息进行内容比较，如果两个音频信息的内容相一致，可以在时域上将主音频信号的第一个音频帧与辅音频信号的第一个音频帧进行对齐，从而实现主音频信号和辅音频信号之间的帧对齐。如果两个音频信息的内容不一致，可以先将两个音频信息中内容不一致的部分所对应的音频帧确定出来，然后删除两个音频信息中内容不一致的部分所对应的音频帧，这样，两个音频信息剩余的内容就是一致的，此时，再重新提取两个音频信息剩余的内容所对应的音频帧中的第一个音频帧，接着在时域上将这两个重新提取得到的第一个音频帧进行对齐，从而实现主音频信号和辅音频信号之间的帧对齐。

在一实施例中，终端中的拾音器的数量可以为多个，其中，所有的这些拾音器与发声源之间的距离都不相等。假设终端设置有多个拾音器（例如包括第一拾音器、第二拾音器、第三拾音器、第四拾音器等），那么当这些拾音器都接收到用户的语音信号时，终端可以将其中的平均能量值最大的一个语音信号作为主音频信号，并将剩余的语音信号都作为辅音频信号。此时，当终端对主音频信号进行破音检测并确定主音频信号存在破音信号时，终端可以先分别获取每个辅音频信号的功率谱包络信息，然后求取所有辅音频信号的功率谱包络信息的平均值，得到所有辅音频信号的平均功率谱包络信息，接着根据平均功率谱包络信息对主音频信号中的破音信号进行修复。或者，终端在获取到每个辅音频信号的功率谱包络信息之后，还可以根据各个辅音频信号所对应的拾音器与发声源之间的距离，为各个辅音频信号设置对应的权重值，然后根据该权重值求取所有辅音频信号的功率谱包络信息的加权平均值，得到所有辅音频信号的加权平均功率谱包络信息，接着根据加权平均功率谱包络信息对主音频信号中的破音信号进行修复。

在一实施例中，参照图4所示，终端根据功率谱包络信息对主音频信号中的破音信号进行修复的过程，可以包括但不限于步骤410至步骤420。

步骤410：获取主音频信号中的破音信号的信号峰波值。

步骤420：根据功率谱包络信息和信号峰波值，对主音频信号中的破音信号进行修复。

在一实施例中，如果在主音频信号中仅检测到一帧破音信号，那么可以直接获取主音频信号中的该帧破音信号的信号峰波值，然后通过辅音频信号的功率谱包络信息和该帧破音信号的信号峰波值，对主音频信号中的该帧破音信号进行修复。

在一实施例中，如果在主音频信号中检测到两帧破音信号或以上的破音信号，那么可以先根据主音频信号中各音频帧的时序信息，对这些破音信号进行排序，然后分别获取各帧破音信号的信号峰波值，接着根据辅音频信号的功率谱包络信息和各帧破音信号的信号峰波值，依次对主音频信号中的各帧破音信号进行修复。

本实施例中，通过破音信号的信号峰波值能够确定破音信号的失真程度，从而有利于通过辅音频信号的功率谱包络信息对破音信号进行针对性的修复，提高修复的准确性和效率。

在一实施例中，参照图5所示，终端获取主音频信号中的破音信号的信号峰波值的过程，可以包括但不限于步骤510至步骤520。

步骤510：对主音频信号中的破音信号进行时频域转换，得到破音信号的破音功率谱。

步骤520：根据破音功率谱中的最大值和最小值，计算得到破音信号的信号峰波值。

在一实施例中，可以通过傅里叶变换、窗口傅里叶变换、小波变换和小波包分解中的任一种算法对主音频信号中的破音信号进行时频域转换，针对不同的任务场景可以选择不同的算法，此处不作具体限定。通过采用不同的算法实现对破音信号的时频域转换，能够应对不同的任务场景，从而可以满足差异化的任务需求；同时，还能够通过多种算法进行时频域转换并且相互验证，提高求解破音信号的信号峰波值的鲁棒性。例如，可以分别采用傅里叶变换、窗口傅里叶变换、小波变换和小波包分解对破音信号进行时频域转换，得到傅里叶变换所对应的破音功率谱、窗口傅里叶变换所对应的破音功率谱、小波变换所对应的破音功率谱以及小波包分解所对应的破音功率谱，然后对这些破音功率谱进行相互验证，排除置信度最低的破音功率谱，然后在剩余的破音功率谱中任选一个作为所需要的结果，或者，先求取这些剩余的破音功率谱的平均值，然后将该平均值作为所需要的结果。

在一实施例中，在根据破音功率谱中的最大值和最小值计算得到破音信号的信号峰波值时，可以先确定破音功率谱中的最大值和最小值，然后将最大值和最小值进行相减，得到破音信号的信号峰波值。或者，在另一实施例中，在将最大值和最小值进行相减之后，可以先将相减得到的差值乘以一个比率，然后将乘以该比率后得到的结果作为破音信号的信号峰波值。需要说明的是，该比率的取值可以根据实际应用情况而进行适当的选择，此处不作具体限定。例如，该比率的取值可以为0.9或者0.95等。

在一实施例中，参照图6所示，终端根据功率谱包络信息和信号峰波值对主音频信号中的破音信号进行修复的过程，可以包括但不限于步骤610至步骤650。

步骤610：获取功率谱包络信息中的包络最大值。

在一实施例中，功率谱包络信息中的包络最大值可以通过功率谱估计得到，功率谱估计是数字信号处理的主要内容之一，主要研究信号在频域中的各种特征，目的是根据有限数据在频域内提取被淹没在噪声中的有用信号。功率谱估计可以分为经典谱估计方法与现代谱估计方法。简单来说，经典谱估计方法包括直接法和间接法，直接法是通过周期图法计算得到功率谱包络信息，间接法是根据随机信号的相关函数与它的功率谱是一对傅里叶变换对的原理，先由辅音频信号估计出自相关函数，然后求取自相关函数的傅里叶变换，并以此傅里叶变换作为对功率谱的估计；现代谱估计方法主要是针对经典谱估计分辨率低和方差性不好的问题而提出的，可以极大的提高估计的分辨率和平滑性。现代谱估计方法可以分为参数模型谱估计和非参数模型谱估计，参数模型谱估计可以通过自回归模型、移动平均模型和自动回归-移动平均模型等实现，非参数模型谱估计可以通过最小方差法和MUSIC算法等实现。在本实施例中，可以采用周期图法（包括传统周期图法、平均周期图法和修正的平均周期图法）、自相关法、参数模型谱估计法和非参数模型谱估计法中任一种获取辅音频信号的功率谱包络信息，再选取功率谱包络信息中的包络最大值。

另外，在一实施例中，还可以分别采用周期图法、自相关法、参数模型谱估计法和非参数模型谱估计法获取辅音频信号的功率谱包络信息，这样，可以得到相应的多个功率谱包络信息，然后，获取采用每种方法获得的功率谱包络信息的置信度，接着将置信度最大的功率谱包络信息作为辅音频信号的最终功率谱包络信息。其中，在获取采用每种方法获得的功率谱包络信息的置信度时，可以调用预训练的置信度预测模型对采用各种方法获得的功率谱包络信息分别进行置信度预测，从而得到采用各种方法获得的功率谱包络信息的置信度。其中，预训练的置信度预测模型可以由常规的深度神经网络模型或者卷积神经网络模型等构成，对于深度神经网络模型或者卷积神经网络模型的相关模型结构及模型原理，可以参考相关技术的介绍，此处不做赘述。

此外，在另一实施例中，在得到采用各种方法获得的功率谱包络信息的置信度之后，还可以先筛选出置信度大于预设置信度阈值的多个功率谱包络信息，然后求取这些功率谱包络信息的平均值，接着将求取得到的平均值作为辅音频信号的最终功率谱包络信息。其中，预设置信度阈值的取值可以根据实际应用情况而进行适当的选择，此处不作具体限定。例如，预设置信度阈值的取值可以为0.9或者0.95等。

步骤620：根据信号峰波值和包络最大值，计算得到主音频信号和辅音频信号之间的功率谱峰值比。

在一实施例中，在根据信号峰波值和包络最大值计算得到主音频信号和辅音频信号之间的功率谱峰值比时，可以通过以下公式（1）求取得到主音频信号和辅音频信号之间的功率谱峰值比：

（1）

在公式（1）中，表示主音频信号和辅音频信号之间的功率谱峰值比，/>表示信号峰波值，/>表示包络最大值。当获取到信号峰波值和包络最大值之后，将信号峰波值和包络最大值作为参数输入到公式（1）中，即可求取得到主音频信号和辅音频信号之间的功率谱峰值比。

步骤630：根据功率谱峰值比和功率谱包络信息，计算得到主音频信号的目标功率谱。

在一实施例中，在根据功率谱峰值比和功率谱包络信息计算得到主音频信号的目标功率谱时，可以通过以下公式（2）求取得到主音频信号的目标功率谱：

（2）

在公式（2）中，表示主音频信号的目标功率谱，/>表示主音频信号和辅音频信号之间的功率谱峰值比，/>表示第/>个频点所对应的功率谱包络信息。当获取到功率谱峰值比和功率谱包络信息之后，可以先确定功率谱包络信息所对应的所有频点序号，然后获取每个频点序号所对应的功率谱包络信息，接着，对于每个频点序号，将功率谱峰值比和对应的功率谱包络信息作为参数输入到公式（2）中，即可求取得到主音频信号的目标功率谱。

步骤640：根据目标功率谱和破音功率谱，计算得到破音修复系数。

在一实施例中，破音功率谱是指破音信号当前的功率谱，目标功率谱是指期望的非破音的功率谱，因此在获取到目标功率谱和破音功率谱之后，可以根据目标功率谱和破音功率谱计算得到破音修复系数，以便于后续步骤可以利用破音修复系数对主音频信号中的破音信号进行修复。

在一实施例中，可以先根据目标功率谱和破音功率谱计算每个频点的破音修复系数，然后在进行对破音信号的修复时，可以通过每个频点对应的破音修复系数进行破音修复。通过利用每个频点所对应的破音修复系数来对破音信号进行修复，可以使得修复效果更好。

在一实施例中，在根据目标功率谱和破音功率谱计算得到破音修复系数的过程中，可以先计算目标功率谱和破音功率谱的比值，然后将目标功率谱和破音功率谱的比值作为破音修复系数，这样，当进行破音信号修复时，只需使用一个整体的破音修复系数就能够对破音信号进行整体的修复，从而可以提高针对破音信号的修复效率。

在一实施例中，在根据目标功率谱和破音功率谱计算得到破音修复系数的过程中，还可以先计算目标功率谱和破音功率谱的比值平方根，然后将目标功率谱和破音功率谱的比值平方根作为破音修复系数，这样，当进行破音信号的修复时，也是只需使用一个整体的破音修复系数就能够对破音信号进行整体的修复，因此也可以提高针对破音信号的修复效率。

步骤650：根据破音修复系数对主音频信号中的破音信号进行修复。

在一实施例中，在根据破音修复系数对主音频信号中的破音信号进行修复时，可以利用破音修复系数对主音频信号进行整体修复，从而达到对主音频信号中的破音信号进行修复的目的，此外，还可以利用破音修复系数仅对主音频信号中的破音信号进行针对破音信号的局部修复，此处不做具体限定。

在一实施例中，在利用破音修复系数对主音频信号进行整体修复时，可以先对主音频信号进行傅里叶变换，得到频域表示的主音频信号，然后将破音修复系数与频域表示的主音频信号进行相乘，得到相乘结果，接着对该相乘结果进行反傅里叶变换，得到时域表示的修复后的主音频信号。

在一实施例中，在利用破音修复系数仅对破音信号进行针对破音信号的局部修复，可以先对破音信号进行傅里叶变换，得到频域表示的破音信号，然后将破音修复系数与频域表示的破音信号进行相乘，得到相乘结果，接着对该相乘结果进行反傅里叶变换，得到时域表示的修复后的破音信号。

在一实施例中，在目标功率谱包括多个频点的目标功率谱值，破音功率谱包括多个频点的破音功率谱值，并且目标功率谱值所对应的频点和破音功率谱值所对应的频点一一对应的情况下，参照图7所示，终端根据目标功率谱和破音功率谱计算得到破音修复系数的过程，可以包括但不限于步骤710至步骤720。

步骤710：对于每一个频点，将对应的目标功率谱值和破音功率谱值中的最小值确定为修复功率谱值。

在一实施例中，在确定修复功率谱值时，可以通过以下公式（3）确定修复功率谱值：

（3）

在公式（3）中，表示第/>个频点所对应的修复功率谱值，/>表示主音频信号中第/>个频点所对应的目标功率谱，/>表示第/>个频点所对应的破音功率谱值，/>表示求取最小值函数。当获取到每一个频点所对应的目标功率谱和破音功率谱值之后，分别将每一个频点所对应的目标功率谱和破音功率谱值作为参数输入到公式（3）中，即可求取得到每一个频点所对应的修复功率谱值。

步骤720：计算修复功率谱值和破音功率谱值的比值的平方根，得到每一个频点的破音修复系数。

在一实施例中，在求取得到每一个频点所对应的修复功率谱值之后，对于每一个频点，均可以计算对应的修复功率谱值和破音功率谱值的比值的平方根，从而可以得到每一个频点的破音修复系数。

在一实施例中，在求取每一个频点的破音修复系数时，可以通过以下公式（4）求取每一个频点的破音修复系数：

（4）

在公式（4）中，表示第/>个频点所对应的破音修复系数，/>表示第/>个频点所对应的修复功率谱值，/>表示第/>个频点所对应的破音功率谱值，/>表示求取平方根函数。当获取到每一个频点所对应的修复功率谱值和破音功率谱值之后，分别将每一个频点所对应的修复功率谱值和破音功率谱值作为参数输入到公式（4）中，即可求取得到每一个频点的破音修复系数。

在一实施例中，参照图8所示，终端根据破音修复系数对主音频信号中的破音信号进行修复的过程，可以包括但不限于步骤810至步骤820。

步骤810：将破音修复系数与破音功率谱进行相乘，得到修复后的功率谱。

步骤820：对修复后的功率谱进行频时域转换，完成对破音信号的修复。

举例说明，破音功率谱是由主音频信号中的破音信号通过傅里叶变换后得到的各频点的复数值（即频域表示的破音信号）组成得到，那么将破音修复系数与破音功率谱进行相乘，相当于是将破音修复系数与破音信号通过傅里叶变换后得到的各频点的复数值进行相乘，得到修复后的功率谱，然后将修复后的功率谱进行反傅里叶变换（即频时域转换），得到时域表示的修复后的破音信号，从而完成对破音信号的修复。

将破音修复系数与破音功率谱进行相乘，得到修复后的功率谱，计算复杂度低，同时又具有针对性强和修复效果好的特点，进而提升了修复效率和质量。

在一实施例中，参照图9所示，终端通过第一拾音器和第二拾音器获取主音频信号和辅音频信号的过程，可以包括但不限于步骤910至步骤930。

步骤910：通过第一拾音器和第二拾音器采集两路音频信号。

步骤920：计算两路音频信号的实时平滑能量值。

在一实施例中，在计算两路音频信号的实时平滑能量值之后，能够通过平滑能量值直观体现两路音频信号的信号强度，因此能够直观地在两路音频信号中分辨出主音频信号和辅音频信号。

步骤930：比较两路音频信号的实时平滑能量值的大小，将数值大的一个所对应的音频信号确定为主音频信号，并将数值小的一个所对应的音频信号确定为辅音频信号。

在一实施例中，在终端包括多个拾音器的情况下，可以计算所有音频信号的实时平滑能量值，然后选择实时平滑能量值最大的音频信号为主音频信号，接着，将剩余的音频信号均作为辅音频信号。

在一实施例中，在每路音频信号均包括多个第一音频帧的情况下，参照图10所示，终端在计算两路音频信号的实时平滑能量值的过程，可以包括但不限于步骤1010至步骤1020。

步骤1010：对于每路音频信号，计算上一个第一音频帧的第一平滑能量值，并根据第一平滑能量值计算得到当前的第一音频帧的第二平滑能量值。

本步骤中，对于每路音频信号，计算上一个第一音频帧的第一平滑能量值，并根据第一平滑能量值计算得到当前的第一音频帧的第二平滑能量值，能够改善由于外部声源的瞬时干扰从而导致计算的实时平滑能量值出现误差的问题。

步骤1020：将每路音频信号的第二平滑能量值作为每路音频信号的实时平滑能量值。

在一实施例中，参照图11所示，终端根据第一平滑能量值计算得到当前的第一音频帧的第二平滑能量值的过程，可以包括但不限于步骤1110至步骤1120。

步骤1110：计算当前的第一音频帧的能量值。

本步骤中，第一音频帧的能量值可以通过第一音频帧内所有采样点幅值的均方和计算得到，同样的，第个音频帧可以通过第/>个音频帧内所有采样点幅值的均方和计算得到。在一实施例中，可以将预设时间长度的音频信号作为一个音频帧，例如，预设时间长度可以为20m，或者可以为其他数值，此处不做具体限定。

步骤1120：对能量值和第一平滑能量值进行加权求和，得到当前的第一音频帧的第二平滑能量值。

在一实施例中，可以通过以下公式（5）计算得到第二平滑能量值：

（5）

在公式（5）中，表示音频信号的序号；/>表示音频帧的序号；/>表示第/>路音频信号的第/>个音频帧的第二平滑能量值；/>表示常数平滑系数，在一实施例中，/>的取值可以是0.95，或者可以是其他数值，此处不做具体限定；/>表示第/>路音频信号的第/>个音频帧的第一平滑能量值；/>表示第/>路音频信号的第/>个音频帧的能量值。

在一实施例中，参照图12所示，终端对主音频信号进行破音检测的过程，可以包括但不限于步骤1210至步骤1220。

步骤1210：对主音频信号分别进行基于时域的破音检测以及基于频域的破音检测，得到时域检测结果和频域检测结果。

本步骤中，基于时域的破音检测是基于一定窗长内判断样点是否处于历史幅值高点（例如通过历史样点统计得到历史幅值高点）或附近，且样点幅值波动是否较小，如果两个条件均符合，则可以判别为处于破音状态；频域检测方法是基于当前音频帧的频谱图是否出现超常频率的分布，当信号采样率足够高时，如果没有破音则高频区间几乎不会有能量，相反如果出现破音时，则高频位置的信号能量会有突增，通过检测判断高频区间的能量可以判决当前音频帧是否有破音。

步骤1220：基于时域检测结果和频域检测结果，确定主音频信号是否存在破音信号。

在一实施例中，可以通过时域检测结果和频域检测结果的联合决策来确定主音频信号是否存在破音信号，这样，不仅能够互相验证结果的准确性，还能提高判决的鲁棒性；此外，将时域检测结果和频域检测结果进行联合决策，还能够应对音频信号检测的绝大多数场景，从而可以减少出现破音信号检测错误的偶发性事件。

在一实施例中，参照图13所示，终端基于时域检测结果和频域检测结果确定主音频信号是否存在破音信号的过程，可以包括但不限于步骤1310至步骤1320。

步骤1310：获取时域检测结果和频域检测结果各自的置信度。

在一实施例中，在获取时域检测结果和频域检测结果各自的置信度时，可以调用预训练的置信度预测模型分别对时域检测结果和频域检测结果进行置信度预测，从而得到时域检测结果和频域检测结果各自的置信度。例如，预训练的置信度预测模型可以包括采用时域音频样本进行预训练的第一置信度预测模型和采用频域音频样本进行预训练的第二置信度预测模型，那么，在调用预训练的置信度预测模型分别对时域检测结果和频域检测结果进行置信度预测时，可以调用第一置信度预测模型对时域的主音频信号进行破音检测，并且调用第二置信度预测模型对频域的主音频信号进行破音检测，此时，第一置信度预测模型会输出时域检测结果以及时域检测结果对应的置信度，而第二置信度预测模型则会输出频域检测结果以及频域检测结果对应的置信度，所以可以在第一置信度预测模型和第二置信度预测模型的输出结果中获取时域检测结果和频域检测结果各自的置信度。其中，预训练的置信度预测模型可以由常规的深度神经网络模型或者卷积神经网络模型等构成，对于深度神经网络模型或者卷积神经网络模型的相关模型结构及模型原理，可以参考相关技术的介绍，此处不做赘述。

步骤1320：如果时域检测结果和频域检测结果中存在置信度大于或等于置信度阈值的情况，根据大于或等于置信度阈值的任意一个置信度所对应的检测结果，确定主音频信号是否存在破音信号，或者，如果时域检测结果的置信度和频域检测结果的置信度均小于置信度阈值，重新对主音频信号进行破音检测。

在一实施例中，通过联合时域检测结果和频域检测结果的置信度能够有效防止时域检测结果和频域检测结果均出现检测错误的情况，为主音频信号的破音检测提供保障，从而可以防止错误检测结果影响后续进行破音修复的准确性。

在一实施例中，终端在根据功率谱包络信息对主音频信号中的破音信号进行修复之后，可以得到主音频信号所对应的第一修复信号，在这种情况下，参照图14所示，该破音修复方法还包括但不限于步骤1410至步骤1440。

步骤1410：将辅音频信号作为自适应滤波器的参考信号，对主音频信号中的破音信号进行修复，得到主音频信号所对应的第二修复信号。

在一实施例中，自适应滤波器是指根据环境的改变，使用自适应算法来改变滤波器的参数和结构的滤波器。一般情况下，不改变自适应滤波器的结构。而自适应滤波器的系数是由自适应算法更新的时变系数。即其系数自动连续地适应于给定信号，以获得期望响应。自适应滤波器的最重要的特征就在于其能够在未知环境中进行有效的工作，并能够检测输入信号的时变特征。因此将辅音频信号作为自适应滤波器的参考信号，并选择合适的自适应算法，然后将该参考信号输入至具有自适应算法的自适应滤波器中调整时变系数，可以在有足够的参考信号输入的情况下，使得自适应滤波器的时变系数趋于收敛，从而可以使得后输入的参考信号就能够对主音频信号中的破音信号进行修复。

步骤1420：调用音频修复模型利用辅音频信号对主音频信号中的破音信号进行修复，得到主音频信号所对应的第三修复信号。

在一实施例中，可以预先通过已进行破音修复并验证过修复效果的主音频信号和辅音频信号对音频修复模型进行训练，直到音频修复模型收敛或者达到训练次数阈值，得到训练完成的音频修复模型，然后再将需要进行破音修复的主音频信号和对应的辅音频信号输入至训练完成的音频修复模型进行信号修复，从而可以得到第三修复信号。其中，音频修复模型可以由常规的深度神经网络模型或者卷积神经网络模型等构成，对于深度神经网络模型或者卷积神经网络模型的相关模型结构及模型原理，可以参考相关技术的介绍，此处不做赘述。

步骤1430：计算主音频信号与第一修复信号之间的第一修复比例、主音频信号与第二修复信号之间的第二修复比例，以及主音频信号与第三修复信号之间的第三修复比例。

在一实施例中，在得到第一修复信号、第二修复信号和第三修复信号之后，可以求取主音频信号与第一修复信号之间的比例、主音频信号与第二修复信号之间的比例，以及主音频信号与第三修复信号之间的比例，从而可以得到第一修复比例、第二修复比例和第三修复比例，从而有利于根据第一修复比例、第二修复比例和第三修复比例在第一修复信号、第二修复信号和第三修复信号中确定主音频信号所对应的目标修复信号。

步骤1440：根据第一修复比例、第二修复比例和第三修复比例，在第一修复信号、第二修复信号和第三修复信号中，确定主音频信号所对应的目标修复信号。

在一实施例中，在得到第一修复比例、第二修复比例和第三修复比例之后，可以比较第一修复比例、第二修复比例和第三修复比例之间的大小，然后根据第一修复比例、第二修复比例和第三修复比例之间的大小确定对破音信号的修复程度，接着根据该修复程度在第一修复信号、第二修复信号和第三修复信号中择优得到主音频信号所对应的目标修复信号。例如，可以将第一修复比例、第二修复比例和第三修复比例中数值最大的一个所对应的修复信号作为主音频信号所对应的目标修复信号。

在一实施例中，在根据第一修复信号、第二修复信号和第三修复信号来确定主音频信号所对应的目标修复信号时，在第一修复信号、第二修复信号和第三修复信号之间，可以相互作为破音修复的参照标准，从而可以提高针对破音信号的修复准确性。

在一实施例中，在辅音频信号包括多个第二音频帧的情况下，参照图15所示，终端获取辅音频信号的功率谱包络信息的过程，可以包括但不限于步骤1510至步骤1520。

步骤1510：对辅音频信号中的每个第二音频帧进行时频域转换，得到每个第二音频帧在频域各频点的功率谱值。

在一实施例中，由于辅音频信号包括多个第二音频帧，因此可以先对辅音频信号中的每个第二音频帧分别进行时频域转换，得到每个第二音频帧在频域各频点的功率谱值，以便于后续步骤可以通过每个第二音频帧在频域各频点的功率谱值对主音频信号中的破音信号做出对应频点的修复。

步骤1520：根据每个第二音频帧在频域各频点的功率谱值，计算得到辅音频信号的功率谱包络信息。

在一实施例中，在得到每个第二音频帧在频域各频点的功率谱值之后，对于每个第二音频帧，都可以根据频域各频点的功率谱值绘制对应的包络曲线，当绘制得到所有第二音频帧的包络曲线之后，对这些包络曲线进行整合拼接，即可得到辅音频信号的功率谱包络信息。

在一实施例中，参照图16所示，终端根据每个第二音频帧在频域各频点的功率谱值计算得到辅音频信号的功率谱包络信息的过程，可以包括但不限于步骤1610至步骤1630。

步骤1610：确定一个频域窗口，按照预设步进值将频域窗口在每个第二音频帧的所有频点中进行位移，其中，频域窗口在每次位移时，频域窗口内部均包括一个中心频点和多个相邻频点。

步骤1620：在频域窗口每次进行位移时，计算中心频点的功率谱值和所有相邻频点的功率谱值的平均值，得到频域窗口在当前频域位置的包络值。

步骤1630：根据频域窗口在所有第二音频帧的所有频点中进行位移时所得到的包络值，得到辅音频信号的功率谱包络信息。

本实施例中，通过频域窗口进行位移，能够简化计算功率谱包络信息的复杂度，同时可以进行统一定义的位移步长，有利于自动化计算的实现。

下面以具体的例子对本申请实施例所提供的破音修复方法进行详细的说明。

参照图17所示，图17是一个具体例子提供的破音修复方法的系统流程示意图。该破音修复方法可以由终端执行，在图17中，该破音修复方法可以包括以下步骤1701至步骤1707。

步骤1701：通过第一拾音器和第二拾音器获取主音频信号和辅音频信号，其中，主音频信号和辅音频信号帧对齐。

在本步骤中，通过第一拾音器和第二拾音器获取主音频信号和辅音频信号的过程可以包括：通过第一拾音器和第二拾音器采集两路音频信号；计算两路音频信号的实时平滑能量值；比较两路音频信号的实时平滑能量值的大小，将数值大的一个所对应的音频信号确定为主音频信号，并将数值小的一个所对应的音频信号确定为辅音频信号。其中，每路音频信号均包括多个第一音频帧，因此在计算两路音频信号的实时平滑能量值时，对于每路音频信号，可以先计算上一个第一音频帧的第一平滑能量值，并计算当前的第一音频帧的能量值；然后对能量值和第一平滑能量值进行加权求和，得到当前的第一音频帧的第二平滑能量值；接着将每路音频信号的第二平滑能量值作为每路音频信号的实时平滑能量值。

步骤1702：对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息。

在本步骤中，对主音频信号进行破音检测的过程可以包括：对主音频信号分别进行基于时域的破音检测以及基于频域的破音检测，得到时域检测结果和频域检测结果；获取时域检测结果和频域检测结果各自的置信度；如果时域检测结果和频域检测结果中存在置信度大于或等于置信度阈值的情况，根据大于或等于置信度阈值的任意一个置信度所对应的检测结果，确定主音频信号是否存在破音信号，或者，如果时域检测结果的置信度和频域检测结果的置信度均小于置信度阈值，重新对主音频信号进行破音检测。其中，若辅音频信号包括多个第二音频帧；则获取辅音频信号的功率谱包络信息的过程可以包括：对辅音频信号中的每个第二音频帧进行时频域转换，得到每个第二音频帧在频域各频点的功率谱值；确定一个频域窗口，按照预设步进值将频域窗口在每个第二音频帧的所有频点中进行位移，其中，频域窗口在每次位移时，频域窗口内部均包括一个中心频点和多个相邻频点；在频域窗口每次进行位移时，计算中心频点的功率谱值和所有相邻频点的功率谱值的平均值，得到频域窗口在当前频域位置的包络值；根据频域窗口在所有第二音频帧的所有频点中进行位移时所得到的包络值，得到辅音频信号的功率谱包络信息。

步骤1703：根据功率谱包络信息对主音频信号中的破音信号进行修复，得到主音频信号所对应的第一修复信号。

在本步骤中，根据功率谱包络信息对主音频信号中的破音信号进行修复的过程可以包括：获取主音频信号中的破音信号的信号峰波值；根据功率谱包络信息和信号峰波值，对主音频信号中的破音信号进行修复。

其中，获取主音频信号中的破音信号的信号峰波值的过程可以包括：对主音频信号中的破音信号进行时频域转换，得到破音信号的破音功率谱；根据破音功率谱中的最大值和最小值，计算得到破音信号的信号峰波值。

其中，根据功率谱包络信息和信号峰波值对主音频信号中的破音信号进行修复的过程可以包括：获取功率谱包络信息中的包络最大值；根据信号峰波值和包络最大值，计算得到主音频信号和辅音频信号之间的功率谱峰值比；根据功率谱峰值比和功率谱包络信息，计算得到主音频信号的目标功率谱；对于每一个频点，将对应的目标功率谱值和破音功率谱值中的最小值确定为修复功率谱值；计算修复功率谱值和破音功率谱值的比值的平方根，得到每一个频点的破音修复系数；将破音修复系数与破音功率谱进行相乘，得到修复后的功率谱；对修复后的功率谱进行频时域转换，完成对破音信号的修复。

在一实施例中，可以先根据功率谱包络信息得到频率包络曲线，然后通过频率包络曲线获取包络最大值，其中，频率包络曲线的计算公式如下公式（6）所示：

（6）

在公式（6）中，表示功率谱包络信息中第/>个频点的包络值，/>表示功率谱包络信息中当前音频帧中的第/>个频点的功率谱值。

步骤1704：将辅音频信号作为自适应滤波器的参考信号，对主音频信号中的破音信号进行修复，得到主音频信号所对应的第二修复信号。

步骤1705：调用音频修复模型利用辅音频信号对主音频信号中的破音信号进行修复，得到主音频信号所对应的第三修复信号。

步骤1706：计算主音频信号与第一修复信号之间的第一修复比例、主音频信号与第二修复信号之间的第二修复比例，以及主音频信号与第三修复信号之间的第三修复比例。

步骤1707：根据第一修复比例、第二修复比例和第三修复比例，在第一修复信号、第二修复信号和第三修复信号中，确定主音频信号所对应的目标修复信号。

通过上述步骤1701至步骤1707的破音修复方法，先通过第一拾音器和第二拾音器获取来源于发声源的主音频信号和辅音频信号，其中，第一拾音器与发声源的距离和第二拾音器与发声源的距离不相等，并且主音频信号和辅音频信号帧对齐，然后对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息，并根据功率谱包络信息对主音频信号中的破音信号进行修复。由于第一拾音器与发声源的距离和第二拾音器与发声源的距离不相等，因此可以确定主音频信号的能量值会与辅音频信号的能量值不相同，并且可以确定主音频信号的能量值会大于辅音频信号的能量值，当检测到主音频信号中存在破音信号时，可以认为能量值更小的辅音频信号并不存在破音信号，所以可以利用辅音频信号的功率谱包络信息对主音频信号中的破音信号进行修复。由于是利用不存在破音信号的辅音频信号对主音频信号中的破音信号进行修复，因此并不会受到破音信号采样点的数量的限制，也就是说，本申请实施例并不受限于对短时破音的修复，即使是破音信号采样点的数量比较大的长时破音，本申请实施例也能够对其进行有效的修复，所以，本申请实施例能够有效提高对破音信号的修复效果。

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

参照图18，本申请实施例还公开了一种破音修复装置，该破音修复装置1800能够实现前面实施例中的破音修复方法，该破音修复装置1800包括：

第一信号获取单元1810，用于通过第一拾音器和第二拾音器获取主音频信号和辅音频信号，其中，主音频信号和辅音频信号帧对齐；

第二信号获取单元1820，用于对主音频信号进行破音检测，当确定主音频信号存在破音信号，获取辅音频信号的功率谱包络信息；

破音信号修复单元1830，用于根据功率谱包络信息对主音频信号中的破音信号进行修复。

在一实施例中，破音信号修复单元1830还用于：

获取主音频信号中的破音信号的信号峰波值；

根据功率谱包络信息和信号峰波值，对主音频信号中的破音信号进行修复。

在一实施例中，破音信号修复单元1830还用于：

对主音频信号中的破音信号进行时频域转换，得到破音信号的破音功率谱；

根据破音功率谱中的最大值和最小值，计算得到破音信号的信号峰波值。

在一实施例中，破音信号修复单元1830还用于：

获取功率谱包络信息中的包络最大值；

根据信号峰波值和包络最大值，计算得到主音频信号和辅音频信号之间的功率谱峰值比；

根据功率谱峰值比和功率谱包络信息，计算得到主音频信号的目标功率谱；

根据目标功率谱和破音功率谱，计算得到破音修复系数；

根据破音修复系数对主音频信号中的破音信号进行修复。

在一实施例中，目标功率谱包括多个频点的目标功率谱值，破音功率谱包括多个频点的破音功率谱值，目标功率谱值所对应的频点和破音功率谱值所对应的频点一一对应；破音信号修复单元1830还用于：

对于每一个频点，将对应的目标功率谱值和破音功率谱值中的最小值确定为修复功率谱值；

计算修复功率谱值和破音功率谱值的比值的平方根，得到每一个频点的破音修复系数。

在一实施例中，每路音频信号均包括多个第一音频帧；第一信号获取单元1810还用于：

通过第一拾音器和第二拾音器采集两路音频信号；

计算两路音频信号的实时平滑能量值；

比较两路音频信号的实时平滑能量值的大小，将数值大的一个所对应的音频信号确定为主音频信号，并将数值小的一个所对应的音频信号确定为辅音频信号。

在一实施例中，第一信号获取单元1810还用于：

对于每路音频信号，计算上一个第一音频帧的第一平滑能量值，并根据第一平滑能量值计算得到当前的第一音频帧的第二平滑能量值；

将每路音频信号的第二平滑能量值作为每路音频信号的实时平滑能量值。

在一实施例中，第一信号获取单元1810还用于：

计算当前的第一音频帧的能量值；

对能量值和第一平滑能量值进行加权求和，得到当前的第一音频帧的第二平滑能量值。

在一实施例中，第二信号获取单元1820还用于：

对主音频信号分别进行基于时域的破音检测以及基于频域的破音检测，得到时域检测结果和频域检测结果；

基于时域检测结果和频域检测结果，确定主音频信号是否存在破音信号。

在一实施例中，第二信号获取单元1820还用于：

获取时域检测结果和频域检测结果各自的置信度；

如果时域检测结果和频域检测结果中存在置信度大于或等于置信度阈值的情况，根据大于或等于置信度阈值的任意一个置信度所对应的检测结果，确定主音频信号是否存在破音信号，或者，如果时域检测结果的置信度和频域检测结果的置信度均小于置信度阈值，重新对主音频信号进行破音检测。

在一实施例中，破音修复装置还包括辅助修复单元，辅助修复单元在破音信号修复单元根据功率谱包络信息对主音频信号中的破音信号进行修复得到主音频信号所对应的第一修复信号之后用于：

将辅音频信号作为自适应滤波器的参考信号，对主音频信号中的破音信号进行修复，得到主音频信号所对应的第二修复信号；

调用音频修复模型利用辅音频信号对主音频信号中的破音信号进行修复，得到主音频信号所对应的第三修复信号；

计算主音频信号与第一修复信号之间的第一修复比例、主音频信号与第二修复信号之间的第二修复比例，以及主音频信号与第三修复信号之间的第三修复比例；

根据第一修复比例、第二修复比例和第三修复比例，在第一修复信号、第二修复信号和第三修复信号中，确定主音频信号所对应的目标修复信号。

需要说明的是，由于本实施例的破音修复装置1800能够实现如前面实施例的破音修复方法，因此本实施例的破音修复装置1800与前面实施例的破音修复方法，具有相同的技术原理以及相同的有益效果，为了避免内容重复，此处不再赘述。

参照图19，本申请实施例还公开了一种电子设备，该电子设备1900包括：

至少一个处理器1901；

至少一个存储器1902，用于存储至少一个程序；

当至少一个程序被至少一个处理器1901执行时，实现如前面的破音修复方法。

本申请实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的计算机程序，处理器可执行的计算机程序被处理器执行时，用于实现如前面的破音修复方法。

本申请实施例还公开了一种计算机程序产品，包括计算机程序或计算机指令，计算机程序或计算机指令存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取计算机程序或计算机指令，处理器执行计算机程序或计算机指令，使得电子设备执行如前面的破音修复方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Acce Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于上述方法实施例中的步骤编号，仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

Claims

1.一种破音修复方法，其特征在于，应用于终端，所述终端包括第一拾音器和第二拾音器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述功率谱包络信息对所述主音频信号中的所述破音信号进行修复，包括：

获取所述主音频信号中的所述破音信号的信号峰波值；

3.根据权利要求2所述的方法，其特征在于，所述获取所述主音频信号中的所述破音信号的信号峰波值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述功率谱包络信息和所述信号峰波值，对所述主音频信号中的所述破音信号进行修复，包括：

获取所述功率谱包络信息中的包络最大值；

5.根据权利要求4所述的方法，其特征在于，所述目标功率谱包括多个频点的目标功率谱值，所述破音功率谱包括多个频点的破音功率谱值，所述目标功率谱值所对应的频点和所述破音功率谱值所对应的频点一一对应；

所述根据所述目标功率谱和所述破音功率谱，计算得到破音修复系数，包括：

6.根据权利要求1所述的方法，其特征在于，所述通过所述第一拾音器和所述第二拾音器获取来源于发声源的主音频信号和辅音频信号，包括：

通过所述第一拾音器和所述第二拾音器采集两路音频信号；

计算两路所述音频信号的实时平滑能量值；

7.根据权利要求6所述的方法，其特征在于，每路所述音频信号均包括多个第一音频帧；所述计算两路所述音频信号的实时平滑能量值，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一平滑能量值计算得到当前的所述第一音频帧的第二平滑能量值，包括：

计算当前的所述第一音频帧的能量值；

9.根据权利要求1所述的方法，其特征在于，所述对所述主音频信号进行破音检测，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述时域检测结果和所述频域检测结果，确定所述主音频信号是否存在破音信号，包括：

获取所述时域检测结果和所述频域检测结果各自的置信度；

11.根据权利要求1所述的方法，其特征在于，根据所述功率谱包络信息对所述主音频信号中的所述破音信号进行修复之后，得到所述主音频信号所对应的第一修复信号；

所述方法还包括：

12.一种破音修复装置，其特征在于，所述破音修复装置包括第一拾音器和第二拾音器，所述破音修复装置还包括：

13.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至11任意一项所述的破音修复方法。

14.一种计算机可读存储介质，其特征在于，其中存储有处理器可执行的计算机程序，所述处理器可执行的计算机程序被处理器执行时用于实现如权利要求1至11任意一项所述的破音修复方法。

15.一种计算机程序产品，包括计算机程序或计算机指令，其特征在于，所述计算机程序或所述计算机指令存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令，所述处理器执行所述计算机程序或所述计算机指令，使得所述电子设备执行如权利要求1至11任意一项所述的破音修复方法。