CN110675886B

CN110675886B - 音频信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN110675886B
Application number: CN201910955139.4A
Authority: CN
Inventors: 朱睿; 黄�俊; 王燕南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2023-09-15
Anticipated expiration: 2039-10-09
Also published as: CN110675886A

Abstract

本申请实施例提供了一种音频信号处理方法、装置、电子设备及存储介质，涉及信息处理技术领域。该方法包括：获取用户所录制的待处理音频信号；提取待处理音频信号的音频特征；获取待处理音频信号的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征，对待处理音频信号进行修正处理，从而实现了对用户所录制的音频的美化，不依赖干声模版，扩大了声音美化技术的适用范围，避免了人工标注出现的错误，提升了音频美化的效果。

Description

音频信号处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种音频信号处理方法、装置、电子设备及存储介质。

背景技术

声音是由物体振动产生的，以波的形式通过介质(空气或固体、液体)传播，并能被人或动物的听觉器官所感知。语音是指人类通过发音器官发出来的、具有一定意义的、用来进行社会交际的声音。不同的人发出的语音的可以通过音高、节奏、音色等因素来进行区分。因此，将人说话或者唱歌的语音进行标准化处理时可以通过调整语音的音高、节奏、音色等特征来实现。

例如，在体验电影或者电视剧等的配音时，可以将后配的语音与配音演员的标准语音进行比对，从音高、节奏、音色等方面进行处理，实现声音的美化。

又如，唱歌是一种深受群众喜爱的娱乐方式。受乐感，歌唱技巧，以及设备等限制，人们在唱歌时经常出现跑调或者没踩对节奏等现象。为了解决这一问题，市场上出现很多通过计算机软件自动美化歌声的软件，如antares的autotune，唱吧的一键修音等。

现有技术中，无论是对语音进行美化还是对歌声进行美化时，通常都是依赖理想模版作为美化的参考，理想模板一般是从标准的干声音频文件模板即干声模板中获取，干声模版(专业人士演唱或者原声配音的纯人声不含背景音频，并且人工标注了音高、节奏等特征的模板)的制作则依赖专业人士标注。目前，只有极少数歌曲会发布干声模版，配音的干声模板更难以获取，因此限制了声音美化技术的适用范围。而且，模版获取的成本高，容易出现标注误差等问题，也限制了此类声音美化技术的最终效果。

发明内容

本申请提供了一种音频信号处理方法、装置及电子设备，可以解决现有技术中存在的问题。本申请实施例提供的具体技术方案如下：

一方面，本申请实施例提供了一种音频信号处理方法，该方法包括：

获取用户所录制的待处理音频信号；

提取待处理音频信号的音频特征，所述待处理音频信号包括背景音频信号和待处理声音信号；

获取与待处理音频信号对应的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；

基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。

在一种可能的实现方式中，所述待处理音频信号的音频特征包括所述待处理声音信号的语音特征，所述标准音频特征包括所述原声声音信号的标准语音特征和标准节奏特征；

基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，包括：

根据标准语音特征、标准节奏特征和待处理声音信号的语音特征，确定待处理音频信号的节奏修正参数；

根据节奏修正参数，对待处理音频信号进行节奏修正处理。

在一种可能的实现方式中，标准节奏特征包括原声音频信号所对应的文字的标准字节奏特征和标准句子节奏特征，节奏修正参数包括句子节奏对齐参数和字节奏对齐参数；

根据标准语音特征、标准节奏特征和待处理声音信号的语音特征，确定待处理音频信号的节奏修正参数，包括：

基于标准语音特征、标准句子节奏特征和待处理声音信号的语音特征，得到待处理音频信号的句子节奏特征、以及句子节奏对齐参数；

基于待处理音频信号的句子节奏特征、标准句子节奏特征和标准字节奏特征，得到待处理音频信号的字节奏特征；

基于待处理音频信号的字节奏特征和标准字节奏特征，得到字节奏对齐参数。

在一种可能的实现方式中，标准字节奏特征包括原声音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；标准句子节奏特征包括原声音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳；待处理音频信号的字节奏特征包括待处理音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；待处理音频信号的句子节奏特征包括待处理音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳。

在一种可能的实现方式中，标准语音特征包括标准初始语音特征和标准音素瓶颈特征，待处理声音信号的语音特征包括初始语音特征和音素瓶颈特征；

标准语音特征是通过以下方式得到的：

提取原声声音信号的标准初始语音特征；基于标准初始语音特征，提取原声声音信号的标准音素瓶颈特征；

待处理声音信号的音频特征是通过以下方式得到的：

提取待处理声音信号的初始语音特征；基于初始语音特征，提取待处理声音信号的音素瓶颈特征。

在一种可能的实现方式中，根据标准语音特征、标准节奏特征和待处理声音信号的语音特征，确定待处理音频信号的节奏修正参数，包括：

基于标准音素瓶颈特征、标准句子节奏特征和待处理声音信号的音素瓶颈特征，得到待处理音频信号的句子节奏特征、以及句子节奏对齐参数；

基于待处理音频信号的句子节奏特征、标准句子节奏特征、标准初始语音特征、初始语音特征和标准字节奏特征，得到待处理音频信号的字节奏特征；

在一种可能的实现方式中，根据节奏修正参数，对待处理音频信号进行节奏修正处理，包括：

根据句子节奏对齐参数和字节奏对齐参数，将待处理音频信号和原声音频信号分别进行句子节奏对齐和字节奏对齐。

在一种可能的实现方式中，根据句子节奏对齐参数和字节奏对齐参数，将待处理音频信号和原声音频信号分别进行句子节奏对齐和字节奏对齐，包括：

根据句子节奏对齐参数将每个句子在待处理音频信号中对应的时长与原声音频信号中对应的时长对齐；

根据字节奏对齐参数将每个字在待处理音频信号中对应的时长与原声音频信号中对应的时长对齐。

在一种可能的实现方式中，标准音频特征还包括原声声音信号的标准音高特征，待处理音频信号的音频特征还包括待处理声音信号的音高特征；

基于标准字节奏特征和待处理音频信号的字节奏特征，得到节奏时间对照信息；

基于标准音高特征、待处理音频信号的音高特征和节奏时间对照信息，得到音高修正参数；

基于音高修正参数，对节奏修正后的音频信号进行音高修正处理。

在一种可能的实现方式中，标准音高特征包括原声音频信号所对应的文字的标准字音高特征和标准句子音高特征；

基于标准节奏特征和待处理音频信号的节奏特征，得到节奏时间对照信息，包括：

根据标准句子节奏特征和待处理音频信号的句子节奏特征，确定句子节奏时间对照信息；

根据标准字节奏特征和待处理音频信号的字节奏特征，确定字节奏时间对照信息；

基于标准音高特征、待处理音频信号的音高特征和节奏时间对照信息，得到音高修正参数，包括：

根据标准字音高特征确定标准句子音高特征；

基于标准句子音高特征、待处理声音信号的句子音高特征和句子节奏时间对照信息，得到句子音高修正参数；

基于标准字音高特征、待处理声音信号的字音高特征和字节奏时间对照信息，得到字音高修正参数。

在一种可能的实现方式中，标准音素瓶颈特征和标准节奏特征是通过第一神经网络模型提取得到的，其中，第一神经网络模型包括依次级联的声音背景分离网络和节奏生成网络，节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏生成模块；

声音背景分离网络，用于对原声音频信号进行分离，得到原声声音信号；初始语音特征提取模块，用于根据原声声音信号，得到标准初始语音特征；音素瓶颈特征提取模块，用于根据标准初始语音特征，得到标准音素瓶颈特征；节奏生成模块，用于根据标准音素瓶颈特征，得到标准节奏特征。

在一种可能的实现方式中，第一神经网络模型是通过对初始网络模型进行训练得到的，其中，初始网络模型包括依次级联的初始声音背景分离网络、初始节奏生成网络和初始节奏判别网络，初始节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏特征生成模块；

对初始网络模型进行训练包括：

获取样本数据集，样本数据集中包括各样本音频信号、各样本音频信号的样本声音信号和样本背景音频信号、以及各样本音频信号的样本节奏特征；

基于各样本音频信号对初始网络模型的初始背景声音背景分离网络进行训练，直至初始背景声音背景分离网络所对应的损失函数收敛，得到初步训练后的网络模型；

其中，声音背景分离网络的输入为样本音频信号，损失函数表征了样本声音信号和初始声音背景分离网络输出的预测声音信号的差异、以及样本背景音频信号和初始声音背景分离网络输出的预测背景音频信号的差异；

基于各样本音频信号、以及各样本音频信号的样本节奏特征，对初步训练后的网络模型进行训练，直至满足预设的训练结束条件，将训练结束时的声音背景分离网络和初始节奏生成网络作为第一神经网络模型；

其中，节奏生成网络的输入为声音背景分离网络输出的原声声音信号，节奏生成网络的输出为预测的节奏特征，节奏判别网络的输入为预测的节奏特征和样本节奏特征，输出为预测的节奏特征相对于样本节奏特征的置信度，满足预设的训练结束条件是指置信度大于预设值。

在一种可能的实现方式中，基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号，包括：

基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行音高修正处理，并对修正后的待处理音频信号进行音色修正，得到修正后的音频信号。

在一种可能的实现方式中，在获取用户所录制的待处理音频信号之前，该方法还包括：

获取用户的音频录制操作请求；

将音频录制操作请求所对应的背景音频信号播放给用户；

获取用户录制的声音音频信号，并将声音音频信号和背景音频信号合成音频信号；

在接收到用户的声音美化操作请求时，将合成的音频信号作为待处理音频信号。

另一方面，本发明实施例提供了一种音频信号处理装置，该装置包括：

第一获取模块，用于获取用户所录制的待处理音频信号；

提取模块，用于提取待处理音频信号的音频特征，所述待处理音频信号包括背景音频信号和待处理声音信号；

第二获取模块，用于获取与待处理音频信号对应的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；

修正模块，用于基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。

修正模块包括参数确定单元和修正单元；

参数确定单元，用于根据标准语音特征、标准节奏特征和待处理声音信号的语音特征，确定待处理音频信号的节奏修正参数；

修正单元，用于根据节奏修正参数，对待处理音频信号进行节奏修正处理。

参数确定单元具体用于：

标准语音特征是通过以下方式得到的：

待处理声音信号的音频特征是通过以下方式得到的：提取待处理声音信号的初始语音特征；

基于待处理音频信号的初始语音特征，提取待处理声音信号的音素瓶颈特征。

在一种可能的实现方式中，参数确定单元具体用于：

在一种可能的实现方式中，修正单元用于：

在一种可能的实现方式中，修正单元具体用于：

修正单元具体用于：

根据标准字音高特征确定标准句子音高特征；

声音背景分离网络，用于对原声音频信号进行分离，得到原声声音信号；

初始语音特征提取模块，用于根据原声声音信号，得到标准初始语音特征；

音素瓶颈特征提取模块，用于根据标准初始语音特征，得到标准音素瓶颈特征；

节奏生成模块，用于根据标准音素瓶颈特征，得到标准节奏特征。

对初始网络模型进行训练包括：

获取样本数据集，样本数据集中包括各样本音频信号、各样本音频信号的样本声音信号和背景样本背景音频信号、以及各样本音频信号的样本节奏特征；

基于各样本音频信号对初始网络模型的初始声音背景分离网络进行训练，直至初始声音背景分离网络所对应的损失函数收敛，得到初步训练后的网络模型；

在一种可能的实现方式中，修正模块还包括音色修正单元，用于：

在本申请的可选实施例中，第一获取模块还用于：

获取用户的音频录制操作请求；

将音频录制操作请求所对应的歌曲的背景音频信号播放给用户；

本发明实施例还提供了一种电子设备，该电子设备包括一个或多个处理器；存储器；一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的音频信号处理方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行如本申请的第一方面所示的音频信号处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种音频信号处理方法、装置及电子设备，获取用户所录制的待处理音频信号；提取待处理音频信号的音频特征，待处理音频信号包括背景音频信号和待处理声音信号；获取歌曲的原声音频信号的标准音频特征，所述原声音频信号包括原声声音信号和背景音频信号；基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征，对待处理音频信号进行修正处理，从而实现了对用户所录制的音频的美化，不依赖干声模版，扩大了音频美化技术的适用范围，避免了人工标注出现的错误，提升了音频美化的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种音频信号处理方法的流程示意图；

图2为本申请实施例提供的第一神经网络模型的训练过程的示意图；

图3为本申请实施例提供的音素瓶颈特征提取网络的示意图；

图4为本申请实施例提供的第二神经网络模型的训练过程的示意图；

图5为本申请实施例提供的歌声美化用户界面的示意图；

图6为本申请实施例提供的歌声美化过程分层示意图；

图7为本申请实施例提供的音频信号处理装置的结构示意图；

图8为本申请实施例提供的共振峰修正前后的对比曲线图；

图9为本申请实施例提供的用户歌声节奏修正过程的示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请技术方案的执行主体为计算机设备，包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中，用户设备包括但不限于电脑、智能手机、PAD等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

下面以具体实施例并结合附图对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本申请实施例提供了一种音频信号处理方法，如图1所示，该方法包括：

步骤S101，获取用户所录制的待处理音频信号；

其中，待处理音频信号为需要进行声音美化的用户的声音音频信号。

本申请技术方案的执行主体可以为服务器，也可以为终端设备。终端设备可以为用户的移动终端设备，通过声音采集模块、耳机等采集用户录制的音频文件；服务器可以获取终端设备发送的音频文件。待处理音频信号可以包括音频文件中的背景音频信号和待处理声音信号。

本申请的可选实施例中，在获取用户所录制的待处理音频信号之前，该方法还包括：获取用户的音频录制操作请求；将音频录制操作请求所对应的背景音频信号播放给用户；获取用户录制的声音音频信号，并将声音音频信号和背景音频信号合成音频信号；在接收到用户的声音美化操作请求时，将合成的音频信号作为待处理音频信号。

本申请的实施例中，用户所录制的待处理音频信号的具体类型本公开实施例不做限定，可以包括但不限于用户所录制的歌曲的音频信号、用户或者用户所录制的视频、广告等配音的音频信号。

相应的，音频录制操作请求可以包括歌曲录制请求或者语音录制请求；背景音频信号可以包括歌曲的伴奏音频信号或者视频的背景音频信号。

在一示例中，在进行歌曲美化操作时，若执行主体为终端设备，当终端设备接收到用户的歌曲录制请求时，将歌曲录制操作所对应的歌曲的伴奏音频信号播放给用户；采集用户的歌声音频信号，并将采集到的歌声音频信号和伴奏音频信号合成音频信号，在接收到用户的歌曲美化操作请求时，将合成的音频信号作为待处理音频信号。

另外，也可以接收用户的歌曲调用操作，调用用户终端或其他存储设备中存储的歌曲音频文件，该歌曲音频文件可以是用户预先录制的，也可以是从其他设备获取到的，将该歌曲音频文件中的音频信号作为待处理音频信号。

若执行主体为服务器，当终端设备接收到用户通过终端设备发送的歌曲录制操作请求时，将歌曲录制操作所对应的歌曲的伴奏音频信号下发到终端设备，通过终端设备播放给用户；通过终端设备采集用户的歌声音频信号，并将采集到的歌声音频信号和伴奏音频信号合成音频信号，在接收到用户通过终端设备发送的歌曲美化操作请求时，将合成的音频信号作为待处理音频信号。

需要说明的是，终端设备在录制音频录制文件时，也可以录制用户清唱的歌声音频文件，不加伴奏信号，例如，用户在戴耳机进行录音时，通过耳机的音频采集模块录音，录制的歌曲就是不加伴奏信号的歌声音频文件，将歌声音频文件中的歌声音频信号作为待处理音频信号。

在又一示例中，在进行配音美化操作时，若执行主体为终端设备，当终端设备接收到用户的语音录制请求时，将语音录制操作所对应的视频的背景音频信号播放给用户；采集用户的语音音频信号，并将采集到的语音音频信号和视频的背景音频信号合成音频信号，在接收到用户的音频美化操作请求时，将合成的音频信号作为待处理音频信号。

另外，也可以接收用户的音频调用操作，调用用户终端或其他存储设备中存储的音频文件，该音频文件可以是用户预先录制的，也可以是从其他设备获取到的，将该音频文件中的音频信号作为待处理音频信号。

若执行主体为服务器，当终端设备接收到用户通过终端设备发送的语音录制操作请求时，将语音录制操作所对应的视频的背景音频信号下发到终端设备，通过终端设备播放给用户；通过终端设备采集用户的语音音频信号，并将采集到的语音信号和背景音频信号合成音频信号，在接收到用户通过终端设备发送的音频美化操作请求时，将合成的音频信号作为待处理音频信号。

需要说明的是，终端设备在录制音频录制文件时，也可以录制只包含用户语音的音频文件，不加背景音频信号，例如，用户在戴耳机进行录音时，通过耳机的音频采集模块录音，录制的语音就是不加背景音频信号的音频文件，将音频文件中的语音信号作为待处理音频信号。

步骤S102，提取待处理音频信号的音频特征，待处理音频信号包括背景音频信号和待处理声音信号；

若执行主体为终端设备，当终端设备接收到用户针对音频录制文件的音频美化操作时，提取待处理音频信号的音频特征；

若执行主体为服务器，终端设备根据用户针对音频录制文件的音频美化操作生成音频美化请求发送至服务器，服务器提取待处理音频信号的音频特征。

其中，待处理音频信号可以包含背景音频信号和待处理声音信号，也可以为不包含背景音频信号的声音信号。提取音频特征时，如果待处理音频信号包含背景音频信号和待处理声音信号，则需要将背景音频信号和待处理声音信号进行分离处理，得到待处理声音信号，从待处理声音信号中提取语音特征。

其中，音频特征可以包括语音特征，还可以包括音高特征，语音特征包括：梅尔频率倒谱系数(Mel-frequency cepstral coefficients，MFCC)、fbank(FilterBank，滤波器组)特征、音素瓶颈(bottleneck，BN)特征等。音高特征包括待处理音频信号所对应的文字的字音高特征和句子音高特征。待处理音频信号所对应的文字可以包括用户演唱歌曲的歌词或配音的台词等。

步骤S103，获取与待处理音频信号对应的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；

其中，与待处理音频信号对应的原声音频信号指的是用户所录制的音频信号所对应的原作者(如原唱、原配音者等)所录制的音频信号。例如，在用户所录制的是歌曲的音频信号时，原声音频信号即为该歌曲的原唱音频信号。

具体的，在进行歌曲美化操作时，可以根据用户所唱歌曲的标识调用对应的原唱歌曲文件，原声音频信号为原唱歌曲文件中的音频信号，原声音频信号中可以包括伴奏音频信号和原唱歌声音频信号。其中，标准音频特征为原唱歌声对应的音频特征，包括：节奏特征、音高特征，还可以包括语音特征，语音特征包括：梅尔频率倒谱系数(Mel-frequencycepstral coefficients，MFCC)、fbank特征、音素瓶颈特征等。节奏特征包括原唱音频信号所对应的歌词的字节奏特征和句子节奏特征；音高特征包括原唱音频信号所对应的歌词的字音高特征和句子音高特征。另外，节奏特征和音高特征也可以是根据具体需要提取的其他形式的特征，本申请对此不作限定。

可以理解的是，本申请对于歌曲的节奏进行美化可以是对歌曲中的每个字或者每个句子的节奏进行处理，通过对每个字或者每个句子的演唱时间进行调整，来最终实现歌曲的节奏美化。

在进行配音美化操作时，根据用户所配音的视频的标识调用对应的原声音频文件，原声音频信号为原声音频文件中的音频信号。原声音频信号中可以包括背景音频信号和原声声音信号。其中，标准音频特征为原声声音信号对应的音频特征，包括：节奏特征、音高特征，还可以包括语音特征，语音特征包括：梅尔频率倒谱系数、fbank特征、音素瓶颈特征等。节奏特征包括原声声音信号所对应的台词的字节奏特征和句子节奏特征；音高特征包括原声声音信号所对应的台词的字音高特征和句子音高特征。另外，节奏特征和音高特征也可以是根据具体需要提取的其他形式的特征，本申请对此不作限定。

本申请的可选实施例中，标准字节奏特征包括原声音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；标准句子节奏特征包括原声音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳；待处理音频信号的字节奏特征包括待处理音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；待处理音频信号的句子节奏特征包括待处理音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳。

在实际应用中，为了将待处理音频信号和原声音频信号进行比对，分别将待处理音频信号和原声音频信号分别对应的文字中的每个字以及每个句子对应的时间作为节奏特征进行比对，目的是对待处理音频信号的每个字以及每个句子对应的时间进行调整，最终实现对待处理音频信号的节奏美化。其中，原声音频信号所对应的文字可以包括原唱歌曲的歌词或原声配音的台词等。

对于原声音频信号的标准节奏特征和标准音高特征的提取，本申请提供的音频美化方案不依赖干声模版，而是从易于获取的原声歌曲文件或原声音频文件的音频信号提取得到，例如，可以利用语音特征提取算法和/或经过大数据训练得到的深度神经网络(DeepNeural Networks，DNN)技术，提取和分析音频美化需要的标准音高特征和标准节奏特征。同样的，待处理音频信号的音频特征也可以采用相同的方式提取得到。

本申请的可选实施例中，标准语音特征包括标准初始语音特征和标准音素瓶颈特征，待处理声音信号的语音特征包括初始语音特征和音素瓶颈特征；

标准语音特征是通过以下方式得到的：

提取原声声音信号的标准初始语音特征；

基于标准初始语音特征，提取原声声音信号的标准音素瓶颈特征；

待处理声音信号的音频特征是通过以下方式得到的：

提取待处理声音信号的初始语音特征；

基于初始语音特征，提取待处理声音信号的音素瓶颈特征。

其中，初始语音特征可以为MFCC特征，基于MFCC特征提取音素瓶颈特征的目的是为了减少特征的维度，便于下一步进行处理。标准初始语音特征和标准音素瓶颈特征为原声音频文件中的原声音频信号对应的特征。

本申请的可选实施例中，标准音素瓶颈特征和标准节奏特征是通过第一神经网络模型提取得到的，其中，第一神经网络模型包括依次级联的声音背景分离网络和节奏生成网络，节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏生成模块；

其中，标准语音特征(包括初始标准语音特征和标准音素瓶颈特征)、以及标准节奏特征可以基于原声音频信号，通过第一神经网络模型直接提取得到。在实际应用中，可以利用该模型对大量的原声音频文件的原声音频信号进行语音特征和节奏特征的预提取并存储到标准音频特征库中，在需要进行美化时，可以根据需要美化的音频直接从库中查找对应的音频文件。

本申请的可选实施例中，第一神经网络模型是通过对初始网络模型进行训练得到的，其中，初始网络模型包括依次级联的初始声音背景分离网络、初始节奏生成网络和初始节奏判别网络，初始节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏特征生成模块；

对初始网络模型进行训练包括：

基于各样本音频信号、以及各样本音频信号的样本节奏特征，对初步训练后的网络模型进行训练，直至满足预设的训练结束条件，将训练结束时的背景声音背景分离网络和初始节奏生成网络作为第一神经网络模型；

在实际应用中，利用相应的样本数据对初始网络模型中模型参数进行训练，直到满足训练结束条件，得到训练好的第一神经网络模型。然后再利用训练好的第一神经网络模型提取标准音频特征。

在一示例中，以歌声美化为例，第一神经网络模型的训练过程的示意图如图2所示，准备样本音频信号数据库，样本音频信号数据库中包括各样本音频信号、各样本音频信号的样本声音信号和样本背景音频信号，用于训练声音背景分离网络A；

准备样本节奏特征数据库，样本节奏特征数据库中包括各样本音频信号的样本节奏特征，用于训练节奏生成网络；

利用样本音频信号数据库，训练背景声音背景分离网络A，得到分离后的原声歌声音频信号；

将分离出来的原声歌声音频信号输入节奏生成网络中的初始语音特征提取模块，用于提取原声歌声音频信号的标准初始语音特征；将标准初始语音特征输入音素瓶颈特征提取模块，用于提取标准音素瓶颈特征；将标准音素瓶颈特征输入节奏特征生成模块，用于根据标准音素瓶颈特征，得到标准节奏特征；本实施例中，初始语音特征提取模块和音素瓶颈特征提取模块包含在节奏生成网络中，图中未示出。

将节奏生成网络输出的预测的节奏特征，和样本节奏特征输入节奏判别网络，用于计算预测的节奏特征相对于样本节奏特征的置信度，基于节奏判别网络的输出结果，不断优化背景声音背景分离网络A和节奏生成网络，直到满足预设的训练结束条件，即置信度大于预设值，则训练终止。

作为一个示例，图3中示出了本申请实施例提供的一种瓶颈特征提取模块的结构示意图，如图中所示，该瓶颈特征提取模块包括至少两个依次级联的两个堆叠网络(图中所示的堆叠网络的个数为两个，即第一个堆叠网络和第二个堆叠网络)，其中，每个堆叠网络包括bottleneck层，该瓶颈特征提取模块用于基于初始语音特征得到音素瓶颈特征。

具体的，第一个带有bottleneck层的堆叠网络用于基于初始语音特征得到初始音素瓶颈特征(可简称为BN特征，即bottleneck特征)，第二个带有bottleneck层的堆叠网络则基于第一个堆叠网络输出的BN特征得到最终的BN特征(可简称为SBN特征，即stackbottleneck特征)，音素瓶颈特征提取模块的最终输出(该示例中第二个堆叠网络的输出)即为所采用的音素瓶颈特征，在实际应用中，通过该模块即可以提取得到原声音频信号的标准音素瓶颈特征。而原声音频信号的标准初始语音特征则可以包括但不限于MFCC特征等。

同样道理，标准音高特征的提取过程也可以采用与标准节奏特征相似的提取过程。

本申请的可选实施例中，标准音频特征还包括原声声音信号的标准音高特征，标准音高特征是通过第二神经网络模型提取得到的，其中，第二神经网络模型包括依次级联的声音背景分离网络和音高生成网络；

音高生成网络，用于根据原声声音信号，得到标准音高特征。

在实际应用中，可以利用第二神经网络模型对大量的原声音频文件的原声声音信号进行音高特征的预提取并存储到标准音频特征库中，在需要进行美化时，可以根据需要美化的音频直接从库中查找对应的音频文件。

本申请的可选实施例中，第二神经网络模型是通过对初始网络模型进行训练得到的，其中，初始网络模型包括依次级联的初始声音背景分离网络、初始音高生成网络和初始音高判别网络；

对初始网络模型进行训练包括：

获取样本数据集，样本数据集中包括各样本音频信号、各样本音频信号的样本声音信号和样本背景音频信号、以及各样本音频信号的样本音高特征；

基于各样本音频信号、以及各样本音频信号的样本音高特征，对初步训练后的网络模型进行训练，直至满足预设的训练结束条件，将训练结束时的声音背景分离网络和初始音高生成网络作为第二神经网络模型；

其中，音高生成网络的输入为声音背景分离网络输出的原声声音信号，音高生成网络的输出为预测的音高特征，音高判别网络的输入为预测的音高特征和样本音高特征，输出为预测的音高特征相对于样本音高特征的置信度，满足预设的训练结束条件是指置信度大于预设值。

在实际应用中，利用相应的样本数据对初始网络模型中模型参数进行训练，直到满足训练结束条件，得到训练好的第二神经网络模型。然后再利用训练好的第二神经网络模型提取标准音频特征。待处理音频信号的音高特征也可以通过第二神经网络模型提取，提取待处理音频信号的音高特征和提取标准音高特征的过程相同，此处不再赘述。

在一示例中，以歌声美化为例，第二神经网络模型的训练过程的示意图如图4所示，准备样本音频信号数据库，样本音频信号数据库中包括各样本音频信号、各样本音频信号的样本歌声音频信号和样本伴奏音频信号，用于训练歌曲伴奏分离网络B；

准备样本音高特征数据库，样本音高特征数据库中包括各样本音频信号的样本音高特征，用于训练音高生成网络；

利用样本音频信号数据库，训练歌曲伴奏分离网络A，得到分离后的原唱歌声音频信号；

将分离出来的原唱歌声音频信号输入音高生成网络，用于根据原唱歌声音频信号，得到标准音高特征；

将音高生成网络输出的预测的音高特征和样本音高特征输入音高判别网络，用于计算预测的音高特征相对于样本音高特征的置信度，基于音高判别网络的输出结果，不断优化歌曲伴奏分离网络B和音高生成网络，直到满足预设的训练结束条件，即置信度大于预设值，则训练终止。

本申请技术方案中的原声音频文件与现有技术中的干声模版相比，更加易于获得的，只要具有下载权限就可以在网络上进行下载。利用神经网络DNN技术，提取和分析音频美化需要的标准音高特征和标准节奏特征，避免了干声模板不易得到的限制，扩大了音频美化技术的适用范围。

步骤S104，基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。

待处理音频信号的音频特征和标准音频特征分别得到之后，根据待处理音频信号的音频特征和标准音频特征，分析待处理音频信号和原声音频信号的差异，确定节奏修正参数和音高修正参数，根据节奏修正参数和音高修正参数分别对待处理音频信号的节奏和音高进行修正处理，以实现音频美化。

本申请的可选实施例中，基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，包括：

根据节奏修正参数，对待处理音频信号进行节奏修正处理。

在实际应用中，对待处理音频信号进行节奏修正时，需要确定节奏修正参数，根据原声音频信号的标准语音特征、标准节奏特征以及待处理声音信号的语音特征确定节奏修正参数，通过节奏修正参数修正待处理音频信号的节奏。

本申请的可选实施例中，节奏修正参数包括句子节奏对齐参数和字节奏对齐参数；

在实际应用中，可以进一步确定待处理音频信号的字节奏对齐参数和句子节奏对齐参数，便于后续进行修正处理时，依次将待处理音频信号和原声音频信号的句子和字分别进行对齐，从而实现音频美化的效果。

本申请的可选实施例中，根据标准语音特征、标准节奏特征和待处理声音信号的语音特征，确定待处理音频信号的节奏修正参数，包括：

在实际应用中，基于标准音素瓶颈特征、待处理声音信号的音素瓶颈特征，通过动态时间规整算法(Subsequential Dynamic Time Warping,SDTW)，计算得到待处理音频信号的句子节奏特征，根据标准句子节奏特征和待处理音频信号的句子节奏特征，得到句子节奏对齐参数。基于待处理音频信号的字节奏特征和标准字节奏特征，通过动态时间规整算法(Dynamic Time Warping,DTW)得到字节奏对齐参数，其中，采用音素瓶颈特征进行计算的目的是为了减少特征的维度，减少后续处理的计算量。

本申请的可选实施例中，根据节奏修正参数，对待处理音频信号进行节奏修正处理，包括：根据句子节奏对齐参数和字节奏对齐参数，将待处理音频信号和所述原声音频信号分别进行句子节奏对齐和字节奏对齐。

在实际应用中，根据得到的句子节奏对齐参数将待处理音频信号和原声音频信号进行句子节奏对齐，根据字节奏对齐参数将待处理音频信号和原声音频信号进行字节奏对齐，从而使待处理音频信号和原声音频信号节奏一致，实现节奏对齐的效果。

本申请的可选实施例中，根据句子节奏对齐参数和字节奏对齐参数，将待处理音频信号和原声音频信号分别进行句子节奏对齐和字节奏对齐，包括：

在实际应用中，将待处理音频信号和原声音频信号进行句子节奏对齐，是指将待处理音频信号对应的句子依据原声音频信号对应的句子进行时间的拉伸或压缩；将待处理音频信号和原声音频信号进行字节奏对齐，是指将待处理音频信号对应的字依据原声音频信号对应的字进行时间的拉伸或压缩，从而实现使待处理音频信号和原声音频信号中相应的句子、字占用的时间相同，达到节奏一致的目的。具体的，可以采用时域基音同步叠加法(Time-Domain Pitch Synchronized Overlap-Add，TD-PSOLA)来实现对音频信号对应的时间的拉伸和压缩。

将待处理音频信号和原声音频信号的节奏美化完成之后，还要对音高进行美化，通过确定音高修正参数来修正音高。

在实际应用中，音高的美化依据标准字节奏特征和待处理音频信号的字节奏特征进行比较得到的节奏时间对照信息，节奏时间对照信息的形式可以是2行n列的矩阵的形式，矩阵中的一行为待处理音频信号中各个字对应的起始时间和结束时间，矩阵中的另一行为原声音频信号中各个字对应的起始时间和结束时间。利用节奏时间对照矩阵、待处理音频信号的音高特征和标准音高特征，得到音高修正参数。基于音高修正参数对待处理音频信号的音高进行修正。具体的，可以通过相位声码器法(Phase Vocoder，PV)对音高进行修正处理。

本申请的可选实施例中，基于标准节奏特征和待处理音频信号的节奏特征，得到节奏时间对照信息，包括：

根据标准字音高特征确定标准句子音高特征；

在实际应用中，音高修正参数包括句子音高修正参数和字音高修正参数，分别依据字节奏时间对照信息、句子节奏时间对照信息得到。

在一示例中，终端设备的歌声美化用户界面如图5所示，用户在录制完成一首歌曲，共享发布之前，通过选择歌声美化功能对歌曲进行音高和节奏的修正。用户可以对演唱的每一句进行音高和节奏的美化，当用户触发“一键修音”按钮时，进行音高修正；当用户触发“自动对齐”按钮时，进行节奏修正。

将待处理音频信号和原声音频信号的节奏和音高修正之后，还要对音色进行处理。

本申请的可选实施例中，基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号，包括：

在实际应用中，对待处理音频信号的节奏和音高修正之后，为了避免对用户声音的音色造成影响，通过基于人耳听觉模型的共振峰修正技术实现音色修正，提升最终修音的音质。

在一示例中，对共振峰修正之前和修正之后的对比曲线如图8所示。图中，坐标轴的横轴表示共振峰频率，坐标轴的纵轴表示共振峰的幅值。

在一示例中，对用户的歌声进行美化的过程分层显示如图6所示，唱歌用户通过终端设备将歌曲录音上传到处理层，处理层从数据层的歌声特征数据库中调用原唱歌曲的节奏特征、音高特征等，对用户上传的歌曲进行修正处理，并下发给听歌用户。

其中，数据层主要作用是从mp3等音乐格式文件中提取歌声美化所需要的原唱的音高、节奏以及音色等特征，建立歌声特征数据库，作为处理层歌声美化的参考。数据层可以在服务器运行，支持离线上传歌曲。

采集播放层可以运行在PC或移动终端，主要功能是调用终端麦克风采集并保存上传待美化的用户歌声，另一项功能是调用终端播放设备，包括但不限于扬声器或者耳机等设备，播放美化后的歌声。

处理层从唱歌用户的采集播放层获取待美化的用户歌声；分析待美化歌声的特征；与数据层的歌声特征数据库中的原唱歌声的特征进行比较；生成节奏、音高、音色修正系数；对待美化歌声进行节奏、音高和音色美化；将美化后的声音下发给听歌用户的采集播放层。处理层可以运行于终端，同时也可以运行于服务器。

作为一个示例，图9中示出了本申请实施例提供的用户歌声节奏修正过程的示意图，如图中所示，将用户录制的歌曲音频文件(图中的用户录音)输入声音背景分离网络(图中的歌声背景音乐分离网络)，分离出待处理歌声音频信号之后，输入语音特征提取模块，提取初始语音特征，再输入SBN特征提取模块，提取SBN特征；将原唱歌曲音频文件(图中的原唱音频)输入歌声伴奏分离网络(图中的声音背景分离网络)，分离出原唱歌声音频信号之后，输入语音特征提取模块，提取标准初始语音特征，再输入SBN特征提取模块，提取标准SBN特征，将标准SBN特征输入节奏生成模块，得到标准句子节奏特征、标准字节奏特征，基于标准SBN特征、SBN特征、标准句子节奏特征，利用SDTW算法，得到待处理音频信号的句子节奏特征、以及句子节奏对齐参数；基于待处理音频信号的句子节奏特征、标准句子节奏特征、标准初始语音特征、初始语音特征和标准字节奏特征，得到待处理音频信号的字节奏特征；基于待处理音频信号的字节奏特征和标准字节奏特征，利用DTW算法得到字节奏对齐参数。最后，利用句子节奏对齐参数和字节奏对齐参数对用户录制的歌曲进行节奏修正处理。

本申请实施例提供的音频信号处理方法，获取用户所录制的待处理音频信号；提取待处理音频信号的音频特征；获取歌曲的原声音频信号的标准音频特征，所述原声音频信号包括原声声音信号和背景音频信号；基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。本申请技术方案利用易于获取的原声音频信号的标准音频特征，对待处理音频信号进行修正处理，从而实现了对用户所录制的音频的美化，不依赖干声模版，扩大了音频美化技术的适用范围，避免了人工标注出现的错误，提升了音频美化的效果。

基于与图1中所示方法相同的原理，本公开的实施例中还提供了一种音频信号处理装置70，如图7所示，该装置包括：

第一获取模块71，用于获取用户所录制的待处理音频信号；

提取模块72，用于提取待处理音频信号的音频特征，待处理音频信号包括背景音频信号和待处理声音信号；

第二获取模块73，用于获取与待处理音频信号对应的原声音频信号的标准音频特征，原声音频信号包括原声声音信号和背景音频信号；

修正模块74，用于基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。

在本申请的可选实施例中，待处理音频信号的音频特征包括所述待处理声音信号的语音特征，所述标准音频特征包括所述原声声音信号的标准语音特征和标准节奏特征；

修正模块74包括参数确定单元和修正单元；参数确定单元，用于根据标准语音特征、标准节奏特征和待处理声音信号的语音特征，确定待处理音频信号的节奏修正参数；修正单元，用于根据节奏修正参数，对待处理音频信号进行节奏修正处理。

在本申请的可选实施例中，标准节奏特征包括原声音频信号所对应的文字的标准字节奏特征和标准句子节奏特征，节奏修正参数包括句子节奏对齐参数和字节奏对齐参数；

参数确定单元具体用于：

在本申请的可选实施例中，标准字节奏特征包括原声音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；标准句子节奏特征包括原声音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳；待处理音频信号的字节奏特征包括待处理音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；待处理音频信号的句子节奏特征包括待处理音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳。

在本申请的可选实施例中，标准语音特征包括标准初始语音特征和标准音素瓶颈特征，待处理声音信号的语音特征包括初始语音特征和音素瓶颈特征；

标准语音特征是通过以下方式得到的：

待处理声音信号的音频特征是通过以下方式得到的：提取待处理声音信号的初始语音特征；基于初始语音特征，提取待处理声音信号的音素瓶颈特征。

在本申请的可选实施例中，参数确定单元具体用于：

在本申请的可选实施例中，修正单元，用于：

在本申请的可选实施例中，修正单元具体用于：

在本申请的可选实施例中，标准音频特征还包括原声声音信号的标准音高特征，待处理音频信号的音频特征还包括待处理声音信号的音高特征；

修正单元具体用于：

在本申请的可选实施例中，标准音高特征包括原声音频信号所对应的文字的标准字音高特征和标准句子音高特征；

修正单元具体用于：

根据标准字音高特征确定标准句子音高特征；

在本申请的可选实施例中，标准音素瓶颈特征和标准节奏特征是通过第一神经网络模型提取得到的，其中，第一神经网络模型包括依次级联的声音背景分离网络和节奏生成网络，节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏生成模块；

在本申请的可选实施例中，第一神经网络模型是通过对初始网络模型进行训练得到的，其中，初始网络模型包括依次级联的初始声音背景分离网络、初始节奏生成网络和初始节奏判别网络，初始节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏特征生成模块；

对初始网络模型进行训练包括：

其中，声音背景分离网络的输入为样本音频信号，损失函数表征了样本声音信号和初始声音背景分离网络输出的预测声音信号的差异、以及背景样本背景音频信号和初始声音背景分离网络输出的预测背景音频信号的差异；

在本申请的可选实施例中，修正模块74还包括音色修正单元，用于：

在本申请的可选实施例中，第一获取模块71还用于：

获取用户的音频录制操作请求；

本公开实施例的音频信号处理装置可执行本公开的实施例所提供的音频信号处理方法，其实现原理相类似，本公开实施例中的音频信号处理装置中的各模块所执行的动作是与本公开各实施例中的音频信号处理方法中的步骤相对应的，对于音频信号处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的音频信号处理方法中的描述，此处不再赘述。

上述实施例从虚拟模块的角度介绍了音频信号处理装置，下述从实体模块的角度介绍一种电子设备，具体如下所示：

本申请实施例提供了一种电子设备，如图10所示，图10所示的电子设备9000包括：处理器9001和存储器9003。其中，处理器9001和存储器9003相连，如通过总线9002相连。可选地，电子设备9000还可以包括收发器9004。需要说明的是，实际应用中收发器9004不限于一个，该电子设备9000的结构并不构成对本申请实施例的限定。

处理器9001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器9001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线9002可包括一通路，在上述组件之间传送信息。总线9002可以是PCI总线或EISA总线等。总线9002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器9003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器9003用于存储执行本申请方案的应用程序代码，并由处理器9001来控制执行。处理器9001用于执行存储器9003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，该电子设备包括存储器和处理器；至少一个程序，存储于所述存储器中，用于被处理器执行时，执行以下步骤：获取用户所录制的待处理音频信号；提取待处理音频信号的音频特征，待处理音频信号包括背景音频信号和待处理声音信号；获取歌曲的原声音频信号的标准音频特征，所述原声音频信号包括原声声音信号和背景音频信号；基于待处理音频信号的音频特征和标准音频特征，对待处理音频信号进行修正处理，得到修正后的音频信号。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

获取用户所录制的待处理音频信号；

提取所述待处理音频信号的音频特征，所述待处理音频信号包括背景音频信号和待处理声音信号；

获取与所述待处理音频信号对应的原声音频信号的标准音频特征，所述原声音频信号包括原声声音信号和所述背景音频信号；

基于所述待处理音频信号的音频特征和所述标准音频特征，对所述待处理音频信号进行修正处理，得到修正后的音频信号；

其中，所述待处理音频信号的音频特征包括所述待处理声音信号的语音特征，所述标准音频特征包括所述原声声音信号的标准语音特征和标准节奏特征；所述基于所述待处理音频信号的音频特征和所述标准音频特征，对所述待处理音频信号进行修正处理，包括：

根据所述标准语音特征、标准节奏特征和所述待处理声音信号的语音特征，确定所述待处理音频信号的节奏修正参数；

根据所述节奏修正参数，对所述待处理音频信号进行节奏修正处理。

2.根据权利要求1所述的方法，其特征在于，所述标准节奏特征包括所述原声音频信号所对应的文字的标准字节奏特征和标准句子节奏特征，所述节奏修正参数包括句子节奏对齐参数和字节奏对齐参数；

所述根据所述标准语音特征、标准节奏特征和所述待处理音频信号的语音特征，确定所述待处理音频信号的节奏修正参数，包括：

基于所述标准语音特征、所述标准句子节奏特征和所述待处理声音信号的语音特征，得到所述待处理音频信号的句子节奏特征、以及句子节奏对齐参数；

基于所述待处理音频信号的句子节奏特征、所述标准句子节奏特征和标准字节奏特征，得到所述待处理音频信号的字节奏特征；

基于所述待处理音频信号的字节奏特征和所述标准字节奏特征，得到字节奏对齐参数。

3.根据权利要求2所述的方法，其特征在于，所述标准字节奏特征包括所述原声音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；

所述标准句子节奏特征包括所述原声音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳；

所述待处理音频信号的字节奏特征包括所述待处理音频信号所对应的文字中的每个字对应的开始时间戳和结束时间戳；

所述待处理音频信号的句子节奏特征包括所述待处理音频信号所对应的文字中的每个句子对应的开始时间戳和结束时间戳。

4.根据权利要求1所述的方法，其特征在于，所述标准语音特征包括标准初始语音特征和标准音素瓶颈特征，所述待处理声音信号的语音特征包括初始语音特征和音素瓶颈特征；

所述标准语音特征是通过以下方式得到的：

提取所述原声声音信号的标准初始语音特征；

基于所述标准初始语音特征，提取所述原声声音信号的标准音素瓶颈特征；

所述待处理声音信号的音频特征是通过以下方式得到的：

提取所述待处理声音信号的初始语音特征；

基于所述初始语音特征，提取所述待处理声音信号的音素瓶颈特征。

5.根据权利要求4所述的方法，其特征在于，所述标准节奏特征包括所述原声音频信号所对应的文字的标准字节奏特征和标准句子节奏特征；

所述根据所述标准语音特征、标准节奏特征和所述待处理声音信号的语音特征，确定所述待处理音频信号的节奏修正参数，包括：

基于所述标准音素瓶颈特征、所述标准句子节奏特征和所述待处理声音信号的音素瓶颈特征，得到所述待处理音频信号的句子节奏特征、以及句子节奏对齐参数；

基于所述待处理音频信号的句子节奏特征、所述标准句子节奏特征、所述标准初始语音特征、所述初始语音特征和所述标准字节奏特征，得到所述待处理音频信号的字节奏特征；

6.根据权利要求1所述的方法，其特征在于，所述节奏修正参数包括句子节奏对齐参数和字节奏对齐参数；

所述根据所述节奏修正参数，对所述待处理音频信号进行节奏修正处理，包括：

根据所述句子节奏对齐参数和字节奏对齐参数，将所述待处理音频信号和所述原声音频信号分别进行句子节奏对齐和字节奏对齐。

7.根据权利要求6所述的方法，其特征在于，所述根据所述句子节奏对齐参数和字节奏对齐参数，将所述待处理音频信号和所述原声音频信号分别进行句子节奏对齐和字节奏对齐，包括：

根据所述句子节奏对齐参数将每个句子在所述待处理音频信号中对应的时长与所述原声音频信号中对应的时长对齐；

根据所述字节奏对齐参数将每个字在所述待处理音频信号中对应的时长与所述原声音频信号中对应的时长对齐。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述标准节奏特征包括所述原声音频信号所对应的文字的标准字节奏特征和标准句子节奏特征；

所述标准音频特征还包括所述原声声音信号的标准音高特征，所述待处理音频信号的音频特征还包括所述待处理声音信号的音高特征；

所述基于所述待处理音频信号的音频特征和所述标准音频特征，对所述待处理音频信号进行修正处理，包括：

基于所述标准字节奏特征和所述待处理音频信号的字节奏特征，得到节奏时间对照信息；

基于所述标准音高特征、所述待处理音频信号的音高特征和所述节奏时间对照信息，得到音高修正参数；

基于所述音高修正参数，对节奏修正后的音频信号进行音高修正处理。

9.根据权利要求8所述的方法，其特征在于，所述标准音高特征包括所述原声音频信号所对应的文字的标准字音高特征和标准句子音高特征；

基于所述标准节奏特征和所述待处理音频信号的节奏特征，得到节奏时间对照信息，包括：

根据所述标准句子节奏特征和所述待处理音频信号的句子节奏特征，确定句子节奏时间对照信息；

根据所述标准字节奏特征和所述待处理音频信号的字节奏特征，确定字节奏时间对照信息；

基于所述标准音高特征、待处理音频信号的音高特征和所述节奏时间对照信息，得到音高修正参数，包括：

根据所述标准字音高特征确定所述标准句子音高特征；

基于所述标准句子音高特征、待处理声音信号的句子音高特征和句子节奏时间对照信息，得到句子音高修正参数；

基于所述标准字音高特征、待处理声音信号的字音高特征和字节奏时间对照信息，得到字音高修正参数。

10.根据权利要求4所述的方法，其特征在于，所述标准音素瓶颈特征和所述标准节奏特征是通过第一神经网络模型提取得到的，其中，所述第一神经网络模型包括依次级联的声音背景分离网络和节奏生成网络，所述节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏生成模块；

所述声音背景分离网络，用于对原声音频信号进行分离，得到原声声音信号；

所述初始语音特征提取模块，用于根据原声声音信号，得到标准初始语音特征；

所述音素瓶颈特征提取模块，用于根据标准初始语音特征，得到标准音素瓶颈特征；

所述节奏生成模块，用于根据所述标准音素瓶颈特征，得到标准节奏特征。

11.根据权利要求10所述的方法，其特征在于，所述第一神经网络模型是通过对初始网络模型进行训练得到的，其中，所述初始网络模型包括依次级联的初始声音背景分离网络、初始节奏生成网络和初始节奏判别网络，所述初始节奏生成网络包括依次级联的初始语音特征提取模块、音素瓶颈特征提取模块和节奏特征生成模块；

对初始网络模型进行训练包括：

获取样本数据集，所述样本数据集中包括各样本音频信号、各样本音频信号的样本声音信号和样本背景音频信号、以及各样本音频信号的样本节奏特征；

基于所述各样本音频信号对所述初始网络模型的初始背景声音背景分离网络进行训练，直至所述初始声音背景分离网络所对应的损失函数收敛，得到初步训练后的网络模型；

其中，所述声音背景分离网络的输入为样本音频信号，所述损失函数表征了所述样本声音信号和所述初始声音背景分离网络输出的预测声音信号的差异、以及所述样本背景音频信号和所述初始声音背景分离网络输出的预测背景音频信号的差异；

基于各样本音频信号、以及各样本音频信号的样本节奏特征，对所述初步训练后的网络模型进行训练，直至满足预设的训练结束条件，将训练结束时的所述声音背景分离网络和初始节奏生成网络作为所述第一神经网络模型；

其中，所述节奏生成网络的输入为所述声音背景分离网络输出的原声声音信号，所述节奏生成网络的输出为预测的节奏特征，所述节奏判别网络的输入为所述预测的节奏特征和样本节奏特征，输出为预测的节奏特征相对于样本节奏特征的置信度，满足预设的训练结束条件是指所述置信度大于预设值。

12.一种音频信号处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取用户所录制的待处理音频信号；

提取模块，用于提取所述待处理音频信号的音频特征，所述待处理音频信号包括背景音频信号和待处理声音信号；

第二获取模块，用于获取与所述待处理音频信号对应的原声音频信号的标准音频特征，所述原声音频信号包括原声声音信号和所述背景音频信号；

修正模块，用于基于所述待处理音频信号的音频特征和所述标准音频特征，对所述待处理音频信号进行修正处理，得到修正后的音频信号；

其中，所述待处理音频信号的音频特征包括所述待处理声音信号的语音特征，所述标准音频特征包括所述原声声音信号的标准语音特征和标准节奏特征；所述修正模块包括参数确定单元和修正单元；

所述参数确定单元，用于根据所述标准语音特征、标准节奏特征和所述待处理声音信号的语音特征，确定所述待处理音频信号的节奏修正参数；

所述修正单元，用于根据所述节奏修正参数，对所述待处理音频信号进行节奏修正处理。

13.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1~11任一项所述的音频信号处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行权利要求1~11任一项所述的音频信号处理方法。