CN111739545A - 音频处理方法、装置及存储介质 - Google Patents

音频处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111739545A
CN111739545A CN202010595691.XA CN202010595691A CN111739545A CN 111739545 A CN111739545 A CN 111739545A CN 202010595691 A CN202010595691 A CN 202010595691A CN 111739545 A CN111739545 A CN 111739545A
Authority
CN
China
Prior art keywords
audio signal
amplitude
signal sample
sequence generation
distorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010595691.XA
Other languages
English (en)
Other versions
CN111739545B (zh
Inventor
陈洲旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010595691.XA priority Critical patent/CN111739545B/zh
Publication of CN111739545A publication Critical patent/CN111739545A/zh
Application granted granted Critical
Publication of CN111739545B publication Critical patent/CN111739545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Abstract

本发明实施例公开了一种音频处理方法、装置及存储介质。该方案可以获取待处理音频信号,待处理音频信号包括截幅失真部分,获取预先训练完成的目标序列生成模型,其中目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且目标序列生成模型包括非因果膨胀卷积层,将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。

Description

音频处理方法、装置及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种音频处理方法、装置及存储介质。
背景技术
随着Internet技术不断发展,如短视频,直播平台的兴起,个人制作的音频信号得到更多的传播,而这些音频由于录制环境,设备等,较容易产生截幅失真的现象。原因是由于电路和音响单元对输入的音频信号的幅度有限制,在通过硬件电路录制音频的过程中,需要将音频信号的最大幅度限制在电路和音响单元的允许范围内。因此,当音频数据的幅度超过电路和音响单元的允许范围时,将会产生截幅失真,所造成的失真损害了音频的音质。
在现有的技术当中,传统的音频截幅失真修复方法重点放在音频信号处理上,如利用曲线拟合,基于AR(AutoRegressive,自回归)模型以及最小均方误差的算法,此种修复方法存在以下的一些局限性。比如截幅失真持续时间较小时效果较好,若持续时间较长,其效果不是很理想,并且对语音音频的处理效果较好,但对音乐来说则效果较差。
发明内容
本发明实施例提供一种音频处理方法、装置及存储介质,可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。
本发明实施例提供一种音频处理方法,包括:
获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
本发明实施例还提供一种音频处理装置,包括:
第一获取单元,用于获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
第二获取单元,用于获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
修复单元,用于将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一音频处理方法。
本发明实施例提供的音频处理方案,可以获取待处理音频信号,待处理音频信号包括截幅失真部分,获取预先训练完成的目标序列生成模型,其中目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且目标序列生成模型包括非因果膨胀卷积层,将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的音频处理方法的第一流程示意图;
图1b是本发明实施例提供的音频处理方法的第二流程示意图;
图1c是本发明实施例提供的现有模型结构示意图;
图1d是本发明实施例提供的因果膨胀卷积层的结构示意图;
图2a是本发明实施例提供的音频处理装置的第一种结构示意图;
图2b是本发明实施例提供的音频处理装置的第二种结构示意图;
图3是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明实施例提供一种音频处理方法,该音频处理方法的执行主体可以是本发明实施例提供的音频处理装置,或者集成了该音频处理装置的服务器,其中该音频处理装置可以采用硬件或者软件的方式实现。
如图1a所示,图1a是本发明实施例提供的音频处理方法的第一流程示意图,该音频处理方法的具体流程可以如下:
101、获取待处理音频信号,待处理音频信号包括截幅失真部分。
在一实施例中,上述待处理音频信号包括截幅失真部分,因此可以在获取到待处理音频信号之后,提取该信号中的截幅失真部分。比如先将包含截幅失真的待处理音频信号输入到检测系统当中,首先可以先对其进行全局扫描得到峰值大小,然后根据实际截幅类型选择适当的抖动值,其中,数字截幅抖动值为零,模拟截幅则根据其截幅程度选择合适值,最后由检测系统得出截幅失真起始点以及终点信息,根据上述截幅失真起始点以及终点信息即可得到待处理音频信号的截幅失真数据。
102、获取预先训练完成的目标序列生成模型,其中目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且目标序列生成模型包括非因果膨胀卷积层。
具体的,上述目标序列生成模型的训练过程包括:获取原始音频信号样本,并对所述原始音频信号样本进行截幅失真处理得到失真音频信号样本,获得包括非因果膨胀卷积层的预设序列生成模型,将所述失真音频信号样本输入至所述预设序列生成模型,以使所述非因果膨胀卷积层依据所述失真音频信号样本中失真样本点前后的音频信号对所述失真样本点进行修复,得到预测音频信号样本,将所述预测音频信号样本与所述原始音频信号样本进行比对,依据比对结果调整所述预设序列生成模型的模型参数,以得到由调整后的模型参数所表示的目标序列生成模型。
具体的,上述原始音频信号样本为正常音频信号,也即未发生截幅失真的音频信号,上述失真音频信号样本为对原始音频信号样本进行截幅失真处理得到信号,在本申请实施例中可以通过预设算法来进行截幅失真处理。其中,截幅失真处理仿照音频文件的生成过程中的截幅操作,对原始音频信号样本的峰值进行截幅,从而在峰值处多个连续的采样点幅值都相同。
在一实施例中,可以在上述截幅失真处理过后,检测生成的失真音频信号样本是否包含截幅失真,具体可以获取失真音频信号样本源文件中某一峰值对应的采样点,失真音频信号样本源文件中某一峰值对应的采样点为多个连续采样点,且这多个连续采样点的长度大于某一阈值,则确定上述失真音频信号样本的源文件中包含截幅失真。
其中,在对原始音频信号样本进行截幅失真处理时也可以先获取该原始音频信号样本的源文件,然后进行处理,上述源文件可以是波形(WAV)格式的音频文件,也可以是其他任何压缩格式的音频文件,比如动态影像专家压缩标准音频层面3(Moving PictureExperts Group Audio Layer-3,MP3)格式,高级音频编码(Advanced Audio Coding,AAC)格式,免费无损音频编码(Free Lossless Audio Codec,FLAC)格式,APE格式,或OGG等格式的音频文件,本申请对此不作进一步限定。进一步的,若上述源文件是任一压缩格式的音频文件,则需要将任一压缩格式的音频文件转化(比如按照相应的方式进行解码)为WAV格式的音频文件。
在一实施例中,上述预设网络模型可以为序列生成模型例如WaveNet模型,在现有技术当中,WaveNet是一个端到端的TTS(text to speech)模型。它是一个序列生成模型,类似于早期的pixel RNN和Pixel CNN,声音元素是一个点一个点生成的。在WaveNet中最重要的概念就是因果卷积(dialated causal convolutions),因果卷积的意义就是WaveNet在生成t时刻的元素时,只能使用0到t-1时刻的元素值。
在WaveNet中,output输出只利用了之前的元素来生成。一般的,如图1c所示,WaveNet模型包括的卷积层为因果膨胀卷积层,只利用当前样本点之前的样本点进行预测。WaveNet是作用于时域波形信号,基于AR(AutoRegressive,自回归)模型预测生成下一个样本点,即:
Figure BDA0002555638740000051
其中,t表示时间戳,xt表示音频信号幅值,yt表示时间戳t预测生成的音频信号幅值。WaveNet使用多层膨胀卷积层,来获得较大的视野。对于截幅失真的音频信号,幅值在某一部分产生了截幅失真,而在其前后的音频,则是正常的,如果同时有效利用前后的音频信号,作为参考,则可以更好地还原失真的部分音频,因此如图1d所示,本申请实施例可以通过将WaveNet的因果膨胀卷积层改进为非因果膨胀卷积层,对于修复截幅失真的音频效果更好。非因果膨胀卷积层用于使用音频信号中当前样本点之前以及之后的样本点,对当前样本点进行修复,具体处理过程可以表示为:
Figure BDA0002555638740000052
其中N表示用于对当前样本点进行修复的样本点中距离当前样本点最远的样本点与当前样本点之间的长度。N可以为预设值。其他参数可以参见上述说明。
在一实施例中,由于上述原始音频信号样本为完美音频信号,也即未包含截幅失真的音频信号,而上述失真音频信号样本则为包含截幅失真的音频信号,因此可以将包含截幅失真的失真音频信号样本输入至替换卷积层后的WaveNet模型当中,以得到预测音频信号,通过将该预测音频信号与原始的非截幅失真的原始音频信号样本进行对比,以计算LMS(Least Mean Square,最小均方误差),通过获取更多的完美音频信号以及对应的截幅失真音频信号作为训练样本,不断的对上述WaveNet模型进行训练迭代,使LMS越来越小,最终收敛,得到目标序列生成模型。
其中,经过一定次数的迭代训练后,若上述WaveNet模型的输出结果满足预设要求,则可以将输出结果满足预设要求的WaveNet模型作为最终的预测模型,获得的预测模型可用于后续对待处理音频信号进行修复。需要说明的是,上述预设要求可以根据实际情况来确定,比如在一实施例中,可以当WaveNet模型的输出结果满足预测音频信号与完美音频信号的LMS小于预设值时,可以确定WaveNet模型的输出结果满足预设要求。在其他实施例中,还可以当WaveNet模型的训练次数达到预设值,也可以确定WaveNet模型的输出结果满足预设要求。
103、将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号。
在一实施例中,将待处理音频信号输入至所述预测模型,通过该预测模型即可预测出上述截幅失真数据对应的截幅修复值,从而根据该截幅修复值完成修复。也即将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号的步骤,可以包括:
提取所述待处理音频信号的截幅失真数据;
将所述待处理音频信号输入至所述目标序列生成模型,以根据所述截幅失真数据预测对应的截幅修复值;
根据所述截幅修复值对所述待处理音频信号的截幅失真部分进行修复。
该方法使用非因果滤波替换WaveNet原生的因果滤波,可以充分利用截幅点左右两侧的数据信息,从而有效地避免了单向预测产生的结果数据单调增加或减少,通过对大量的正常的音频与其对应的截幅失真的音频数据进行训练,获取预测模型,针对待修复的截幅失真的音频,通过预测模型,进行音频信号修复,修复后的音频也具有更高的音质。
由上所述,本发明实施例提出的音频处理方法可以获取待处理音频信号,待处理音频信号包括截幅失真部分,获取预先训练完成的目标序列生成模型,其中目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且目标序列生成模型包括非因果膨胀卷积层,将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。
根据前面实施例所描述的方法,以下将作进一步详细说明。
请参阅图1b,图1b是本发明实施例提供的音频处理方法的第二流程示意图。所述方法包括:
201、获取原始音频信号样本以及原始音频信号样本的时域波形。
在一申请实施例中,上述原始音频信号样本为正常音频信号,也即未发生截幅失真的音频信号,并获取该原始音频信号样本的时域波形图,其中,时域是描述数学函数或物理信号对时间的关系,而该原始音频信号样本的时域波形可以表达信号随着时间的变化。
202、根据时域波形判断原始音频信号样本是否存在截幅失真,若否则执行步骤203。
在一实施例中,可以根据原始音频信号样本的时域波形判断是否存在截幅失真。比如获取原始音频信号样本时域波形中某一峰值对应的采样点,原始音频信号样本时域波形中某一峰值对应的采样点为多个连续采样点,且这多个连续采样点的长度大于某一阈值,则确定上述原始音频信号样本包含截幅失真,可以返回步骤201重新获取新的原始音频信号样本以及对应的时域波形。若上述原始音频信号样本时域波形中不存在多个连续采样点,或者存在多个连续采样点但这多个连续采样点的长度不大于某一阈值,则确定上述原始音频信号样本未包含截幅失真,则执行步骤203。
203、在原始音频信号样本当中选取预设幅值并根据预设幅值确定样本点。
其中,上述预设幅值可以根据原始音频信号样本的峰值来进行选取,比如选取该原始音频信号样本的峰值附近的幅值作为预设幅值,举例来说,若原始音频信号样本的峰值为1.0,则可以选取0.9或者0.8作为预设幅值。在确定预设幅值后,即可将达到该预设幅值的元素作为样本点。需要说明的是,上述样本点的数量与音频信号的采样率有关,在选取的预设幅值相同的情况下,采样率越高对应的样本点数量也就越多。
204、基于样本点和预设公式对原始音频信号样本进行截幅失真处理,得到失真音频信号样本。
在本申请实施例在,可以基于所述样本点和预设公式对所述原始音频信号样本进行截幅失真处理,其中所述预设公式为:
Figure BDA0002555638740000081
其中,M表示音频文件s的最大幅值,即M=max(|x(1)|,|x(2)|,...,|x(n)|),n表示音频文件s的总样本点数,t表示样本点,β表示阈值。其中,其大小可动态调整,范围为0.7~0.9,取值越小,则截幅失真越严重。
在一实施例中,在对原始音频信号样本进行截幅失真处理时也可以先获取该原始音频信号样本的源文件,然后进行处理,上述源文件主要是指波形(WAV)格式的音频文件。
205、将预设网络模型的因果膨胀卷积层替换为非因果膨胀卷积层。
在本申请实施例中,上述预设网络模型可以为WaveNet模型,由于现有的WaveNet模型当中,output输出只利用了之前的元素来生成。对于截幅失真的音频信号,幅值在某一部分产生了截幅失真,而在其前后的音频,则是正常的,如果同时有效利用前后的音频信号,作为参考,则可以更好的还原失真的部分音频,因此本申请实施例可以通过将WaveNet的因果膨胀卷积层改进为非因果膨胀卷积层。
206、将失真音频信号样本输入至替换后的网络模型,以得到预测信号,
207、根据预测信号与原始音频信号样本计算最小均方误差。
208、根据最小均方误差对网络模型进行训练迭代,以得到训练后的预测模型。
在一实施例中,上述原始音频信号样本为完美音频信号,也即未包含截幅失真的音频信号,而上述失真音频信号样本则为包含截幅失真的音频信号,因此可以将包含截幅失真的失真音频信号样本输入至替换卷积层后的WaveNet模型当中,以得到预测音频信号,通过将该预测音频信号与原始的非截幅失真的原始音频信号样本进行对比,以计算LMS(Least Mean Square,最小均方误差),通过获取更多的完美音频信号以及对应的截幅失真音频信号作为训练样本,不断的对上述WaveNet模型进行训练迭代,使LMS越来越小,最终收敛,得到预测模型。也即根据所述最小均方误差对所述网络模型进行训练迭代,以得到训练后的预测模型的步骤,可以包括:
获取多个满足预设条件的音频信号以及处理过后分别对应的截幅失真音频信号,以作为训练样本;
根据所述训练样本对所述网络模型进行训练迭代,以使所述最小均方误差变小直至收敛,得到训练后的预测模型。
209、将待处理音频信号输入至预测模型,以对待处理音频信号的截幅失真部分进行修复。
在一实施例中,将待处理音频信号输入至所述预测模型,通过该预测模型即可预测出上述截幅失真数据对应的截幅修复值,从而根据该截幅修复值完成修复。
该方法使用非因果滤波替换WaveNet原生的因果滤波,可以充分利用截幅点左右两侧的数据信息,从而有效地避免了单向预测产生的结果数据单调增加或减少,通过对大量的正常的音频与其对应的截幅失真的音频数据进行训练,获取预测模型,针对待修复的截幅失真的音频,通过预测模型,进行音频信号修复,修复后的音频也具有更高的音质。
由上所述,本发明实施例提出的音频处理方法可以获取原始音频信号样本以及原始音频信号样本的时域波形,根据时域波形判断原始音频信号样本是否存在截幅失真,若不存在则在原始音频信号样本当中选取预设幅值并根据预设幅值确定样本点,基于样本点和预设公式对原始音频信号样本进行截幅失真处理,得到失真音频信号样本,将预设网络模型的因果膨胀卷积层替换为非因果膨胀卷积层,将失真音频信号样本输入至替换后的网络模型,以得到预测信号,根据预测信号与原始音频信号样本计算最小均方误差,根据最小均方误差对网络模型进行训练迭代,以得到训练后的预测模型,将待处理音频信号输入至预测模型,以对待处理音频信号的截幅失真部分进行修复。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。
为了实施以上方法,本发明实施例还提供一种音频处理装置,该音频处理装置具体可以集成在终端设备如手机、平板电脑等设备中。
例如,如图2a所示,是本发明实施例提供的音频处理装置的第一种结构示意图。该音频处理装置可以包括:
第一获取单元301,用于获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
第二获取单元302,用于获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
修复单元303,用于将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
在一实施例中,请参阅图2b,上述装置还可以包括:
训练单元304,用于获取原始音频信号样本,并对所述原始音频信号样本进行截幅失真处理得到失真音频信号样本,获得包括非因果膨胀卷积层的预设序列生成模型,将所述失真音频信号样本输入至所述预设序列生成模型,以使所述非因果膨胀卷积层依据所述失真音频信号样本中失真样本点前后的音频信号对所述失真样本点进行修复,得到预测音频信号样本,将所述预测音频信号样本与所述原始音频信号样本进行比对,依据比对结果调整所述预设序列生成模型的模型参数,以得到由调整后的模型参数所表示的目标序列生成模型。
在一实施例中,训练单元304可以包括:
获取子单元3041,用于获取所述原始音频信号样本的时域波形,并根据所述时域波形判断所述原始音频信号样本是否存在截幅失真;
生成子单元3042,用于当判断所述原始音频信号样本不存在截幅失真时,在所述原始音频信号样本当中选取目标幅值,以及根据所述目标幅值生成失真样本点,以得到失真音频信号样本。
在一实施例中,训练单元304还可以包括:
计算子单元3043,用于计算所述预测音频信号样本与所述原始音频信号样本的最小均方误差;
训练子单元3044,用于根据所述最小均方误差对所述预设序列生成模型进行训练迭代,以调整所述预设序列生成模型的模型参数。
本发明实施例提出的音频处理装置,可以获取待处理音频信号,待处理音频信号包括截幅失真部分,获取预先训练完成的目标序列生成模型,其中目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且目标序列生成模型包括非因果膨胀卷积层,将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。
本发明实施例还提供一种终端,如图3所示,该终端可以包括射频(RF,RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图3中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:
获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频处理方法的详细描述,此处不再赘述。
由上可知,本发明实施例的终端可以获取待处理音频信号,待处理音频信号包括截幅失真部分,获取预先训练完成的目标序列生成模型,其中目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且目标序列生成模型包括非因果膨胀卷积层,将待处理音频信号输入至目标序列生成模型,以使非因果膨胀卷积层依据截幅失真部分前后的音频信号对截幅失真部分进行修复,得到修复后的音频信号。本申请实施例所提供的方案可以针对待修复的截幅失真的音频,通过预测模型进行音频信号修复,从而提升音频音质。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种音频处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种音频处理方法、装置、存储介质以及终端进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
2.如权利要求1所述的音频处理方法,其特征在于,所述目标序列生成模型的训练过程包括:
获取原始音频信号样本,并对所述原始音频信号样本进行截幅失真处理得到失真音频信号样本;
获得包括非因果膨胀卷积层的预设序列生成模型;
将所述失真音频信号样本输入至所述预设序列生成模型,以使所述非因果膨胀卷积层依据所述失真音频信号样本中失真样本点前后的音频信号对所述失真样本点进行修复,得到预测音频信号样本;
将所述预测音频信号样本与所述原始音频信号样本进行比对,依据比对结果调整所述预设序列生成模型的模型参数,以得到由调整后的模型参数所表示的目标序列生成模型。
3.如权利要求2所述的音频处理方法,其特征在于,对所述原始音频信号样本进行截幅失真处理得到失真音频信号样本的步骤,包括:
获取所述原始音频信号样本的时域波形,并根据所述时域波形判断所述原始音频信号样本是否存在截幅失真;
若不存在,则在所述原始音频信号样本当中选取目标幅值,以及根据所述目标幅值生成失真样本点,以得到失真音频信号样本。
4.如权利要求3所述的音频处理方法,其特征在于,根据所述预设幅值生成失真样本点的步骤,包括:
基于预设公式对所述原始音频信号样本中的预设幅值进行截幅失真处理,其中所述预设公式为:
Figure FDA0002555638730000021
其中,s(t)表示原始音频信号样本中的样本点;M表示目标幅值,且所述目标幅值为所述原始音频信号样本s的最大幅值;β表示阈值。
5.如权利要求2所述的音频处理方法,其特征在于,将所述预测音频信号样本与所述原始音频信号样本进行比对,依据比对结果调整所述预设序列生成模型的模型参数的步骤,包括:
计算所述预测音频信号样本与所述原始音频信号样本的最小均方误差;
根据所述最小均方误差对所述预设序列生成模型进行训练迭代,以调整所述预设序列生成模型的模型参数。
6.一种音频处理装置,其特征在于,包括:
第一获取单元,用于获取待处理音频信号,所述待处理音频信号包括截幅失真部分;
第二获取单元,用于获取预先训练完成的目标序列生成模型,其中所述目标序列生成模型为对失真音频信号样本训练得到的神经网络模型,且所述目标序列生成模型包括非因果膨胀卷积层;
修复单元,用于将所述待处理音频信号输入至所述目标序列生成模型,以使所述非因果膨胀卷积层依据所述截幅失真部分前后的音频信号对所述截幅失真部分进行修复,得到修复后的音频信号。
7.如权利要求6所述的音频处理装置,其特征在于,所述装置还包括:
训练单元,用于获取原始音频信号样本,并对所述原始音频信号样本进行截幅失真处理得到失真音频信号样本,获得包括非因果膨胀卷积层的预设序列生成模型,将所述失真音频信号样本输入至所述预设序列生成模型,以使所述非因果膨胀卷积层依据所述失真音频信号样本中失真样本点前后的音频信号对所述失真样本点进行修复,得到预测音频信号样本,将所述预测音频信号样本与所述原始音频信号样本进行比对,依据比对结果调整所述预设序列生成模型的模型参数,以得到由调整后的模型参数所表示的目标序列生成模型。
8.如权利要求7所述的音频处理装置,其特征在于,所述训练单元包括:
获取子单元,用于获取所述原始音频信号样本的时域波形,并根据所述时域波形判断所述原始音频信号样本是否存在截幅失真;
生成子单元,用于当判断所述原始音频信号样本不存在截幅失真时,在所述原始音频信号样本当中选取目标幅值,以及根据所述目标幅值生成失真样本点,以得到失真音频信号样本。
9.如权利要求7所述的音频处理装置,其特征在于,所述训练单元包括:
计算子单元,用于计算所述预测音频信号样本与所述原始音频信号样本的最小均方误差;
训练子单元,用于根据所述最小均方误差对所述预设序列生成模型进行训练迭代,以调整所述预设序列生成模型的模型参数。
10.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至5任一项所述的音频处理方法。
CN202010595691.XA 2020-06-24 2020-06-24 音频处理方法、装置及存储介质 Active CN111739545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010595691.XA CN111739545B (zh) 2020-06-24 2020-06-24 音频处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010595691.XA CN111739545B (zh) 2020-06-24 2020-06-24 音频处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111739545A true CN111739545A (zh) 2020-10-02
CN111739545B CN111739545B (zh) 2023-01-24

Family

ID=72651272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010595691.XA Active CN111739545B (zh) 2020-06-24 2020-06-24 音频处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111739545B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192529A (zh) * 2021-04-28 2021-07-30 广州繁星互娱信息科技有限公司 音源数据修复方法、装置、终端及存储介质
CN113409807A (zh) * 2021-06-11 2021-09-17 北京字跳网络技术有限公司 一种音频修复方法、装置、设备及介质
CN113423005A (zh) * 2021-05-18 2021-09-21 电子科技大学 一种运动驱动的智能音乐生成方法及系统
CN113192529B (zh) * 2021-04-28 2024-05-10 广州繁星互娱信息科技有限公司 音源数据修复方法、装置、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120106750A1 (en) * 2010-07-15 2012-05-03 Trausti Thormundsson Audio driver system and method
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
CN109872730A (zh) * 2019-03-14 2019-06-11 广州飞傲电子科技有限公司 音频数据的失真补偿方法、模型建立方法和音频输出设备
WO2019192705A1 (en) * 2018-04-05 2019-10-10 Technische Universität Braunschweig Method, hardware device and software program for post-processing of transcoded digital signal
CN110491404A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音处理方法、装置、终端设备及存储介质
CN110491407A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音降噪的方法、装置、电子设备及存储介质
CN111128167A (zh) * 2019-12-30 2020-05-08 深圳创维-Rgb电子有限公司 一种远场语音唤醒方法、装置、电子产品及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120106750A1 (en) * 2010-07-15 2012-05-03 Trausti Thormundsson Audio driver system and method
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
WO2019192705A1 (en) * 2018-04-05 2019-10-10 Technische Universität Braunschweig Method, hardware device and software program for post-processing of transcoded digital signal
CN109872730A (zh) * 2019-03-14 2019-06-11 广州飞傲电子科技有限公司 音频数据的失真补偿方法、模型建立方法和音频输出设备
CN110491404A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音处理方法、装置、终端设备及存储介质
CN110491407A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音降噪的方法、装置、电子设备及存储介质
CN111128167A (zh) * 2019-12-30 2020-05-08 深圳创维-Rgb电子有限公司 一种远场语音唤醒方法、装置、电子产品及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DARIO RETHAGE.ETC: "《A Wavenet for Speech Denoising》", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192529A (zh) * 2021-04-28 2021-07-30 广州繁星互娱信息科技有限公司 音源数据修复方法、装置、终端及存储介质
CN113192529B (zh) * 2021-04-28 2024-05-10 广州繁星互娱信息科技有限公司 音源数据修复方法、装置、终端及存储介质
CN113423005A (zh) * 2021-05-18 2021-09-21 电子科技大学 一种运动驱动的智能音乐生成方法及系统
CN113409807A (zh) * 2021-06-11 2021-09-17 北京字跳网络技术有限公司 一种音频修复方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111739545B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN110164420B (zh) 一种语音识别的方法、语音断句的方法及装置
CN106710596B (zh) 回答语句确定方法及装置
AU2013289660B2 (en) Method for updating voiceprint feature model and terminal
CN109509473B (zh) 语音控制方法及终端设备
CN108470571B (zh) 一种音频检测方法、装置及存储介质
CN107993672B (zh) 频带扩展方法及装置
CN109215683B (zh) 一种提示方法及终端
CN106384597B (zh) 一种音频数据处理方法、及设备
CN109817241B (zh) 音频处理方法、装置及存储介质
CN107219951B (zh) 触控屏控制方法、装置、存储介质及终端设备
CN111324235A (zh) 一种屏幕刷新频率调整方法及电子设备
CN109089156B (zh) 一种音效调节方法、装置及终端
CN111883091A (zh) 音频降噪方法和音频降噪模型的训练方法
CN111739545B (zh) 音频处理方法、装置及存储介质
CN106940997B (zh) 一种向语音识别系统发送语音信号的方法和装置
CN108337533B (zh) 视频压缩方法和装置
CN112751648A (zh) 一种丢包数据恢复方法和相关装置
CN108492837B (zh) 音频突发白噪声的检测方法、装置及存储介质
CN107343095B (zh) 通话音量控制方法、装置、存储介质及终端
CN106126170B (zh) 一种终端的音效设置方法及终端
CN106817324B (zh) 频响校正方法及装置
CN116994596A (zh) 啸叫抑制方法、装置、存储介质及电子设备
CN108008808B (zh) 运行参数的调整方法和移动终端
CN107894958B (zh) 垃圾信息清理方法、终端、服务器及计算机可读存储介质
CN115985323A (zh) 语音唤醒方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant