CN116524951A - 音频处理方法和装置 - Google Patents
音频处理方法和装置 Download PDFInfo
- Publication number
- CN116524951A CN116524951A CN202310332289.6A CN202310332289A CN116524951A CN 116524951 A CN116524951 A CN 116524951A CN 202310332289 A CN202310332289 A CN 202310332289A CN 116524951 A CN116524951 A CN 116524951A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- audio
- frequency band
- frequency
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 230000005236 sound signal Effects 0.000 claims abstract description 544
- 238000001228 spectrum Methods 0.000 claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012952 Resampling Methods 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种音频处理方法和装置,该方法包括:获得第一音频信号;利用音频处理模型对第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号;基于该第二音频信号,输出音频。
Description
技术领域
本申请涉及音频处理技术领域,尤其涉及一种音频处理方法和装置。
背景技术
在日常生活与工作中,用户经常需要利用电子设备输出音频。
随着人们对于音频质量的要求也越来越高,因此,高保真音频已经人们逐渐接受的音频规范。但是,为了将音频转换为高保真音频需要电子设备具有特殊的音频转化硬件以及相关的驱动,导致转换出高保真音频的复杂度较高,因此,如何降低将音频转换为高质量音频的复杂度是本领域技术人员需要解决的技术问题。
发明内容
一方面,本申请提供了一种音频处理方法,包括:
获得第一音频信号;
利用音频处理模型对所述第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号;
基于所述第二音频信号,输出音频。
在一种可能的实现方式中,在利用音频处理模型对所述第一音频信号进行预处理之前,还包括:
对所述第一音频信号进行重采样;
所述利用音频处理模块对所述第一音频信号进行预处理,包括:
利用音频处理模块对重采样后的第一音频信号进行预处理。
在又一种可能的实现方式中,在所述基于所述第二音频信号,输出音频之前,还包括:
对所述第一音频信号进行重采样,得到第三音频信号;
所述基于所述第二音频信号,输出音频,包括:
利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号,所述第一频段为所述第二音频信号中经过频谱填充的频段,所述第二频段为所述第二音频信号中所述第一频段之外的频段;
输出所述第四音频信号。
在又一种可能的实现方式中,在生成第四音频信号之前,还包括:
确定第二音频信号中第二频段的音频信号与第三音频信号中第二频段的音频信号之间的相似程度;
所述利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号,包括:
如果所述相似程度未超过设定阈值,利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号。
在又一种可能的实现方式中,所述基于所述第二音频信号,输出音频,还包括:
如果所述相似程度超过设定阈值,输出所述第二音频信号。
在又一种可能的实现方式中,所述对预处理后的第一音频信号进行频谱填充,包括:
基于第一音频信号在预处理之前的第一频率以及设定的目标频率,对预处理后的第一音频信号中的目标频段进行频谱填充,所述目标频段与所述第一频率以及所述目标频率有关。
在又一种可能的实现方式中,在利用音频处理模型对所述第一音频信号进行预处理包括如下至少一种:
将所述第一音频信号处理为目标频率的音频信号;
将所述第一音频信号编码为具有目标比特位数的音频信号。
在又一种可能的实现方式中,所述音频处理模型为基于满足目标需求的原始音频信号而得到的音频信号样本,且以得到所述音频信号样本对应的原始音频信号为训练目标训练得到的。
在又一种可能的实现方式中,所述音频信号样本包括对所述原始音频信号经过重采样后得到的多个不同采样频率的中间音频信号。
又一方面,本申请还提供了一种音频处理装置,包括:
音频获得单元,用于获得第一音频信号;
音频处理单元,用于利用音频处理模型对所述第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号;
音频输出单元,用于基于所述第二音频信号,输出音频。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的音频处理方法的一种流程示意图;
图2示出了本申请实施例提供的音频处理方法的又一种流程示意图;
图3示出了本申请实施例提供的音频处理方法的又一种流程示意图;
图4示出了本申请实施例提供的音频处理模型的一种训练流程示意图;
图5示出了本申请实施例中音频信号仅通过上采样得到的音频频谱与经过本案处理后得到的音频频谱的对比示意图;
图6示出了本申请实施例提供的音频处理装置的一种组成结构示意图;
图7示出了本申请实施例提供的电子设备的一种组成结构示意图。
具体实施方式
本申请实施例的方案可以适用于任意具备音频数据处理的电子设备,以使得电子设备能够输出高质量的音频信号,如具有高采样率且高频部分填充有数据的高保真音频信号。
如,该电子设备可以为笔记本电脑、台式电脑、手机或者智能音箱等,对此不加限制。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1,其示出了本申请实施例提供的音频处理方法的一种流程示意图,本实施例的方法可以包括:
S101,获得第一音频信号。
第一音频信号为需要处理的音频信号。
在本申请中为了与后续经过处理的音频信号进行区分,将获得的需要处理音频信号称为第一音频信号。
如,该第一音频信号为待输出到音频输出装置(如扬声器)的音频信号。
S102,利用音频处理模型对第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号。
其中,该音频处理模型为经过训练的,能够将音频信号转换为高质量音频信号的模型。如,该音频处理模型可以为经过训练的网络模型(如神经网络模型或者其他网络模型),或者是机器学习模型等,对此不加限制。
其中,音频处理模型的训练方式也可以有多种可能,本申请对此不加限制。
如,在一种可能的实现方式中,该音频处理模型为基于满足目标需求的原始音频信号而得到的音频信号样本,且以得到该音频信号样本对应的原始音频信号为训练目标训练得到的。
其中,满足目标需求的原始音频信号可以为属于高保真音频的音频信号。如,原始音频信号为:频率为设定的目标频率,且在设定频段或者说设定频段对应的频谱中具有数据的音频信号。
音频信号的频率也称为音频信号的采样频率,而目标频率可以为设定的表征高采样率的频率,例如,目标频率为96KHz(也就是96000Hz)。设定频段是基于目标频率确定出的,且设定频段中的最低频率不低于该原始音频信号中不属于设定频段的其他频段中最高频率。如,目标频率为96KHz时,设定频段可以为48KHz-96KHz。
可以理解的是,转换出该音频信号样本的原始音频信号也就是该音频信号样本标注的原始音频信号,而训练音频处理模型的目标就是音频处理模型对音频信号样本进行频谱填充处理后得到的音频信号与该音频信号样本对应的原始音频信号相同。
在本申请中,音频处理模型对第一音频信号的预处理可以有多种可能。如,预处理可以是对第一音频信号进行特征编码,得到第一音频信号的特征信息。又如,预处理可以噪声处理或者格式转换处理等。
在一种可能的实现方式中,考虑到音频处理模型所能填充的音频信号的格式较为固定,因此,本申请中音频处理模型对第一音频信号进行预处理的目的可以为将第一音频信号处理为具有设定格式要求的音频信号。如,音频处理模型对第一音频信号进行预处理可以包括如下至少一种:
将第一音频信号处理为目标频率的音频信号;
将该第一音频信号编码为具有目标比特位数的音频信号。
其中,目标频率可以根据需要设定,该目标频率可以与前面原始音频信号具有的音频相同。如,该目标频率可以属于高保真音频的音频规范中定义的音频所具有采样频率,对此不加限制。
在一种可能的情况中,考虑到需要处理的第一音频信号的频率普遍偏低,因此,本申请中将第一音频信号处理为目标频率的音频信号可以是通过对第一音频信号进行上采样,得到目标频率的音频信号。
目标比特位数同样可以根据实际需求设定,对此不加限制,如,目标比特位数可以为16比特或者32比特等。
其中,对预处理后的第一音频信号进行频谱填充的目的是避免第一音频信号的部分频段(第一音频信号中相对较高的频段部分)不存在数据(均为0)而影响到第一音频信号的音频质量。
可以理解的是,本领域提到的高质量的音频信号是指音频信号的采样频率到达设定的目标频率,且高频段部分具有音频数据,因此,需要对高频段进行频谱填充,而频谱填充的高频段与目标频率有关。
如,在一种实现方式中,可以基于第一音频信号在预处理前的第一频率以及设定的目标频率,对预处理后的第一音频信号中的目标频段进行频谱填充。其中,该第一频率为对第一音频信号进行预处理之前该第一音频信号具有的采样频率。该目标频段与第一频率以及设定的目标频率有关。
如,目标频段可以是第一频率到目标频率之间的频段,在此基础上,需要对第一音频信号中属于目标频段的音频进行频谱填充。例如,第一频率为48KHz,而设定的目标频率为96KHz,那么需要对第一音频信号中属于48KHz-96KHz。
又如,目标频段可以为音频的频谱频段,在该种情况下,该目标频段可以为从(第一频率/2)到(目标频率/2)之间的频谱频段,基于此,可以对第一音频信号的频谱中属于目标频段的频谱进行填充。
例如,第一频率为48KHz,而设定的目标频率为96KHz,由于音频信号的频谱只能呈现音频信号的频率的一半,因此,在第一音频信号的原始的第一频率为48KHz,而目标频率为96KHz的情况下,虽然第一音频信号中从48KHz-96KHz的音频信号中没有数据,但是将该第一音频信号转换为频谱图后,那么频谱图中就是24KHz-48KHz没有数据。基于此,可以对第一音频信号的频谱中属于24KHz-48KHz的部分进行频谱填充,最终使得第一音频信号中48KHz-96KHz的音频信号部分具有数据。
S103,基于第二音频信号,输出音频。
如,输出第二音频信号;或者是,在第二音频信号的基础上进一步进行噪声去除或者其他音频参数的调整等处理后,输出处理后的第二音频信号等,对此不加限制。
由以上可知,本申请实施例在获得音频信号之后,可以利用经过训练得到的音频处理模型对第一音频信号进行预处理,并对预处理后的第一音频信号进行频谱填充。通过对音频信号的预处理以及频谱填充,不仅能够提升音频信号的采样频率,还可以减少音频信号中的高频部分没有音频数据的情况,从而可以得到高质量的音频。而且,本申请的方案可以借助音频处理模型便能够得到高质量的音频信号,整个方案都可以通过软件程序执行,而无需在电子设备上安装用于音频处理的硬件装置,从而降低了将音频信号处理为高质量的音频信号的复杂度。
可以理解的是,为了能够进一步提高输出的音频信号的音频质量,本申请在得到第二音频信号之后,对第二音频信号进一步处理,然后再输出处理后得到的音频信号。下面以一种情况为例说明。
如图2所示,其示出了本申请实施例提供的音频处理方法的又一种流程示意图,本实施例的方法可以包括:
S201,获得第一音频信号。
S202,利用音频处理模型对该第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号。
如,考虑到需要提升音频质量的第一音频信号的频率普遍较低,因此,预处理为可以为:通过音频处理模型对第一音频信号进行上采样,并将上采样后的第一音频信号进行编码,得到具有目标频率且目标比特位的第一音频信号。其中,目标频率大于该第一音频信号在预处理前的频率。
又如,音频处理模型通常要求输入信号具有统一的长度,以便进行特征采集。所述预处理,可以通过在信号的比特位之间插入0值,或者信号末尾补0,信号头部补0等方式,将第一音频信号的采样频率预处理至目标频率和目标比特位。
当然,预处理还可以有其他可能,对此不加限制。
具体的,以上两个步骤可以参见前面实施例的相关介绍,在此不再赘述。
S203,对第一音频信号进行重采样,得到第三音频信号。
其中,对第一音频信号的重采样的目的是,在第一音频信号的基础上,得到与第二音频信号具有相同频率但是未经过频谱填充的第三音频信号。
其中,音频信号的重采样实际上就是对音频信号重新进行采样,以得到与音频信号采样前不同频率的音频信号。
重采样可以包括上采样或者下采样,如,如果重采样后的音频信号的采样频率大于该音频信号原本具有的采样频率,则属于上采样,上采样的实质也就是向音频信号中插值,通常情况下是插入0值,以将上采样得到的高频段全部补0,从而导致上采样得到的音频信号的高频段部分不存在真实的数据。反之,如果从音频信号中抽取数值,使得重采样后的音频信号的采样频率低于音频信号原始的采样频率,则属于下采样。
在本申请中重采样的具体方式与音频处理模型在预处理过程中或者频谱填充过程中对第一音频信号的采样有关。
如,假设音频处理模型对第一音频信号的预处理包括对第一音频信号进行上采样,以使得第一音频信号的采样频率提升到目标频率,那么该步骤的重采样也可以是对第一音频信号进行上采样,得到目标频率的第三音频信号。
S204,利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号。
其中,第一频段为第二音频信号中经过频谱填充的频段,该第二频段为该第二音频信号中该第一频段之外的频段。
如,假设音频处理模型是对第一音频信号中目标频段的音频信号进行频谱填充,得到的第二音频信号,那么第二音频信号中经过频谱填充的频段的音频信号也就是第二音频信号中属于目标频段内的音频信号。
举例说明,第二音频信号的频率为96KHz,其中,第二音频信号中48KHz-96KHz的音频信号经过频谱填充,那么第一频段为48KHz-96KHz,而第二频段为0-48KHz之间的频段,且不包括48KHz。
可以理解的是,在音频处理模型对第一音频信号进行频谱填充的过程中,可能会干扰到第一音频信号中不需要进行频谱填充的频段内的音频信号,或者不小心改变了不需要频谱填充的频段内的音频信号,从而使得得到的第二音频信号中未经过频谱填充的第二频段内的音频信号发生变化。
而第三音频信号仅仅是对第一音频信号进行重采样得到的音频信号,而未涉及到频谱填充,自然不会存在对第三音频信号中第二频段内的音频信号造成干扰、调整或破坏,使得第三音频信号中第二频段内的音频信号与频谱填充前该第一音频信号中第二频段内的音频信号相同。
基于此,利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号生成第四音频信号,可以使得第四音频信号既包含了第一音频信号中经过频谱填充的第一频段的音频信号,又最大程度的保留了该第一音频信号在第二频段内的原有音频信号,从而实现了既能提升音频信号的音频质量,又可以减少改动第一音频信号中不需要频谱填充的频段内的音频。
其中,生成第四音频信号可以是将第二音频信号中第一频段的音频信号替换第三音频信号中第一频段的音频信号,还可以是将第一音频信号中第二频段的音频信号替换为第三音频信号的第二频段的音频信号,以使得第二音频信号的第一频段的音频信号与第三音频信号中第二频段的音频信号进行拼接,对此不加限制。
S205,输出该第四音频信号。
可以理解的是,生成第四音频信号需要耗费一定的处理资源,但是在实际应用中,有可能音频处理模型在处理第一音频信号的过程中并非对第二频段内的音频信号造成干扰或者破坏。基于此,在一种可能的实现方式中,为了减少重新生成第四音频信号所需耗费的数据量以及处理资源,本申请还可以先确定第二音频信号中第二频段的音频信号与第三音频信号中第二频段的音频信号的相似程度。
其中,确定两段音频信号之间的相似程度可以通过计算两段音频信号之间的余弦相似度或者KL(Kullback-Leibler)散度(也称为相对熵)等确定,对此不加限制。
可以理解的是,如果第二音频信号中第二频段的音频信号与第三音频信号中第二音频的相似程度较低,则说明该第二音频信号中第二频段的音频信号受到频谱填充或者音频处理模型处理过程中的干扰或者破坏等较多,导致第二频段的音频信号发生了明显变化。
基于此,如果该相似程度未超过设定阈值,利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号。
反之,如果该相似程度超过设定阈值,则无需生成第四音频信号,可以直接输出该第二音频信号。
可以理解的是,图2的实施例中是以对第一音频信号进行重采样得到第三音频信号为例说明。在实际应用中,还可以对预处理得到的第二音频信号进行重采样,以得到第三音频信号。然后,再比对该方式得到的第三音频信号的第二频段中的音频信号与第二音频信号中第二频段的音频信号之间的相似程度。相应的,如果相似程度未超过设定阈值,则利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号。
如,音频处理模型对第一音频信号的预处理包括对第一音频信号的上采样的情况下,对第二音频信号进行重采样可以为对第二音频信号进行下采样,以得到第三音频信号。
可以理解的是,在实际应用中,考虑到模型训练的复杂度,有些情况下,训练出的音频处理模型可能仅适用于特定频率的音频信号的处理,因此,在本申请中在利用音频处理模型处理第一音频信号之前,还可以对第一音频信号进行重采样,相应的,可以利用音频处理模型对重采样后的第一音频信号进行预处理以及频谱填充。
其中,此处对第一音频信号的重采样可以为上采样或者下采样。
可选的,考虑到为了提升音频质量一般是需要将低频率的音频信号处理为高频率的音频信号,因此,此处对第一音频信号进行重采样可以是将第一音频信号进行上采样。如,将第一音频信号上采样为音频处理模型对应的基准频率的音频信号。该基准频率可以为符合音频处理模型对音频信号处理需求的频率。
为了便于理解,以将低频率的第一音频信号处理为高频率且高频部分填充有数据的高质量音频信号为例,并结合一种音频处理方式为例对本申请的音频处理方法进行介绍。
如图3所示,其示出了本申请实施例提供的音频处理方法的又一种流程示意图,本实施例的方法可以包括:
S301,获得第一音频信号。
S302,将第一音频信号上采样为具有目标频率的第一音频信号。
其中,目标频率可以根据需要设定。如,电子设备需要输出的高质量音频信号为96KHz的音频信号,那么目标频率可以设定为96KHz。
在本申请中,在每次获得第一音频信号后,都会将第一音频信号上采样为目标频率的音频信号,使得输入到音频处理模型的音频信号都属于具有统一音频的音频信号,从而无需单独针对不同频率的音频信号训练不同的音频处理模型,也无需音频处理模型兼具上采样处理的功能,进而有利于简化音频处理模型,也有利于提高音频处理模型处理音频信号的效率,以及降低训练音频处理模型的复杂度。
在一种可能的实现方式中,本申请在将目标频率的第一音频信号输入到音频处理模型之前,还可以是将目标频率的第一音频信号处理为具有目标频率且目标比特位的音频信号。其中,目标比特位也可以根据实际需要设定。例如目标比特位可以为16比特位。
可以理解的是,通过将第一音频信号处理为具有目标频率以及目标比特位的音频信号,可以保证后续输入到音频处理模型的音频信号都是相同频率以及长度的音频信号,从而有利于进一步简化音频处理模型,降低音频处理模型的复杂度。
S303,利用音频处理模型对上采样后的第一音频信号进行预处理,对预处理后的第一音频信号进行频谱填充,得到第二音频信号。
在本实施例中,对第一音频信号的预处理可以采用前面提到的方式。
如在步骤S302中仅仅对第一音频信号进行了上采样,那么此处的预处理可以包括:将上采样后的第一音频信号处理为目标比特位的第一音频信号。
又如,在步骤S302中对第一音频信号进行了上采样之后,预处理可以包括:对第一音频信号的重采样,以进一步统一第一音频信号或者确保第一音频信号的频率满足要求。当然,预处理还可以包括:在对第一音频信号重采样的基础上,再将第一音频信号处理为目标比特位的音频信号。
又如,在第一音频信号输入到音频处理模型之前对第一音频信号进行了上采样并处理为目标频率的音频信号,那么音频处理模型对输入的第一音频信号进行预处理可以包括:提取第一音频信号的音频特征等处理,对此不加限制。
在本实施例中,音频处理模型可以对第一音频信号中缺少实际数据(如,仅仅为插入的0值而非真实的音频数据)的频段(一般为上采样后得到的高频段)内的音频信号进行频谱填充,以使得得到的第二音频信号中高频段内具有实际数据,使得第二音频信号相对第一音频信号的音频质量更高。
S304,基于第二音频信号,输出音频。
该步骤S304可以参见前面实施例的相关介绍,在此不再赘述。
需要说明的是,如果音频处理模型对输入的第一音频信号的预处理不包括重采样,那么在本实施例中,可以将步骤S302上采样后得到的第一音频信号确定为第三音频信号。如果音频处理模型对输入的第一音频信号的预处理包括重采样,那么可以在步骤S302之后,再对第一音频信号进行重采样,此处的重采样与音频处理模型对第一音频信号的重采样操作相同,以得到第三音频信号。
在此基础上,可以判断是否需要利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号生成第四音频信号,具体如前面所述,在此不再赘述。
可以理解的是,在本申请中训练音频处理模型的具体过程可以有多种可能,本申请对此不加限制。
在一种可能的实现方式中,训练音频处理模型的音频信号样本可以是在获得满足目标需求的原始音频信号之后,对原始音频信号进行重采样后得到的多个不同采样频率的中间音频信号。
为了便于理解,下面以训练音频处理方法的一种方式为例,对本申请实施例中训练音频处理模型的过程进行介绍。
如图4所示,其示出了本申请实施例提供的训练音频处理模型的一种实现流程示意图,本实施例可以包括:
S401,获得多个目标频率的原始音频信号。
其中,原始音频信号可以为信号质量符合要求的音频信号,如,原始音频信号可以为符合高保真音频规范的音频信号。
其中,目标频率也可以根据实际需要设定,对此不加限制。
特别的,为了符合高保真音频规范,该原始音频信号还可以是目标比特位的音频信号,目标比特位同样可以根据需要设定。
S402,对于每个原始音频信号,对该原始音频信号进行重采样,得到的多个不同采样频率的中间音频信号,将得到的多个中间音频信号确定为标注有该原始音频信号的多个音频信号样本。
如,对原始音频信号分别进行不同的上下样和下采样,以得到不同采样频率的多个中间音频信号。
在一种可选方式中,考虑到原始音频信号都属于高质量的音频信号,而我们的目的是需要将低频率的低质量音频信号处理为高质量音频信号,因此,本申请可以对原始音频信号进行不同的下采样,得到不同采样频率的中间音频信号,中间音频信号的采样频率低于该原始音频信号对应的目标频率。
举例说明,假设原始音频信号为96KHz的音频信号,可以将原始音频信号分别下采样为48KHz、16KHz和32KHz的中间音频信号,以使得训练得到的音频处理模型能够处理不同采样频率的音频信号。
可以理解的是,为了使得音频处理模型也能够对不同比特位的音频信号进行预处理,将不同比特位的音频信号统一为相同比特位的音频信号,因此,在对原始音频信号进行下采样得到不同的中间音频信号之后,还可以将每个中间音频信号处理成不同比特位的中间音频信号。
例如,将频率为48KHz,比特位为16比特的中间音频信号处理为:48KHz且8比特的中间音频信号,以及,48KHz且4比特位的中间音频信号。
S403,对于每个标注有原始音频信号的音频信号样本,利用待训练的网络模型对音频信号样本进行预处理,并对预处理后的音频信号样本进行频谱填充,得到网络模型输出的填充后音频信号。
其中,本申请实施例以音频处理模型为通过对网络模型进行训练得到的为例说明,当音频处理模型为通过对其他类型的模型进行训练得到,也同样适用于本实施例,对此不加限制。
其中,待训练的网络模型对音频信号样本的预处理与前面音频处理模型对第一音频信号的预处理相似,具体可以参见前面的相关介绍。
如,为了能够得到高质量的音频信号,网络模型可以对音频信号样本进入如下预处理中的至少一种:
对音频信号样本进行重采样,得到目标频率的音频信号样本;
将音频信号样本编码为目标比特位的音频信号样本。
举例说明:
将96KHz,16比特位的原始音频信号经过重采样和比特位编码得到了32KHz,8比特位的音频信号样本,那么网络模型需要将该音频信号样本进行上采样,得到96KHz,8比特位的音频信号样本。然后,将96KHz,8比特位的音频信号样本处理为96KHz,16比特位的音频信号样本。
可以理解的是,通过不断训练网络模型可以使得网络模型精准地对音频信号样本缺少数据的频段内的音频部分进行填充。
比如上面例子中,由于音频信号样本从32KHz上采样到96KHz后,该音频信号样本中32KHz到96KHz中实际上并不包含有效音频信号,因此,本申请需要训练该网络模型对该96KHz,16比特位的音频信号样本中32KHz到96KHz进行频谱填充。
S404,如果基于各音频信号样本对应的原始音频信号和填充后音频信号确定出不满足训练结束条件,调整神经网络模型的参数并返回步骤S403。
如,基于各音频信号样本对应的原始音频信号和填充后音频信号,计算设定的损失函数的函数值,如果该损失函数的函数值收敛,则确定满足训练结束条件;反之,如果该损失函数的函数值未收敛,确定不满足训练结束条件。
又如,基于各音频信号样本对应的原始音频信号和填充后音频信号,计算网络模型填充音频信号的准确度,如果准确度满足要求,则确定满足训练结束条件;反之,则不满足训练结束条件。
当然,训练结束条件还可以有其他可能,对此不加限制。
S405,如果基于各音频信号样本对应的原始音频信号和填充后音频信号确定出满足训练结束条件,将训练出的网络模型确定为音频处理模型。
可以理解的是,图4仅仅是本申请中训练音频处理模型的一种示例,对于通过其他方式训练得到音频处理模型也同样适用于本申请。
为了便于理解本申请方案的好处,可以参见图5。
在图5中左侧的图为一音频信号仅经过上采样得到的音频信号对应的频谱图501。由频谱图501可以看出,音频信号经过上采样后,虽然提升了采样频率。但是,上采样后的音频信号仅仅是插入了一些取值为零的数值,因此,上采样后的音频信号的高频部分502的频谱为空,并不存在实际数据。频谱为空的高频部分为图5的频谱图501中处于两条虚线内的黑色区域。
而通过本申请的方案,利用训练出的音频处理模型可以对音频信号进行上采样的基础上,对上采样后的音频信号的高频部分进行填充,从而使得填充后的音频信号对应的频谱图503中高频部分具有数据,如图5中频谱图503中处于两条虚线内的区域不再是黑色,而是呈现出相应的频谱。
对应本申请实施例提供的音频处理方法,本申请还提供了一种音频处理装置。
如图6所示,其示出了本申请实施例提供的音频处理装置的一种组成结构示意图。该装置可以包括:
音频获得单元601,用于获得第一音频信号;
音频处理单元602,用于利用音频处理模型对所述第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号;
音频输出单元603,用于基于所述第二音频信号,输出音频。
在一种可能的实现方式中,该装置还包括:
第一重采样单元,用于在音频处理单元利用音频处理模型对所述第一音频信号进行预处理之前,对所述第一音频信号进行重采样;
该音频处理单元在利用音频处理模型对所述第一音频信号进行预处理时,具体用于,利用音频处理模块对重采样后的第一音频信号进行预处理。
在又一种可能的实现方式中,该装置还包括:
第二重采样单元,用于在音频输出单元基于所述第二音频信号,输出音频之前,对所述第一音频信号进行重采样,得到第三音频信号;
该音频输出单元,包括:
音频重生成单元,用于利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号,所述第一频段为所述第二音频信号中经过频谱填充的频段,所述第二频段为所述第二音频信号中所述第一频段之外的频段;
第一音频输出单元,用于输出所述第四音频信号。
在又一种可能的实现方式中,该装置还包括:
相似度确定单元,用于在音频重生成单元生成第四音频信号之前,确定第二音频信号中第二频段的音频信号与第三音频信号中第二频段的音频信号之间的相似程度;
该音频重生成单元具体用于,如果所述相似程度未超过设定阈值,利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号。
进一步的,该音频输出单元,还包括:
第二音频输出单元,用于如果所述相似程度超过设定阈值,输出所述第二音频信号。
在又一种可能的实现方式中,音频处理单元在对预处理后的第一音频信号进行频谱填充时,具体用于,基于第一音频信号预处理之前的第一频率以及设定的目标频率,对预处理后的第一音频信号中的目标频段进行频谱填充,该目标频段与所述第一频率以及所述目标频率有关。
在又一种可能的实现方式中,音频处理单元在利用音频处理模型对所述第一音频信号进行预处理时具体包括如下至少一种:
将所述第一音频信号处理为目标频率的音频信号;
将所述第一音频信号编码为具有目标比特位数的音频信号。
在又一种可能的实现方式中,所述音频处理模型为基于满足目标需求的原始音频信号而得到的音频信号样本,且以得到所述音频信号样本对应的原始音频信号为训练目标训练得到的。
进一步的,所述音频信号样本包括对所述原始音频信号经过重采样后得到的多个不同采样频率的中间音频信号。
又一方面,本申请还提供了一种电子设备,如图7所示,其示出了该电子设备的一种组成结构示意图,该电子设备可以为任意类型的电子设备,该电子设备至少包括处理器701和存储器702;
其中,处理器701用于执行如上任意一个实施例中的音频处理方法。
该存储器702用于存储处理器执行操作所需的程序。
可以理解的是,该电子设备还可以包括显示单元703以及输入单元704。
当然,该电子设备还可以具有比图7更多或者更少的部件,对此不加限制。
另一方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的音频处理方法。
本申请还提出了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时,用于执行如上任意一个实施例中的音频处理方法。
可以理解的是,在本申请中,说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种音频处理方法,包括:
获得第一音频信号;
利用音频处理模型对所述第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号;
基于所述第二音频信号,输出音频。
2.根据权利要求1所述的方法,在利用音频处理模型对所述第一音频信号进行预处理之前,还包括:
对所述第一音频信号进行重采样;
所述利用音频处理模块对所述第一音频信号进行预处理,包括:
利用音频处理模块对重采样后的第一音频信号进行预处理。
3.根据权利要求1所述的方法,在所述基于所述第二音频信号,输出音频之前,还包括:
对所述第一音频信号进行重采样,得到第三音频信号;
所述基于所述第二音频信号,输出音频,包括:
利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号,所述第一频段为所述第二音频信号中经过频谱填充的频段,所述第二频段为所述第二音频信号中所述第一频段之外的频段;
输出所述第四音频信号。
4.根据权利要求3所述的方法,在生成第四音频信号之前,还包括:
确定第二音频信号中第二频段的音频信号与第三音频信号中第二频段的音频信号之间的相似程度;
所述利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号,包括:
如果所述相似程度未超过设定阈值,利用第二音频信号中第一频段的音频信号与第三音频信号中第二频段的音频信号,生成第四音频信号。
5.根据权利要求4所述的方法,所述基于所述第二音频信号,输出音频,还包括:
如果所述相似程度超过设定阈值,输出所述第二音频信号。
6.根据权利要求1所述的方法,所述对预处理后的第一音频信号进行频谱填充,包括:
基于第一音频信号预处理之前的第一频率以及设定的目标频率,对预处理后的第一音频信号中的目标频段进行频谱填充,所述目标频段与所述第一频率以及所述目标频率有关。
7.根据权利要求1所述的方法,在利用音频处理模型对所述第一音频信号进行预处理包括如下至少一种:
将所述第一音频信号处理为目标频率的音频信号;
将所述第一音频信号编码为具有目标比特位数的音频信号。
8.根据权利要求1所述的方法,所述音频处理模型为基于满足目标需求的原始音频信号而得到的音频信号样本,且以得到所述音频信号样本对应的原始音频信号为训练目标训练得到的。
9.根据权利要求1所述的方法,所述音频信号样本包括对所述原始音频信号经过重采样后得到的多个不同采样频率的中间音频信号。
10.一种音频处理装置,包括:
音频获得单元,用于获得第一音频信号;
音频处理单元,用于利用音频处理模型对所述第一音频信号进行预处理,以及对预处理后的第一音频信号进行频谱填充,得到第二音频信号;
音频输出单元,用于基于所述第二音频信号,输出音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310332289.6A CN116524951A (zh) | 2023-03-30 | 2023-03-30 | 音频处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310332289.6A CN116524951A (zh) | 2023-03-30 | 2023-03-30 | 音频处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524951A true CN116524951A (zh) | 2023-08-01 |
Family
ID=87402057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310332289.6A Pending CN116524951A (zh) | 2023-03-30 | 2023-03-30 | 音频处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524951A (zh) |
-
2023
- 2023-03-30 CN CN202310332289.6A patent/CN116524951A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6711538B1 (en) | Information processing apparatus and method, and recording medium | |
EP2491558B1 (en) | Determining an upperband signal from a narrowband signal | |
KR101213840B1 (ko) | 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치 | |
CN108492818B (zh) | 文本到语音的转换方法、装置和计算机设备 | |
CN109147805B (zh) | 基于深度学习的音频音质增强 | |
KR20040073281A (ko) | 인코딩 장치, 디코딩 장치 및 그 방법 | |
CN104011793A (zh) | 帧错误隐藏方法和设备以及音频解码方法和设备 | |
JP6035270B2 (ja) | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム | |
JP2000305599A (ja) | 音声合成装置及び方法、電話装置並びにプログラム提供媒体 | |
CN114550732B (zh) | 一种高频音频信号的编解码方法和相关装置 | |
JP3804902B2 (ja) | 量子化誤差補正方法及び装置並びにオーディオ情報復号方法及び装置 | |
CN112289343B (zh) | 音频修复方法、装置及电子设备和计算机可读存储介质 | |
CN113053357A (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CN105264596A (zh) | 用于码激励线性预测类编码器的无边信息的噪声填充 | |
EP1676262A2 (en) | Method and system for speech coding | |
JP4703648B2 (ja) | ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム | |
CN116524951A (zh) | 音频处理方法和装置 | |
JPWO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 | |
US8489392B2 (en) | System and method for modeling speech spectra | |
JP4603429B2 (ja) | クライアント・サーバ音声認識方法、サーバ計算機での音声認識方法、音声特徴量抽出・送信方法、これらの方法を用いたシステム、装置、プログラムおよび記録媒体 | |
JP3878254B2 (ja) | 音声圧縮符号化方法および音声圧縮符号化装置 | |
JP2012242785A (ja) | 信号処理装置、信号処理方法、およびプログラム | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
CN109273003A (zh) | 用于行车记录仪的语音控制方法及系统 | |
US11694692B2 (en) | Systems and methods for audio enhancement and conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |