CN112289330A - 一种音频处理方法、装置、设备及存储介质 - Google Patents
一种音频处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112289330A CN112289330A CN202010873874.3A CN202010873874A CN112289330A CN 112289330 A CN112289330 A CN 112289330A CN 202010873874 A CN202010873874 A CN 202010873874A CN 112289330 A CN112289330 A CN 112289330A
- Authority
- CN
- China
- Prior art keywords
- audio
- spectrum
- modified
- frequency spectrum
- modification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 244
- 230000004048 modification Effects 0.000 claims abstract description 108
- 238000012986 modification Methods 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000003595 spectral effect Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 6
- 230000005236 sound signal Effects 0.000 description 27
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本公开实施例涉及一种音频处理方法、装置、设备及存储介质,其中该方法包括:获取变调音频的频谱和频谱包络线;获取变调音频对应的变调前音频的频谱包络线;基于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关系,对变调音频的频谱进行修正,得到修正后频谱;基于修正后频谱确定修正后音频。本公开能够在音频变调之后改善音色变化,明显提升声音的自然度。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种音频处理方法、装 置、设备及存储介质。
背景技术
在诸如变声软件、音乐的后期修音等多种声音的应用场景中,通 常需要对用户的声音进行变调处理,以改变音频信号的音高,而不改 变音频信号的音色。然而现有技术中,在对音频进行变调处理后,会 同时带来音色的改变,比如男生的声音音调变高会导致音色偏向于女 性化,女性声音音调调低会导致音色偏向于男性化,使得声音的自然 度较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公 开提供了一种音频处理方法、装置、设备及存储介质,能够在音频变 调之后改善音色变化,明显提升声音的自然度。
本公开实施例提供了一种音频处理方法,所述方法包括:获取变 调音频的频谱和频谱包络线;获取所述变调音频对应的变调前音频的 频谱包络线;基于所述变调前音频的频谱包络线与所述变调音频的频 谱包络线之间的比例关系,对所述变调音频的频谱进行修正,得到修 正后频谱;基于所述修正后频谱确定修正后音频。
可选的,所述基于所述变调前音频的频谱包络线与所述变调音频 的频谱包络线之间的比例关系,对所述变调音频的频谱进行修正,得 到修正后频谱,包括:获取所述变调音频的音频帧信号对应在所述变 调音频的频谱中的频谱值;确定所述变调前音频中与所述音频帧信号 对应的目标帧信号,并确定所述音频帧信号和所述目标帧信号分别对 应的频谱包络线以及,确定所述目标帧信号对应的频谱包络线与所述 音频帧信号对应的频谱包络线的频谱加权系数;将所述频谱值与所述 频谱加权系数的乘积,确定为修正后频谱中与所述音频帧信号对应的 频谱值。
可选的,所述获取所述变调音频对应的变调前音频的频谱包络线, 包括:基于所述变调音频对应的变调系数,确定所述变调音频的频谱 包络线的调整因子;基于所述调整因子对所述变调音频的频谱包络线 进行插值处理,得到所述变调音频对应的变调前音频的频谱包络线。
可选的,所述获取变调音频的频谱和频谱包络线,包括:对变调 音频进行加窗和分帧处理后,对所述变调音频的音频帧信号进行傅里 叶变换,得到所述变调音频的频谱;基于所述变调音频的频谱,获取 所述变调音频的频谱包络线。
可选的,所述基于所述变调音频的频谱,获取所述变调音频的频 谱包络线,包括:对所述变调音频的频谱中的音频帧信号对应的频谱, 进行取幅度值后取对数以及逆傅里叶变换的处理,得到所述变调音频 对应的倒谱序列;将所述变调音频对应的倒谱序列中音频帧信号对应 的倒谱序列,经过窗函数、傅里叶变换以及取指数的依次处理后,得 到所述变调音频对应的频谱包络线。
可选的,所述修正后频谱与所述变调前音频的频谱的共振峰的位 置的相似度大于预设阈值。
本公开实施例还提供了一种音频处理装置,所述装置包括:第一 获取模块,用于获取变调音频的频谱和频谱包络线;第二获取模块, 用于获取所述变调音频对应的变调前音频的频谱包络线;频谱修正模 块,用于基于所述变调前音频的频谱包络线与所述变调音频的频谱包 络线之间的比例关系,对所述变调音频的频谱进行修正,得到修正后 频谱;音频确定模块,用于基于所述修正后频谱确定修正后音频。
可选的,所述频谱修正模块包括:频谱值获取单元,用于获取所 述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值;确 定单元,用于确定所述变调前音频中与所述音频帧信号对应的目标帧 信号,并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络 线;以及,确定所述目标帧信号对应的频谱包络线与所述音频帧信号 对应的频谱包络线的频谱加权系数;频谱值修正单元,用于将所述频 谱值与所述频谱加权系数的乘积,确定为修正后频谱中与所述音频帧 信号对应的频谱值。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可 读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所 述终端设备实现上述的音频处理方法。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理 器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从 所述存储器中读取所述可执行指令,并执行所述指令以实现上述的音 频处理方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例涉及一种音频处理方法、装置、设备及存储介质, 其中该方法包括:首先获取变调音频的频谱和频谱包络线,以及变调 音频对应的变调前音频的频谱包络线;然后基于变调前音频的频谱包 络线与变调音频的频谱包络线之间的比例关系,对变调音频的频谱进 行修正,得到修正后频谱;最后基于修正后频谱确定修正后音频。本 实施例提供的上述方式,基于变调前后音频的频谱包络线之间的比例 关系对变调音频的频谱进行修正,能够修正该频谱的共振峰位置,使 得修正后频谱与变调前音频的频谱保持共振峰位置基本不变,即变调 前后音频的音色保持不变,明显提升声音的自然度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符 合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例所述音频处理方法的流程图;
图2为本公开实施例所述音频处理过程的示意图;
图3为本公开实施例所述音频处理装置的结构框图;
图4为本公开实施例提供的一种音频处理设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将 对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下, 本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但 本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书 中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种音频处理方法的流程图,该方法 可以由音频处理装置执行,其中该装置可以采用软件和/或硬件实现, 一般可集成在电子设备中。如图1所示,该方法包括:
步骤S102,获取变调音频的频谱和频谱包络线。
可以理解,在获取变调音频之前,首先获取的是变调音频对应的 变调前音频;为便于描述,可以将变调音频对应的变调前音频称为原 始音频。原始音频可以是音频采集设备采集的音频,也可以是由网络 下载、本地存储或人工上传的音频等,在此不做具体限制。基于此, 对原始音频进行变调处理即可得到变调音频。
以原始音频为预先采集的用户的干声为例,可参照如下所示获取 变调音频:根据变调系数对用户的干声进行变调处理,得到变调音频。 其中,变调系数可以是一个标量s,表征每一帧音频信号的变调系数一 致;变调系数也可以是一组向量[s1,s2,s3,...,sn],表征每一帧音频信号的 变调系数不一致,依次为向量中各个维度的值,比如第n帧音频的变调系数为sn;其中,上述的每一帧音频信号也可称为音频帧信号。
关于变调音频的频谱和频谱包络线的获取方式,将在下文中进行 详细介绍,在此不再展开描述。
步骤S104,获取变调音频对应的变调前音频的频谱包络线。
由于音频的音色与共振峰位置相关,共振峰位置一般可以认为是 频谱包络线中极大值出现的位置。根据原始音频计算得到的频谱包络 线可得到用户当前帧音频信号的共振峰位置,它可用来表征当前帧音 频信号的音色相关信息。与之相对的,针对变调音频,因为当前帧音 频信号基频发生改变,同时引起了共振峰位置的偏移,导致用户音色 发生改变,如果能够做一定处理,将共振峰位置进行校准,校正到与 原始音频信号当前帧音频信号的共振峰位置一致,来消除偏移量,从 而实现音色的保持,保证用户声音的自然度。
步骤S106,基于变调前音频的频谱包络线与变调音频的频谱包络 线之间的比例关系,对变调音频的频谱进行修正,得到修正后频谱。
在本实施例中,可以针对变调音频的每一帧音频信号,先获取音 频信号对应的频谱的频谱值,然后基于原始音频的频谱包络线(可表 示为env_original)与变调音频的频谱包络线(可表示为env_pitchshift) 之间的比例关系(该比例关系诸如为频谱加权系数),以及上述频谱 值,确定音频信号对应的修正后频谱中的音频片段的频谱的频谱值。
基于比例关系对变调音频的频谱进行修正的方式,能够修正变调 音频的频谱。频谱包络线能够对应于音频的音色,主要是由于包含在 频谱包络线之中的共振峰,一般认为频谱包络线中的极大值为共振峰。 在此情况下,修正后频谱与变调前音频的频谱的共振峰的位置的相似 度大于预设阈值,表示修正后频谱的共振峰位置与原始音频的频谱的 共振峰位置大致相同。由此,变调前后音频的音色保持不变,在听感 上,变调音频给用户的体验与原始音频给用户的体验能够保持较高的 一致性。
步骤S108,基于修正后频谱确定修正后音频。
在一种可能的实现方式中,可以对修正后频谱进行逆傅里叶变换 (IDFT,InverseDiscrete Fourier Transform)后,得到修正后音频。对 修正后频谱进行逆傅里叶变换,即将修正后频谱进行时频转换,得到 修正后音频;该修正后音频为对变调音频进行修正后得到的音频,能 够与原始音频保持较高的音色一致性,明显提升了音频的自然度。
本公开实施例提供的音频处理方法,首先获取变调音频的频谱和 频谱包络线,以及变调音频对应的变调前音频的频谱包络线;然后基 于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关 系,对变调音频的频谱进行修正,得到修正后频谱;最后基于修正后 频谱确定修正后音频。本实施例提供的上述方式,通过根据比例关系 对变调音频的频谱进行修正,能够修正该频谱的共振峰位置,从而使 得修正后频谱与变调前音频的频谱保持共振峰位置基本不变,也即变 调前后音频的音色保持不变;进而经过逆傅里叶变换后得到的修正后 音频,能够在音频变调之后改善音色变化,明显提升声音的自然度,在听感上提升了变调音频给用户的体验。
为了更好地理解上述实施例所提供的音频处理方法,下面对本公 开实施例提供的方案进行详细描述。
在本公开实施例中,参照图2所示的音频处理过程的示意图,提 供一种变调音频的频谱和频谱包络线的获取方式,包括如下步骤1和 步骤2。
步骤1,对变调音频进行分帧和加窗处理后,对变调音频的音频帧 信号(也即每一帧音频信号)进行傅里叶变换(DFT,Discrete Fourier Transform),得到变调音频的频谱。
在一种实现方式中,可以对变调音频(表示为X)进行分帧和加 窗处理,得到多帧音频信号,且第i帧音频信号表示为xi(n)。具体 的,可以按照预设帧长(N)和预设帧移将变调音频划分为多个语音段, 每个语音段即为一帧音频信号。
参照如下公式(1),对每帧音频信号xi(n)进行傅里叶变换, 得到每帧音频信号xi(n)对应的频谱Xi(k),并基于各频谱Xi(k) 得到变调音频的频谱:
其中,N为傅里叶变换的点数,k用于表示傅里叶变换的第k个频 谱。
步骤2,基于变调音频的频谱,获取变调音频的频谱包络线。
在具体实现时,首先对变调音频的频谱中每一帧音频信号对应的 频谱Xi(k),进行取幅度值后取对数以及逆傅里叶变换的处理,得到 变调音频对应的倒谱序列。
其中,窗函数window(n)可按需选取。在此不作限制。
参照公式(5)进行傅里叶变换即可得到变调音频的第i帧音频信 号xi(n)对应的频谱包络线Hi(k):
参照公式(6)对频谱包络线Hi(k)进行取指数的处理,得到变调音 频的频谱包络线env_pitchshift:
至此,经过上述步骤1和步骤2即可得到的变调音频的频谱包络 线。
在本公开实施例中,提供一种变调音频对应的原始音频的频谱包 络线的获取方法,该方法可参照前述实施例中变调音频的频谱包络线 的获取方法,主要包括如下三个步骤:
步骤1),对变调音频对应的变调前音频进行分帧和加窗处理后, 对变调前音频的每一帧音频信号进行傅里叶变换,得到变调前音频的 频谱;
步骤2),对变调前音频的频谱中每一帧音频信号对应的频谱,进 行取幅度值后取对数以及逆傅里叶变换的处理,得到变调前音频对应 的倒谱序列;
步骤3),将变调前音频对应的倒谱序列中每一帧音频信号对应的 倒谱序列,经过窗函数、傅里叶变换以及取指数的依次处理后,得到 变调前音频对应的频谱包络线。
以上获取变调前音频的频谱包络线的具体实现方式,可参照上述 获取变调音频的频谱包络线的实施例,在此不再展开描述。
在本公开实施例中,还可以提供另一种变调音频对应的变调前音 频的频谱包络线的获取方法,参照如下所示:基于变调音频对应的变 调系数,确定变调音频的频谱包络线的调整因子,基于调整因子对变 调音频的频谱包络线进行插值处理,得到变调音频对应的变调前音频 的频谱包络线。
插值处理的实现过程可以为:基于变调系数确定调整因子、采样 频率,再利用有限带宽插值算法对变调音频的频谱包络线进行重采样; 诸如,当变调系数s=2时,则频谱包络线的调整因子为1/s=0.5,此时 对应的采样频率为0.5,基于该采样频率和有限带宽插值算法在变调音 频的频谱包络线env_pitchshift之间插入新的频谱信号,由此得到变调 音频对应的原始音频的频谱包络线env_original。利用有限带宽插值算 法,能够准确度较高地还原到变调前音频的频谱包络线env_original。
基于变调前音频的频谱包络线env_original与变调音频的频谱包络 线env_pitchshift之间的比例关系,本实施例提供一种对变调音频的频 谱进行修正的具体方式,包括:针对变调音频的每一帧音频信号,均 执行如下步骤(I)至(III):
(I)获取变调音频的音频帧信号对应在变调音频的频谱中的频谱 值X;
(II)确定变调前音频中与音频帧信号对应的目标帧信号,并确定 音频帧信号和目标帧信号分别对应的频谱包络线;以及,确定目标帧 信号对应的频谱包络线与音频帧信号对应的频谱包络线的频谱加权系 数λ;
(III)参照如下公式(7),将频谱值与频谱加权系数的乘积,确 定为修正后频谱中与音频帧信号对应的频谱值Xmodify。
至此,完成对变调音频的频谱的修正并得到修正后频谱。基于此, 对该修正后频谱进行逆傅里叶变换,得到保持音色的修正后音频,使 得修正后音频具有较高的自然度。
综上,上述实施例提供的音频处理方法,利用比例关系对变调音 频的频谱进行修正,能够使得修正后频谱保持共振峰位置不变,也即 变调前后音频的音色保持不变;进而基于修正后频谱确定的修正后音 频,能够在音频变调之后改善音色变化,明显提升声音的自然度。因 此,改善了音频变调之后对音色带来的不良影响,在升高或降低音调 的同时,较好地保持音频的音色不变,提升了修正后音频的自然度。
另外,本实施例还提供一种音频处理装置,用于实现上述实施例 提供的音频处理方法,参照图3,该装置包括:
第一获取模块302,用于获取变调音频的频谱和频谱包络线;
第二获取模块304,用于获取变调音频对应的变调前音频的频谱包 络线;
频谱修正模块306,用于基于变调前音频的频谱包络线与变调音频 的频谱包络线之间的比例关系,对变调音频的频谱进行修正,得到修 正后频谱;
音频确定模块308,用于基于修正后频谱确定修正后音频。
本公开实施例提供的音频处理装置,通过根据比例关系对变调音 频的频谱进行修正,能够修正该频谱的共振峰位置,从而使得修正后 频谱与变调前音频的频谱保持共振峰位置基本不变,也即变调前后音 频的音色保持不变;进而基于修正后频谱确定的修正后音频,能够在 音频变调之后改善音色变化,明显提升声音的自然度。
在一些实施例中,上述频谱修正模块306包括:频谱值获取单元, 用于获取变调音频的音频帧信号对应在变调音频的频谱中的频谱值; 确定单元,用于确定变调前音频中与音频帧信号对应的目标帧信号, 并确定音频帧信号和目标帧信号分别对应的频谱包络线;以及,确定 目标帧信号对应的频谱包络线与音频帧信号对应的频谱包络线的频谱 加权系数;频谱值修正单元,用于将频谱值与频谱加权系数的乘积, 确定为修正后频谱中与音频帧信号对应的频谱值。
在一些实施例中,上述第二获取模块304还用于:基于变调音频 对应的变调系数,对变调音频的频谱包络线进行插值处理,得到变调 音频对应的变调前音频的频谱包络线。
在一些实施例中,上述第一获取模块302还用于:对变调音频进 行分帧和加窗处理后,对变调音频的音频帧信号进行傅里叶变换,得 到变调音频的频谱;基于变调音频的频谱,获取变调音频的频谱包络 线。
在一些实施例中,上述第一获取模块302进一步用于:对变调音 频的频谱中的音频帧信号对应的频谱,进行取幅度值后取对数以及逆 傅里叶变换的处理,得到变调音频对应的倒谱序列;将变调音频对应 的倒谱序列中音频帧信号对应的倒谱序列,经过窗函数、傅里叶变换 以及取指数的依次处理后,得到变调音频对应的频谱包络线。
在一些实施例中,上述修正后频谱与所述变调前音频的频谱的共 振峰的位置的相似度大于预设阈值。
图4为本公开实施例提供的一种电子设备的结构示意图。如图4 所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力 和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备 400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,所述计算机程 序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器 和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储 器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例 如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读 存储介质上可以存储一个或多个计算机程序指令,处理器401可以运 行所述程序指令,以实现上文所述的本公开的实施例的音频处理方法 以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储 诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备400还可以包括:输入装置403和输出 装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出) 互连。
此外,该输入装置403还可以包括例如键盘、鼠标等等。
该输出装置404可以向外部输出各种信息,包括确定出的距离信 息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打 印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有 关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除 此之外,根据具体应用情况,电子设备400还可以包括任何其他适当 的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机可读 存储介质,计算机可读存储介质中存储有指令,当所述指令在终端设 备上运行时,使得所述终端设备实现本公开实施例所述的音频处理方 法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合 来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包 括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式 程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以 完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个 独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执 行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储 有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述 处理器执行本公开实施例所提供的音频处理方法。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组 合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质 例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、 装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非 穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、 随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读 存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、 光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关 系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系 或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品 或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没 有更多限制的情况下,由语句“包括一个……”限定的要素,并不排 除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理 解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说 将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精 神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限 制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖 特点相一致的最宽的范围。
Claims (10)
1.一种音频处理方法,其特征在于,所述方法包括:
获取变调音频的频谱和频谱包络线;
获取所述变调音频对应的变调前音频的频谱包络线;
基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系,对所述变调音频的频谱进行修正,得到修正后频谱;
基于所述修正后频谱确定修正后音频。
2.根据权利要求1所述的方法,其特征在于,所述基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系,对所述变调音频的频谱进行修正,得到修正后频谱,包括:
获取所述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值;
确定所述变调前音频中与所述音频帧信号对应的目标帧信号,并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络线;以及,确定所述目标帧信号对应的频谱包络线与所述音频帧信号对应的频谱包络线的频谱加权系数;
将所述频谱值与所述频谱加权系数的乘积,确定为修正后频谱中与所述音频帧信号对应的频谱值。
3.根据权利要求1或2所述的方法,其特征在于,所述获取所述变调音频对应的变调前音频的频谱包络线,包括:
基于所述变调音频对应的变调系数,确定所述变调音频的频谱包络线的调整因子;
基于所述调整因子对所述变调音频的频谱包络线进行插值处理,得到所述变调音频对应的变调前音频的频谱包络线。
4.根据权利要求1或2所述的方法,其特征在于,所述获取变调音频的频谱和频谱包络线,包括:
对变调音频进行加窗和分帧处理后,对所述变调音频的音频帧信号进行傅里叶变换,得到所述变调音频的频谱;
基于所述变调音频的频谱,获取所述变调音频的频谱包络线。
5.根据权利要求4所述的方法,其特征在于,所述基于所述变调音频的频谱,获取所述变调音频的频谱包络线,包括:
对所述变调音频的频谱中的音频帧信号对应的频谱,进行取幅度值后取对数以及逆傅里叶变换的处理,得到所述变调音频对应的倒谱序列;
将所述变调音频对应的倒谱序列中音频帧信号对应的倒谱序列,经过窗函数、傅里叶变换以及取指数的依次处理后,得到所述变调音频对应的频谱包络线。
6.根据权利要求1所述的方法,其特征在于,所述修正后频谱与所述变调前音频的频谱的共振峰的位置的相似度大于预设阈值。
7.一种音频处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取变调音频的频谱和频谱包络线;
第二获取模块,用于获取所述变调音频对应的变调前音频的频谱包络线;
频谱修正模块,用于基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系,对所述变调音频的频谱进行修正,得到修正后频谱;
音频确定模块,用于基于所述修正后频谱确定修正后音频。
8.根据权利要求7所述的装置,其特征在于,所述频谱修正模块包括:
频谱值获取单元,用于获取所述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值;
确定单元,用于确定所述变调前音频中与所述音频帧信号对应的目标帧信号,并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络线;以及,确定所述目标帧信号对应的频谱包络线与所述音频帧信号对应的频谱包络线的频谱加权系数;
频谱值修正单元,用于将所述频谱值与所述频谱加权系数的乘积,确定为修正后频谱中与所述音频帧信号对应的频谱值。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1-6任一项所述的音频处理方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-6中任一所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873874.3A CN112289330A (zh) | 2020-08-26 | 2020-08-26 | 一种音频处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873874.3A CN112289330A (zh) | 2020-08-26 | 2020-08-26 | 一种音频处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112289330A true CN112289330A (zh) | 2021-01-29 |
Family
ID=74420772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010873874.3A Pending CN112289330A (zh) | 2020-08-26 | 2020-08-26 | 一种音频处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112289330A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113033A (zh) * | 2021-04-29 | 2021-07-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及可读存储介质 |
CN113257211A (zh) * | 2021-05-13 | 2021-08-13 | 杭州网易云音乐科技有限公司 | 音频调节方法、介质、装置和计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1581290A (zh) * | 2003-08-06 | 2005-02-16 | 雅马哈株式会社 | 歌唱声音合成方法 |
CN106228973A (zh) * | 2016-07-21 | 2016-12-14 | 福州大学 | 稳定音色的音乐语音变调方法 |
US20190378532A1 (en) * | 2017-02-13 | 2019-12-12 | Centre National De La Recherche Scientifique | Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope |
CN111383646A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种语音信号变换方法、装置、设备和存储介质 |
-
2020
- 2020-08-26 CN CN202010873874.3A patent/CN112289330A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1581290A (zh) * | 2003-08-06 | 2005-02-16 | 雅马哈株式会社 | 歌唱声音合成方法 |
CN106228973A (zh) * | 2016-07-21 | 2016-12-14 | 福州大学 | 稳定音色的音乐语音变调方法 |
US20190378532A1 (en) * | 2017-02-13 | 2019-12-12 | Centre National De La Recherche Scientifique | Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope |
CN110663080A (zh) * | 2017-02-13 | 2020-01-07 | 法国国家科研中心 | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 |
CN111383646A (zh) * | 2018-12-28 | 2020-07-07 | 广州市百果园信息技术有限公司 | 一种语音信号变换方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
张晓蕊等: "《语音变调方法分析及音效评估》", 《山东大学学报( 工学版)》, vol. 41, no. 1, pages 1 - 6 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113113033A (zh) * | 2021-04-29 | 2021-07-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、设备及可读存储介质 |
CN113257211A (zh) * | 2021-05-13 | 2021-08-13 | 杭州网易云音乐科技有限公司 | 音频调节方法、介质、装置和计算设备 |
CN113257211B (zh) * | 2021-05-13 | 2024-05-24 | 杭州网易云音乐科技有限公司 | 音频调节方法、介质、装置和计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020006898A1 (zh) | 音频数据的乐器识别方法及装置、电子设备、存储介质 | |
Le Roux et al. | Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction. | |
US8484020B2 (en) | Determining an upperband signal from a narrowband signal | |
CN112289330A (zh) | 一种音频处理方法、装置、设备及存储介质 | |
CN111383646B (zh) | 一种语音信号变换方法、装置、设备和存储介质 | |
EP0970466A2 (en) | Voice conversion system and methodology | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
JP6289507B2 (ja) | エネルギー制限演算を用いて周波数増強信号を生成する装置および方法 | |
CN111916093B (zh) | 音频处理方法及装置 | |
CN113689837B (zh) | 音频数据处理方法、装置、设备以及存储介质 | |
CN112908351A (zh) | 一种音频变调方法、装置、设备及存储介质 | |
CN110797039B (zh) | 语音处理方法、装置、终端及介质 | |
CN113421584B (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
CN108806721B (zh) | 信号处理器 | |
CN112309425A (zh) | 一种声音变调方法、电子设备及计算机可读存储介质 | |
CN113035216A (zh) | 麦克风阵列语音的增强方法、及其相关设备 | |
CN115985332A (zh) | 语音变调方法、存储介质及电子设备 | |
CN116343813A (zh) | 一种汉语语音增强方法 | |
CN113257211B (zh) | 音频调节方法、介质、装置和计算设备 | |
CN113113033A (zh) | 一种音频处理方法、设备及可读存储介质 | |
CN112992110A (zh) | 音频处理方法、装置、计算设备以及介质 | |
D'haes et al. | Discrete cepstrum coefficients as perceptual features | |
US20240339095A1 (en) | Music data processing device, method, and storage medium | |
CN112185403B (zh) | 一种语音信号处理方法、装置、存储介质及终端设备 | |
CN112151053B (zh) | 语音增强方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |