CN113257211A - 音频调节方法、介质、装置和计算设备 - Google Patents
音频调节方法、介质、装置和计算设备 Download PDFInfo
- Publication number
- CN113257211A CN113257211A CN202110524260.9A CN202110524260A CN113257211A CN 113257211 A CN113257211 A CN 113257211A CN 202110524260 A CN202110524260 A CN 202110524260A CN 113257211 A CN113257211 A CN 113257211A
- Authority
- CN
- China
- Prior art keywords
- pitch
- adjusted
- audio file
- sequence
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000011295 pitch Substances 0.000 claims abstract description 354
- 230000003595 spectral effect Effects 0.000 claims abstract description 112
- 239000012634 fragment Substances 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 106
- 230000004048 modification Effects 0.000 claims description 29
- 238000012986 modification Methods 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000003750 conditioning effect Effects 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 description 37
- 230000005236 sound signal Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000005284 excitation Effects 0.000 description 8
- 230000001105 regulatory effect Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000001143 conditioned effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/02—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
- G10H1/04—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
- G10H1/053—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only
- G10H1/057—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits
- G10H1/0575—Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation during execution only by envelope-forming circuits using a data store from which the envelope is synthesized
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本公开的实施方式提供了一种音频调节方法、介质、装置和计算设备。该方法包括:从待调节音频文件中提取第一特征序列,第一特征序列包括各个第一音频片段的音高包络;其中,待调节音频文件包括连续多个第一音频片段;利用第一特征序列及标准音高序列,确定待调节音频文件的音高调节序列;其中,标准音高序列包括连续多个第一标准音高,每个第一标准音高对应一个第一音频片段;音高调节序列包括多个音高调节数值,每个音高调节数值对应一个第一音频片段;利用音高调节序列及待调节音频文件的第一频谱包络,对待调节音频文件进行音高调节和频谱包络调整。本公开实施例能够对音频文件进行音调调节,并保证调节后音色不变。
Description
技术领域
本公开的实施方式涉及音频处理技术领域,更具体地,本公开的实 施方式涉及音频调节方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上 下文。此处的描述不因为包括在本部分中就承认是相关技术。
相关技术中,在对用户演唱歌曲的音频文件进行修音处理时,可以 参考歌曲素材库中的歌曲以及其他修音时用作参考标准使用的歌曲信息 文件,对用户演唱的音频文件进行音高调节和/或节奏调整。
常用的音高调节方法包括传统的信号处理算法,比如升降调算法。 这种方法可以调节音频文件的音高,但同时会导致音频文件的频谱包络 发生变化;而由于频谱包络中蕴含着音色信息,因此会出现调节后音频 文件的音色明显变化的情况。
发明内容
本公开期望提供一种音频调节方法和装置。
在本公开实施方式的第一方面中,提供了一种音频调节方法,包括:
从待调节音频文件中提取第一特征序列,第一特征序列包括各个第 一音频片段的音高包络;其中,待调节音频文件包括连续多个第一音频 片段;
利用第一特征序列及标准音高序列,确定待调节音频文件的音高调 节序列;其中,标准音高序列包括连续多个第一标准音高,每个第一标 准音高对应一个第一音频片段;音高调节序列包括多个音高调节数值, 每个音高调节数值对应一个第一音频片段;
利用音高调节序列及待调节音频文件的第一频谱包络,对待调节音 频文件进行音高调节和频谱包络调整。
在本公开的一个实施例中,利用音高调节序列及待调节音频文件的 第一频谱包络,对待调节音频文件进行音高调节和频谱包络调整,包括:
分别利用音高调节序列中的各个音高调节数值,对待调节音频文件 中的各个第一音频片段进行音高调节,得到音高调节后的音频文件;
获取音高调节后的音频文件的第二频谱包络;
利用第一频谱包络和第二频谱包络,对音高调节后的音频文件进行 第一频谱包络调整。
在本公开的一个实施例中,利用第一频谱包络和第二频谱包络,对 音高调节后的音频文件进行第一频谱包络调整,包括:
将音高调节后的音频文件的信号频谱除以第二频谱包络,并乘以第 一频谱包络,得到第一频谱包络调整后的音频文件的信号频谱。
在本公开的一个实施例中,利用音高调节序列及待调节音频文件的 第一频谱包络,对待调节音频文件进行音高调节和频谱包络调整,包括:
利用音高调节序列计算各个音频帧对应的升降调系数;其中,每个 第一音频片段包括多个音频帧;
利用各个音频帧对应的升降调系数和第一频谱包络,计算各个音频 帧对应的预修改序列;
采用各个音频帧对应的预修改序列,分别对各个音频帧的信号频谱 进行预修改操作,得到预修改之后的待调节音频文件,以实现对待调节 音频文件的第二频谱包络调整;
分别利用音高调节序列中的各个音高调节数值,对预修改之后的待 调节音频文件中的各个第一音频片段进行音高调节,得到音高调节后的 音频文件。
在本公开的一个实施例中,待调节音频文件的第一频谱包络的提取 方式包括:
将待调节音频文件由时域信号转换为频域信号;
计算频域信号的频谱能量;
对频谱能量取对数,并进行傅里叶逆变换,得到倒频谱;
对倒频谱进行低通滤波,得到频谱包络相关信息;其中,低通滤波 的边界是根据待调节音频文件的基频和信号采样率所确定;
对频谱包络相关信息进行傅里叶变换,并进行指数运算,得到待调 节音频文件的第一频谱包络。
在本公开的一个实施例中,采用重采样和时间尺度调整TSM算法结 合的方式进行音高调节。
在本公开的一个实施例中,利用第一特征序列及标准音高序列,确 定待调节音频文件的音高调节序列,包括:
分别利用第一特征序列和标准音高序列,确定待调节音频文件的第 一音域区间和标准音高序列的第二音域区间;
在第一音域区间与第二音域区间相同的情况下,利用第一特征序列 及标准音高序列,确定待调节音频文件的音高调节序列。
在本公开的一个实施例中,利用第一特征序列及标准音高序列,确 定待调节音频文件的音高调节序列,还包括:
在第一音域区间与第二音域区间不同的情况下,将标准音高序列的 音域区间调整至第一音域区间,得到调整后的标准音高序列;
利用第一特征序列及调整后的标准音高序列,确定待调节音频文件 的音高调节序列。
在本公开的一个实施例中,分别利用第一特征序列和标准音高序列, 确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间, 包括:
计算第一特征序列中包含的第一音频片段的音高包络的平均值,得 到待调节音频文件的第一音域区间;并且,计算标准音高序列中包含的 第一标准音高的平均值,得到标准音高序列的第二音域区间。
在本公开的一个实施例中,第一特征序列还包括各个第一音频片段 的第一时间戳信息,标准音高序列还包括各个第一标准音高的第二时间 戳信息;
上述方法还包括:
利用第一时间戳信息和第二时间戳信息,计算待调节音频文件的节 奏调节序列,节奏调节序列包括多个节奏调节数值,每个节奏调节数值 对应一个第一音频片段;
利用节奏调节序列,对待调节音频文件进行节奏调节。
在本公开的一个实施例中,还包括:
接收音频信号,音频信号中包含歌曲伴奏和用户演唱的歌曲;
从音频信号中提取用户演唱的歌曲,将用户演唱的歌曲作为待调节 音频文件;
从音频信号中提取歌曲伴奏,将歌曲伴奏的音域区间调整至第一音 域区间;
将调整后的歌曲伴奏与调整后的待调节音频文件进行混音操作。
在本公开实施方式的第二方面中,提供了一种音频调节装置,包括:
特征提取模块,用于从待调节音频文件中提取第一特征序列,第一 特征序列包括各个第一音频片段的音高包络;其中,待调节音频文件包 括连续多个第一音频片段;
数据分析模块,用于利用第一特征序列及标准音高序列,确定待调 节音频文件的音高调节序列;其中,标准音高序列包括连续多个第一标 准音高,每个第一标准音高对应一个第一音频片段;音高调节序列包括 多个音高调节数值,每个音高调节数值对应一个第一音频片段;
声音变换技术模块,用于利用音高调节序列及待调节音频文件的第 一频谱包络,对待调节音频文件进行音高调节和频谱包络调整。
在本公开的一个实施例中,声音变换技术模块,包括:
第一音高调节子模块,用于分别利用音高调节序列中的各个音高调 节数值,对待调节音频文件中的各个第一音频片段进行音高调节,得到 音高调节后的音频文件;
第一频谱包络调整子模块,用于获取音高调节后的音频文件的第二 频谱包络;利用第一频谱包络和第二频谱包络,对音高调节后的音频文 件进行第一频谱包络调整。
在本公开的一个实施例中,第一频谱包络调整子模块用于,将音高 调节后的音频文件的信号频谱除以第二频谱包络,并乘以第一频谱包络, 得到第一频谱包络调整后的音频文件的信号频谱。
在本公开的一个实施例中,声音变换技术模块,包括:
第二频谱包络调整子模块,用于利用音高调节序列计算各个音频帧 对应的升降调系数;其中,每个第一音频片段包括多个音频帧;利用各 个音频帧对应的升降调系数和第一频谱包络,计算各个音频帧对应的预 修改序列;采用各个音频帧对应的预修改序列,分别对各个音频帧的信 号频谱进行预修改操作,得到预修改之后的待调节音频文件,以实现对 待调节音频文件的第二频谱包络调整;
第二音高调节子模块,用于分别利用音高调节序列中的各个音高调 节数值,对预修改之后的待调节音频文件中的各个第一音频片段进行音 高调节,得到音高调节后的音频文件。
在本公开的一个实施例中,声音变换技术模块包括:
频谱包络提取子模块,用于将待调节音频文件由时域信号转换为频 域信号;计算频域信号的频谱能量;对频谱能量取对数,并进行傅里叶 逆变换,得到倒频谱;对倒频谱进行低通滤波,得到频谱包络相关信息; 其中,低通滤波的边界是根据待调节音频文件的基频和信号采样率所确 定;对频谱包络相关信息进行傅里叶变换,并进行指数运算,得到待调 节音频文件的第一频谱包络。
在本公开的一个实施例中,声音变换技术模块采用重采样和时间尺 度调整(TSM)算法结合的方式进行音高调节。
在本公开的一个实施例中,数据分析模块包括:
音域区间计算子模块,用于分别利用第一特征序列和标准音高序列, 确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间;
音高调节序列确定子模块,用于在第一音域区间与第二音域区间相 同的情况下,利用第一特征序列及标准音高序列,确定待调节音频文件 的音高调节序列。
在本公开的一个实施例中,音高调节序列确定子模块还用于:
在第一音域区间与第二音域区间不同的情况下,将标准音高序列的 音域区间调整至第一音域区间,得到调整后的标准音高序列;
利用第一特征序列及调整后的标准音高序列,确定待调节音频文件 的音高调节序列。
在本公开的一个实施例中,音域区间计算子模块用于,计算第一特 征序列中包含的第一音频片段的音高包络的平均值,得到待调节音频文 件的第一音域区间;并且,计算标准音高序列中包含的第一标准音高的 平均值,得到标准音高序列的第二音域区间。
在本公开的一个实施例中,第一特征序列还包括各个第一音频片段 的第一时间戳信息,标准音高序列还包括各个第一标准音高的第二时间 戳信息;
数据分析模块还包括:节奏调节序列确定子模块,用于利用第一时 间戳信息和第二时间戳信息,计算待调节音频文件的节奏调节序列,节 奏调节序列包括多个节奏调节数值,每个节奏调节数值对应一个第一音 频片段;
声音变换技术模块还包括:节奏调节子模块,用于利用节奏调节序 列,对待调节音频文件进行节奏调节。
在本公开的一个实施例中,上述装置还包括:
音频提取模块,用于接收音频信号,音频信号中包含歌曲伴奏和用 户演唱的歌曲;从音频信号中提取用户演唱的歌曲,将用户演唱的歌曲 作为待调节音频文件;
伴奏调节模块,用于从音频信号中提取歌曲伴奏,将歌曲伴奏的音 域区间调整至第一音域区间;
混音模块,用于将调整后的歌曲伴奏与调整后的待调节音频文件进 行混音操作。
在本公开实施方式的第三方面中,提供了一种计算机可读介质,其 上存储有计算机程序,该程序被处理器执行时实现上述音频调节方法的 步骤。
在本公开实施方式的第四方面中,提供了一种计算设备,包括:存 储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处 理器执行程序时实现音频调节方法的步骤。
根据本公开实施方式的音频调节方法和装置,可以利用音高调节序 列及待调节音频文件的频谱包络,对待调节音频文件进行音高调节和频 谱包络调整,从而消除音高调节所导致的频谱包络变化,保证音高调节 后音频文件的频谱包络不变,保证调节后音色不变。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述 以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非 限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开一实施方式的音频调节方法实现流 程图一;
图2示意性地示出了根据本公开一实施方式的音频调节方法中,待 调节音频文件的波形示意图;
图3示意性地示出了根据本公开一实施方式的音频调节方法中,步 骤S12的一种实现流程图;
图4示意性地示出了根据本公开一实施方式的音频调节方法中,确 定音高调节序列及调节音高的实现方式示意图;
图5示意性地示出了根据本公开一实施方式的音频调节方法中,调 节音高及节奏的实现方式示意图;
图6示意性地示出了根据本公开一实施方式的音频调节方法中,实 现音色保护的一种实现流程图;
图7A示意性地示出了一种待调节音频文件(记为X)的音高和频谱 包络示意图;
图7B示意性地示出了对该待调节音频文件进行音高调节后的音频 文件(记为Y)的音高和频谱包络示意图;
图7C示意性地示出了对该待调节音频文件进行音高调节和第一频 谱包络调整后的音频文件(记为Y′)的音高和频谱包络示意图;
图8示意性地示出了根据本公开一实施方式的音频调节方法中,实 现音色保护的另一种实现流程图;
图9示意性地示出了根据本公开一实施方式的音频调节方法中,提 取待调节音频文件的第一频谱包络的一种实现流程图;
图10示意性地示出了浊音发生过程;
图11示意性地示出了根据本公开一实施方式的音频调节方法中,提 取频谱包络的一种实现流程图;
图12示意性地示出了根据一种倒频谱的示意图;
图13示意性地示出了根据本公开一实施方式的对用户演唱歌曲进 行修音操作的实现流程图;
图14示意性地示出了根据本公开一实施方式的用于音频调节方法 的介质示意图;
图15示意性地示出了根据本公开一实施方式的音频调节装置结构 示意图;
图16示意性地示出了根据本公开一实施方式的计算设备的结构示 意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当 理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解 进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这 些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围 完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装 置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下 形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等), 或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种音频调节方法、介质、装置和 计算设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何 命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和 精神。
发明概述
现有的音频调节技术中,在对音频文件进行音高调节时,会导致调 节后音频文件的音色发生明显变化。
有鉴于此,本公开提供一种音频调节方法和装置,利用音高调节序 列及待调节音频文件的频谱包络,对待调节音频文件进行音高调节和频 谱包络调整,从而消除音高调节所导致的频谱包络变化,使音高调节后 音频文件的频谱包络不变,从而保证调节后音色不变。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限 制性实施方式。
示例性方法
下面参考图1来描述根据本公开示例性实施方式的音频调节方法。
图1示意性地示出了根据本公开一实施方式的音频调节方法实现流 程图,如图1所示,本公开实施例的音频调节方法包括以下步骤:
S11:从待调节音频文件中提取第一特征序列,该第一特征序列包括 各个第一音频片段的音高包络;其中,该待调节音频文件包括连续多个 第一音频片段;
S12:利用该第一特征序列及标准音高序列,确定待调节音频文件的 音高调节序列;其中,该标准音高序列包括连续多个第一标准音高,每 个第一标准音高对应一个第一音频片段;音高调节序列包括多个音高调 节数值,每个音高调节数值对应一个第一音频片段;
S13:利用音高调节序列及待调节音频文件的第一频谱包络,对待调 节音频文件进行音高调节和频谱包络调整。
通过上述过程,本公开实施例利用待调节音频文件的第一特征序列 及标准音高序列,确定待调节音频文件的音高调节序列;再利用该音高 调节序列和待调节音频文件的第一频谱包络,对待调节音频文件进行音 高调节和频谱包络调整。由于对待调节音频文件进行频谱包络调整,消 除了音高调节所导致的频谱包络变化,保证音高调节后音频文件的频谱 包络不变,从而实现了对音频文件的音色保护,保证调节后的音频文件 与待调节音频文件的音色相比不会发生明显变化。
图2示意性地示出了根据本公开一实施方式的音频调节方法中,待 调节音频文件的波形示意图。本公开在获得用户演唱的待调节音频文件 后,首先可以对待调节音频文件进行特征提取,提取的信息可以包括音 高包络,还可以包括歌词每个字的时间戳信息。其中,获取时间戳信息 的目的是与标准音高序列进行时长对齐操作。
如图2所示,“啦啦啦啦…”是用户演唱的调节音频文件中的一段, 该段音频文件包括连续的多个第一音频片段;每个第一音频片段可以为 固定时间长度的片段,或者每个第一音频片段对应歌曲中一个字的全部 或部分。待调节音频文件的第一特征序列包括各个第一音频片段的音高 包络。
图3示意性地示出了根据本公开一实施方式的音频调节方法中,步 骤S12的一种实现流程图。如图3所示,在一种可能的实施方式中,利 用待调节音频文件的第一特征序列及标准音高序列,确定待调节音频文 件的音高调节序列的过程包括:
S31:分别利用第一特征序列和标准音高序列,确定待调节音频文件 的第一音域区间和标准音高序列的第二音域区间;
S32:在第一音域区间与第二音域区间相同的情况下,利用第一特征 序列及标准音高序列,确定待调节音频文件的音高调节序列。
如图3所示,在一种可能的实施方式中,上述过程还可以包括:
S33:在第一音域区间与第二音域区间不同的情况下,将标准音高序 列的音域区间调整至第一音域区间,得到调整后的标准音高序列;利用 第一特征序列及调整后的标准音高序列,确定待调节音频文件的音高调 节序列。
可选地,本公开计算第一特征序列中包含的第一音频片段的音高包 络的平均值,将该平均值作为待调节音频文件的第一音域区间。
可选地,本公开计算标准音高序列中包含的第一标准音高的平均值, 将该平均值作为标准音高序列的第二音域区间。
例如,本公开采用以下式子(1),确定待调节音频文件的第一音域 区间:
Xsut,i表示待调节音频文件的第一特征序列中,第i个第一音频片段的 音高包络的音高值;
N表示待调节音频文件中包含的第一音频片段的个数,也就是第一 特征序列所包含的音高包络的个数。
例如,本公开可以采用以下式子(2),确定标准音高序列的第二音 域区间:
Xref,i表示标准音高序列的第i个第一标准音高;
N表示标准音高序列中包含的第一标准音高的个数。
之后,利用式子(3),计算第一音域区间和第二音域区间的差异:
其中,Xdiff表示第一音域区间和第二音域区间的差异;
可选地,当Xdiff不超过预设阈值时,认为第一音域区间与第二音域区间 相同;当Xdiff超过预设阈值时,认为第一音域区间与第二音域区间不同。例 如,该预设阈值设置为1个半音。
如果第一音域区间与第二音域区间不同,则首先可以将标准音高序列的 音域区间调整至与第一特征序列相同,也就是将标准音高序列由第二音域区 间调整至第一音域区间。如采用以下式子(4)进行调整:
其中,Xref表示标准音高序列;
Xdiff表示第一音域区间和第二音域区间的差异。
之后,利用第一特征序列及调整后的标准音高序列,确定待调节音频文 件的音高调节序列(如上述步骤S32);如果不需要调整标准音高序列,则 利用第一特征序列及标准音高序列,确定待调节音频文件的音高调节序 列(如上述步骤S31)。
图4示意性地示出了根据本公开一实施方式的音频调节方法中,确定音 高调节序列及调节音高的实现方式示意图。在图4中,围绕音频文件波 形的上方或下方存在多个不规则曲线,每个不规则曲线表示待调节音频 文件的第一特征序列中的一个音高包络。横穿各个音高包络的直线表示 该音高包络的音高平滑值。在采用第一特征序列及标准音高序列确定音 高调节序列的情况下,各个音高平滑值上方的直线表示标准音高序列中 对应的第一标准音高;在采用第一特征序列及调整后的标准音高序列确 定音高调节序列的情况下,各个音高平滑值上方的直线表示调整后的标 准音高序列中对应的第一标准音高。
针对图4中待调节音频文件的各个第一音频片段,计算各个第一音 频片段的音高平滑值与对应的第一标准音高之间的音程差,得到整个待 调节音频文件的音高调节序列。例如,图4中,音高平滑值最大的第一 音频片段,其音高平滑值与第一标准音高之间的音程差为4.05个半音, 表示用户演唱的该第一音频片段的音高比标准音高低4.05个半音;则将该第一音频片段对应的音高调节数值确定为4.05个半音。后续是在音高 调节时,将该第一音频片段的音高包络向高调节4.05个半音。采用前述 方式依次计算待调节音频文件中每个第一音频片段对应的音高调节数 值,构成整个待调节音频文件的音高调节序列。后续即可利用音高调节 序列依次对每个第一音频片段进行调节,从而完成对整个待调节音频文件的音高调节。
除了音高调节之外,本公开还可以对待调节音频文件进行节奏调整。 例如,本公开的第一特征序列还包括第一音频片段的第一时间戳信息, 标准音高序列还包括各个第一标准音高的第二时间戳信息;
本公开提出的音频调节方法还可以包括:
利用上述第一时间戳信息和第二时间戳信息,计算待调节音频文件 的节奏调节序列,该节奏调节序列包括多个节奏调节数值,每个节奏调 节数值对应一个第一音频片段;
利用上述节奏调节序列,对待调节音频文件进行节奏调节。
例如,本公开采用以下式子(5),确定待调节音频文件的各个第一 音频片段对应的节奏调节数值:
其中,Durationratio表示某个第一音频片段的节奏调节数值;
Durationsut表示该第一音频片段的持续时长;
Durationref表示对应该第一音频片段的第一标准音高的持续时长。
上述第一时间戳信息和第二时间戳信息的目的是对待调节音频文件 与标准音高序列进行对齐操作,并计算待调节音频文件中各个第一音频 片段的持续时长,以及计算标准音高序列中各个第一标准音高的持续时 长。
例如,对于待调节音频文件的某个第一音频片段,如果计算出节奏 调节数值为1.2,则表示第一音频片段(对应歌曲中的一个字或一个字中 的一个音)的标准时长与用户演唱的实际时长的比值为1.2;那么在进行 节奏调整时,将待调节音频文件中该第一音频片段的时长拉长为原来的 1.2倍。采用同样的方式依次对待调节音频文件中的各个第一音频片段进 行持续时长的调整,即实现了对整个待调节音频文件的节奏调整。
图5示意性地示出了根据本公开一实施方式的音频调节方法中,调节音 高及节奏的实现方式示意图。图5上半部分示出了待调节音频文件各个 第一音频片段的音高包络及对应的第一标准音高,下半部分示出了经过 音高调节和节奏调整后的音频文件的音高包络。
在一些实施方式中,本公开采用重采样和时间尺度调整(TSM,Time ScaleModification)算法结合的方式进行音高调节。TSM可以对音频进 行时域的拉伸,改变音频长度,而重采样则可以在对音频拉伸的同时改 变音频音高。比如,如果需要将原始音频文件的音高提升一个八度,原 始音频文件的时长为L,可以首先进行重采样,将音频文件的时长变为 L/2,相应地音高也提升了一个八度;之后通过TSM算法将音频文件拉 伸,将音频文件的时长由L/2恢复到L。这样,既改变了音频文件的音高, 又保持音频文件的时长不变。常用的TSM算法包括波形相似重叠相加算 法(Wsola,Waveform Similarity Overlap-Add)、相似重叠相加算法(Sola, Similarity Overlap-Add)、相位声码器(Phase vocoder)等。
由于音高的变化伴随着频谱包络(spectral envelope)的变化,而频谱包 络的结构中蕴含着声源的音色信息,因此对待调节音频文件的音高调节会导 致音色发生变化。为了消除对音色的影响,本公开可以利用待调节音频 文件的第一频谱包络,实现对待调节音频文件的音色保护。
本公开至少可以采用以下两种方式进行实现音色保护:
第一种,首先利用上述音高调节序列对待调节音频文件进行音高调 节,再修改音高调节后的音频文件的频谱包络,使修改后的频谱包络与 待调节音频文件的频谱包络相同,从而保证音高调节后的音频文件的音 色与待调节音频文件的音色相比不会发生明显变化。
第二种,首先对待调节音频文件各个音频帧的信号频谱进行预修改操 作,预修改操作的目的是抵消后续音高调节过程对待调节音频文件的频谱包 络的影响;之后,对预修改之后的待调节音频文件中的各个音频帧进行音高 调节,音高调节后的音频文件的频谱包络与待调节音频文件的频谱包络相 同,从而保证音高调节后的音频文件的音色与待调节音频文件的音色相比不 会发生明显变化。
图6示意性地示出了根据本公开一实施方式的音频调节方法中,实 现音色保护的一种实现流程图。如图6所示,在一些实施方式中,上述 实现音色保护的第一种方式具体包括:
S61:分别利用音高调节序列中的各个音高调节数值,对待调节音频 文件中的各个第一音频片段进行音高调节,得到音高调节后的音频文件;
S62:获取音高调节后的音频文件的第二频谱包络;
S63:利用该第一频谱包络和该第二频谱包络,对音高调节后的音频 文件进行第一频谱包络调整。
具体地,上述步骤S63可以包括:将音高调节后的音频文件的信号 频谱除以第二频谱包络,并乘以第一频谱包络,得到第一频谱包络调整 后的音频文件的信号频谱。
例如,采用以下式子(6)计算第一频谱包络调整后的音频文件的信 号频谱:
其中,Y'表示第一频谱包络调整后的音频文件的信号频谱;
Y表示音高调节之后的音频文件的信号频谱;
X表示待调节音频文件的信号频谱;
Envx表示第一频谱包络;
Envy表示第二频谱包络。
在得到第一频谱包络调整后的音频文件的信号频谱Y'之后,再对Y' 进行傅里叶逆变换,即可将信号由频域转换至时域,得到音高调节和第一频 谱包络调整后的音频文件。
图7A至图7C显示了音高调节和第一频谱包络调整的效果图。其中, 图7A示意性地示出了一种待调节音频文件(记为X)的音高和频谱包络 示意图,7B示意性地示出了对该待调节音频文件进行音高调节后的音频 文件(记为Y)的音高和频谱包络示意图。可以看出,在进行音高调节 后,Y的频率比X的频率要小,因为周期变大了;Y的频谱包络与X的 频谱包络不同,频谱包络的峰值位置和形状都发生了改变。图7C示意性 地示出了对该待调节音频文件进行音高调节和第一频谱包络调整后的音 频文件(记为Y′)的音高和频谱包络示意图。可以看出,在进行第一频 谱包络调整后,Y′的音高与Y的音高相同,Y′的频谱包络与X的频谱包络 相同。图7C显示的就是对原始的待调节音频文件进行音高调节和音色保 护后最终输出的频谱。
图8示意性地示出了根据本公开一实施方式的音频调节方法中,实 现音色保护的另一种实现流程图。如图8所示,在一些实施方式中,上 述实现音色保护的第二种方式具体包括:
S81:利用音高调节序列计算各个音频帧对应的升降调系数;其中, 每个第一音频片段包括多个音频帧;
S82:利用各个音频帧对应的升降调系数和第一频谱包络,计算各个 音频帧对应的预修改序列;
S83:采用各个音频帧对应的预修改序列,分别对各个音频帧的信号 频谱进行预修改操作,得到预修改之后的待调节音频文件,以实现对待 调节音频文件的第二频谱包络调整;
S84:分别利用音高调节序列中的各个音高调节数值,对预修改之后 的待调节音频文件中的各个第一音频片段进行音高调节,得到音高调节 后的音频文件。
例如,采用以下式子(7)计算上述预修改序列:
p(k)=Envx(k*alpha)/Envx(k) …(7)
其中,p(k)为预修改序列;括号中的k表示序列号,取值从1到N, N指某个音频帧X的采样点数;
Envx表示该音频帧X的第一频谱包络,括号中的参数表示第一频谱包 络的采样索引;
alpha表示该音频帧X对应的升降调系数。
计算出音频帧X的预修改序列后,可以采用以下式子(8)对音频帧 X的信号频谱进行预修改操作:
X'=X*p(k) …(8)
其中,X'表示对音频帧X进行预修改操作之后的信号;
X表示音频帧,其中X是一个长度为N的向量,向量中的每个元素 表示音频帧的一个采样点;
符号“*”表示两个向量中对应位置的元素分别相乘,得到新的向量。
预修改的目的是对原始信号的频谱包络进行一个幅度调整,用以抵消 由于音高调节产生了频谱包络变化。
采用上述方式,分别对各个音频帧进行预修改操作,并将预修改之后 的信号拼接起来,得到预修改之后的待调节音频文件,以实现对待调节 音频文件的第二频谱包络调整。之后,分别利用音高调节序列中的各个 音高调节数值,对预修改之后的待调节音频文件中的各个第一音频片段 进行音高调节,得到音高调节后的音频文件。
需要说明的时,上述音高调节前的第二频谱包络调整与音高调节后 的第一频谱包络调整可以只选其中之一的方案,也可以两者并存。
上述两种方式中,均需使用待调节音频文件的第一频谱包络。图9 示意性地示出了根据本公开一实施方式的音频调节方法中,提取待调节 音频文件的第一频谱包络的一种实现流程图,包括:
S91:将待调节音频文件由时域信号转换为频域信号;
S92:计算该频域信号的频谱能量;
S93:对该频谱能量取对数,并进行傅里叶逆变换,得到倒频谱;
S94:对该倒频谱进行低通滤波,得到频谱包络相关信息;其中,该 低通滤波的边界是根据待调节音频文件的基频和信号采样率所确定;
S95:对该频谱包络相关信息进行傅里叶变换,并进行指数运算,得 到待调节音频文件的第一频谱包络。
声学理论中,语音分为清音和浊音两种。浊音是一种准周期脉冲激 励所发出的声音,清音则是由不稳定气流激励产生的。图10示意性地示 出了浊音发生过程。图10中,第一幅图像表示浊音发声过程中声门产生 的气流,如图10所示,在浊音发声过程中,声门产生的气流相当于激励 信号。第二幅图像表示声道的响应(也就是频谱包络)。声道则类似于一个滤波器,激励信号通过滤波器调制的输出就是我们听见的声音,如 图10中的第三幅图像所示。如果用e(t)表示声音的输入激励(基频信号), h(t)表示声道的响应(即频谱包络)。通过解卷积,可以将声门激励和声 道响应分离开,通道声码器(Channel Vocoder)、线性预测编码(LPC, Linear Predictive Coding)分析和倒谱(Cepstrum)分析是3种比较常用 的解卷积方法。本公开中采取的是倒谱分析法。
图11示意性地示出了根据本公开一实施方式的音频调节方法中,提 取频谱包络的一种实现流程图。如图11所示,e(t)表示基频信号,h(t)表 示频谱包络,e(t)经h(t)调整后,得到待调节音频文件x(t)。首先对待调 节音频文件x(t)(即原始的语音信号)进行快速傅里叶变换(FFT),将 信号从时域变到频域,时域卷积在频域上就是相乘,如下式(9):
X(ω)=E(ω)*H(ω) …(9)
其中,X(ω)表示x(t)转换到频域后的信号,E(ω)表示e(t)转换到 频域后的信号,H(ω)表示h(t)转换到频域后的信号。
由于频域分析中只关注频谱(spectrum)的能量,忽略其相位信息, 可以对上式取模值,取模的结果如下式(10):
||X(ω)||=||E(ω)||*||H(ω)|| …(10)
之后对频谱取对数,取对数的结果如下式(11):
log(||X(ω)||)=log(||E(ω)||)+log(||H(ω)||) …(11)
由上式(11)可见,频谱取对数后由两个部分组成,由于该两部分 存在的频谱区域不同,在进行傅里叶逆变换(IFFT)后,可以通过低通 滤波(cepstral liftering)的方式,获得聚集在低频段的频谱包络信息。对 信号功率谱的对数值进行傅里叶逆变换的结果,就是倒频谱(Cepstrum)。 本公开可以采用式子(12)对信号功率谱的对数值进行傅里叶逆变换:
Cepstrum=ifft(log(||X(ω)||)) …(12)
图12示意性地示出了根据一种倒频谱的示意图,如图12所示,倒 频谱包含两部分的信息,虚线左边的低频部分就是频谱包络信息,高频 部分就是声门激励信息,图12的声门激励信息中的三个脉冲信号表示激 励频谱,其中第一个最强的峰值对应的频率值就是基频。因此,在倒谱 域中,可以使用低通滤波操作将频谱包络从倒谱信息中提取出来。低通滤波的边界值(截至频率)可以通过式子(13)确定:
其中,P表示低通滤波的边界;
Fs表示待调节音频文件的信号采样率;
F表示待调节音频文件的基频。
之后,继续参照图11所示,将倒谱域中低通滤波获得的频谱包络相 关信息通过傅里叶变换(FFT)转回频域,其中,w(t)表示提取频谱包络 相关信息所使用的低通滤波;然后进行指数运算(抵消前期做的对数运 算)就获得了频域中的频谱信息。以原始信号x为例,通过傅里叶变换 可以获得频谱X,通过倒谱分析法可以获得频谱包络,即EnvX。如式子(14)确定频谱包络的计算式:
Envx=exp(fft(Cepstrum*w(t)))) …(14)
以上介绍了对待调节音频文件进行调节的方法,该调节可以包括音 高调节和节奏调整。在进行音高调节时,本公开对待调节音频文件进行 频谱包络调整,以音频文件的音色不变。前述待调节音频文件可以为用 户演唱的歌曲。
本公开可以应用于对用户演唱歌曲的修音操作,具体地,本公开提 出的音频调节方法还可以包括:
接收音频信号,该音频信号中包含歌曲伴奏和用户演唱的歌曲;
从该音频信号中提取用户演唱的歌曲,将该用户演唱的歌曲作为待 调节音频文件;
从音频信号中提取歌曲伴奏,将歌曲伴奏的音域区间调整至上述第 一音域区间;
将调整后的歌曲伴奏与调整后的待调节音频文件进行混音操作。
采用上述方式,实现了对用户演唱歌曲的修音操作。
图13示意性地示出了根据本公开一实施方式的对用户演唱歌曲进行 修音操作的实现流程图。如图13所示,获得用户干声音频后(干声音频 指未经任何混音或其他处理的用户录音音频),提取用户干声音频中的 特征序列。将用户干声音频中的特征序列与歌曲模板的已有特征一起输 入数据分析模块。数据分析模块首先对用户干声音频和歌曲模板进行时 长对齐,在时长对齐操作之后,对用户干声音频和歌曲模板进行音高对 比和节奏对比,从而计算出音高调节序列和节奏调节序列,并将计算出 的音高调节序列和节奏调节序列输入声音变换技术模块。声音变换技术 模块根据音高调节序列和节奏调节序列对用户干声音频进行音高以及节 奏的修正,并且在音高变化的同时还进行频谱包络调整,以实现音色保 护。数据分析模块还将用户干声音频和歌曲模板之间的音程差发送至伴 奏调节模块,伴奏调节模块根据该音程差对歌曲伴奏进行调节,并输出 调节后的歌曲伴奏,调节后的歌曲伴奏的音域区间与用户干声音频的音 域区间一致。最后,将声音变换技术模块输出的调节后的用户音频与伴 奏调节模块输出的调节后的歌曲伴奏进行混音操作,得到最终输出的音 频文件。
综上可见,本公开在升降调算法实现音高修正的方案中,加入了音 频文件频谱包络的调整,以实现对音频文件的音色保护,从而在实现音 高变化的同时,音色不会发生明显变化,修音后的人声会更加自然。并 且,本公开在频谱包络的提取过程中,根据待调节音频文件的基频和信 号采样率确定低通滤波的截至频率,实现了根据待调节音频文件的自适 应设置,从而能够准确提取待调节音频文件的频谱包络。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图14对 本公开示例性实施方式的介质进行说明。
在一些可能的实施方式中,本公开的各个方面还可以实现为一种计 算机可读介质,其上存储有程序,当该程序被处理器执行时用于实现本 说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式 的音频调节方法中的步骤。
具体地,上述处理器执行上述程序时用于实现如下步骤:
从待调节音频文件中提取第一特征序列,该第一特征序列包括各个 第一音频片段的音高包络;其中,该待调节音频文件包括连续多个第一 音频片段;
利用第一特征序列及标准音高序列,确定待调节音频文件的音高调 节序列;其中,标准音高序列包括连续多个第一标准音高,每个第一标 准音高对应一个第一音频片段;音高调节序列包括多个音高调节数值, 每个音高调节数值对应一个第一音频片段;
利用音高调节序列及待调节音频文件的第一频谱包络,对待调节音 频文件进行音高调节和频谱包络调整。
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。 可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半 导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具 体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携 式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编 程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图14所示,描述了根据本公开的实施方式的介质140,其可以采 用便携式紧凑盘只读存储器(CD-ROM)并包括程序,并可以在设备上运 行。然而,本公开不限于此,在本文件中,可读存储介质可以是任何包 含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件 使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信 号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式, 包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号 介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、 传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使 用的程序。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开 操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸 如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言 或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、 部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备 可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到 用户计算设备。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图15对 本公开示例性实施方式的装置进行说明。
如图15所示,本公开实施例的音频调节装置可以包括:
特征提取模块1510,用于从待调节音频文件中提取第一特征序列, 第一特征序列包括各个第一音频片段的音高包络;其中,待调节音频文 件包括连续多个第一音频片段;
数据分析模块1520,用于利用第一特征序列及标准音高序列,确定 待调节音频文件的音高调节序列;其中,标准音高序列包括连续多个第 一标准音高,每个第一标准音高对应一个第一音频片段;音高调节序列 包括多个音高调节数值,每个音高调节数值对应一个第一音频片段;
声音变换技术模块1530,用于利用音高调节序列及待调节音频文件 的第一频谱包络,对待调节音频文件进行音高调节和频谱包络调整。
在一种可能的实施方式中,上述声音变换技术模块1530,包括:
第一音高调节子模块1531,用于分别利用音高调节序列中的各个音 高调节数值,对待调节音频文件中的各个第一音频片段进行音高调节, 得到音高调节后的音频文件;
第一频谱包络调整子模块1532,用于获取音高调节后的音频文件的 第二频谱包络;利用第一频谱包络和第二频谱包络,对音高调节后的音 频文件进行第一频谱包络调整。
在一种可能的实施方式中,上述第一频谱包络调整子模块1532用 于,将音高调节后的音频文件的信号频谱除以第二频谱包络,并乘以第 一频谱包络,得到第一频谱包络调整后的音频文件的信号频谱。
在一种可能的实施方式中,上述声音变换技术模块1530,包括:
第二频谱包络调整子模块1533,用于利用音高调节序列计算各个音 频帧对应的升降调系数;其中,每个第一音频片段包括多个音频帧;利 用各个音频帧对应的升降调系数和第一频谱包络,计算各个音频帧对应 的预修改序列;采用各个音频帧对应的预修改序列,分别对各个音频帧 的信号频谱进行预修改操作,得到预修改之后的待调节音频文件,以实 现对待调节音频文件的第二频谱包络调整;
第二音高调节子模块1534,用于分别利用音高调节序列中的各个音 高调节数值,对预修改之后的待调节音频文件中的各个第一音频片段进 行音高调节,得到音高调节后的音频文件。
在一种可能的实施方式中,上述声音变换技术模块1530包括:
频谱包络提取子模块1535,用于将待调节音频文件由时域信号转换 为频域信号;计算频域信号的频谱能量;对频谱能量取对数,并进行傅 里叶逆变换,得到倒频谱;对倒频谱进行低通滤波,得到频谱包络相关 信息;其中,低通滤波的边界是根据待调节音频文件的基频和信号采样 率所确定;对频谱包络相关信息进行傅里叶变换,并进行指数运算,得到待调节音频文件的第一频谱包络。
在一种可能的实施方式中,上述声音变换技术模块1530采用重采样 和TSM算法结合的方式进行音高调节。
在一种可能的实施方式中,上述数据分析模块1520包括:
音域区间计算子模块1521,用于分别利用第一特征序列和标准音高 序列,确定待调节音频文件的第一音域区间和标准音高序列的第二音域 区间;
音高调节序列确定子模块1522,用于在第一音域区间与第二音域区 间相同的情况下,利用第一特征序列及标准音高序列,确定待调节音频 文件的音高调节序列。
在一种可能的实施方式中,上述音高调节序列确定子模块1522还用 于:
在第一音域区间与第二音域区间不同的情况下,将标准音高序列的 音域区间调整至第一音域区间,得到调整后的标准音高序列;
利用第一特征序列及调整后的标准音高序列,确定待调节音频文件 的音高调节序列。
在一种可能的实施方式中,上述音域区间计算子模块1521用于,计 算第一特征序列中包含的第一音频片段的音高包络的平均值,得到待调 节音频文件的第一音域区间;并且,计算标准音高序列中包含的第一标 准音高的平均值,得到标准音高序列的第二音域区间。
在一种可能的实施方式中,上述第一特征序列还包括各个第一音频 片段的第一时间戳信息,标准音高序列还包括各个第一标准音高的第二 时间戳信息;
上述数据分析模块1520还包括:节奏调节序列确定子模块1523, 用于利用第一时间戳信息和第二时间戳信息,计算待调节音频文件的节 奏调节序列,节奏调节序列包括多个节奏调节数值,每个节奏调节数值 对应一个第一音频片段;
在一种可能的实施方式中,上述声音变换技术模块1530还包括:节 奏调节子模块1536,用于利用节奏调节序列,对待调节音频文件进行节 奏调节。
在一种可能的实施方式中,上述装置还包括:
音频提取模块1540,用于接收音频信号,音频信号中包含歌曲伴奏 和用户演唱的歌曲;从音频信号中提取用户演唱的歌曲,将用户演唱的 歌曲作为待调节音频文件;
伴奏调节模块1550,用于从音频信号中提取歌曲伴奏,将歌曲伴奏 的音域区间调整至第一音域区间;
混音模块1560,用于将调整后的歌曲伴奏与调整后的待调节音频文 件进行混音操作。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来, 参考图16对本公开示例性实施方式的计算设备进行说明。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为 系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下 形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微 代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、 “模块”或“系统”。
在一些可能的实施方式中,根据本公开实施方式的计算设备可以至 少包括至少一个处理单元以及至少一个存储单元。其中,存储单元存储 有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明 书上述“示例性方法”部分中描述的根据本公开的各种示例性实施方式的 音频调节方法中的步骤。
下面参照图16来描述根据本公开的这种实施方式的计算设备160。 图16显示的计算设备160仅仅是一个示例,不应对本公开实施例的功能 和使用范围带来任何限制。
如图16所示,计算设备160以通用计算设备的形式表现。计算设 备160的组件可以包括但不限于:上述至少一个处理单元1601、上述 至少一个存储单元1602,连接不同系统组件(包括处理单元1601和存 储单元1602)的总线1603。
总线1603包括数据总线、控制总线和地址总线。
存储单元1602可以包括易失性存储器形式的可读介质,例如随机存 取存储器(RAM)16021和/或高速缓存存储器16022,可以进一步包括 非易失性存储器形式的可读介质,例如只读存储器(ROM)16023。
存储单元1602还可以包括具有一组(至少一个)程序模块16024的 程序/实用工具16025,这样的程序模块16024包括但不限于:操作系 统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中 的每一个或某种组合中可能包括网络环境的实现。
计算设备160也可以与一个或多个外部设备1604(例如键盘、指向 设备等)通信。这种通信可以通过输入/输出(I/O)接口1605进行。并 且,计算设备160还可以通过网络适配器1606与一个或者多个网络(例 如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。 如图16所示,网络适配器1606通过总线1603与计算设备160的其它 模块通信。应当理解,尽管图中未示出,可以结合计算设备160使用其 它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处 理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储 系统等。
应当注意,尽管在上文详细描述中提及了音频调节装置的若干单元/ 模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实 际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征 和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块 的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是, 这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执 行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某 些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个 步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是 应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也 不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表 述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种 修改和等同布置。
Claims (10)
1.一种音频调节方法,其特征在于,包括:
从待调节音频文件中提取第一特征序列,所述第一特征序列包括各个第一音频片段的音高包络;其中,所述待调节音频文件包括连续多个所述第一音频片段;
利用所述第一特征序列及标准音高序列,确定所述待调节音频文件的音高调节序列;其中,所述标准音高序列包括连续多个第一标准音高,每个所述第一标准音高对应一个所述第一音频片段;所述音高调节序列包括多个音高调节数值,每个音高调节数值对应一个所述第一音频片段;
利用所述音高调节序列及所述待调节音频文件的第一频谱包络,对所述待调节音频文件进行音高调节和频谱包络调整。
2.根据权利要求1所述的方法,其特征在于,所述利用所述音高调节序列及所述待调节音频文件的第一频谱包络,对所述待调节音频文件进行音高调节和频谱包络调整,包括:
分别利用所述音高调节序列中的各个所述音高调节数值,对所述待调节音频文件中的各个所述第一音频片段进行音高调节,得到音高调节后的音频文件;
获取所述音高调节后的音频文件的第二频谱包络;
利用所述第一频谱包络和所述第二频谱包络,对所述音高调节后的音频文件进行第一频谱包络调整。
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一频谱包络和所述第二频谱包络,对所述音高调节后的音频文件进行第一频谱包络调整,包括:
将所述音高调节后的音频文件的信号频谱除以所述第二频谱包络,并乘以所述第一频谱包络,得到第一频谱包络调整后的音频文件的信号频谱。
4.根据权利要求1所述的方法,其特征在于,所述利用所述音高调节序列及所述待调节音频文件的第一频谱包络,对所述待调节音频文件进行音高调节和频谱包络调整,包括:
利用所述音高调节序列计算各个音频帧对应的升降调系数;其中,每个所述第一音频片段包括多个所述音频帧;
利用各个所述音频帧对应的升降调系数和所述第一频谱包络,计算所述各个音频帧对应的预修改序列;
采用各个所述音频帧对应的预修改序列,分别对各个所述音频帧的信号频谱进行预修改操作,得到预修改之后的待调节音频文件,以实现对所述待调节音频文件的第二频谱包络调整;
分别利用所述音高调节序列中的各个所述音高调节数值,对所述预修改之后的待调节音频文件中的各个第一音频片段进行音高调节,得到音高调节后的音频文件。
5.根据权利要求1至4任一所述的方法,其特征在于,所述待调节音频文件的第一频谱包络的提取方式包括:
将所述待调节音频文件由时域信号转换为频域信号;
计算所述频域信号的频谱能量;
对所述频谱能量取对数,并进行傅里叶逆变换,得到倒频谱;
对所述倒频谱进行低通滤波,得到频谱包络相关信息;其中,所述低通滤波的边界是根据所述待调节音频文件的基频和信号采样率所确定;
对所述频谱包络相关信息进行傅里叶变换,并进行指数运算,得到所述待调节音频文件的第一频谱包络。
6.根据权利要求1至4任一所述的方法,其特征在于,采用重采样和时间尺度调整TSM算法结合的方式进行所述音高调节。
7.根据权利要求1至4任一所述的方法,其特征在于,所述利用所述第一特征序列及标准音高序列,确定所述待调节音频文件的音高调节序列,包括:
分别利用所述第一特征序列和所述标准音高序列,确定所述待调节音频文件的第一音域区间和所述标准音高序列的第二音域区间;
在所述第一音域区间与所述第二音域区间相同的情况下,利用所述第一特征序列及所述标准音高序列,确定所述待调节音频文件的音高调节序列。
8.一种音频调节装置,其特征在于,包括:
特征提取模块,用于从待调节音频文件中提取第一特征序列,所述第一特征序列包括各个第一音频片段的音高包络;其中,所述待调节音频文件包括连续多个所述第一音频片段;
数据分析模块,用于利用所述第一特征序列及标准音高序列,确定所述待调节音频文件的音高调节序列;其中,所述标准音高序列包括连续多个第一标准音高,每个所述第一标准音高对应一个所述第一音频片段;所述音高调节序列包括多个音高调节数值,每个音高调节数值对应一个所述第一音频片段;
声音变换技术模块,用于利用所述音高调节序列及所述待调节音频文件的第一频谱包络,对所述待调节音频文件进行音高调节和频谱包络调整。
9.一种介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
10.一种计算设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524260.9A CN113257211B (zh) | 2021-05-13 | 2021-05-13 | 音频调节方法、介质、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110524260.9A CN113257211B (zh) | 2021-05-13 | 2021-05-13 | 音频调节方法、介质、装置和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257211A true CN113257211A (zh) | 2021-08-13 |
CN113257211B CN113257211B (zh) | 2024-05-24 |
Family
ID=77181811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110524260.9A Active CN113257211B (zh) | 2021-05-13 | 2021-05-13 | 音频调节方法、介质、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257211B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114446268A (zh) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | 一种音频数据处理方法、装置、电子设备、介质和程序产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0023864D0 (en) * | 1999-10-01 | 2000-11-15 | Ibm | Method and system for encoding and decoding speech signals |
EP1701336A2 (en) * | 2005-03-10 | 2006-09-13 | Yamaha Corporation | Sound processing apparatus and method, and program therefor |
JP2007240564A (ja) * | 2006-03-04 | 2007-09-20 | Yamaha Corp | 歌唱合成装置および歌唱合成プログラム |
US20120174731A1 (en) * | 2011-01-12 | 2012-07-12 | Auburn Audio Technologies, Inc. | Virtual Tuning of a String Instrument |
WO2015136159A1 (en) * | 2014-03-14 | 2015-09-17 | Berggram Development Oy | Method for offsetting pitch data in an audio file |
KR20160116701A (ko) * | 2015-03-31 | 2016-10-10 | 주식회사 셀바스에이아이 | 포먼트 변화에 따른 mdct 에너지 변화를 이용한 음색 변환 장치, 방법 및 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램 |
CN108257613A (zh) * | 2017-12-05 | 2018-07-06 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
CN111667803A (zh) * | 2020-07-10 | 2020-09-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法及相关产品 |
CN112164379A (zh) * | 2020-10-16 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 音频文件生成方法、装置、设备及计算机可读存储介质 |
CN112289330A (zh) * | 2020-08-26 | 2021-01-29 | 北京字节跳动网络技术有限公司 | 一种音频处理方法、装置、设备及存储介质 |
-
2021
- 2021-05-13 CN CN202110524260.9A patent/CN113257211B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0023864D0 (en) * | 1999-10-01 | 2000-11-15 | Ibm | Method and system for encoding and decoding speech signals |
EP1701336A2 (en) * | 2005-03-10 | 2006-09-13 | Yamaha Corporation | Sound processing apparatus and method, and program therefor |
JP2007240564A (ja) * | 2006-03-04 | 2007-09-20 | Yamaha Corp | 歌唱合成装置および歌唱合成プログラム |
US20120174731A1 (en) * | 2011-01-12 | 2012-07-12 | Auburn Audio Technologies, Inc. | Virtual Tuning of a String Instrument |
WO2015136159A1 (en) * | 2014-03-14 | 2015-09-17 | Berggram Development Oy | Method for offsetting pitch data in an audio file |
KR20160116701A (ko) * | 2015-03-31 | 2016-10-10 | 주식회사 셀바스에이아이 | 포먼트 변화에 따른 mdct 에너지 변화를 이용한 음색 변환 장치, 방법 및 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램 |
CN108257613A (zh) * | 2017-12-05 | 2018-07-06 | 北京小唱科技有限公司 | 修正音频内容音高偏差的方法及装置 |
CN111667803A (zh) * | 2020-07-10 | 2020-09-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法及相关产品 |
CN112289330A (zh) * | 2020-08-26 | 2021-01-29 | 北京字节跳动网络技术有限公司 | 一种音频处理方法、装置、设备及存储介质 |
CN112164379A (zh) * | 2020-10-16 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 音频文件生成方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
杨楠;: "基于频谱建模合成技术的自动音调修正系统", 计算机与数字工程, vol. 44, no. 11, 30 November 2016 (2016-11-30), pages 2168 - 2173 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114446268A (zh) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | 一种音频数据处理方法、装置、电子设备、介质和程序产品 |
WO2023142413A1 (zh) * | 2022-01-28 | 2023-08-03 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、电子设备、介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113257211B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Durrieu et al. | A musically motivated mid-level representation for pitch estimation and musical audio source separation | |
Virtanen et al. | Combining pitch-based inference and non-negative spectrogram factorization in separating vocals from polyphonic music. | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
Tachibana et al. | Singing voice enhancement in monaural music signals based on two-stage harmonic/percussive sound separation on multiple resolution spectrograms | |
Benetos et al. | An efficient shift-invariant model for polyphonic music transcription | |
CN109817191B (zh) | 颤音建模方法、装置、计算机设备及存储介质 | |
EP3719795B1 (en) | Voice synthesizing method, voice synthesizing apparatus, and computer program | |
Choi et al. | Korean singing voice synthesis based on auto-regressive boundary equilibrium gan | |
CN108269579B (zh) | 语音数据处理方法、装置、电子设备及可读存储介质 | |
Grofit et al. | Time-scale modification of audio signals using enhanced WSOLA with management of transients | |
CN103915093A (zh) | 一种实现语音歌唱化的方法和装置 | |
CN112309409A (zh) | 音频修正方法及相关装置 | |
Yong et al. | Singing expression transfer from one voice to another for a given song | |
Su et al. | Exploiting Frequency, Periodicity and Harmonicity Using Advanced Time-Frequency Concentration Techniques for Multipitch Estimation of Choir and Symphony. | |
CN113257211B (zh) | 音频调节方法、介质、装置和计算设备 | |
CN113178183B (zh) | 音效处理方法、装置、存储介质和计算设备 | |
JP2016118722A (ja) | 音声合成装置、方法、およびプログラム | |
WO2021245234A1 (en) | Electronic device, method and computer program | |
Alonso et al. | Latent space explorations of singing voice synthesis using DDSP | |
Han et al. | Reconstructing completely overlapped notes from musical mixtures | |
CN112992110B (zh) | 音频处理方法、装置、计算设备以及介质 | |
Janer et al. | Separation of unvoiced fricatives in singing voice mixtures with semi-supervised NMF | |
US10319353B2 (en) | Method for audio sample playback using mapped impulse responses | |
Gurunath Reddy et al. | Predominant melody extraction from vocal polyphonic music signal by time-domain adaptive filtering-based method | |
Rodet et al. | Spectral envelopes and additive+ residual analysis/synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |