CN107749301A - 一种音色样本重构方法及系统、存储介质及终端设备 - Google Patents

一种音色样本重构方法及系统、存储介质及终端设备 Download PDF

Info

Publication number
CN107749301A
CN107749301A CN201710842871.1A CN201710842871A CN107749301A CN 107749301 A CN107749301 A CN 107749301A CN 201710842871 A CN201710842871 A CN 201710842871A CN 107749301 A CN107749301 A CN 107749301A
Authority
CN
China
Prior art keywords
tone color
color sample
frequency
circulation section
reconstruct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710842871.1A
Other languages
English (en)
Other versions
CN107749301B (zh
Inventor
谢奇彬
廖钊
陈洁珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MEDELI ELECTRONICS (SHANGHAI) CO Ltd
Original Assignee
MEDELI ELECTRONICS (SHANGHAI) CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MEDELI ELECTRONICS (SHANGHAI) CO Ltd filed Critical MEDELI ELECTRONICS (SHANGHAI) CO Ltd
Priority to CN201710842871.1A priority Critical patent/CN107749301B/zh
Publication of CN107749301A publication Critical patent/CN107749301A/zh
Application granted granted Critical
Publication of CN107749301B publication Critical patent/CN107749301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供一种音色样本重构方法及系统、存储介质及终端设备,包括以下步骤:对音色样本进行分析,获取所述音色样本的基频;基于所述基频获取所述音色样本中包含的循环段的长度;基于所述循环段的长度获取所述音色样本的调整频率;基于所述调整频率获取重构的循环段;基于所述重构的循环段和所述音色样本获取重构音色样本。本发明的音色样本重构方法及系统、存储介质及终端设备基于重构的音乐样本中的loop段音频来合成新的音乐样本,在保证所合成的音乐样本的品质的前提下极大地提升了重构效率。

Description

一种音色样本重构方法及系统、存储介质及终端设备
技术领域
本发明涉及数字信号处理的技术领域,特别是涉及一种音色样本重构方法及系统、存储介质及终端设备。
背景技术
对于电子琴等电子乐器而言,通过触发键盘按键来播放预先录制并处理好的乐器录音,以达到音乐输出的效果。通常,所采用的录音被称为音色样本。由于电子乐器的存储空间的有限,故录制好的音色样本需要进行处理之后才能使用。
对于基于波形的采样而言,loop功能是对一个采样中的一部分进行不停地重复的回放。被重复的部分可以非常短也可以非常的长。这种loop的出现是因为当初内存价格十分昂贵。试想一下,一个木管乐器,它的声音在一个初始的attack之后,进入一个维持阶段。为了节省资源,可以不停地重复回放这个维持阶段来得到一个很长的音,而不用为了得到这种很长的音去对整个长音进行采样。
为了减小音色样本的大小,需要寻找到音色样本中的loop段。其中,loop段越是靠前,音色样本也就越小。
音色样本在播放到loop段开始循环后,一个好的loop段需要满足声音自然、没有杂音的要求。然而,通过音色制作人员人工寻找loop段具有以下不足:
(1)耗时较高,效率低下;
(2)在loop段越靠前的情况下,无法准确找到所有的loop段。
因此,导致音色样本的处理效率低下,且在loop段的同度拍频、loop衔接的平滑度以及8度协和性方面达不到预设要求。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种音色样本重构方法及系统、存储介质及终端设备,基于重构的音乐样本中的loop段音频来合成新的音乐样本,在保证所合成的音乐样本的品质的前提下极大地提升了重构效率。
为实现上述目的及其他相关目的,本发明提供一种音色样本重构方法,包括以下步骤:对音色样本进行分析,获取所述音色样本的基频;基于所述基频获取所述音色样本中包含的循环段的长度;基于所述循环段的长度获取所述音色样本的调整频率;基于所述调整频率获取重构的循环段;基于所述重构的循环段和所述音色样本获取重构音色样本。
于本发明一实施例中,对于单通道音色样本,获取音色样本的基频包括以下步骤:
对所述音色样本进行带通滤波;
对于带通滤波后的音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
基于奈奎斯特采样定理对所述频谱图进行重采样,获取重采样后所述频谱图中各个功率的绝对值;
选取功率的绝对值最大的采样点对应的频率为所述音色样本的基频。
于本发明一实施例中,对于双通道音色样本,获取音色样本的基频包括以下步骤:
获取每个通道下所述音色样本的基频;
将两个通道下所述音色样本的基频的平均值作为所述双通道音色样本的基频。
于本发明一实施例中,基于所述基频获取所述音色样本中包含的循环段的长度包括以下步骤:
计算所述基频的最大整数周期其中pitch为基频,len为期望循环段长度;Fs为所述音色样本的采样率,表示向下取整;
计算循环段的长度其中[]表示四舍五入取整。
于本发明一实施例中,基于所述循环段的长度获取所述音色样本的调整频率包括以下步骤:
对于所述音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
在所述频谱图中大于预设阈值的频率中,选取所对应的功率从大到小位于前第二预设数量的频率;
基于每个所选取的频率di,计算循环段的循环次数其中looplength为循环段的长度,Fs为所述音色样本的采样率,[]表示四舍五入取整,i为1到第二预设数量的整数;
计算每个所选取的频率di下所述音色样本的调整频率
于本发明一实施例中,基于所述调整频率获取重构的循环段包括以下步骤:
计算每个所选取的频率di对应的重构波形其中ci为频率di对应的功率,phi为频率di对应的相位,j为0到looplength的整数;
计算重构的循环段其中n为所述第二预设数量与1的差值。
于本发明一实施例中,基于所述重构的循环段和所述音色样本获取重构音色样本,包括以下步骤:
对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本;
对于所述重构的循环段的最后第三预设数量的采样点的功率,乘以从0到1均匀增加的系数,得到第二子样本;
将所述第一子样本和所述第二子样本相加,再与所述重构的循环段进行拼接,即为所获取的重构音色样本。
对应地,本发明还提供一种音色样本重构系统,包括第一获取模块、第二获取模块、第三获取模块、第四获取模块和第五获取模块;
所述第一获取模块用于对音色样本进行分析,获取所述音色样本的基频;
所述第二获取模块用于基于所述基频获取所述音色样本中包含的循环段的长度;
所述第三获取模块用于基于所述循环段的长度获取所述音色样本的调整频率;
所述第四获取模块用于基于所述调整频率获取重构的循环段;
所述第五获取模块用于基于所述重构的循环段和所述音色样本获取重构音色样本。
于本发明一实施例中,对于单通道音色样本,所述第一获取模块获取音色样本的基频执行以下步骤:
对所述音色样本进行带通滤波;
对于带通滤波后的音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
基于奈奎斯特采样定理对所述频谱图进行重采样,获取重采样后所述频谱图中各个功率的绝对值;
选取功率的绝对值最大的采样点对应的频率为所述音色样本的基频。
于本发明一实施例中,对于双通道音色样本,所述第一获取模块获取音色样本的基频执行以下步骤:
获取每个通道下所述音色样本的基频;
将两个通道下所述音色样本的基频的平均值作为所述双通道音色样本的基频。
于本发明一实施例中,所述第二获取模块基于所述基频获取所述音色样本中包含的循环段的长度执行以下步骤:
计算所述基频的最大整数周期其中pitch为基频,len为期望循环段长度;Fs为所述音色样本的采样率,表示向下取整;
计算循环段的长度其中[]表示四舍五入取整。
于本发明一实施例中,所述第三获取模块基于所述循环段的长度获取所述音色样本的调整频率执行以下步骤:
对于所述音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
在所述频谱图中大于预设阈值的频率中,选取所对应的功率从大到小位于前第二预设数量的频率;
基于每个所选取的频率di,计算循环段的循环次数其中looplength为循环段的长度,Fs为所述音色样本的采样率,[]表示四舍五入取整,i为1到第二预设数量的整数;
计算每个所选取的频率di下所述音色样本的调整频率
于本发明一实施例中,所述第四获取模块基于所述调整频率获取重构的循环段执行以下步骤:
计算每个所选取的频率di对应的重构波形其中ci为频率di对应的功率,phi为频率di对应的相位,j为0到looplength的整数;
计算重构的循环段其中n为所述第二预设数量与1的差值。
于本发明一实施例中,所述第五获取模块基于所述重构的循环段和所述音色样本获取重构音色样本执行以下步骤:
对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本;
对于所述重构的循环段的最后第三预设数量的采样点的功率,乘以从0到1均匀增加的系数,得到第二子样本;
将所述第一子样本和所述第二子样本相加,再与所述重构的循环段进行拼接,即为所获取的重构音色样本。
同时,本发明还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述音色样本重构方法。
最后,本发明还提供一种终端设备,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行上述音色样本重构方法。
如上所述,本发明的音色样本重构方法及系统、存储介质及终端设备,具有以下有益效果:
(1)通过对音乐样本进行一系列处理来重构的所包含loop段音频;通过重构的loop段音频来合成新的音乐样本,从而减小了音乐样本的大小;
(2)极大地提升了音乐样本的重构效率;
(3)在loop段的同度拍频、loop衔接的平滑度以及8度协和性方面达到预设要求,保证了所重构音乐样本的品质,且克服了loop段靠前时难以提取的缺陷。
附图说明
图1显示为本发明的音色样本重构方法于一实施例中的流程图;
图2显示为本发明的音色样本重构系统于一实施例中的结构示意图;
图3显示为本发明的终端设备于一实施例中的结构示意图。
元件标号说明
1 音色样本重构系统
11 第一获取模块
12 第二获取模块
13 第三获取模块
14 第四获取模块
15 第五获取模块
3 终端设备
31 处理器
31 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,于一实施例中,本发明的音色样本重构方法包括以下步骤:
步骤S1、对音色样本进行分析,获取所述音色样本的基频。
通常,声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。基音的频率即为基频,其决定整个音的音高。
优选地,以预设采样频率对音色样本进行采样分析,基于所获得的采样点的频率来获取所述音色样本的基频。优选地,采样频率Fs为44100Hz。针对单通道音频和双通道音频,基频的获取方式略有不同。
于本发明一实施例中,对于单通道音色样本,获取音色样本的基频包括以下步骤:
11)对所述音色样本进行带通滤波。
具体地,采用三阶带通巴特沃斯(Butterworth)滤波器对所述音色样本进行滤波,以滤掉除通频带之外的所有频率,从而去除噪声干扰。Butterworth滤波器的特点是通频带内的频率响应曲线最大限度平坦,没有起伏,而在阻频带则逐渐下降为零。
12)对于带通滤波后的音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图。
优选地,第一预设数量为65536。
13)基于奈奎斯特采样定理对所述频谱图进行重采样,获取重采样后所述频谱图中各个功率的绝对值。
为了不失真地恢复模拟信号,根据奈奎斯特采样定理,采样频率应该不小于模拟信号频谱中最高频率的2倍。因此,重采样后所述频谱图中各个功率的绝对值为其中x(fnTs)为滤波后的所述音色样本的频谱图中功率的绝对值,xa(f)为x(fn)重采样后频谱图中功率的绝对值,fn为FFT变换中的频率点,取整数,f为重采样点,Ts为采样间隔。
优选地,设定采样间隔Ts为1,fn的取值范围为[-20,20],则利用对FFT结果的绝对值x(fn)进行128倍的重采样,以提高结果精度。其中,x(fn)为滤波后的所述音色样本的频谱图中各个功率的绝对值。
14)选取功率的绝对值最大的采样点对应的频率为所述音色样本的基频。
具体地,功率的绝对值xa(f)对应的采样点的频率即为所述音色样本的基频。
于本发明一实施例中,对于双通道音色样本,获取音色样本的基频包括以下步骤:
A)获取每个通道下所述音色样本的基频。
具体地,采用单通道音频样本的基频获取方法来获取每个通道下所述音色样本的基频。
B)将两个通道下所述音色样本的基频的平均值作为所述双通道音色样本的基频。
具体地,设定两个通道下所述音色样本的基频分别为a和b,则所述双通道音色样本的基频为(a+b)/2。
步骤S2、基于所述基频获取所述音色样本中包含的循环段的长度。
于本发明一实施例中,基于所述基频获取所述音色样本中包含的循环段的长度包括以下步骤:
21)计算所述基频的最大整数周期其中pitch为基频,len为期望循环段长度,为自定义值;Fs为所述音色样本的采样率,表示向下取整。
例如,当采样率是44.1KHZ时,若希望loop长度为1s,则可设定len=1s*44.1KHZ=44100。
22)计算循环段的长度其中[]表示四舍五入取整。
步骤S3、基于所述循环段的长度获取所述音色样本的调整频率。
具体地,基于所述循环段的长度来获取所述音色样本中特定频率调整后的调整频率。
于本发明一实施例中,基于所述循环段的长度获取所述音色样本的调整频率包括以下步骤:
31)对于所述音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图。
32)在所述频谱图中大于预设阈值的频率中,选取所对应的功率从大到小位于前第二预设数量的频率。
优选地,预设阈值为所述音色样本的基频与预设频率中较小的值。优选地,预设频率为40Hz,第二预设数量为1000。在所述频谱图中大于预设阈值的频率中,选取功率从大到小的前1000个频率,并将这1000个频率分别记为d0d1…d999,对应的功率记为c0c1…c999,对应的相位记为ph0ph1…ph999。其中,预设频率需根据实际情况进行设定;若太小,则消耗资源过多,若太大,则会失去人耳能听到的低频成分。
33)基于每个所选取的频率di,计算循环段的循环次数其中looplength为循环段的长度,Fs为所述音色样本的采样率,[]表示四舍五入取整。i为1到第二预设数量的整数。
具体地,针对每个所选定的频率di来计算对应的循环段的循环次数,从而能够得到第二预设数量个循环次数。
34)计算每个所选取的频率di下所述音色样本的调整频率
具体地,针对每个所选定的频率di来计算其所对应的调整频率。
步骤S4、基于所述调整频率获取重构的循环段。
于本发明一实施例中,基于所述调整频率获取重构的循环段包括以下步骤:
41)计算每个所选取的频率di对应的重构波形其中ci为频率di对应的功率,phi为频率di对应的相位,j为0到looplength的整数。
具体地,针对每个所选取的频率di计算对应的重构波形。
42)计算重构的循环段其中n为所述第二预设数量与1的差值。
具体地,将所选取的频率的重构波形累加起来便可得到重构的循环段。
步骤S5、基于所述重构的循环段和所述音色样本获取重构音色样本。
于本发明一实施例中,基于所述重构的循环段和所述音色样本获取重构音色样本包括以下步骤:
51)对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本。
优选地,第三预设数量为4410,则选取所述音色样本中所述循环段起点前4410个采样点。其中,这里的1代表音量100%,0代表音量0%。
52)对于所述重构的循环段的最后第三预设数量的采样点的功率,乘以从0到1均匀增加的系数,得到第二子样本。
53)将所述第一子样本和所述第二子样本相加,再与所述重构的循环段进行拼接,即为所获取的重构音色样本。
具体地,所述第一子样本和所述第二子样本相加后,再拼接上所述重构的循环段,即为重构的音色样本,从而减小了音乐样本的大小;在loop段的同度拍频、loop衔接的平滑度以及8度协和性方面达到预设要求,保证了所重构音乐样本的品质,且克服了loop段靠前时难以提取的缺陷。
其中,第一子样本中音量从100%均匀减少到0%,第二子样本中音量从0%均匀增加到100%,相加后即能达成从第一个样本过度到第二个样本的效果,从而实现两段样本波形的无缝衔接。
如图2所示,于一实施例中,本发明的音色样本重构系统1包括依次相连的第一获取模块11、第二获取模块12、第三获取模块13、第四获取模块14和第五获取模块15。
第一获取模块11用于对音色样本进行分析,获取所述音色样本的基频。
通常,声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动,由它发出的音就是基音,其余为泛音。基音的频率即为基频,其决定整个音的音高。
优选地,以预设采样频率对音色样本进行采样分析,基于所获得的采样点的频率来获取所述音色样本的基频。优选地,采样频率Fs为44100Hz。针对单通道音频和双通道音频,基频的获取方式略有不同。
于本发明一实施例中,对于单通道音色样本,第一获取模块11获取音色样本的基频执行以下步骤:
11)对所述音色样本进行带通滤波。
具体地,采用三阶带通巴特沃斯(Butterworth)滤波器对所述音色样本进行滤波,以滤掉除通频带之外的所有频率,从而去除噪声干扰。Butterworth滤波器的特点是通频带内的频率响应曲线最大限度平坦,没有起伏,而在阻频带则逐渐下降为零。
12)对于带通滤波后的音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图。
优选地,第一预设数量为65536。
13)基于奈奎斯特采样定理对所述频谱图进行重采样,获取重采样后所述频谱图中各个功率的绝对值。
为了不失真地恢复模拟信号,根据奈奎斯特采样定理,采样频率应该不小于模拟信号频谱中最高频率的2倍。因此,重采样后所述频谱图中各个功率的绝对值为其中x(fnTs)为滤波后的所述音色样本的频谱图中功率的绝对值,xa(f)为x(fn)重采样后频谱图中功率的绝对值,fn为FFT变换中的频率点,取整数,f为重采样点,Ts为采样间隔。
优选地,设定采样间隔Ts为1,fn的取值范围为[-20,20],则利用对FFT结果的绝对值x(fn)进行128倍的重采样,以提高结果精度。其中,x(fn)为滤波后的所述音色样本的频谱图中各个功率的绝对值。
14)选取功率的绝对值最大的采样点对应的频率为所述音色样本的基频。
具体地,功率的绝对值xa(f)对应的采样点的频率即为所述音色样本的基频。
于本发明一实施例中,对于双通道音色样本,获取音色样本的基频包括以下步骤:
A)获取每个通道下所述音色样本的基频。
具体地,采用单通道音频样本的基频获取方法来获取每个通道下所述音色样本的基频。
B)将两个通道下所述音色样本的基频的平均值作为所述双通道音色样本的基频。
具体地,设定两个通道下所述音色样本的基频分别为a和b,则所述双通道音色样本的基频为(a+b)/2。
第二获取模块12用于基于所述基频获取所述音色样本中包含的循环段的长度。
于本发明一实施例中,第二获取模块12基于所述基频获取所述音色样本中包含的循环段的长度执行以下步骤:
21)计算所述基频的最大整数周期其中pitch为基频,len为期望循环段长度,为自定义值;Fs为所述音色样本的采样率,表示向下取整。
例如,当采样率是44.1KHZ时,若希望loop长度为1s,则可设定len=1s*44.1KHZ=44100。
22)计算循环段的长度其中[]表示四舍五入取整。
第三获取模块13用于基于所述循环段的长度获取所述音色样本的调整频率。
具体地,基于所述循环段的长度来获取所述音色样本中特定频率调整后的调整频率。
于本发明一实施例中,第三获取模块13基于所述循环段的长度获取所述音色样本的调整频率执行以下步骤:
31)对于所述音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图。
32)在所述频谱图中大于预设阈值的频率中,选取所对应的功率从大到小位于前第二预设数量的频率。
优选地,预设阈值为所述音色样本的基频与预设频率中较小的值。优选地,预设频率为40Hz,第二预设数量为1000。在所述频谱图中大于预设阈值的频率中,选取功率从大到小的前1000个频率,并将这1000个频率分别记为d0d1…d999,对应的功率记为c0c1…c999,对应的相位记为ph0ph1…ph999。其中,预设频率需根据实际情况进行设定;若太小,则消耗资源过多,若太大,则会失去人耳能听到的低频成分。
33)基于每个所选取的频率di,计算循环段的循环次数其中looplength为循环段的长度,Fs为所述音色样本的采样率,[]表示四舍五入取整。i为1到第二预设数量的整数。
具体地,针对每个所选定的频率di来计算对应的循环段的循环次数,从而能够得到第二预设数量个循环次数。
34)计算每个所选取的频率di下所述音色样本的调整频率
具体地,针对每个所选定的频率di来计算其所对应的调整频率。
第四获取模块14用于基于所述调整频率获取重构的循环段。
于本发明一实施例中,第四获取模块14基于所述调整频率获取重构的循环段执行以下步骤:
41)计算每个所选取的频率di对应的重构波形其中ci为频率di对应的功率,phi为频率di对应的相位,j为0到looplength的整数。
具体地,针对每个所选取的频率di计算对应的重构波形。
42)计算重构的循环段其中n为所述第二预设数量与1的差值。
具体地,将所选取的频率的重构波形累加起来便可得到重构的循环段。
第五获取模块15用于基于所述重构的循环段和所述音色样本获取重构音色样本。
于本发明一实施例中,第五获取模块15基于所述重构的循环段和所述音色样本获取重构音色样本执行以下步骤:
51)对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本。
51)对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本。
优选地,第三预设数量为4410,则选取所述音色样本中所述循环段起点前4410个采样点。其中,这里的1代表音量100%,0代表音量0%。
52)对于所述重构的循环段的最后第三预设数量的采样点的功率,乘以从0到1均匀增加的系数,得到第二子样本。
53)将所述第一子样本和所述第二子样本相加,再与所述重构的循环段进行拼接,即为所获取的重构音色样本。
具体地,所述第一子样本和所述第二子样本相加后,再拼接上所述重构的循环段,即为重构的音色样本,从而减小了音乐样本的大小;在loop段的同度拍频、loop衔接的平滑度以及8度协和性方面达到预设要求,保证了所重构音乐样本的品质,且克服了loop段靠前时难以提取的缺陷。
其中,第一子样本中音量从100%均匀减少到0%,第二子样本中音量从0%均匀增加到100%,相加后即能达成从第一个样本过度到第二个样本的效果,从而实现两段样本波形的无缝衔接。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC),或,一个或多个微处理器(digitalsingnalprocessor,简称DSP),或,一个或者多个现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessingUnit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
于一实施例中,本发明的存储介质上存储有计算机程序,该程序被处理器执行时实现上述音色样本重构方法。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图3所示,于一实施例中,本发明的终端设备3包括处理器31及存储器32。
所述存储器32用于存储计算机程序,所述处理器31用于执行所述存储器31存储的计算机程序,以使所述终端执行上述音色样本重构方法。
优选地,所述处理器32可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明音色样本重构方法及系统、存储介质及终端设备通过对音乐样本进行一系列处理来重构的所包含loop段音频;通过重构的loop段音频来合成新的音乐样本,从而减小了音乐样本的大小;极大地提升了音乐样本的重构效率;在loop段的同度拍频、loop衔接的平滑度以及8度协和性方面达到预设要求,保证了所重构音乐样本的品质,且克服了loop段靠前时难以提取的缺陷。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (16)

1.一种音色样本重构方法,其特征在于,包括以下步骤:
对音色样本进行分析,获取所述音色样本的基频;
基于所述基频获取所述音色样本中包含的循环段的长度;
基于所述循环段的长度获取所述音色样本的调整频率;
基于所述调整频率获取重构的循环段;
基于所述重构的循环段和所述音色样本获取重构音色样本。
2.根据权利要求1所述的音色样本重构方法,其特征在于,对于单通道音色样本,获取音色样本的基频包括以下步骤:
对所述音色样本进行带通滤波;
对于带通滤波后的音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
基于奈奎斯特采样定理对所述频谱图进行重采样,获取重采样后所述频谱图中各个功率的绝对值;
选取功率的绝对值最大的采样点对应的频率为所述音色样本的基频。
3.根据权利要求1所述的音色样本重构方法,其特征在于,对于双通道音色样本,获取音色样本的基频包括以下步骤:
获取每个通道下所述音色样本的基频;
将两个通道下所述音色样本的基频的平均值作为所述双通道音色样本的基频。
4.根据权利要求1所述的音色样本重构方法,其特征在于,基于所述基频获取所述音色样本中包含的循环段的长度包括以下步骤:
计算所述基频的最大整数周期其中pitch为基频,len为期望循环段长度;Fs为所述音色样本的采样率,表示向下取整;
计算循环段的长度其中[]表示四舍五入取整。
5.根据权利要求1所述的音色样本重构方法,其特征在于,基于所述循环段的长度获取所述音色样本的调整频率包括以下步骤:
对于所述音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
在所述频谱图中大于预设阈值的频率中,选取所对应的功率从大到小位于前第二预设数量的频率;
基于每个所选取的频率di,计算循环段的循环次数其中looplength为循环段的长度,Fs为所述音色样本的采样率,[]表示四舍五入取整,i为1到第二预设数量的整数;
计算每个所选取的频率di下所述音色样本的调整频率
6.根据权利要求5所述的音色样本重构方法,其特征在于,基于所述调整频率获取重构的循环段,包括以下步骤:
计算每个所选取的频率di对应的重构波形其中ci为频率di对应的功率,phi为频率di对应的相位,j为0到looplength的整数;
计算重构的循环段其中n为所述第二预设数量与1的差值。
7.根据权利要求1所述的音色样本重构方法,其特征在于,基于所述重构的循环段和所述音色样本获取重构音色样本包括以下步骤:
对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本;
对于所述重构的循环段的最后第三预设数量的采样点的功率,乘以从0到1均匀增加的系数,得到第二子样本;
将所述第一子样本和所述第二子样本相加,再与所述重构的循环段进行拼接,即为所获取的重构音色样本。
8.一种音色样本重构系统,其特征在于,包括第一获取模块、第二获取模块、第三获取模块、第四获取模块和第五获取模块;
所述第一获取模块用于对音色样本进行分析,获取所述音色样本的基频;
所述第二获取模块用于基于所述基频获取所述音色样本中包含的循环段的长度;
所述第三获取模块用于基于所述循环段的长度获取所述音色样本的调整频率;
所述第四获取模块用于基于所述调整频率获取重构的循环段;
所述第五获取模块用于基于所述重构的循环段和所述音色样本获取重构音色样本。
9.根据权利要求8所述的音色样本重构系统,其特征在于,对于单通道音色样本,所述第一获取模块获取音色样本的基频执行以下步骤:
对所述音色样本进行带通滤波;
对于带通滤波后的音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
基于奈奎斯特采样定理对所述频谱图进行重采样,获取重采样后所述频谱图中各个功率的绝对值;
选取功率的绝对值最大的采样点对应的频率为所述音色样本的基频。
10.根据权利要求8所述的音色样本重构系统,其特征在于,对于双通道音色样本,所述第一获取模块获取音色样本的基频执行以下步骤:
获取每个通道下所述音色样本的基频;
将两个通道下所述音色样本的基频的平均值作为所述双通道音色样本的基频。
11.根据权利要求8所述的音色样本重构系统,其特征在于,所述第二获取模块基于所述基频获取所述音色样本中包含的循环段的长度执行以下步骤:
计算所述基频的最大整数周期其中pitch为基频,len为期望循环段长度;Fs为所述音色样本的采样率,表示向下取整;
计算循环段的长度其中[]表示四舍五入取整。
12.根据权利要求8所述的音色样本重构系统,其特征在于,所述第三获取模块基于所述循环段的长度获取所述音色样本的调整频率执行以下步骤:
对于所述音色样本,以循环段起点为中心选取第一预设数量个采样点进行FFT变换,得到所述第一预设数量个采样点对应的频谱图;
在所述频谱图中大于预设阈值的频率中,选取所对应的功率从大到小位于前第二预设数量的频率;
基于每个所选取的频率di,计算循环段的循环次数其中looplength为循环段的长度,Fs为所述音色样本的采样率,[]表示四舍五入取整,i为1到第二预设数量的整数;
计算每个所选取的频率di下所述音色样本的调整频率
13.根据权利要求12所述的音色样本重构系统,其特征在于,所述第四获取模块基于所述调整频率获取重构的循环段执行以下步骤:
计算每个所选取的频率di对应的重构波形其中ci为频率di对应的功率,phi为频率di对应的相位,j为0到looplength的整数;
计算重构的循环段其中n为所述第二预设数量与1的差值。
14.根据权利要求8所述的音色样本重构系统,其特征在于,所述第五获取模块基于所述重构的循环段和所述音色样本获取重构音色样本执行以下步骤:
对于所述音色样本中所述循环段起点前第三预设数量的采样点的功率,乘以从1到0均匀减少的系数,得到第一子样本;
对于所述重构的循环段的最后第三预设数量的采样点的功率,乘以从0到1均匀增加的系数,得到第二子样本;
将所述第一子样本和所述第二子样本相加,再与所述重构的循环段进行拼接,即为所获取的重构音色样本。
15.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述音色样本重构方法。
16.一种终端设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项所述音色样本重构方法。
CN201710842871.1A 2017-09-18 2017-09-18 一种音色样本重构方法及系统、存储介质及终端设备 Active CN107749301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710842871.1A CN107749301B (zh) 2017-09-18 2017-09-18 一种音色样本重构方法及系统、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710842871.1A CN107749301B (zh) 2017-09-18 2017-09-18 一种音色样本重构方法及系统、存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN107749301A true CN107749301A (zh) 2018-03-02
CN107749301B CN107749301B (zh) 2021-03-09

Family

ID=61255391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710842871.1A Active CN107749301B (zh) 2017-09-18 2017-09-18 一种音色样本重构方法及系统、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN107749301B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847215B (zh) * 2018-08-29 2020-07-17 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN114822580A (zh) * 2022-04-28 2022-07-29 北京奇音妙想科技有限公司 基于重采样加速计算的修正音频的音高及音色的方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1230275A (zh) * 1996-09-13 1999-09-29 塞瑞斯逻辑公司 使用可变采样率近似的波形表合成器及其方法
US6084170A (en) * 1999-09-08 2000-07-04 Creative Technology Ltd. Optimal looping for wavetable synthesis
US6944569B2 (en) * 2003-04-01 2005-09-13 Fluke Precision Measurement Ltd. Method and apparatus for generating an electronic test signal
CN1790478A (zh) * 2005-11-30 2006-06-21 北京中星微电子有限公司 一种音效文件播放方法及其装置
CN101425289A (zh) * 2008-12-04 2009-05-06 上海大学 精简宽音域音色合成算法
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN103258539A (zh) * 2012-02-15 2013-08-21 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN103915093A (zh) * 2012-12-31 2014-07-09 安徽科大讯飞信息科技股份有限公司 一种实现语音歌唱化的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1230275A (zh) * 1996-09-13 1999-09-29 塞瑞斯逻辑公司 使用可变采样率近似的波形表合成器及其方法
US6084170A (en) * 1999-09-08 2000-07-04 Creative Technology Ltd. Optimal looping for wavetable synthesis
US6944569B2 (en) * 2003-04-01 2005-09-13 Fluke Precision Measurement Ltd. Method and apparatus for generating an electronic test signal
CN1790478A (zh) * 2005-11-30 2006-06-21 北京中星微电子有限公司 一种音效文件播放方法及其装置
CN101425289A (zh) * 2008-12-04 2009-05-06 上海大学 精简宽音域音色合成算法
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
CN101901598A (zh) * 2010-06-30 2010-12-01 北京捷通华声语音技术有限公司 一种哼唱合成方法和系统
CN103258539A (zh) * 2012-02-15 2013-08-21 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
CN103915093A (zh) * 2012-12-31 2014-07-09 安徽科大讯飞信息科技股份有限公司 一种实现语音歌唱化的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MAROZEAU: "The effect of fundamental frequency on the brightness dimension of timbre", 《THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 *
周昌乐: "一种古琴音色重构仿真方法及其实现", 《系统仿真学报》 *
孟申: "论民族乐器音色样本的采集与处理", 《北方音乐》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847215B (zh) * 2018-08-29 2020-07-17 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN114822580A (zh) * 2022-04-28 2022-07-29 北京奇音妙想科技有限公司 基于重采样加速计算的修正音频的音高及音色的方法及装置

Also Published As

Publication number Publication date
CN107749301B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
US4544919A (en) Method and means of determining coefficients for linear predictive coding
CN101714379B (zh) 一种音频重采样方法
CN1197242C (zh) 数字滤波器设计
US11507807B2 (en) Audio signal processing device, audio signal processing method, and control program
CN107749301A (zh) 一种音色样本重构方法及系统、存储介质及终端设备
JP5115952B2 (ja) 雑音抑圧装置および雑音抑圧方法
JP4076887B2 (ja) ボコーダ装置
US4108036A (en) Method of and apparatus for electronically generating musical tones and the like
US6018754A (en) Apparatus for filtering a signal utilizing recursion and decimation
JP4127094B2 (ja) 残響音生成装置およびプログラム
TW202109508A (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
US4700393A (en) Speech synthesizer with variable speed of speech
CN112652290B (zh) 产生混响音频信号的方法及音频处理模型的训练方法
Primavera et al. Objective and subjective investigation on a novel method for digital reverberator parameters estimation
US5841681A (en) Apparatus and method of filtering a signal utilizing recursion and decimation
CN114742101A (zh) 一种基于机器学习的自适应稀疏模态分解方法
US5442125A (en) Signal processing apparatus for repeatedly performing a same processing on respective output channels in time sharing manner
US10303423B1 (en) Synchronous sampling of analog signals
Pang et al. Speech compression FPGA design by using different discrete wavelet transform schemes
Chinen et al. Genesynth: Noise band-based genetic algorithm analysis/synthesis framework
CN113518286B (zh) 音频信号的混响处理方法、装置、电子设备及存储介质
Song et al. FPGA implementation of covariance lattice LPC method using burg algorithm
JPS6091227A (ja) 音響解析装置の合成装置
Park et al. A Real-Time Speech Enhancement Processor for Hearing Aids in 28-nm CMOS
JPH02149011A (ja) サンプリング周波数変換装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 312, No.81, caodong Branch Road, Xuhui District, Shanghai, 200233

Applicant after: MEDELI ELECTRONICS (SHANGHAI) Co.,Ltd.

Address before: 200233 4b, building 2, No. 398 Tianlin Road, Xuhui District, Shanghai

Applicant before: MEDELI ELECTRONICS (SHANGHAI) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant