CN107871492B - 音乐合成方法和系统 - Google Patents
音乐合成方法和系统 Download PDFInfo
- Publication number
- CN107871492B CN107871492B CN201611219215.8A CN201611219215A CN107871492B CN 107871492 B CN107871492 B CN 107871492B CN 201611219215 A CN201611219215 A CN 201611219215A CN 107871492 B CN107871492 B CN 107871492B
- Authority
- CN
- China
- Prior art keywords
- music
- synthesized
- linear prediction
- information
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 20
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 20
- 230000005284 excitation Effects 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 21
- 230000005279 excitation period Effects 0.000 claims description 10
- 238000010183 spectrum analysis Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/008—Means for controlling the transition from one tone waveform to another
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/055—Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明涉及一种音乐合成方法和系统,该方法包括:获取待合成声音信息,根据待合成声音信息获取对应的线性预测系数;根据线性预测系数获取待合成声音信息的线性预测滤波器;接收乐曲输入信息,根据乐曲输入信息获取待合成乐曲信息;根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。如此,对于待合成声音信息,只需要获取对应的线性预测系数以获取对应的线性预测滤波器作为发声模型,相比于传统的采用波表文件,不需要存储音频波性文件即可有效地使待合成声音信息与待合成乐曲信息合成,可有效地降低存储容量,同时提高音乐合成效率。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种音乐合成方法和系统。
背景技术
音乐合成是一种产生并修改正弦波形并叠加,用于通过声音产生器和扬声器播放音乐的方式。
传统的音乐合成采用的是波表合成方法,通过预先将各种真实乐器所能发出的所有声音(包括各个音域、声调)录制下来,存贮为一个波表文件,重播时根据音乐文件记录的乐曲信息,从波表文件中逐一找出对应的声音信息,经声卡上的微处理器或计算机系统的处理器合成,加工后放出来。然而,由于波表文件需要存储的是音频波性文件,需记录一个波形的完整周期,音源库较大,导致耗费的存储容量大。
发明内容
基于此,有必要针对上述问题,提供一种降低存储容量的音乐合成方法和系统。
一种音乐合成方法,包括:
获取待合成声音信息;
根据所述待合成声音信息获取对应的线性预测系数;
根据所述线性预测系数获取所述待合成声音信息的线性预测滤波器;
接收乐曲输入信息,根据所述乐曲输入信息获取待合成乐曲信息;
根据所述待合成乐曲信息与所述线性预测滤波器进行编码合成得到合成音乐。
一种音乐合成系统,包括:
第一信息获取模块,用于获取待合成声音信息;
系数获取模块,用于根据所述待合成声音信息获取对应的线性预测系数;
滤波器生成模块,用于根据所述线性预测系数获取所述待合成声音信息的线性预测滤波器;
第二信息获取模块,用于接收乐曲输入信息,根据所述乐曲输入信息获取待合成乐曲信息;
信息合成模块,用于根据所述待合成乐曲信息与所述线性预测滤波器进行编码合成得到合成音乐。
上述音乐合成方法和系统,通过获取的待合成声音信息对应的线性预测系数,根据线性预测系数获取待合成声音信息的线性预测滤波器,同时,根据乐曲输入信息获取待合成乐曲信息,最后根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。如此,对于待合成声音信息,只需要获取对应的线性预测系数以获取对应的线性预测滤波器作为发声模型,相比于传统的采用波表文件,不需要存储音频波性文件即可有效地使待合成声音信息与待合成乐曲信息合成,可有效地降低存储容量,同时提高音乐合成效率。
附图说明
图1为一实施例中音乐合成方法的流程图;
图2为一实施例中根据待合成声音信息获取对应的线性预测系数的流程图;
图3为另一实施例中音乐合成方法的流程图;
图4为一实施例中音乐合成系统的结构图;
图5为一应用例中音乐合成器与系数仓库的连接示意图。
具体实施方式
线性预测编码是主要用于音频信号处理与语音处理中根据线性预测模型的信息用压缩形式表示数字语音信号谱包络的工具。本发明提供一种基于线性预测编码的音乐合成方法和系统。
参考图1,一实施例中的音乐合成方法,包括如下步骤。
S110:获取待合成声音信息。
待合成声音信息指需要被合成音乐的信息,包括语音信息、文字信息等。获取待合成声音信息可以是预先存储,也可以是通过麦克风采集声音得到,还可以是通过获取输入的文字信息得到。
S130:根据待合成声音信息获取对应的线性预测系数。
线性预测系数指线性预测模型的系数。待合成声音信息对应的线性预测系数可以通过根据线性预测模型对待合成声音信息对应的波形信号进行线性预测分析得到。例如,若获取的待合成声音信号为语音信息,则根据语音信息对应的波形进行线性预测分析得到对应的线性预测系数;若获取的待合成声音信号为文字信息,则识别文字信息获取对应的波形,对获取的波形进行线性预测分析得到对应的线性预测系数。线性预测系数可以是预先获取后存储,此时步骤S130直接从存储的线性预测系数中查找;步骤S130也可以是实时对合成声音信息进行线性预测分析得到线性预测参数。
S150:根据线性预测系数获取待合成声音信息的线性预测滤波器。
线性预测滤波器是对人体声道的共振腔的一个逼近,运算思想是使得残留误差信号最小的计算推导,用于作为模拟发声的发声模型。获取待合成声音信息的线性预测滤波器,即可得到待合成声音信息的发声模型;一种待合成声音信息可以对应多个线性预测滤波器。步骤S150可以是根据线性预测系数和预设函数模型生成对应待合成声音信息的线性预测滤波器。
S170:接收乐曲输入信息,根据乐曲输入信息获取待合成乐曲信息。
待合成乐曲信息指需要与待合成声音信息一起被合成得到音乐的乐曲信息。根据乐曲输入信息获取的待合成乐曲信息,可以是预先存储的,也可以是实时生成的。
S190:根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。
待合成乐曲信息对应发声的曲调,线性预测滤波器对应待合成声音信息的发声内容,通过将待合成乐曲信息与线性滤波器进行编码合成,得到的合成音乐为将待合成声音信息按照待合成乐曲信息对应的曲调进行发声的音乐。例如,通过麦克风采集用户说出的话“你好”,得到的待合成声音信息为对应“你好”的波形;根据通过步骤S110至步骤S190,得到合成音乐为带有曲调的“你好”。
将待合成乐曲信息与线性预测滤波器进行编码合成,可以是按照预设切换规则将多个线性预测滤波器与待合成乐曲信息进行对应合成;预设切换规则包括小节切换、音符切换、节拍切换。例如,线性预测滤波器包括1号、2号、3号、4号,预设切换规则为节拍切换,则1号线性预测滤波器对应待合成乐曲信息的第一个节拍,2号线性预测滤波器对应待合成乐曲信息的第二个节拍,3号线性预测滤波器对应待合成乐曲信息的第三个节拍,4号线性预测滤波器对应待合成乐曲信息的第四个节拍,以此类推。
上述音乐合成方法,通过获取的待合成声音信息对应的线性预测系数,根据线性预测系数获取待合成声音信息的线性预测滤波器,同时,根据乐曲输入信息获取待合成乐曲信息,最后根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。如此,对于待合成声音信息,只需要获取对应的线性预测系数以获取对应的线性预测滤波器作为发声模型,相比于传统的采用波表文件,不需要存储音频波性文件即可有效地使待合成声音信息与待合成乐曲信息合成,可有效地降低存储容量,同时提高音乐合成效率。
在一实施例中,步骤S130包括:从预设数据库中查找对应待合成声音信息的线性预测系数。
本实施例中,由预设数据库预先存储多种线性预测系数,当获取到待合成声音信息时,只需要从预设数据库中查找对应的线性预测系数即可。预设数据库只需要存储线性预测系数,不需要存储音频波性文件,存储容量小。
对应地,步骤S130之前还包括:获取多个预设信息对应的线性预测系数并存储于预设数据库。其中,预设信息可以是汉字对应的波形信号,也可以是字母对应的波形信号,例如,预先对26个字母的发声对应的波形信号进行线性预测分析得到26个字母对应的线性预测系数并存储。步骤S130具体为:识别待合成声音信息并获取与待合成声音信息对应的预设信息,查找获取的预设信息对应的线性预测系数得到待合成声音信息的线性预测系数。
在另一实施例中,参考图2,待合成声音信息为通过麦克风采集的语音波形信号。对应地,步骤S130包括步骤S131至步骤S134。
S131:对语音波形信号进行包络提取,按照提取的包络将语音波形信号分割为多个分段波。
通过进行包络提取,把人的正常说话速度,即一个信号的持续时间,作为一个预知参考值,从而从能量上对语音波形信号进行分割。
在一实施例中,步骤S131之前还包括:对语音波形信号进行去直流处理。步骤S131对去直流后的语音波形信号进行包络提取。具体地,可采用2阶iir滤波器对语音波形信号进行去直流处理。
S132:获取各分段波的时间长度,将时间长度满足预设范围的分段波作为初选波形,并提取时间长度超出预设范围的分段波。
分段波为时间上连续的信号,每一个分段波对应一个时间长度。预设范围为预设最小时长和预设最大时长构成的时间阈值范围;时长长度满足预设范围,表示时间长度大于或等于预设最小时长且小于或等于预设最大时长,此时将对应的分段波作为初选波形,每一个初选波形对应为一个发音单元,例如对应一个汉字;时间长度超出预设范围,表示时间长度小于预设最小时长或大于预设最大时长,此时提取对应的分段波。
S133:对提取的分段波进行频谱分析,对提取的分段波进行分割得到再选波形。
提取的分段波为没有从能量包络上分割的分段波。通过对提取的分段波进行频谱分析,将提取的分段波分为小块,得到多个再选波形。每一个再选波形对应一个发音单元,例如对应一个汉字。
S134:分别获取初选波形的线性预测系数和再选波形的线性预测系数。
初选波形和再选波形的线性预测系数可以是通过分别对初选波形和再选波形进行线性预测分析得到。一个初选波形或再选波形可以对应一个或多个线性预测系数,从而可对应一个或多个线性预测滤波器。
步骤S131至步骤S134通过对语音波形信从能量上进行分割得到初选波形,能量上无法分割的再从频率上分析后分割得到再选波形,获取初选波形的线性预测系数和再选波形的线性预测系数。如此,可将语音波形信号分别多个部分,每一个部分可得到对应的线性预测滤波器作为发声模型,可提高模拟发声的准确度。
在一实施例中,继续参考图2,步骤S133包括步骤S1331至步骤S1333。
S1331:按照预设帧长对提取的分段波进行分帧得到多个帧单元,对各帧单元进行频谱分析得到各帧单元的频谱数据。
预设帧长可根据实际需要具体设置。通过对提取的分段波进行分帧,可将提取的分段波分别多个帧单元,便于分小块对分段波进行频谱分析。
S1332:根据频谱数据获取相邻帧单元之间的相关度值,将各相关度值组合得到相关度序列。
相邻帧单元指从时间上连续的相邻两个帧单元。根据频谱数据获取相邻帧单元之间的相关度值,可以是对相邻两帧单元的频谱数据进行互相关计算,将互相关计算得到的值作为相关度值。将多个相邻帧单元的对应的相关度值作为元素,可得到相关度序列。
S1333:从相关度序列中选取最小的相关度值,将选取的相关度值对应的相邻帧单元位于对应分段波中的相邻位置作为分割位置,对提取的分段波进行分割得到再选波形。
相关度值越小,表示对应的两个帧单元之间的相关性越小。选取相关度序列中最小的相关度值,从而查找到对应分段波中相关性最小的相邻帧单元。相邻位置为相邻帧单元之间的相接点的位置。通过以相关度值最小的相邻真单元对应的相邻位置为分割位置,可从频率上分析后将提取的分段波进行再分割得到再选波形,准确性高。
在一实施例中,请继续参考图2,步骤S134包括步骤S1341至步骤S1344。
S1341:分别对初选波形和再选波形进行分帧,得到初选波形的初选帧和再选波形的再选帧。
初选帧为对初选波形进行分帧之后得到的帧,再选帧为对再选波形进行分帧后得到的帧。初选帧和再选帧的数量为多个。
S1342:对各初选帧和各再选帧进行自相关计算得到自相关值。
S1343:将同一初选波形的多个初选帧的自相关值组合得到初选波形的自相关序列,将同一再选波形的多个再选帧的自相关值组合得到再选波形的自相关序列。
每一个初选波形对应一个自相关序列,每一个再选波形对应一个自相关序列。
S1344:根据初选波形的自相关序列获取初选波形的线性预测系数,根据再选波形的自相关序列获取再选波形的线性预测系数。
根据自相关序列获取对应的线性预测系数,具体可以采用Levinson-Durbin算法进行求解得到。
步骤S1341至步骤S1344通过将初选波形和再选波形进行自相关分析,得到初选波形和再选波形的线性预测系数。
在一实施例中,参考图3,步骤S130之后,步骤S150之前,还包括步骤S141至步骤S143。
S141:将线性预测系数变换为频域值得到共轭极点对。
线性预测系数为时域值,通过转换为频域计算,得到线性预测系数对应的共轭极点对。
S142:在接收到音色调整指令时,根据音色调整指令调整共轭极点对。
音色调整指令用于指示进行音色调整,例如,默认音色为标准音色,当用户需要调整为浑厚音的音色时,可通过触控屏点击“音色调整为浑厚音”,即触发音色调整指令。此时,根据音色调整指令调整共轭极点对。
S143:将调整后的共轭极点反变换为时域值得到调整后的线性预测系数。
共轭极点对调整完成后,通过反变换得到调整后的共轭极点对所对应的线性预测系数,以便用于后续处理。
本实施例中,步骤S150为:根据调整后的线性预测系数获取待合成声音信息的线性预测滤波器。
通过接收音色调整指令,根据音色调整指令调整线性预测系数对应的共轭极点对,从而实现对线性预测系数的调整。如此,可提供音色调整的功能,提高音乐合成方法的功能多样性。
在一实施例中,乐曲输入信息为MIDI文件。本实施例中,步骤S170包括:解析MIDI(Musical Instrument Digital Interface电子乐器数字接口)文件,得到待合成乐曲信息。
MIDI用于音乐合成器、乐器和计算机之间交换音乐信息的一种标准协议。MIDI文件记录对乐曲的描述信息,没有记录声音本身,比如“使用某种乐器,什么音符被弹奏了,什么音符按键被松开了”。解析MIDI文件,可以得到待合成乐曲信息。例如,从MIDI中解析得到需要发C5这个音3s(秒),然后发C4这个音2s。现在需要发声的这个字是“你”跟“好”,可控制“你”采用C5进行发声,持续时间为3s,再控制“好”采用C4进行发声,持续时间为2s。
本实施例中,待合成乐曲信息由MIDI文件解析得到,对应地,音乐合成方法为将待合成声音信息合成为MIDI文件对应曲调的音乐。
在另一实施例中,乐曲输入信息为按键操作信号。本实施例中,步骤S170包括步骤(a1)至步骤(a3)。
步骤(a1):获取初始激励信号。
初始激励信号可根据实际情况设置,本实施例中,初始激励信号为白噪叠加脉冲信号。
步骤(a2):在接收到按键操作信号时,根据按键操作信号获取对应的激励周期和激励幅度。
按键操作信号为操作按键时产生的信号,不同按键对应的按键操作信号不同,可通过识别按键操作信号得到对应的按键。根据按键操作信号获取对应的激励周期和激励幅度,具体可以是根据按键操作信号识别操作不同按键的切换频率和按键的力度,并根据切换频率生成对应的激励周期,根据按键的力度生成对应的激励幅度。
步骤(a3):根据激励周期和激励幅度调整初始激励信号得到待合成乐曲信息。
根据激励周期和激励幅度调整初始激励信号,具体是将初始激励信号的周期调整为激励周期,将初始激励信号的幅度调整为激励幅度。激励周围和激励幅度可以根据实时的按键操作对应生成,则实时对初始激励信号进行调整,将调整后的激励信号作为待合成乐曲信息。
本实施例中,可根据按键操作信号生成待合成乐曲信息,因此,可支持用户实时按键操作得到待合成乐曲信息,使用便利。
参考图4,一实施例中的音乐合成系统,包括第一信息获取模块110、系数获取模块130、滤波器生成模块150、第二信息获取模块170和信息合成模块190。
第一信息获取模块110用于获取待合成声音信息。
系数获取模块130用于根据待合成声音信息获取对应的线性预测系数。
滤波器生成模块150用于根据线性预测系数获取待合成声音信息的线性预测滤波器。
第二信息获取模块170用于接收乐曲输入信息,根据乐曲输入信息获取待合成乐曲信息。
信息合成模块190用于根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。
上述音乐合成系统,通过第一信息获取模块110获取待合成声音信息,系数获取模块130获取待合成声音信息对应的线性预测系数,滤波器生成模块150根据线性预测系数获取待合成声音信息的线性预测滤波器;同时,第二信息获取模块170根据乐曲输入信息获取待合成乐曲信息,最后信息合成模块190根据待合成乐曲信息与线性预测滤波器进行编码合成得到合成音乐。如此,对于待合成声音信息,只需要获取对应的线性预测系数以获取对应的线性预测滤波器作为发声模型,相比于传统的采用波表文件,不需要存储音频波性文件即可有效地使待合成声音信息与待合成乐曲信息合成,可有效地降低存储容量,同时提高音乐合成效率。
在一实施例中,系数获取模块130用于从预设数据库中查找对应待合成声音信息的线性预测系数。本实施例中,由预设数据库预先存储多种线性预测系数,当获取到待合成声音信息时,只需要从预设数据库中查找对应的线性预测系数即可。预设数据库只需要存储线性预测系数,不需要存储音频波性文件,存储容量小。
在一实施例中,待合成声音信息为通过麦克风采集的语音波形信号。系数获取模块130包括包络分割单元(图未示)、初选波形获取单元(图未示)、再选波形获取单元(图未示)和系数提取单元(图未示)。
包络分割单元用于对语音波形信号进行包络提取,按照提取的包络将语音波形信号分割为多个分段波。初选波形获取单元用于获取各分段波的时间长度,将时间长度满足预设范围的分段波作为初选波形,并提取时间长度超出预设范围的分段波。再选波形获取单元用于对提取的分段波进行频谱分析,对提取的分段波进行分割得到再选波形。系数提取单元用于分别获取初选波形的线性预测系数和再选波形的线性预测系数。
通过对语音波形信从能量上进行分割得到初选波形,能量上无法分割的再从频率上分析后分割得到再选波形,获取初选波形的线性预测系数和再选波形的线性预测系数。如此,可将语音波形信号分别多个部分,每一个部分可得到对应的线性预测滤波器作为发声模型,可提高模拟发声的准确度。
在一实施例中,再选波形获取单元具体用于:按照预设帧长对提取的分段波进行分帧得到多个帧单元,对各帧单元进行频谱分析得到各帧单元的频谱数据;根据频谱数据获取相邻帧单元之间的相关度值,将各相关度值组合得到相关度序列;从相关度序列中选取最小的相关度值,将选取的相关度值对应的相邻帧单元位于对应分段波中的相邻位置作为分割位置,对提取的分段波进行分割得到再选波形。
通过以相关度值最小的相邻真单元对应的相邻位置为分割位置,可从频率上分析后将提取的分段波进行再分割得到再选波形,准确性高。
在一实施例中,系数提取单元具体用于分别对初选波形和再选波形进行分帧,得到初选波形的初选帧和再选波形的再选帧;对各初选帧和各再选帧进行自相关计算得到自相关值;将同一初选波形的多个初选帧的自相关值组合得到初选波形的自相关序列,将同一再选波形的多个再选帧的自相关值组合得到再选波形的自相关序列;根据初选波形的自相关序列获取初选波形的线性预测系数,根据再选波形的自相关序列获取再选波形的线性预测系数。
在一实施例中,上述音乐合成系统还包括音色调整模块(图未示),用于在系数获取模块130获取待合成声音信息对应的线性预测系数后,将线性预测系数变换为频域值得到共轭极点对;在接收到音色调整指令时,根据音色调整指令调整共轭极点对;将调整后的共轭极点反变换为时域值得到调整后的线性预测系数。本实施例中,滤波器生成模块150用于根据调整后的线性预测系数获取待合成声音信息的线性预测滤波器。
通过接收音色调整指令,根据音色调整指令调整线性预测系数对应的共轭极点对,从而实现对线性预测系数的调整。如此,可提供音色调整的功能,提高音乐合成方法的功能多样性。
在一实施例中,乐曲输入信息为MIDI文件。第二信息获取模块170用于解析MIDI文件,得到待合成乐曲信息。本实施例中,待合成乐曲信息由MIDI文件解析得到,对应地,音乐合成方法为将待合成声音信息合成为MIDI文件对应曲调的音乐。
在一实施例中,乐曲输入信息为按键操作信号。第二信息获取模块170具体用于:获取初始激励信号;在接收到按键操作信号时,根据按键操作信号获取对应的激励周期和激励幅度;根据激励周期和激励幅度调整初始激励信号得到待合成乐曲信息。本实施例中,可根据按键操作信号生成待合成乐曲信息,因此,可支持用户实时按键操作得到待合成乐曲信息,使用便利。
上述音乐合成方法可应用于音乐合成器。参考图5,一应用例中,音乐合成器可根据MIDI文件解析得到待合成乐曲信息,也可以根据按键操作信号获取待合成乐曲信息。系数仓库为存储线性预测参数的预设数据库,系数仓库中可以存储多个预设信息对应的线性预测系数作为固定存储的值,也可以存储根据采集的语音波形信号分析得到的线性预测系数作为动态存储的值。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种音乐合成方法,其特征在于,包括:
获取待合成声音信息,所述待合成声音信息为语音波形信号;
对所述语音波形信号进行包络提取,按照提取的包络将所述语音波形信号分割为多个分段波;
获取各分段波的时间长度,将所述时间长度满足预设范围的分段波作为初选波形,并提取所述时间长度超出所述预设范围的分段波;
对提取的所述分段波进行频谱分析,对提取的所述分段波进行分割得到再选波形;
分别获取所述初选波形的线性预测系数和所述再选波形的线性预测系数;
根据所述初选波形的线性预测系数和所述再选波形的线性预测系数获取所述待合成声音信息的线性预测滤波器;
接收乐曲输入信息,根据所述乐曲输入信息获取待合成乐曲信息;
根据所述待合成乐曲信息与所述线性预测滤波器进行编码合成得到合成音乐。
2.根据权利要求1所述的音乐合成方法,其特征在于,所述根据所述待合成声音信息获取对应的线性预测系数,包括:
从预设数据库中查找对应所述待合成声音信息的线性预测系数。
3.根据权利要求1所述的音乐合成方法,其特征在于,所述待合成声音信息为通过麦克风采集的语音波形信号。
4.根据权利要求3所述的音乐合成方法,其特征在于,所述对提取的分段波进行频谱分析,对提取的分段波进行分割得到再选波形,包括:
按照预设帧长对提取的分段波进行分帧得到多个帧单元,对各帧单元进行频谱分析得到各帧单元的频谱数据;
根据所述频谱数据获取相邻帧单元之间的相关度值,将各相关度值组合得到相关度序列;
从所述相关度序列中选取最小的相关度值,将选取的相关度值对应的相邻帧单元位于对应分段波中的相邻位置作为分割位置,对提取的分段波进行分割得到所述再选波形。
5.根据权利要求3所述的音乐合成方法,其特征在于,所述分别获取所述初选波形的线性预测系数和所述再选波形的线性预测系数,包括:
分别对所述初选波形和所述再选波形进行分帧,得到所述初选波形的初选帧和所述再选波形的再选帧;
对各初选帧和各再选帧进行自相关计算得到自相关值;
将同一初选波形的多个初选帧的自相关值组合得到所述初选波形的自相关序列,将同一再选波形的多个再选帧的自相关值组合得到所述再选波形的自相关序列;
根据所述初选波形的自相关序列获取所述初选波形的线性预测系数,根据所述再选波形的自相关序列获取所述再选波形的线性预测系数。
6.根据权利要求1所述的音乐合成方法,其特征在于,所述根据所述待合成声音信息获取对应的线性预测系数之后,所述根据所述线性预测系数获取所述待合成声音信息的线性预测滤波器之前,还包括:
将所述线性预测系数变换为频域值得到共轭极点对;
在接收到音色调整指令时,根据所述音色调整指令调整所述共轭极点对;
将调整后的共轭极点反变换为时域值得到调整后的线性预测系数;
所述根据所述线性预测系数获取所述待合成声音信息的线性预测滤波器,为:根据调整后的线性预测系数获取所述待合成声音信息的线性预测滤波器。
7.根据权利要求1所述的音乐合成方法,其特征在于,所述乐曲输入信息为MIDI文件;所述接收乐曲输入信息,根据所述乐曲输入信息获取待合成乐曲信息,包括:
解析所述MIDI文件,得到所述待合成乐曲信息。
8.根据权利要求1所述的音乐合成方法,其特征在于,所述乐曲输入信息为按键操作信号;所述接收乐曲输入信息,根据所述乐曲输入信息获取待合成乐曲信息,包括:
获取初始激励信号;
在接收到按键操作信号时,根据所述按键操作信号获取对应的激励周期和激励幅度;
根据所述激励周期和所述激励幅度调整所述初始激励信号得到所述待合成乐曲信息。
9.一种音乐合成系统,其特征在于,包括:
第一信息获取模块,用于获取待合成声音信息,所述待合成声音信息为语音波形信号;
系数获取模块,所述系数获取模块包括:
包络分割单元,用于对所述语音波形信号进行包络提取,按照提取的包络将所述语音波形信号分割为多个分段波;
初选波形获取单元,用于获取各分段波的时间长度,将所述时间长度满足预设范围的分段波作为初选波形,并提取所述时间长度超出所述预设范围的分段波;
再选波形获取单元,用于对提取的分段波进行频谱分析,对提取的分段波进行分割得到再选波形;
系数提取单元,用于分别获取所述初选波形的线性预测系数和所述再选波形的线性预测系数;
滤波器生成模块,用于根据所述初选波形的线性预测系数和所述再选波形的线性预测系数获取所述待合成声音信息的线性预测滤波器;
第二信息获取模块,用于接收乐曲输入信息,根据所述乐曲输入信息获取待合成乐曲信息;
信息合成模块,用于根据所述待合成乐曲信息与所述线性预测滤波器进行编码合成得到合成音乐。
10.根据权利要求9所述的音乐合成系统,其特征在于,所述待合成声音信息为通过麦克风采集的语音波形信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611219215.8A CN107871492B (zh) | 2016-12-26 | 2016-12-26 | 音乐合成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611219215.8A CN107871492B (zh) | 2016-12-26 | 2016-12-26 | 音乐合成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107871492A CN107871492A (zh) | 2018-04-03 |
CN107871492B true CN107871492B (zh) | 2020-12-15 |
Family
ID=61761445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611219215.8A Active CN107871492B (zh) | 2016-12-26 | 2016-12-26 | 音乐合成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107871492B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108877753B (zh) | 2018-06-15 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 音乐合成方法及系统、终端以及计算机可读存储介质 |
CN109637509B (zh) * | 2018-11-12 | 2023-10-03 | 平安科技(深圳)有限公司 | 一种音乐自动生成方法、装置及计算机可读存储介质 |
CN109771944B (zh) * | 2018-12-19 | 2022-07-12 | 武汉西山艺创文化有限公司 | 一种游戏音效生成方法、装置、设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3878254B2 (ja) * | 1996-06-21 | 2007-02-07 | 株式会社リコー | 音声圧縮符号化方法および音声圧縮符号化装置 |
US6226606B1 (en) * | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
JP4687936B2 (ja) * | 2001-03-22 | 2011-05-25 | ソニー株式会社 | 音声出力装置および音声出力方法、並びにプログラムおよび記録媒体 |
KR101001170B1 (ko) * | 2002-07-16 | 2010-12-15 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
JP2004287099A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 |
WO2016042659A1 (ja) * | 2014-09-19 | 2016-03-24 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
CN104952455B (zh) * | 2015-06-19 | 2019-03-15 | 珠海市杰理科技股份有限公司 | 实现混响的方法和装置 |
-
2016
- 2016-12-26 CN CN201611219215.8A patent/CN107871492B/zh active Active
Non-Patent Citations (4)
Title |
---|
A hybrid coder using the wavelet transform;S.C. Chan; K.T. Lai; C.W. Kok; K.L. Ho;《Proceedings of the IEEE-SP International Symposium on Time-Frequency and Time-Scale Analysis》;20020806;463-466 * |
A Lyrics to Singing Voice Synthesis system with variable timbre;Jinlong Li, Hongwu Yang,Weizhao Zhang,Lianhong Cai;《2010 3rd International Conference on Computational Intelligence and Industrial Application (PACIIA)》;20101204;109-112 * |
Speech-to-Singing Synthesis System:Vocal Conversion from Speaking Voices to Singing Voices by Controlling Acoustic Features Unique to Singing Voices;Takeshi SAITOU,Masataka GOTO,Masashi UNOKI,Masato AKAGI;《第十届全国人机语音通讯学术会议(NCMMSC2009)论文摘要集》;20090816;451-456 * |
基于线性预测分析的语音信号合成;米川,白俊贤;《通信电源技术》;20141125;第31卷(第6期);80-82 * |
Also Published As
Publication number | Publication date |
---|---|
CN107871492A (zh) | 2018-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4438144B2 (ja) | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 | |
US8889976B2 (en) | Musical score position estimating device, musical score position estimating method, and musical score position estimating robot | |
US6691083B1 (en) | Wideband speech synthesis from a narrowband speech signal | |
Zhu et al. | Multi-stage non-negative matrix factorization for monaural singing voice separation | |
Hainsworth et al. | Onset detection in musical audio signals | |
EP1891548B1 (en) | Method and electronic device for determining a characteristic of a content item | |
WO2007033147A1 (en) | Methods and apparatus for formant-based voice synthesis | |
JPWO2007080764A1 (ja) | 対象音分析装置、対象音分析方法および対象音分析プログラム | |
JP5127982B2 (ja) | 音楽検索装置 | |
Tsai et al. | Background music removal based on cepstrum transformation for popular singer identification | |
CN107871492B (zh) | 音乐合成方法和系统 | |
CN110472097A (zh) | 乐曲自动分类方法、装置、计算机设备和存储介质 | |
US8214216B2 (en) | Speech synthesis for synthesizing missing parts | |
RU2427909C2 (ru) | Способ формирования отпечатка для звукового сигнала | |
CN104252872A (zh) | 歌词生成方法和智能终端 | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
KR100774708B1 (ko) | 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의벨소리 및/또는 컬러링 생성 시스템 및 방법 | |
Pishdadian et al. | Classifying non-speech vocals: Deep vs signal processing representations | |
JP2006195384A (ja) | 楽曲調性算出装置および選曲装置 | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JP2004361766A (ja) | 話速変換装置、話速変換方法及びプログラム | |
JP2013041128A (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
KR101135198B1 (ko) | 음성을 이용하여 콘텐츠를 제작하는 방법 및 장치 | |
JP2009025328A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 519000 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province Patentee after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province Patentee before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd. |