CN110164460A - 歌唱合成方法和装置 - Google Patents
歌唱合成方法和装置 Download PDFInfo
- Publication number
- CN110164460A CN110164460A CN201910307769.0A CN201910307769A CN110164460A CN 110164460 A CN110164460 A CN 110164460A CN 201910307769 A CN201910307769 A CN 201910307769A CN 110164460 A CN110164460 A CN 110164460A
- Authority
- CN
- China
- Prior art keywords
- note
- target
- song
- trill
- target song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010189 synthetic method Methods 0.000 title claims abstract description 14
- 238000004088 simulation Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000013179 statistical model Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 239000002131 composite material Substances 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 abstract description 10
- 238000003786 synthesis reaction Methods 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000011295 pitch Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007689 inspection Methods 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 241000288673 Chiroptera Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Abstract
本申请提供了一种歌唱合成方法和装置,该方法包括:获取目标歌曲的乐谱图像,该乐谱图像包括歌词和五线谱;根据该目标歌曲的乐谱图像和歌唱生成模型,确定该目标歌曲的音频特征,该歌唱生成模型是基于统计学模型算法训练得到的,该音频特征包括基频;根据该目标歌曲的基频,确定该目标歌曲包括的多个音符和该多个音符中每个音符的时长;根据该多个音符中每个音符的时长,确定该多个音符中待加入颤音的目标音符;在该目标音符的基频上加入模拟颤音,得到歌唱合成结果。采用本申请提供的歌唱合成方法和装置,能够提高歌唱合成的自然度,从而更加贴近真人的演唱。
Description
技术领域
本申请涉及智能决策领域,并且更具体地,涉及智能决策领域中歌唱合成方法和装置。
背景技术
歌唱合成技术,其目的是让机器通过学习,把带有歌词的乐谱图像转换为歌唱语音的技术,是现代人工智能发展在音乐和娱乐领域的重要分支。歌唱合成最大的难题之一就是歌声的自然度。
根据在歌唱生成中使用的参照资源,歌唱声音合成可以分为两类。在第一类中,歌唱声音由歌词合成,被称为歌词至歌唱的合成。在第二类中,歌唱声音由歌词的口语表达生成,被称为说话直歌唱的合唱。
然而,采用现有的歌唱合成技术,合成自然度较差,与真人演唱的效果差别较大。
发明内容
本申请提供一种歌唱合成方法和装置,能够提高歌唱合成的自然度,从而更加贴近真人的演唱。
为实现上述目的,本申请提供一种歌唱合成方法,包括以下内容:
获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;
根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;
根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
在一种可能的实现方式中,根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,包括:提取所述目标歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征,所述歌词的语言学特征包括发音和前后文关系,所述五线谱的音乐特征包括音调、拍号、各音符的音高、各音符的时长;根据所述目标歌曲的语言学特征、所述目标歌曲的音乐特征和所述歌唱生成模型,确定所述目标歌曲的音频特征。
在一种可能的实现方式中,根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符,包括:将所述多个音符中时长大于预设的第一时长的音符确定为所述目标音符。
在一种可能的实现方式中,在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果之前,所述方法还包括:根据所述目标音符的时长,确定所述模拟颤音的信号参数,所述模拟颤音为正弦波信号,所述信号参数包括振幅和频率;根据所述模拟颤音的信号参数,得到所述模拟颤音。
在一种可能的实现方式中,所述方法还包括:检查所述目标音符所在片段中包括的每个音符的音量;若所述片段中包括的所有音符的平均音量大于所述目标歌曲中包括的所有音符的平均音量,则降低所述片段中包括的每个音符的音量。
在一种可能的实现方式中,在根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征之前,所述方法还包括:获取多个样本歌曲中每个样本歌曲的乐谱图像和所述每个样本歌曲的清唱录音;提取所述每个样本歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征;提取所述每个样本歌曲的清唱录音中的音频特征;将所述每个样本歌曲的语言学特征、所述每个样本歌曲的音乐特征和所述每个样本歌曲的音频特征输入到统计学模型算法中,训练得到所述歌唱生成模型。
在一种可能的实现方式中,所述统计学模型为隐马尔可夫模型。
为实现上述目的,本申请还提供一种歌唱合成装置,该装置具体包括:
获取单元,用于获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
确定单元,用于根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
处理单元,用于在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
在一种可能的实现方式中,所述装置还包括提取单元,所述提取单元用于提取所述目标歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征,所述歌词的语言学特征包括发音和前后文关系,所述五线谱的音乐特征包括音调、拍号、各音符的音高、各音符的时长;所述确定单元具体用于根据所述目标歌曲的语言学特征、所述目标歌曲的音乐特征和所述歌唱生成模型,确定所述目标歌曲的音频特征。
在一种可能的实现方式中,所述确定单元具体用于将所述多个音符中时长大于预设的第一时长的音符确定为所述目标音符。
在一种可能的实现方式中,所述确定单元具体用于在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果之前,根据所述目标音符的时长,确定所述模拟颤音的信号参数,所述模拟颤音为正弦波信号,所述信号参数包括振幅和频率;所述处理单元还用于根据所述模拟颤音的信号参数,得到所述模拟颤音。
在一种可能的实现方式中,所述装置还包括检查单元,所述检查单元用于检查所述目标音符所在片段中包括的每个音符的音量;所述处理单元还用于若所述片段中包括的所有音符的平均音量大于所述目标歌曲中包括的所有音符的平均音量,则降低所述片段中包括的每个音符的音量。
在一种可能的实现方式中,所述装置还包括提取单元和训练单元,所述获取单元还用于在根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征之前,获取多个样本歌曲中每个样本歌曲的乐谱图像和所述每个样本歌曲的清唱录音;所述提取单元用于提取所述每个样本歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征;提取所述每个样本歌曲的清唱录音中的音频特征;所述训练单元用于将所述每个样本歌曲的语言学特征、所述每个样本歌曲的音乐特征和所述每个样本歌曲的音频特征输入到统计学模型算法中,训练得到所述歌唱生成模型。
在一种可能的实现方式中,所述统计学模型为隐马尔可夫模型。
为实现上述目的,本申请还提供一种计算机设备,包括存储器、处理器、通信接口以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述存储器、所述处理器以及所述通信接口之间通过内部连接通路互相通信,所述处理器执行所述计算机程序时实现上述方法的以下步骤:
获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;
根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;
根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
为实现上述目的,本申请还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的以下步骤:
获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;
根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;
根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
为实现上述目的,本申请还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的以下步骤:
获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;
根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;
根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
采用本申请提供的歌唱合成方法、装置、计算机可读存储介质和计算机设备,本利用隐马尔可夫模型(HMM)统计学模型将乐谱图像中歌词的语言学特征和五线谱的音乐特征转化为音频特征,然后利用音频特征定位需要加入颤音的位置,并用正弦波模拟颤音,能有效的提升合成歌曲的自然度,使歌唱更富有情感,贴近真人的演唱。
附图说明
图1是本申请实施例提供的歌唱合成方法的示意性流程图;
图2是本申请实施例提供的另一歌唱合成方法的示意性流程图;
图3是本申请实施例提供的歌唱合成装置的示意性框图;
图4是本申请实施例提供的另一歌唱合成装置的示意性框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的歌唱合成方法100的示意性流程图。应理解,该方法100可以由歌唱合成装置执行。
可选地,该装置可以为计算机,或者可以为计算机中的功能模块,本申请实施例对此不作限定。
S110,获取目标歌曲的乐谱图像,所述目标歌曲的乐谱图像包括歌词和五线谱。
需要说明的是,S110中的目标歌曲的乐谱图像为图片格式。
可选地,歌唱合成装置可以直接获取包含歌词和五线谱的乐谱图像;或者,可以分别获取仅包含五线谱的乐谱图像和仅包含歌词的乐谱图像本申请实施例对此不作限定。
S120,根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频。
具体地,S120可以包括:提取所述目标歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征,所述歌词的语言学特征包括发音和前后文关系,所述五线谱的音乐特征包括音符的音调、拍号、音高、音名、时长;根据所述目标歌曲的语言学特征、所述目标歌曲的音乐特征和所述歌唱生成模型,确定所述目标歌曲的音频特征。
可选地,可以通过图像识别技术和自然语言理解技术提取出乐谱图像中歌词的语言学特征。
可选地,可以通过光学乐谱识别技术提取出乐谱图像中的五线谱的音乐特征。
需要说明的是,音频特征包括基音频率(简称基频)和泛音频率(简称泛频)。一段连续的歌曲是由一系列不同音高的单一音符按照事件顺序发生组成。单一音符是比较规则的周期平稳信号,其频域包括:基音频率和泛音频率。
可选地,在S120之前,该方法还包括:训练该歌唱生成模型。
在一种可能的实现方式中,可以获取多个样本歌曲中每个样本歌曲的乐谱图像和所述每个样本歌曲的清唱录音;提取所述每个样本歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征;提取所述每个样本歌曲的清唱录音中的音频特征;将所述每个样本歌曲的语言学特征、所述每个样本歌曲的音乐特征和所述每个样本歌曲的音频特征输入到统计学模型算法中,训练得到所述歌唱生成模型。
需要说明的是,该歌唱生成模型针对多个样本歌曲中每个样本歌曲的语言学特征、每个样本歌曲的音乐特征以及所述每个样本歌曲的音频特征,通过统计学模型算法训练一个最优模型,这个模型属于某个函数的集合,最优表示在某个评价的准则下可以根据输入得到最接近实际结果的输出,使得可以通过该歌唱生成模型将输入的样本歌曲的语言学特征和音乐特征映射为相应输出的样本歌曲的音频特征。
可选地,所述上述统计学模型可以为隐马尔可夫模型(hidden markov model,HMM)。
应理解,HMM是统计学模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。HMM是一种用参数表示的用于描述随机过程统计特性的概率模型,它是一个双重随机过程。HMM由两部分组成:马尔可夫链和一般随机过程。其中马尔可夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列间的关系,用观察值概率描述。对于HMM模型,状态转换过程是不可观察的,因而称之为“隐”马尔可夫模型。
S130,根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长。
由于基音频率可以决定歌曲音乐的音高,泛音频率可以决定歌曲音乐的音色,其中,泛音频率由基音频率的整数倍频率构成。因此,只要能够准确识别歌曲的基音频率,就可以确定音符的音调、拍号、音高、音名、时长等关键信息。
可选地,可以通过时频分析方法中的短时傅里叶变换(short time fouriertrnsform,STFT)完成基频中的音符的提取。其具体方法是:将音频信号用一定长度的窗进行分割成若干帧,对每一帧分别作傅里叶变换,再求模平方得到功率谱。求功率谱中能量最大值所对应的频率点,该频率即为这一时间段对应的主频率,由于每帧信号时间足够短,可以认为该频率对应的音符为这一时间段的主要音符,将其提取出即可。当确定出所有音符之后,可得到每个音符的时长。
S140,根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符。
在一种可能的实现方式中,可以将所述多个音符中时长大于预设的第一时长的音符确定所述目标音符。
例如,该基频中的某一小节包括5个音符,时长分别为1拍、1拍、1拍、2拍、4拍;该第一时长为1拍,则确定第4个和第5个音符处需要加入颤音。
S150,在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
可选地,在S150之前,所述方法还包括:根据所述目标音符的时长,确定所述模拟颤音的信号参数,所述模拟颤音为正弦波信号,所述信号参数包括振幅和频率;根据所述模拟颤音的信号参数,得到所述模拟颤音。
可选地,可以通过声码器,实现原目标歌曲的基频和该基频中目标音符上待加入的模拟颤音的合成。
可选地,在根据所述模拟颤音的信号参数,确定所述模拟颤音之前,可以预先设置不同音符的时长与不同音符的模拟颤音的信号参数之间的映射关系。相应地,根据所述模拟颤音的信号参数,确定所述模拟颤音,包括:根据该目标音符的时长和预先设置的映射关系,确定所述模拟颤音的信号参数;根据所述模拟颤音的信号参数,得到所述模拟颤音。
例如,预先设置音符时长为t1—模拟颤音的振幅为a1、频率为b1;音符时长为t2—模拟颤音的振幅为a2、频率为b2;音符时长为t3—模拟颤音的振幅为a3、频率为b3。若该目标音符的时长为t2,则可以得到在该目标音符的基频上加入振幅为a2、频率为b2的模拟颤音。
颤音是一种常用的歌唱技巧,在体现歌手的个人特征的同时,还起到了传达歌曲的情感和意境的作用,对歌曲的自然度有着很大的影响。颤音,从声学角度分析,是基频上的小幅的,正弦的波动。
可选地,所述目标歌曲的音频特征还包括所述目标歌曲中包括的每个音符的音量,所述方法还包括:检查所述歌唱合成结果中目标音符所在片段中包括的每个音符的音量;若所述片段中包括的所有音符的平均音量大于所述目标歌曲中包括的所有音符的平均音量,则降低所述片段中包括的每个音符的音量。
由于加入颤音之后,音符的音量会增加,合成后这个片段的声音在整首歌曲中会比较突兀,通过上述方法可以使该片段与前后歌唱片段的连接更加流畅。
本方案利用隐马尔可夫模型(HMM)统计学模型将乐谱图像中歌词的语言学特征和五线谱的音乐特征转化为音频特征,然后利用音频特征定位需要加入颤音的位置,并用正弦波模拟颤音,能有效的提升合成歌曲的自然度,使歌唱更富有情感,贴近真人的演唱。
图2示出了本申请实施例提供的歌唱合成方法200的示意性流程图。应理解,该方法200可以由歌唱合成装置执行。
可选地,该装置可以为具有计算机,或者可以为计算机中的功能模块,本申请实施例对此不作限定。
S201,获取多个样本歌曲中每个样本歌曲的乐谱图像和所述每个样本歌曲的清唱录音,所述每个样本歌曲的乐谱图像包括歌词和五线谱;
S202,提取所述每个样本歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征,所述歌词的语言学特征包括发音和前后文关系,所述五线谱的音乐特征包括音符的音调、拍号、音高、音名和时长;
S203,提取所述每个样本歌曲的清唱录音中的音频特征,所述音频特征包括基频;
S204,将所述每个样本歌曲的语言学特征、所述每个样本歌曲的音乐特征和所述每个样本歌曲的音频特征输入到统计学模型中,训练得到歌唱生成模型;
S205,获取目标歌曲的乐谱图像;
S206,根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征;
S207,根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;
S208,根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
S209,在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
上面结合图1和图2介绍了本申请实施例提供的歌唱合成方法,下面将结合图3和图4介绍本申请实施例提供的歌唱合成装置。
图3示出了本申请实施例提供的歌唱合成装置300的示意性框图。该装置300包括:
获取单元310,用于获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
确定单元320,用于根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
处理单元330,用于在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
在一种可能的实现方式中,所述装置还包括提取单元,所述提取单元用于提取所述目标歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征,所述歌词的语言学特征包括发音和前后文关系,所述五线谱的音乐特征包括音调、拍号、各音符的音高、各音符的时长;所述确定单元具体用于根据所述目标歌曲的语言学特征、所述目标歌曲的音乐特征和所述歌唱生成模型,确定所述目标歌曲的音频特征。
在一种可能的实现方式中,所述确定单元具体用于将所述多个音符中时长大于预设的第一时长的音符确定为所述目标音符。
在一种可能的实现方式中,所述确定单元具体用于在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果之前,根据所述目标音符的时长,确定所述模拟颤音的信号参数,所述模拟颤音为正弦波信号,所述信号参数包括振幅和频率;所述处理单元还用于根据所述模拟颤音的信号参数,得到所述模拟颤音。
在一种可能的实现方式中,所述装置还包括检查单元,所述检查单元用于检查所述目标音符所在片段中包括的每个音符的音量;所述处理单元还用于若所述片段中包括的所有音符的平均音量大于所述目标歌曲中包括的所有音符的平均音量,则降低所述片段中包括的每个音符的音量。
在一种可能的实现方式中,所述装置还包括提取单元和训练单元,所述获取单元还用于在根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征之前,获取多个样本歌曲中每个样本歌曲的乐谱图像和所述每个样本歌曲的清唱录音;所述提取单元用于提取所述每个样本歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征;提取所述每个样本歌曲的清唱录音中的音频特征;所述训练单元用于将所述每个样本歌曲的语言学特征、所述每个样本歌曲的音乐特征和所述每个样本歌曲的音频特征输入到统计学模型算法中,训练得到所述歌唱生成模型。
在一种可能的实现方式中,所述统计学模型为隐马尔可夫模型。
图4示出了本申请实施例提供的歌唱合成装置400的示意性框图。该装置400可以为图3中所述的装置300,该装置400可以采用如图4所示的硬件架构。该装置400可以包括处理器410、通信接口420和存储器430,该处理器410、通信接口420和存储器430通过内部连接通路互相通信。图3中的确定单元320和处理单元330所实现的相关功能可以由图4中的处理器410来实现。图3中的获取单元310所实现的相关功能可以由图4中的处理器410控制通信接口420来实现。
该处理器410可以包括是一个或多个处理器,例如包括一个或多个中央处理单元(central processing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
该通信接口420用于输入和/或输出数据。该通信接口可以包括发送接口和接收接口,发送接口用于输出数据,接收接口用于输入数据。
该存储器430包括但不限于是随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程存储器(erasable programmable readonly memory,EPROM)、只读光盘(compact disc read-only memory,CD-ROM),该存储器430用于存储相关指令及数据。
存储器430用于存储该装置的程序代码和数据,可以为单独的器件或集成在处理器410中。
具体地,所述处理器410用于控制通信接口420调用存储器430中存储的代码指令并执行该代码指令。具体可参见方法实施例中的描述,在此不再赘述。
可以理解的是,图4仅仅示出了装置的简化设计。在实际应用中,该装置400还可以分别包含必要的其他元件,包含但不限于任意数量的通信接口、处理器、控制器、存储器等,而所有可以实现本申请的装置都在本申请的保护范围之内。
在一种可能的设计中,该装置400可以被替换为芯片装置,例如可以为可用于该装置中的芯片,用于实现该装置中处理器410的相关功能。该芯片装置可以为实现相关功能的现场可编程门阵列,专用集成芯片,系统芯片,中央处理器,网络处理器,数字信号处理电路,微控制器,还可以采用可编程控制器或其他集成芯片。该芯片中,可选的可以包括一个或多个存储器,用于存储程序代码,当所述代码被执行时,使得处理器实现相应的功能。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种歌唱合成方法,其特征在于,包括:
获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;
根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;
根据所述多个音符中每个音符的时长,确定所述多个音符中待加入颤音的目标音符;
在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
2.根据权利要求1所述的方法,其特征在于,根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,包括:
提取所述目标歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征,所述歌词的语言学特征包括发音和前后文关系,所述五线谱的音乐特征包括音符的音调、拍号、音高、音名和时长;
根据所述目标歌曲的语言学特征、所述目标歌曲的音乐特征和所述歌唱生成模型,确定所述目标歌曲的音频特征。
3.根据权利要求1所述的方法,其特征在于,根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符,包括:
将所述多个音符中时长大于预设的第一时长的音符确定为所述目标音符。
4.根据权利要求1所述的方法,其特征在于,在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果之前,所述方法还包括:
根据所述目标音符的时长,确定所述模拟颤音的信号参数,所述模拟颤音为正弦波信号,所述信号参数包括振幅和频率;
根据所述模拟颤音的信号参数,得到所述模拟颤音。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
检查所述目标音符所在片段中包括的每个音符的音量;
若所述片段中包括的所有音符的平均音量大于所述目标歌曲中包括的所有音符的平均音量,则降低所述片段中包括的每个音符的音量。
6.根据权利要求1至4中任一项所述的方法,其特征在于,在根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征之前,所述方法还包括:
获取多个样本歌曲中每个样本歌曲的乐谱图像和所述每个样本歌曲的清唱录音;
提取所述每个样本歌曲的乐谱图像中的歌词的语言学特征和五线谱的音乐特征;
提取所述每个样本歌曲的清唱录音中的音频特征;
将所述每个样本歌曲的语言学特征、所述每个样本歌曲的音乐特征和所述每个样本歌曲的音频特征输入到统计学模型算法中,训练得到所述歌唱生成模型。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述统计学模型为隐马尔可夫模型。
8.一种歌唱合成装置,其特征在于,包括:
获取单元,用于获取目标歌曲的乐谱图像,所述乐谱图像包括歌词和五线谱;
确定单元,用于根据所述目标歌曲的乐谱图像和歌唱生成模型,确定所述目标歌曲的音频特征,所述歌唱生成模型是基于统计学模型算法训练得到的,所述音频特征包括基频;根据所述目标歌曲的基频,确定所述目标歌曲包括的多个音符和所述多个音符中每个音符的时长;根据所述多个音符中每个音符的时长,确定所述多个音符中需要加入颤音的目标音符;
处理单元,用于在所述目标音符的基频上加入模拟颤音,得到歌唱合成结果。
9.一种计算机设备,包括存储器、处理器、通信接口以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述存储器、所述处理器以及所述通信接口之间通过内部连接通路互相通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910307769.0A CN110164460A (zh) | 2019-04-17 | 2019-04-17 | 歌唱合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910307769.0A CN110164460A (zh) | 2019-04-17 | 2019-04-17 | 歌唱合成方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110164460A true CN110164460A (zh) | 2019-08-23 |
Family
ID=67639394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910307769.0A Pending CN110164460A (zh) | 2019-04-17 | 2019-04-17 | 歌唱合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110164460A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN112562633A (zh) * | 2020-11-30 | 2021-03-26 | 北京有竹居网络技术有限公司 | 一种歌唱合成方法、装置、电子设备及存储介质 |
CN112885315A (zh) * | 2020-12-24 | 2021-06-01 | 携程旅游信息技术(上海)有限公司 | 模型的生成方法、音乐合成的方法、系统、设备及介质 |
CN112911774A (zh) * | 2021-01-18 | 2021-06-04 | 智马达汽车有限公司 | 一种氛围灯的控制方法、装置、电子设备及存储介质 |
CN113409747A (zh) * | 2021-05-28 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 歌曲生成方法、装置、电子设备及存储介质 |
WO2021218324A1 (zh) * | 2020-04-27 | 2021-11-04 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267189A (zh) * | 2008-04-16 | 2008-09-17 | 深圳华为通信技术有限公司 | 音量自动调节装置、方法以及移动终端 |
US20090314155A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
CN102355562A (zh) * | 2011-09-16 | 2012-02-15 | 青岛海信移动通信技术股份有限公司 | 一种音量控制方法及其设备 |
CN104347080A (zh) * | 2013-08-09 | 2015-02-11 | 雅马哈株式会社 | 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质 |
CN105375896A (zh) * | 2014-08-29 | 2016-03-02 | 中兴通讯股份有限公司 | 自动调节音量的方法及电子设备 |
CN106373580A (zh) * | 2016-09-05 | 2017-02-01 | 北京百度网讯科技有限公司 | 基于人工智能的合成歌声的方法和装置 |
-
2019
- 2019-04-17 CN CN201910307769.0A patent/CN110164460A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101267189A (zh) * | 2008-04-16 | 2008-09-17 | 深圳华为通信技术有限公司 | 音量自动调节装置、方法以及移动终端 |
US20090314155A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
CN102355562A (zh) * | 2011-09-16 | 2012-02-15 | 青岛海信移动通信技术股份有限公司 | 一种音量控制方法及其设备 |
CN104347080A (zh) * | 2013-08-09 | 2015-02-11 | 雅马哈株式会社 | 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质 |
CN105375896A (zh) * | 2014-08-29 | 2016-03-02 | 中兴通讯股份有限公司 | 自动调节音量的方法及电子设备 |
CN106373580A (zh) * | 2016-09-05 | 2017-02-01 | 北京百度网讯科技有限公司 | 基于人工智能的合成歌声的方法和装置 |
Non-Patent Citations (1)
Title |
---|
李贤: "基于统计模型的汉语歌声合成研究", 《中国博士学位论文全文数据库 信息科技辑》, pages 136 - 70 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021218324A1 (zh) * | 2020-04-27 | 2021-11-04 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN111681637B (zh) * | 2020-04-28 | 2024-03-22 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
CN112562633A (zh) * | 2020-11-30 | 2021-03-26 | 北京有竹居网络技术有限公司 | 一种歌唱合成方法、装置、电子设备及存储介质 |
CN112885315A (zh) * | 2020-12-24 | 2021-06-01 | 携程旅游信息技术(上海)有限公司 | 模型的生成方法、音乐合成的方法、系统、设备及介质 |
CN112885315B (zh) * | 2020-12-24 | 2024-01-02 | 携程旅游信息技术(上海)有限公司 | 模型的生成方法、音乐合成的方法、系统、设备及介质 |
CN112911774A (zh) * | 2021-01-18 | 2021-06-04 | 智马达汽车有限公司 | 一种氛围灯的控制方法、装置、电子设备及存储介质 |
CN113409747A (zh) * | 2021-05-28 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 歌曲生成方法、装置、电子设备及存储介质 |
CN113409747B (zh) * | 2021-05-28 | 2023-08-29 | 北京达佳互联信息技术有限公司 | 歌曲生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benetos et al. | Automatic music transcription: An overview | |
CN110164460A (zh) | 歌唱合成方法和装置 | |
WO2017190674A1 (zh) | 一种音频数据的处理方法、装置及计算机存储介质 | |
EP3966804A1 (en) | Multilingual speech synthesis and cross-language voice cloning | |
Humphrey et al. | An introduction to signal processing for singing-voice analysis: High notes in the effort to automate the understanding of vocals in music | |
Lehner et al. | Online, loudness-invariant vocal detection in mixed music signals | |
CN102521281A (zh) | 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法 | |
Tsunoo et al. | Beyond timbral statistics: Improving music classification using percussive patterns and bass lines | |
CN111128236B (zh) | 一种基于辅助分类深度神经网络的主乐器识别方法 | |
CN108766409A (zh) | 一种戏曲合成方法、装置和计算机可读存储介质 | |
Yu et al. | Predominant instrument recognition based on deep neural network with auxiliary classification | |
US20230402047A1 (en) | Audio processing method and apparatus, electronic device, and computer-readable storage medium | |
Bittner et al. | Pitch contours as a mid-level representation for music informatics | |
Su et al. | Sparse modeling of magnitude and phase-derived spectra for playing technique classification | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
CN111477210A (zh) | 语音合成方法和装置 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
Gupta et al. | Deep learning approaches in topics of singing information processing | |
Yang | Computational modelling and analysis of vibrato and portamento in expressive music performance | |
CN110517655B (zh) | 一种旋律生成方法及系统 | |
Gulati | Computational approaches for melodic description in indian art music corpora | |
Gajjar et al. | Computational musicology for raga analysis in Indian classical music: a critical review | |
Janer | Singing-driven interfaces for sound synthesizers | |
Shi et al. | Use of speaker recognition approaches for learning and evaluating embedding representations of musical instrument sounds | |
CN113393830B (zh) | 混合声学模型训练及歌词时间戳生成方法、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |