CN108766409A - 一种戏曲合成方法、装置和计算机可读存储介质 - Google Patents
一种戏曲合成方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN108766409A CN108766409A CN201810516868.5A CN201810516868A CN108766409A CN 108766409 A CN108766409 A CN 108766409A CN 201810516868 A CN201810516868 A CN 201810516868A CN 108766409 A CN108766409 A CN 108766409A
- Authority
- CN
- China
- Prior art keywords
- opera
- target
- aria
- background music
- sound channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010189 synthetic method Methods 0.000 title claims abstract description 20
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims description 104
- 238000012549 training Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 19
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 238000010030 laminating Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 abstract description 3
- 230000002194 synthesizing effect Effects 0.000 abstract description 3
- 230000015654 memory Effects 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012076 audiometry Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000005266 casting Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/366—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请提供了一种戏曲合成方法、装置和计算机可读存储介质,其中,该方法包括:获取目标语音和源戏曲唱段;按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段;基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐;将所述目标戏曲唱段与生成的所述配乐进行叠加,得到以生成的所述配乐为背景乐的目标戏曲。本申请实施例通过以戏曲领域的唱腔等特色作为特征,合成戏曲唱段,根据戏曲唱段生成配乐,进而叠加形成戏曲,可以将声音合成延伸到戏曲领域,并实现具有准确戏曲特征的戏曲合成。
Description
技术领域
本申请涉及声音合成技术领域,具体而言,涉及一种戏曲合成方法、装置和计算机可读存储介质。
背景技术
声音的合成出现在上个世纪初,一开始人们的目的是使歌声和人声尽量的贴合,实现模拟人声,后来随着科技的发展,人们更倾向于通过旋律的叠加实现从文本转歌声、语音转歌声等多元的操作。相关技术中有通过使用大规模语料库的拼接,基于上下文环境调整基频、时长等声学参数来合成歌曲的方法,也有利用合成单元筛选模块和韵律、幅度修改模块合成歌曲的方法以及在谐波加噪声模型(Harmonic plus Noise Model,HNM)的基础上,采用三阶拉格朗日插值的方法确定HNM参数,从而合成歌曲的方法,但以上方法都局限于在计算机科学领域对于合成技术的讨论,而没有结合实际应用来进行研究。
发明内容
有鉴于此,本申请的目的在于提供一种戏曲合成方法、装置和计算机可读存储介质,结合实际应用,实现了更能表现声音特色的合成。
第一方面,本申请实施例提供了一种戏曲合成方法,其中,包括:
获取目标语音和源戏曲唱段;
按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;
基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;
将目标戏曲唱段与生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲歌曲。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段,包括:
分别从目标语音中提取基频特征和声道谱特征,以及从源戏曲唱段中提取基频特征和声道谱特征;
基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段,包括:
将目标语音中的基频特征,以及源戏曲唱段中的基频特征,输入预先训练好的音色控制模型,得到转换后的基频特征;以及,
将目标语音中声道谱特征,以及源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征;
将转换后的基频特征和声道谱特征进行合成,得到目标戏曲唱段。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,根据以下方式训练得到音色控制模型:
采集多个模型训练样本;其中每个模型训练样本包括目标语音样本、源戏曲唱段样本以及目标戏曲唱段样本;
将源戏曲唱段样本和目标语音样本中的基频特征和声道谱特征作为混合高斯模型GMM的输入特征,将目标戏曲唱段样本的基频特征和声道谱特征作为GMM的输出特征,训练得到GMM的映射规则,将该GMM的映射规则作为音色控制模型。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,将目标语音中声道谱特征,以及源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征,包括:
通过梅尔频率倒谱系数MFCC特征提取算法,提取目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征;
将目标语音中的唱腔特征和源戏曲唱段中的唱腔特征输入音色控制模型,得到转换后的唱腔特征;
将转换后的唱腔特征通过MFCC特征提取算法进行逆变换,得到转换后的声道谱特征。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐,包括:
基于目标戏曲唱段,获取配乐数据集,配乐数据集中包括根据目标戏曲唱段选取的多种配乐;
将配乐数据集输入预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,根据以下方式训练得到配乐生成模型:
采集多个模型训练样本,其中,每个模型训练样本包括:与戏曲唱段样本对应的配乐数据集样本,以及与该戏曲唱段样本匹配的目标配乐;
将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐;
将待测配乐以及期望生成器生成的目标配乐分别输入GAN中的判别器;
基于判别器识别出的待测配乐与目标配乐之间的差别信息,对GAN中的生成器进行调整,并返回将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐的步骤,直到待测配乐与目标配乐之间的差别信息满足预设条件,将最后得到的生成器作为配乐生成模型。
第二方面,本申请实施例还提供了一种戏曲合成装置,其中,包括:
获取模块,用于获取目标语音和源戏曲唱段;
转换模块,用于按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;
生成模块,用于基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;
叠加模块,用于将目标戏曲唱段与生成模块生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲歌曲。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,转换模块具体用于:
分别从目标语音中提取基频特征和声道谱特征,以及从源戏曲唱段中提取基频特征和声道谱特征;基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段。
第三方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中的戏曲合成方法。
本申请实施例提供上述戏曲合成方法通过获取目标语音和源戏曲唱段,按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;将目标戏曲唱段与生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲。由于戏曲具有独特唱法,相关技术中的声音合成方法难以直接应用,采用本申请实施例的方法,可以将声音合成延伸到戏曲领域,并实现具有准确戏曲特征的戏曲合成。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种戏曲合成方法的流程图;
图2示出了本申请实施例所提供的音色转换的的流程图;
图3示出了本申请实施例所提供的配乐合成的流程图;
图4示出了本申请实施例所提供的采集配乐数据集的示意图;
图5示出了本申请实施例所提供的GAN网络的结构示意图;
图6示出了本申请实施例所提供的一种戏曲合成装置的功能单元框图;
图7示出了本申请实施例所提供的执行一种戏曲合成方法的电子设备的硬件结构的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到相关技术都局限于在计算机科学领域对于合成技术的讨论,而没有结合实际应用来进行研究,难以准确表达戏曲的特征,基于此,本申请实施例提供了一种戏曲合成方法、装置和计算机可读存储介质,下面通过实施例进行描述。
实施例1
图1为本申请实施例提供的一种戏曲合成方法的流程图,如图1所示,一种戏曲合成方法包括以下步骤:
S110、获取目标语音和源戏曲唱段。
在本步骤中,获取一段期望生成的目标对象的语音和需要进行音色转换的源戏曲唱段。
S120、按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段。
在本步骤中,通过STRAIGHT算法提取目标语音和源戏曲唱段的基频特征和声道谱特征,将目标语音和源戏曲唱段的基频特征和声道谱特征输入预先训练好的音色转换模型,得到音色转换后的基频特征和声道谱特征特征,再将音色转换后的基频特征和声道谱特征特征通过STRAIGHT算法进行合成,得到具有源戏曲唱段内容和目标语音音色的目标戏曲唱段。
S130、基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐。
在本步骤中,根据目标戏曲唱段,获取与该目标戏曲唱段相关的配乐数据集,将与该目标戏曲唱段相关的配乐数据集输入预先训练好的配乐生成模型,得到与目标戏曲唱段相匹配的配乐。
S140、将目标戏曲唱段与生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲。
在本步骤中,将目标戏曲唱段以及与目标戏曲唱段相匹配的配乐按照时间顺序进行叠加,得到目标戏曲。
采用本申请实施例的方法,通过获取目标语音和源戏曲唱段,按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;将目标戏曲唱段与生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲。可以将声音合成延伸到戏曲领域,并实现具有准确戏曲特征的戏曲合成。
图2为本申请实施例提供的音色转换的的流程图,如图2所示,音色转换包括以下步骤:
S121、分别从目标语音中提取基频特征和声道谱特征,以及从源戏曲唱段中提取基频特征和声道谱特征。
在本步骤中,通过STRAIGHT算法提取目标语音的基频特征和声道谱特征。
STRAIGHT算法具有良好的时域分辨率和基频轨迹,它是基于小波变换来分析的,先从提取到的音频中找到基频位置,再通过计算得到瞬时频率,以此作为基频特征。
本申请实施例中可以通过以下方式提取基频特征和声道谱特征:
基频特征的提取:对目标语音和源戏曲唱段中的信号进行小波变换,得到小波系数,然后把小波系数转化为一组瞬时频率,得到粗定位的基频特征。根据计算得到的高频能量比、最小噪声能量等值,在上述瞬时频率中选出可能性最大的基频特征,得到平滑的基频特征的轨迹,将平滑的基频特征的轨迹上的基频特征进行快速傅里叶变换(FFT),得到精确定位的基频特征。
需要说明的是,声道谱特征的提取通常是将声源信息和声道谱信息单独提取出来,分别进行调整,但是由于本申请中声源信息和声道谱信息二者往往有很强的相关性,因此,为防止对提取结果产生影响,本申请中采用下述方式进行声道谱特征的提取:对目标语音和源戏曲唱段中的信号的声道谱进行分析,得到目标语音和源戏曲唱段中的信号的声道谱与目标语音和源戏曲唱段基频相关的周期性,通过同步平滑窗和补偿窗去除目标语音和源戏曲唱段中声道谱在时域中的周期性,同样的,通过平滑窗和补偿窗去除目标语音和源戏曲唱段中声道谱在频域中的周期性,得到声道谱特征。
S122、将目标语音中的基频特征,以及源戏曲唱段中的基频特征,输入预先训练好的音色控制模型,得到转换后的基频特征。
在本步骤中,将提取后的基频特征输入音色控制模型中,在音色控制模型中有预先训练好的目标语音和源戏曲唱段中的的基频特征的映射关系,通过这种映射关系得到转换后的基频特征。
这里,还可以采用单高斯模型法转换基频,利用目标语音基频的均值和方差以及源戏曲唱段中的基频的均值和方差,得到转换后的基频特征。
S123将目标语音中声道谱特征,以及源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征。
在本步骤中,为针对目标语音和源戏曲唱段中的唱腔特征进行音色转换,还需要通过梅尔频率倒谱系数MFCC特征提取算法,提取目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征。
通过梅尔频率倒谱系数MFCC特征提取算法,提取目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征;将目标语音中的唱腔特征和源戏曲唱段中的唱腔特征输入音色控制模型,得到转换后的唱腔特征;将转换后的唱腔特征通过MFCC特征提取算法进行逆变换,得到转换后的声道谱特征。
具体的,MFCC的全称是梅尔频率倒谱系数(Mel-frequency cepstralcoefficients),通过MFCC特征提取算法,对目标语音的声道谱特征和源戏曲唱段的声道谱特征使用对数幅度压缩和扭曲频率离散余弦变换,将对目标语音的声道谱特征和源戏曲唱段的声道谱特征转化为MFCC参数,进而得到目标语音中的唱腔特征和源戏曲唱段中的唱腔特征,其中,对目标语音的声道谱特征和源戏曲唱段的声道谱特征使用对数幅度压缩和扭曲频率离散余弦变换包括:分别将目标语音的声道谱特征和源戏曲唱段的声道谱特征进行预加重、分帧、加窗、离散傅里叶变换、对数能量计算以及提取动态差分参数(包括一阶差分参数和二阶差分参数)处理,得到目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征。
将提取得到目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征输入到音色控制模型中,在音色控制模型中有预先训练好的目标语音和源戏曲唱段中经过MFCC特征提取后的唱腔特征的映射关系,通过这种映射关系得到转换后的唱腔特征。
在得到转换后的唱腔特征之后,还可以将转换后的唱腔特征进行MFCC的逆变换,得到转换后的声道谱特征。
S124、将转换后的基频特征和声道谱特征进行合成,得到目标戏曲唱段。
在本步骤中,通过STRAIGHT算法的基音同步叠加过程,将转换后的基频特征和声道谱特征进行合成,得到具有目标语音音色,源戏曲唱段中内容的目标戏曲唱段,STRAIGHT测听实验表明,即使在灵敏度高的耳机的测听条件下,重新合成的言语信号与原始信号几乎没有区别。
这里,虽然目标语音和目标戏曲唱段都是由相同的人体器官所发出的,但是戏曲更注重旋律的情感表达,为了得到具有准确情感表达且自然流畅的目标戏曲唱段,还需要对目标戏曲唱段的旋律进行调整。具体的,将合成后的目标戏曲唱段中的音高、音调、颤音、单字的时长以及频率根据实际需要,进行调整,得到调整旋律后的目标戏曲唱段。其中,单字的时长调整包括:声母部分时长、声母到韵母的过渡部分时长、韵母部分时长以及单字总时长,声母部分时长是按照比例进行调整,是经过大量语音与戏曲对比中得出的,声母到韵母过渡的区域时长保持不变,韵母部分时长变化使音节总时长能与乐谱中每个音符所对应的时长一致。
上述音色控制模型的训练过程如下:
采集多个模型训练样本;其中每个模型训练样本包括目标语音样本、源戏曲唱段样本以及目标戏曲唱段样本。这里,采集的样本均来自专业戏曲演员录制的清唱音频库。
将源戏曲唱段样本和目标语音样本中的基频特征和声道谱特征作为混合高斯模型GMM的输入特征,将目标戏曲唱段样本的基频特征和声道谱特征作为GMM的输出特征,训练得到GMM的映射规则,将该GMM的映射规则作为音色控制模型。
具体的,高斯混合模型(Gaussian Mixture Model,GMM),可以表示为不同的高斯概率函数的线性组合。通过straight算法分别提取目标语音样本中的基频特征和声道谱特征特征以及源戏曲唱段样本中的基频特征和声道谱特征特征,通过DTW算法将目标语音样本中的基频特征和声道谱特征以及源戏曲唱段中的基频特征和声道谱特征进行时间对齐。通过多个高斯模型的加权和建立目标语音样本中的基频特征和源戏曲唱段样本中的基频特征的映射关系,训练得到基频特征在GMM中的映射规则。将目标语音样本中的声道谱特征和源戏曲唱段中的声道谱特征通过MFCC特征提取算法提取目标语音样本中的唱腔特征和源戏曲唱段中的唱腔特征,通过多个高斯模型的加权和建立目标语音样本中的唱腔特征和源戏曲唱段中的唱腔特征映射关系,训练得到声道谱特征在GMM的映射规则。将基频特征在GMM中的映射规则和声道谱特征在GMM的映射规则作为音色控制模型。虽然音素的种类是确定的,但是由于上下文的影响,每个音素在不同情况下会有差异,通过GMM来构建音色控制模型,可以找出每次可能性最高的映射。GMM模型实现的是估计样本的概率密度分布,从而增加算法的准确性,完成两种语音之间的转换。
图3为本申请实施例提供的配乐合成的流程图,如图3所示,配乐生成包括以下步骤:
S131、基于目标戏曲唱段,获取配乐数据集,配乐数据集中包括根据目标戏曲唱段选取的多种配乐。
在本步骤中,根据目标戏曲唱段,获取与其相关的配乐数据集,图4为本申请实施例所提供的采集配乐数据集的示意图,如图4所示,根据目标戏曲唱段,采集的配乐数据集中,一些乐器在某段配乐中只有几个音符,这种情况会使得数据过于稀疏,因此,需要通过合并类似乐器的音轨来解决这种数据不平衡问题。将每个多音轨京剧配乐都各自合并到胡琴、笛、唢呐、鼓、钹五类乐器曲目中,这五类乐器都是戏曲配乐中最常用的乐器。
在音轨合并之后,可以将合并音轨后的数据集进行筛选,选出具有最佳匹配置信度的乐曲,另外,因为需要合成的是戏曲唱段,戏曲表演中没有唱词的部分的配乐不是我们需要的,所以还要筛选出京剧文场唱词的配乐。
为了获得有意义的配乐来训练时间模型,需要将配乐数据集进行数据清洗,进而获取处理后的配乐数据集。将4个小节看作一个配乐片段,并把较长的段落切分为合适的长度。由于过高或过低的音高不常见,因此舍去低于C1或高于C8的情况,目标输出张量的大小为4(小节)×96(时步)×84(音高)×5(音轨)。这样就完成了配乐数据集的处理。
S132、将配乐数据集输入预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐。
在本步骤中,将处理后的配乐数据集输入预先训练好的配乐生成模型,得到与目标戏曲唱段相匹配的配乐。
本申请实施例中配乐生成模型训练方式如下:
采集多个模型训练样本,其中,每个模型训练样本包括:与戏曲唱段样本对应的配乐数据集样本,以及与该戏曲唱段样本匹配的目标配乐。例如,录制5000首京剧背景配乐作为配乐数据集样本。
图5为本申请实施例提供的GAN网络的结构示意图,如图5所示,配乐合成训练包括:
将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐;将待测配乐以及期望生成器生成的目标配乐分别输入GAN中的判别器。
具体的,生成式对抗网络(Generative adversarial networks),缩写为GAN网络,主要由生成部分(即生成器)和判别部分(即判别器)组成,输入与戏曲唱段样本对应的配乐数据集样本,通过生成器得到待测配乐,将该戏曲唱段样本匹配的目标配乐与待测配乐相混合并送入判别器,给出判别结果真或假,按照此结果,回传差别信息,修正生成器,重新生成待测配乐并输入到判别器中进行判断,直至认为生成器性能最优。
GAN网络中的生成器和判别器的置信度可以通过以下方式训练得到:
训练判别器的置信度:更新判别器的置信度,判别器循环k次,每次准备一组待测配乐以及一组目标配乐,计算判别器的置信度的梯度,最后用梯度上升法更新判别器的置信度。
训练生成器的置信度:更新生成器的置信度,准备一组待测配乐,计算生成器的置信度的梯度,再用梯度下降法更新生成器的置信度。
其中,训练判别器的置信度时有一个k次的循环,因为在开始训练生成器之前,首先需要确保判别器的性能足够好,这样才能保证对应的生成器能够很好地发挥作用;训练生成器的置信度时,求梯度时只需要计算伪数据对应的部分,这是因为真数据不是由生成器产生的,因此其对应的梯度为零。
生成器记为G,判别器记为D,配乐数据集样本记为z,将配乐数据集样本输入生成器,经过生成器得到待测配乐G(z),然后由判别器根据置信度对输入的目标配乐x与待测配乐G(z)来分别输出一个概率值,判别器据此来判断输入的是目标配乐还是生成的待测配乐,进而也就可以判断生成器的性能好坏。最终当判别器无法区分目标配乐x和待测配乐G(z)的时候,就认为生成器的性能达到了最优。
基于判别器识别出的待测配乐与目标配乐之间的差别信息,对GAN中的生成器进行调整,并返回将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐的步骤,直到待测配乐与目标配乐之间的差别信息满足预设条件,将最后得到的生成器作为配乐生成模型。
具体的,判别器返回的差别信息用来修正生成器,将在训练过程中,差别信息达到最小值时,则说明生成器达到了最优性能。判别器的目标是使生成器生成的待测配乐在判别器上的表现D(x)和目标配乐在判别器上的表现D(G(z))的差别信息尽可能大,这样就可以进行区分,而生成器的目标则是使D(G(z))与D(x)差别信息尽可能小,让判别器不能区分。因此,模块的优化过程是一个相互竞争相互对抗的过程,生成器和判别器的性能在反复迭代过程中不断提高,直到最终D(G(z))与目标配乐的表现D(x)一致,此时生成器和判别器都不能再进一步优化,将最后得到的生成器作为配乐生成模型。
该训练过程可建模成朴素Minmax,对朴素Minmax进行求对数和求期望的操作以进行优化,这样可以有效降低数据分布的偏差,而且,因为不必要求合成的伪数据本身与真数据相同,而是变为了要求拟合伪数据得到的分布与拟合真数据得到的分布尽量一致,可以进一步提高模型的泛化能力。
GAN网络可以直接输入真实的数据,并且GAN网络生成的数据可以完全逼近真实数据,该特点便是GAN网络最大的优势,GAN网络的目的是对数据样本的潜在分布进行估计测算,然后根据估测结果生成新的数据样本,该网络正在图像和视觉计算、语音和语言处理等领域被广泛研究,具有巨大的应用前景。
实施例2
与上述实施例1中一种戏曲合成方法相对应的,本申请实施例还提供了一种戏曲合成装置,图6为本申请实例所提供的一种戏曲合成装置的功能单元框图,如图6所示,该装置包括:
获取模块210,用于获取目标语音和源戏曲唱段;
转换模块220,用于按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;
生成模块230,用于基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;
叠加模块240,用于将目标戏曲唱段与生成模块生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲歌曲。
可选地,转换模块220具体用于,分别从目标语音中提取基频特征和声道谱特征,以及从源戏曲唱段中提取基频特征和声道谱特征;基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段。
可选地,转换模块220具体用于:
将目标语音中的基频特征,以及源戏曲唱段中的基频特征,输入预先训练好的音色控制模型,得到转换后的基频特征;以及,
将目标语音中声道谱特征,以及源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征;
将转换后的基频特征和声道谱特征进行合成,得到目标戏曲唱段。
可选地,装置还包括:音色控制模型训练模块250,用于根据以下方式训练得到音色控制模型:
采集多个模型训练样本;其中每个模型训练样本包括目标语音样本、源戏曲唱段样本以及目标戏曲唱段样本;
将源戏曲唱段样本和目标语音样本中的基频特征和声道谱特征作为混合高斯模型GMM的输入特征,将目标戏曲唱段样本的基频特征和声道谱特征作为GMM的输出特征,训练得到GMM的映射规则,将该GMM的映射规则作为音色控制模型。
可选地,转换模块220具体用于:
通过梅尔频率倒谱系数MFCC特征提取算法,提取目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征;
将目标语音中的唱腔特征和源戏曲唱段中的唱腔特征输入音色控制模型,得到转换后的唱腔特征;
将转换后的唱腔特征通过MFCC特征提取算法进行逆变换,得到转换后的声道谱特征。
可选地,生成模块230具体用于:
基于目标戏曲唱段,获取配乐数据集,配乐数据集中包括根据目标戏曲唱段选取的多种配乐;
将配乐数据集输入预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐。
可选地,装置还包括:配乐生成模型训练模块260,用于根据以下方式训练得到配乐生成模型:
采集多个模型训练样本,其中,每个模型训练样本包括:与戏曲唱段样本对应的配乐数据集样本,以及与该戏曲唱段样本匹配的目标配乐;
将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐;
将待测配乐以及期望生成器生成的目标配乐分别输入GAN中的判别器;
基于判别器识别出的待测配乐与目标配乐之间的差别信息,对GAN中的生成器进行调整,并返回将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐的步骤,直到待测配乐与目标配乐之间的差别信息满足预设条件,将最后得到的生成器作为配乐生成模型。
实施例3
本申请实施例提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令被处理器运行时执行上述申请实施例一中的戏曲方法。
实施例4
图7是本申请实施例提供的执行一种戏曲合成方法的电子设备的硬件结构的示意图,如图7所示,该设备包括:
一个或多个处理器310以及存储器320,图3中以一个处理器310为例。
处理器310和存储器320可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器320作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的一种戏曲合成方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的戏曲合成方法。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种戏曲合成方法的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件或其他非易失性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至运行一种戏曲合成方法的处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器320中,当被一个或者多个处理器310执行时,执行上述任意方法实施例中的一种戏曲合成方法。
本申请实施例所提供的进行一种戏曲合成方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的一种戏曲合成装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种戏曲合成方法,其特征在于,包括:
获取目标语音和源戏曲唱段;
按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段;
基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐;
将所述目标戏曲唱段与生成的所述配乐进行叠加,得到以生成的所述配乐为背景乐的目标戏曲。
2.根据权利要求1所述的方法,其特征在于,按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段,包括:
分别从所述目标语音中提取基频特征和声道谱特征,以及从所述源戏曲唱段中提取基频特征和声道谱特征;
基于所述目标语音中的基频特征和声道谱特征,以及所述源戏曲唱段中的基频特征和声道谱特征,生成所述目标戏曲唱段。
3.根据权利要求2所述的方法,其特征在于,基于所述目标语音中的基频特征和声道谱特征,以及所述源戏曲唱段中的基频特征和声道谱特征,生成所述目标戏曲唱段,包括:
将所述目标语音中的基频特征,以及所述源戏曲唱段中的基频特征,输入预先训练好的音色控制模型,得到转换后的基频特征;以及,
将所述目标语音中声道谱特征,以及所述源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征;
将转换后的基频特征和声道谱特征进行合成,得到所述目标戏曲唱段。
4.根据权利要求3所述的方法,其特征在于,根据以下方式训练得到所述音色控制模型:
采集多个模型训练样本;其中每个模型训练样本包括目标语音样本、源戏曲唱段样本以及目标戏曲唱段样本;
将所述源戏曲唱段样本和所述目标语音样本中的基频特征和声道谱特征作为混合高斯模型GMM的输入特征,将目标戏曲唱段样本的基频特征和声道谱特征作为所述GMM的输出特征,训练得到所述GMM的映射规则,将该GMM的映射规则作为所述音色控制模型。
5.根据权利要求3所述的方法,其特征在于,将所述目标语音中声道谱特征,以及所述源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征,包括:
通过梅尔频率倒谱系数MFCC特征提取算法,提取所述目标语音的声道谱特征中的唱腔特征和所述源戏曲唱段的声道谱特征中的唱腔特征;
将所述目标语音中的唱腔特征和所述源戏曲唱段中的唱腔特征输入所述音色控制模型,得到转换后的唱腔特征;
将所述转换后的唱腔特征通过所述MFCC特征提取算法进行逆变换,得到所述转换后的声道谱特征。
6.根据权利要求1所述的方法,其特征在于,基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐,包括:
基于所述目标戏曲唱段,获取配乐数据集,所述配乐数据集中包括根据所述目标戏曲唱段选取的多种配乐;
将所述配乐数据集输入所述预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐。
7.根据权利要求1所述的方法,其特征在于,根据以下方式训练得到所述配乐生成模型:
采集多个模型训练样本,其中,每个模型训练样本包括:与戏曲唱段样本对应的配乐数据集样本,以及与该戏曲唱段样本匹配的目标配乐;
将所述配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐;
将所述待测配乐以及期望生成器生成的所述目标配乐分别输入所述GAN中的判别器;
基于所述判别器识别出的所述待测配乐与所述目标配乐之间的差别信息,对所述GAN中的生成器进行调整,并返回所述将所述配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐的步骤,直到所述待测配乐与所述目标配乐之间的差别信息满足预设条件,将最后得到的生成器作为所述配乐生成模型。
8.一种戏曲合成装置,其特征在于,包括:
获取模块,用于获取目标语音和源戏曲唱段;
转换模块,用于按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段;
生成模块,用于基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐;
叠加模块,用于将所述目标戏曲唱段与所述生成模块生成的所述配乐进行叠加,得到以生成的所述配乐为背景乐的目标戏曲歌曲。
9.根据权利要求8所述的装置,其特征在于,所述转换模块具体用于:
分别从所述目标语音中提取基频特征和声道谱特征,以及从所述源戏曲唱段中提取基频特征和声道谱特征;基于所述目标语音中的基频特征和声道谱特征,以及所述源戏曲唱段中的基频特征和声道谱特征,生成所述目标戏曲唱段。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器运行时执行权利要求1-7中任意一项所述的戏曲合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810516868.5A CN108766409A (zh) | 2018-05-25 | 2018-05-25 | 一种戏曲合成方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810516868.5A CN108766409A (zh) | 2018-05-25 | 2018-05-25 | 一种戏曲合成方法、装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108766409A true CN108766409A (zh) | 2018-11-06 |
Family
ID=64006411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810516868.5A Pending CN108766409A (zh) | 2018-05-25 | 2018-05-25 | 一种戏曲合成方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108766409A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584846A (zh) * | 2018-12-21 | 2019-04-05 | 成都嗨翻屋科技有限公司 | 一种基于生成对抗网络的旋律生成方法 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN110288965A (zh) * | 2019-05-21 | 2019-09-27 | 北京达佳互联信息技术有限公司 | 一种音乐合成方法、装置、电子设备及存储介质 |
CN110600012A (zh) * | 2019-08-02 | 2019-12-20 | 特斯联(北京)科技有限公司 | 一种人工智能学习的模糊语音语义识别方法及系统 |
CN110853457A (zh) * | 2019-10-31 | 2020-02-28 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 可互动的音乐教学指导方法 |
CN111370011A (zh) * | 2020-02-21 | 2020-07-03 | 联想(北京)有限公司 | 一种替换音频的方法、装置、系统和存储介质 |
CN111402919A (zh) * | 2019-12-12 | 2020-07-10 | 南京邮电大学 | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
CN112614477A (zh) * | 2020-11-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06138880A (ja) * | 1992-10-28 | 1994-05-20 | Yamaha Corp | 楽音合成装置と方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN105070283A (zh) * | 2015-08-27 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 为歌声语音配乐的方法和装置 |
CN105740394A (zh) * | 2016-01-27 | 2016-07-06 | 广州酷狗计算机科技有限公司 | 歌曲生成方法、终端及服务器 |
CN106155470A (zh) * | 2015-04-21 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种音频文件生成方法及装置 |
CN107301857A (zh) * | 2016-04-15 | 2017-10-27 | 青岛海青科创科技发展有限公司 | 一种给旋律自动配伴奏的方法及系统 |
-
2018
- 2018-05-25 CN CN201810516868.5A patent/CN108766409A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06138880A (ja) * | 1992-10-28 | 1994-05-20 | Yamaha Corp | 楽音合成装置と方法 |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN106155470A (zh) * | 2015-04-21 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种音频文件生成方法及装置 |
CN105070283A (zh) * | 2015-08-27 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 为歌声语音配乐的方法和装置 |
CN105740394A (zh) * | 2016-01-27 | 2016-07-06 | 广州酷狗计算机科技有限公司 | 歌曲生成方法、终端及服务器 |
CN107301857A (zh) * | 2016-04-15 | 2017-10-27 | 青岛海青科创科技发展有限公司 | 一种给旋律自动配伴奏的方法及系统 |
Non-Patent Citations (2)
Title |
---|
HAO-WEN DONG等人: "MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment", 《ARXIV:1709.06298》 * |
黄婓: "基于隐变量模型的歌曲转换方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584846A (zh) * | 2018-12-21 | 2019-04-05 | 成都嗨翻屋科技有限公司 | 一种基于生成对抗网络的旋律生成方法 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN109817197B (zh) * | 2019-03-04 | 2021-05-11 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN110288965A (zh) * | 2019-05-21 | 2019-09-27 | 北京达佳互联信息技术有限公司 | 一种音乐合成方法、装置、电子设备及存储介质 |
CN110288965B (zh) * | 2019-05-21 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 一种音乐合成方法、装置、电子设备及存储介质 |
CN110600012A (zh) * | 2019-08-02 | 2019-12-20 | 特斯联(北京)科技有限公司 | 一种人工智能学习的模糊语音语义识别方法及系统 |
CN110853457A (zh) * | 2019-10-31 | 2020-02-28 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 可互动的音乐教学指导方法 |
CN111402919A (zh) * | 2019-12-12 | 2020-07-10 | 南京邮电大学 | 一种基于多尺度多视图的戏曲唱腔风格识别方法 |
CN111370011A (zh) * | 2020-02-21 | 2020-07-03 | 联想(北京)有限公司 | 一种替换音频的方法、装置、系统和存储介质 |
CN112614477A (zh) * | 2020-11-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
CN112614477B (zh) * | 2020-11-16 | 2023-09-12 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108766409A (zh) | 一种戏曲合成方法、装置和计算机可读存储介质 | |
CN104272382B (zh) | 基于模板的个性化歌唱合成的方法和系统 | |
CN110364140B (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
Story et al. | Formant measurement in children’s speech based on spectral filtering | |
Quatieri et al. | Audio signal processing based on sinusoidal analysis/synthesis | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
US11842720B2 (en) | Audio processing method and audio processing system | |
Hayes et al. | A review of differentiable digital signal processing for music and speech synthesis | |
Atkar et al. | Speech synthesis using generative adversarial network for improving readability of Hindi words to recuperate from dyslexia | |
Gómez et al. | Deep learning for singing processing: Achievements, challenges and impact on singers and listeners | |
Gupta et al. | Deep learning approaches in topics of singing information processing | |
US20210350783A1 (en) | Sound signal synthesis method, neural network training method, and sound synthesizer | |
O’Callaghan | Mimetic instrumental resynthesis | |
Mores | Vowel quality in violin sounds—A timbre analysis of Italian masterpieces | |
Wang et al. | Beijing opera synthesis based on straight algorithm and deep learning | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
Bonada et al. | Spectral approach to the modeling of the singing voice | |
JP5810947B2 (ja) | 発声区間特定装置、音声パラメータ生成装置、及びプログラム | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
Diment et al. | Group delay function from all-pole models for musical instrument recognition | |
Blaauw | Modeling timbre for neural singing synthesis: methods for data-efficient, reduced effort voice creation, and fast and stable inference | |
Li et al. | A lyrics to singing voice synthesis system with variable timbre | |
Chien et al. | An acoustic-phonetic model of F0 likelihood for vocal melody extraction | |
TWI302296B (zh) | ||
US20210366453A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |