CN109326280B - 一种歌唱合成方法及装置、电子设备 - Google Patents
一种歌唱合成方法及装置、电子设备 Download PDFInfo
- Publication number
- CN109326280B CN109326280B CN201710640027.0A CN201710640027A CN109326280B CN 109326280 B CN109326280 B CN 109326280B CN 201710640027 A CN201710640027 A CN 201710640027A CN 109326280 B CN109326280 B CN 109326280B
- Authority
- CN
- China
- Prior art keywords
- long
- term
- song
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 22
- 230000002194 synthesizing Effects 0.000 claims abstract description 128
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 112
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 112
- 238000001228 spectrum Methods 0.000 claims description 100
- 238000002372 labelling Methods 0.000 claims description 41
- 230000000875 corresponding Effects 0.000 claims description 20
- FQKUGOMFVDPBIZ-UHFFFAOYSA-N Flusilazole Chemical compound C=1C=C(F)C=CC=1[Si](C=1C=CC(F)=CC=1)(C)CN1C=NC=N1 FQKUGOMFVDPBIZ-UHFFFAOYSA-N 0.000 claims description 17
- 230000002457 bidirectional Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000003595 spectral Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 230000000737 periodic Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002708 enhancing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/145—Composing rules, e.g. harmonic or musical rules, for use in automatic composition; Rule generation algorithms therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
Abstract
本发明公开了一种歌唱合成方法及装置、电子设备,该方法包括如下步骤:步骤一,接收待合成文本数据;步骤二,利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲,本发明可增强合成歌曲的起伏感,进一步提升合成歌曲的自然度,提升用户体验。
Description
技术领域
本发明涉及语音信号处理及机器学习领域,尤其涉及一种高自然度的歌唱合成方法及装置、电子设备。
背景技术
歌唱合成即将文本合成为歌曲,具体应用时,可以由用户提供任意文本,合成由目标发音人演唱的歌曲,如用户提供一段新闻文本,合成由周杰伦演唱的歌曲,具有较高的娱乐性。
随着移动互联网的普及,越来越多的人们喜欢把自己喜欢的文字合成相应曲调的歌曲用于娱乐。现有的歌唱合成方法一般基于传统的隐马尔可夫模型分对每种歌唱合成特征(如频谱特征、基频特征)进行建模,具体建模时,将音库中歌曲切分成单帧语音数据,利用隐马尔可夫模型进行状态级建模,建模尺度较低,对于歌曲这种时序较强的语音数据采用所述建模方法无法描述歌曲的长时韵律变化,建模效果较差,使得合成的歌曲自然度较低;而且现有方法在进行建模时,采用基于决策树聚类的方法对数据进行划分,聚到同一类的歌曲数据共享模型,容易导致合成的歌曲较平缓,起伏感降低,严重影响合成歌曲的主观听感。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种歌唱合成方法及装置、电子设备,以增强合成歌曲的起伏感,进一步提升合成歌曲的自然度,提升用户体验。
为达上述目的,本发明提供的技术方案如下:
一种歌唱合成方法,包括如下步骤:
步骤一,接收待合成文本数据;
步骤二,利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲。
进一步地,步骤一之前,还包括如下步骤:
收集海量歌曲数据;
分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。
进一步地,所述歌唱合成特征包括根据歌曲数据提取的频谱特征和基频特征,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述,所述普通长时模型包含歌曲的频谱信息及基频信息,所述残差长时模型除了包含歌曲的频谱信息及基频信息外,还包含每首歌曲的频谱残差长时信息和基频残差长时信息。
进一步地,所述每种歌唱合成特征的长时模型采用深度双向长短时记忆模型描述。
进一步地,步骤二包括:
根据所述待合成文本数据指定的乐谱信息得到歌唱合成的时长特征;
利用建模后的频谱长时模型和基频长时模型生成相应频谱特征、基频特征;
将所述时长特征、频谱特征、基频特征进行合成,合成相应的歌曲。
进一步地,所述分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型的步骤包括:
对收集歌曲进行文本标注,得到文本标注特征;
提取每首歌曲歌唱合成特征的残差信息,所述残差信息包括频谱残差长时信息与基频残差长时信息;
根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模。
进一步地,所述对收集歌曲进行文本标注,得到文本标注特征的步骤为根据每首歌曲的歌词及歌曲的乐谱信息对收集的每首歌曲进行标注,得到歌曲对应的标注文本,将每首歌曲的标注文本作为文本标注特征。
进一步地,提取频谱残差长时信息包括如下步骤:
对所有收集歌曲使用的语法单元类别进行编号;
对每首歌曲中包含的歌词以句为单位进行编号,使用第一向量表示每首歌曲中每句歌词的编号,使用第二向量表示每句歌词中每个语法单元的类别;
根据第一向量及第二向量找到每首歌曲中每句歌词中每个语法单元的类别,将第一向量和第二向量进行拼接,得到频谱残差长时向量,获得所述频谱残差长时信息。
进一步地,提取基频残差长时信息包括如下步骤:
将所有收集歌曲的演唱者及歌曲所属的类型进行编号;
使用二维矩阵来表示每首歌曲的演唱者及每首歌曲的所属的类型,从而得到基频残差长时矩阵,获得基频长时信息。
进一步地,所述根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模的步骤包括:
根据文本标注特征以及频谱残差长时信息、基频长时信息确定歌唱合成特征各长时模型的输入输出;
利用收集的海量歌曲数据分别对每种歌唱合成特征进行长时模型训练,获得每种歌唱合成特征的各长时模型。
进一步地,所述对每种歌唱合成特征进行长时模型训练的步骤包括:
利用收集的海量歌曲数据训练普通长时模型;
利用所述普通长时模型初始化残差长时模型;
利用海量歌曲数据训练残差长时模型。
进一步地,步骤二包括:
根据所述待合成文本数据指定的乐谱信息得到歌唱合成的时长特征;
利用建模后的频谱长时模型和基频长时模型生成相应频谱特征、基频特征;
将所述时长特征、频谱特征、基频特征进行合成,合成相应的歌曲。
为达到上述目的,本发明还提供一种歌唱合成装置,包括:
文本数据接收单元,用于接收待合成文本数据;
歌曲合成单元,用于利用建模后每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲。
进一步地,所述歌唱合成装置还包括:
歌曲数据收集单元,用于收集海量歌曲数据;
歌唱合成特征建模单元,用于分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。
进一步地,所述歌唱合成特征建模单元包括:
文本标注单元,用于对收集歌曲进行文本标注,得到文本标注特征;
残差信息提取单元,用于提取每首歌曲歌唱合成特征的残差信息,所述残差信息包括频谱残差长时信息与基频残差长时信息;
建模单元,用于根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模。
进一步地,所述建模单元包括:
输入输出确定单元,用于根据文本标注特征以及频谱残差长时信息、基频长时信息确定歌唱合成特征各长时模型的输入输出;
模型训练单元,用于利用收集的海量歌曲数据分别对每种歌唱合成特征进行长时模型训练,获得每种歌唱合成特征的各长时模型。
本发明还提供一种电子设备,所述电子设备包括;
存储介质,存储有多条指令,所述指令由处理器加载,执行上述歌唱合成方法的步骤;以及
处理器,用于执行所述存储介质中的指令
与现有技术相比,本发明一种歌唱合成方法及装置、电子设备的有益效果在于:
本发明一种歌唱合成方法及装置、电子设备通过利用建模后每种歌唱合成特征的长时模型对待合成文本数据进行歌唱合成,实现了对待合成文本进行歌唱合成的目的,本发明所利用的每种歌唱合成特征的长时模型考虑了歌曲的长时韵律信息,确保了利用构建的长时模型合成的歌曲的自然度更高。
附图说明
图1为本发明一种歌唱合成方法的一个实施例步骤流程图;
图2为本发明一种歌唱合成方法的另一个实施例步骤流程图;
图3为本发明具体实施例中步骤100b的细部流程图;
图4为本发明具体实施例中深度双向长短时记忆模型结构图;
图5为本发明一种歌唱合成装置的一个实施例的系统架构图;
图6为本发明一种歌唱合成装置的另一个实施例的系统架构图
图7为本发明具体实施例中歌唱合成特征建模单元的细部结构图;
图8为本发明具体实施例中建模单元的细部结构图;
图9为本发明具体实施例中歌曲合成单元的细部结构图;
图10为本发明用于歌唱合成方法的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明的一个实施例中,如图1所示,本发明一种歌唱合成方法,包括如下步骤:
步骤101,接收待合成文本数据。这里的待合成本文数据指的是用于合成歌曲的文本数据,例如一段新闻文本。
步骤102,利用建模后每种歌唱合成特征的长时模型对待合成文本数据进行歌唱合成,得到合成后的歌曲。这里的歌唱合成特征指的是根据歌曲数据提取的频谱特征和基频特征,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述。
优选地,如图2所示,于步骤101之前,本发明还包括如下步骤:
步骤100a,收集海量歌曲数据。
具体收集时,需要收集歌曲对应歌手名,歌曲的类别,歌词,及歌曲的乐谱信息。这里对具体收集方法不作限定,其可以是预先录入海量歌曲,或通过网络收集等。
步骤100b,分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。本发明于具体建模时,每种歌唱合成特征采用两个长时模型进行描述。
所述歌唱合成特征主要指根据歌曲数据提取的频谱特征和基频特征,在本发明具体实施例中,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述,其中,普通长时模型包含歌曲的频谱信息及基频信息;残差长时模型包含除了包含歌曲的频谱信息及基频信息外,还包含每首歌曲的频谱残差长时信息和基频残差长时信息,从而确保建模后合成歌曲的自然度更高。
所述长时模型采用深度双向长短时记忆模型(Deep Bidirectional Long Short-Term Memory,DBLSTM)描述,所述长时模型直接对文本与声学特征之间的条件分布进行建模,模型的拓扑结构为非线性深度层级结构,在建模时,不需要对数据进行划分,可以较好的表征文本数据,防止出现数据稀疏问题。具体地,如图3所示,步骤100b进一步包括如下步骤:
步骤S1,对收集歌曲进行文本标注,得到文本标注特征。
具体标注时,根据每首歌曲的歌词及歌曲的乐谱信息对收集的每首歌曲进行标注,得到歌曲对应的标注文本,将每首歌曲的标注文本作为文本标注特征。具体地说,每首歌曲需要标注歌词中每个字对应的音乐信息及其上下文信息,所述音乐信息即歌词中每个字在乐谱中的相关信息,如当前字的音阶、时值、强弱、节拍、节奏等,所述上下文信息即当前字分别与其前后一或多个字之间的信息,如当前字前一个字的时值,当前字前一个字的强弱,当前字前一个字,当前字后一个字等;歌词中每个字使用音素单元表示,所述音素如声韵母;标注完成后,得到每首歌曲的标注文本,将每首歌曲的标注文本作为文本标注特征,如歌唱合成中常标注924维文本特征。本发明采用的标注方法可以通过自动的方法,如直接根据乐谱提取对应音乐信息后,转换成标注文本的格式;当然也可以通过人工直接标注的方法,具体本发明不作限定。
步骤S2,提取每首歌曲歌唱合成特征的残差信息。
所述歌唱合成特征即频谱特征和基频特征,所述残差信息主要指歌手在演唱歌曲时音色或音高上的变化,这种变化在建模时单纯依赖歌唱合成特征即频谱或基频描述远远不够,因此本发明将这部分信息作为残差信息用于歌唱合成特征的建模,所述残差信息用于构建频谱残差长时模型和基频残差长时模型,具体提取方法如下所述;
步骤S21,提取频谱残差长时信息。
由于歌手演唱歌曲时,对于不同的语法单元发音音色上存在较明显的差异,当不同语法单元存在不同的歌词中时,发音音色也有变化,这种音色上的变化称为频谱残差长时特征,具体使用歌曲中每句歌词及每句歌词中语法单元的发音类别进行描述,所述语法单元如音素单元,以音素为例,所述语法单元的发音类别如元音,辅音等。具体提取频谱残差长时信息的步骤如下:
先对所有收集歌曲使用的语法单元类别进行编号,以音素为例,如中文使用60个音素,音素类别数为60;
再对每首歌曲中包含的歌词以句为单位进行编号,即对每句歌词在整首歌曲中的位置编号,使用向量1表示每首歌曲中每句歌词的编号,使用向量2表示每句歌词中每个音素的类别;
根据向量1及向量2即可以找到每首歌曲中每句歌词中每个音素的类别,将向量1和向量2进行拼接,得到频谱残差长时向量。
步骤S22,提取基频残差长时信息。
由于同一歌手演唱不同类型的歌曲,或不同歌手演唱同一类型的歌曲时,音高上存在较大变化,把不同类型歌曲或不同歌手演唱的歌曲之间的这种音高上的变化称为基频残差长时信息,使用每首歌曲的演唱者和每首歌曲所属的类型进行描述,具体提取基频残差长时信息的步骤如下:
先将所有收集歌曲的演唱者及歌曲所属的类型进行编号;
再使用二维矩阵来表示每首歌曲的演唱者及每首歌曲的所属的类型,如使用二维矩阵的行表示歌曲演唱者,列表示歌曲所属的类型,从而得到基频残差长时矩阵。
步骤S3,根据每首歌曲的标注文本特征及残差信息对歌唱合成特征进行多模型长时建模。
所述歌唱合成特征的多模型长时模型使用深度双向长短时记忆模型(DBLSTM)描述,所述模型的拓扑结构包含输入层、双向LSTM层、输出层,其中双向LSTM层中每个节点为一个单独的LSTM单元,所述LSTM单元可以保存当前节点的历史信息及未来信息,即与当前节点相关的长时信息,所述历史信息即当前节点之前的信息,未来信息即当前节点之后的信息,节点之间采用双向连接的方式,即同一层内,每个节点分别与其前后节点相连接,以便于信息的传递,深度双向长短时记忆模型包含多个双向LSTM层,具体结构如图4所示,其中xt为模型输入特征序列,ht为双向LSTM层特征序列,yt为输出特征序列。步骤S3的模型构建方法如下所述:
步骤S31,确定歌唱合成特征各长时模型的输入输出。
1)频谱普通长时模型
在本发明具体实施例中,直接将每首歌曲的文本标注特征作为DBLSTM的输入特征,输出为频谱特征,所述频谱特征在歌唱合成中一般为41维频谱和5维带状非周期成分;
2)频谱残差长时模型
在本发明具体实施例中,该模型输入为每首歌曲的文本标注特征及频谱残差长时向量,输出为频谱特征,所述频谱特征与频谱普通长时模型的频谱相同;
3)基频普通长时模型
在本发明具体实施例中,该模型直接将每首歌曲的文本标注特征作为DBLSTM的输入特征,输出为基频特征,所述基频特征在歌唱合成中一般为3维基频和1维清浊信息;
4)基频残差长时模型
在本发明具体实施例中,该模型输入为每首歌的文本标注特征及时长残差矩阵,输出为基频特征,所述基频特征与基频普通长时模型的基频特征相同;
步骤S32,对每种歌唱合成特征进行长时模型训练。
在本发明具体实施例中,利用收集的海量歌曲数据分别对每种歌唱合成特征进行模型训练。具体模型训练时,先利用收集的海量歌曲数据训练普通长时模型;再利用普通长时模型初始化残差长时模型;最后利用海量歌曲数据训练残差长时模型。具体训练时,对于频谱长时模型,以模型输出的频谱特征与从歌曲中提取的真实频谱特征之间的差值最小化更新模型参数,直到模型参数变化较小,训练结束,得到频谱长时模型;基频长时模型以模型输出的基频特征与从歌曲中提取的真实基频特征之间的差值最小化更新模型参数,直到模型参数变化较小时,训练结束,得到基频长时模型。由于每种模型的训练方法与现有技术相同,在此不予赘述。
优选地,步骤102进一步包括如下步骤:
根据待合成文本数据指定的乐谱信息得到歌唱合成的时长特征;
利用建模后的频谱长时模型和基频长时模型生成相应频谱特征、基频特征;
将所述时长特征、频谱特征、基频特征进行合成,合成相应的歌曲。
在本发明的另一个实施例中,如图5所示,本发明一种歌唱合成装置,包括:
文本数据接收单元51,用于接收待合成文本数据。这里的待合成本文数据指的是用于合成歌曲的文本数据,例如一段新闻文本。
歌曲合成单元52,用于利用建模后每种歌唱合成特征的长时模型对待合成文本数据进行歌唱合成,得到合成后的歌曲。这里的歌唱合成特征指的是根据歌曲数据提取的频谱特征和基频特征,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述。
优选地,如图6所示,本发明之歌唱合成装置还包括:
歌曲数据收集单元50a,用于收集海量歌曲数据。
具体收集时,需要收集歌曲对应歌手名,歌曲的类别,歌词,及歌曲的乐谱信息。这里具体收集方法不作限定,其可以是预先录入海量歌曲,或通过网络收集等。
歌唱合成特征建模单元50b,用于分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。本发明于具体建模时,每种歌唱合成特征采用两个长时模型进行描述。
所述歌唱合成特征主要指根据歌曲数据提取的频谱特征和基频特征,在本发明具体实施例中,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述,其中,普通长时模型包含歌曲的频谱信息及基频信息;残差长时模型包含除了包含歌曲的频谱信息及基频信息外,还包含每首歌曲的频谱残差长时信息和基频残差长时信息,从而确保建模后合成歌曲的自然度更高。
所述长时模型采用深度双向长短时记忆模型(Deep Bidirectional Long Short-Term Memory,DBLSTM)描述,所述长时模型直接对文本与声学特征之间的条件分布进行建模,模型的拓扑结构为非线性深度层级结构,在建模时,不需要对数据进行划分,可以较好的表征文本数据,防止出现数据稀疏问题。具体地,如图7所示,歌唱合成特征建模单元50b进一步包括:
文本标注单元701,用于对收集歌曲进行文本标注,得到文本标注特征。
具体标注时,文本标注单元701根据每首歌曲的歌词及歌曲的乐谱信息对收集的每首歌曲进行标注,得到歌曲对应的标注文本,将每首歌曲的标注文本作为文本标注特征。具体地说,每首歌曲需要标注歌词中每个字对应的音乐信息及其上下文信息,所述音乐信息即歌词中每个字在乐谱中的相关信息,如当前字的音阶、时值、强弱、节拍、节奏等,所述上下文信息即当前字分别与其前后一或多个字之间的信息,如当前字前一个字的时值,当前字前一个字的强弱,当前字前一个字,当前字后一个字等;歌词中每个字使用音素单元表示,所述音素如声韵母;标注完成后,得到每首歌曲的标注文本,将每首歌曲的标注文本作为文本标注特征,如歌唱合成中常标注924维文本特征。本发明采用的标注方法可以通过自动的方法,如直接根据乐谱提取对应音乐信息后,转换成标注文本的格式;当然也可以通过人工直接标注的方法,具体本发明不作限定。
残差信息提取单元702,用于提取每首歌曲歌唱合成特征的残差信息。
所述歌唱合成特征即频谱特征和基频特征,所述残差信息主要指歌手在演唱歌曲时音色或音高上的变化,这种变化在建模时单纯依赖歌唱合成特征即频谱或基频描述远远不够,因此本发明将这部分信息作为残差信息用于歌唱合成特征的建模,所述残差信息用于构建频谱残差长时模型和基频残差长时模型,残差信息提取单元702具体包括:
频谱残差长时信息提取单元7021,用于提取频谱残差长时信息。
由于歌手演唱歌曲时,对于不同的语法单元发音音色上存在较明显的差异,当不同语法单元存在不同的歌词中时,发音音色也有变化,这种音色上的变化称为频谱残差长时特征,具体使用歌曲中每句歌词及每句歌词中语法单元的发音类别进行描述,所述语法单元如音素单元,以音素为例,所述语法单元的发音类别如元音,辅音等。具体地,频谱残差长时信息提取单元通过如下步骤实现:
先对所有收集歌曲使用的语法单元类别进行编号,以音素为例,如中文使用60个音素,音素类别数为60;
再对每首歌曲中包含的歌词以句为单位进行编号,即对每句歌词在整首歌曲中的位置编号,使用向量1表示每首歌曲中每句歌词的编号,使用向量2表示每句歌词中每个音素的类别;
根据向量1及向量2即可以找到每首歌曲中每句歌词中每个音素的类别,将向量1和向量2进行拼接,得到频谱残差长时向量。
基频残差长时信息提取单元7022,用于提取基频残差长时信息。
由于同一歌手演唱不同类型的歌曲,或不同歌手演唱同一类型的歌曲时,音高上存在较大变化,把不同类型歌曲或不同歌手演唱的歌曲之间的这种音高上的变化称为基频残差长时信息,使用每首歌曲的演唱者和每首歌曲所属的类型进行描述,具体地,基频残差长时信息提取单元7022通过如下步骤实现:
先将所有收集歌曲的演唱者及歌曲所属的类型进行编号;
再使用二维矩阵来表示每首歌曲的演唱者及每首歌曲的所属的类型,如使用二维矩阵的行表示歌曲演唱者,列表示歌曲所属的类型,从而得到基频残差长时矩阵。
建模单元703,用于根据每首歌曲的标注文本特征及残差信息对歌唱合成特征进行多模型长时建模。
所述歌唱合成特征的多模型长时模型使用深度双向长短时记忆模型(DBLSTM)描述,所述模型的拓扑结构包含输入层、双向LSTM层、输出层,其中双向LSTM层中每个节点为一个单独的LSTM单元,所述LSTM单元可以保存当前节点的历史信息及未来信息,即与当前节点相关的长时信息,所述历史信息即当前节点之前的信息,未来信息即当前节点之后的信息,节点之间采用双向连接的方式,即同一层内,每个节点分别与其前后节点相连接,以便于信息的传递,深度双向长短时记忆模型包含多个双向LSTM层。具体地,如图8所示,建模单元703包括:
输入输出确定单元7031,用于确定歌唱合成特征各长时模型的输入输出。
1)频谱普通长时模型
在本发明具体实施例中,直接将每首歌曲的文本标注特征作为DBLSTM的输入特征,输出为频谱特征,所述频谱特征在歌唱合成中一般为41维频谱和5维带状非周期成分;
2)频谱残差长时模型
在本发明具体实施例中,该模型输入为每首歌曲的文本标注特征及频谱残差长时向量,输出为频谱特征,所述频谱特征与频谱普通长时模型的频谱相同;
3)基频普通长时模型
在本发明具体实施例中,该模型直接将每首歌曲的文本标注特征作为DBLSTM的输入特征,输出为基频特征,所述基频特征在歌唱合成中一般为3维基频和1维清浊信息;
4)基频残差长时模型
在本发明具体实施例中,该模型输入为每首歌的文本标注特征及时长残差矩阵,输出为基频特征,所述基频特征与基频普通长时模型的基频特征相同;
模型训练单元7032,用于对每种歌唱合成特征进行长时模型训练。
在本发明具体实施例中,模型训练单元7032利用收集的海量歌曲数据分别对每种歌唱合成特征进行模型训练。具体模型训练时,先利用收集的海量歌曲数据训练普通长时模型;再利用普通长时模型初始化残差长时模型;最后利用海量歌曲数据训练残差长时模型。具体训练时,对于频谱长时模型,以模型输出的频谱特征与从歌曲中提取的真实频谱特征之间的差值最小化更新模型参数,直到模型参数变化较小,训练结束,得到频谱长时模型;基频长时模型以模型输出的基频特征与从歌曲中提取的真实基频特征之间的差值最小化更新模型参数,直到模型参数变化较小时,训练结束,得到基频长时模型。每种模型的训练方法与现有技术相同,在此不予赘述。
优选地,如图9所示,歌曲合成单元52进一步包括:
时长特征获取单元520,用于根据待合成文本数据指定的乐谱信息得到歌唱合成的时长特征;
歌唱合成特征生成单元521,利用建模后的频谱长时模型和基频长时模型生成相应的频谱特征、基频特征;
合成单元522,将所述时长特征、频谱特征、基频特征进行合成,合成相应的歌曲。
参见图10,示出了本发明用于歌唱合成的电子设备300的结构示意图。参照图10,电子设备300包括处理组件301,其进一步包括一个或多个处理器,以及由存储介质302所代表的存储设备资源,用于存储可由处理组件301的执行的指令,例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件301被配置为执行指令,以执行上述歌唱合成方法的各步骤。
电子设备300还可以包括一个电源组件303,被配置为执行电子设备300的电源管理;一个有线或无线网络接口304,被配置为将电子设备300连接到网络;和一个输入输出(I/O)接口305。电子设备300可以操作基于存储在存储介质302的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
综上所述,本发明一种歌唱合成方法及装置、电子设备通过先收集海量歌曲数据,对收集歌曲的歌唱合成特征进行多模型长时建模,然后利用建模后每种歌唱合成特征的长时模型对待合成文本数据进行歌唱合成,实现了对待合成文本歌唱合成的目的,本发明于建模时,将每种歌唱合成特征采用两种长时模型进行描述,两种长时模型采用深度双向长短时记忆模型描述,能够选择记忆建模序列的长短,保留较长建模信息,从而在对歌唱合成特征进行建模时,更好的记忆每首歌曲的长时韵律信息,提高歌唱合成的自然度,并且本发明在建模时不需要对歌曲数据进行聚类划分,不需要共享模型,从而增强了合成歌曲的起伏感,进一步提升了合成歌曲的自然度,提升用户的体验。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种歌唱合成方法,包括如下步骤:
步骤一,接收待合成文本数据;
步骤二,利用建模获得的每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲;
其中,所述歌唱合成特征包括根据歌曲数据提取的频谱特征和基频特征,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述,所述残差长时模型除包含歌曲的频谱信息及基频信息外,还包含每首歌曲的频谱残差长时信息和基频残差长时信息;其中,所述频谱残差长时信息表示不同歌手对相同语法单元的发音音色差异或相同语法单元在不同的歌词中的发音音色差异。
2.如权利要求1所述的一种歌唱合成方法,其特征在于,步骤一之前,还包括如下步骤:
收集海量歌曲数据;
分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。
3.如权利要求2所述的一种歌唱合成方法,其特征在于:所述普通长时模型包含歌曲的频谱信息及基频信息。
4.如权利要求3所述的一种歌唱合成方法,其特征在于:所述每种歌唱合成特征的长时模型采用深度双向长短时记忆模型描述。
5.如权利要求4所述的一种歌唱合成方法,其特征在于,步骤二进一步包括:
根据所述待合成文本数据指定的乐谱信息得到歌唱合成的时长特征;
利用建模后的频谱长时模型和基频长时模型生成相应频谱特征、基频特征;
将所述时长特征、频谱特征、基频特征进行合成,合成相应的歌曲。
6.如权利要求4所述的一种歌唱合成方法,其特征在于,所述分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型的步骤进一步包括:
对收集歌曲进行文本标注,得到文本标注特征;
提取每首歌曲歌唱合成特征的残差信息,所述残差信息包括频谱残差长时信息与基频残差长时信息;
根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模。
7.如权利要求6所述的一种歌唱合成方法,其特征在于,提取频谱残差长时信息包括如下步骤:
对所有收集歌曲使用的语法单元类别进行编号;
对每首歌曲中包含的歌词以句为单位进行编号,使用第一向量表示每首歌曲中每句歌词的编号,使用第二向量表示每句歌词中每个语法单元的类别;
根据第一向量及第二向量找到每首歌曲中每句歌词中每个语法单元的类别,将第一向量和第二向量进行拼接,得到频谱残差长时向量,获得所述频谱残差长时信息。
8.如权利要求6所述的一种歌唱合成方法,其特征在于,提取基频残差长时信息包括如下步骤:
将所有收集歌曲的演唱者及歌曲所属的类型进行编号;
使用二维矩阵来表示每首歌曲的演唱者及每首歌曲的所属的类型,从而得到基频残差长时矩阵,获得所述基频残差长时信息。
9.如权利要求7或8所述的一种歌唱合成方法,其特征在于,所述根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模的步骤进一步包括:
根据所述文本标注特征以及频谱残差长时信息、基频残差长时信息确定歌唱合成特征各长时模型的输入输出,其中,频谱残差长时模型的输入为每首歌曲的文本标注特征及频谱残差长时向量,输出为频谱特征;基频残差长时模型的输入为每首歌的文本标注特征及基频残差长时信息,输出为基频特征;
利用收集的海量歌曲数据分别对每种歌唱合成特征进行长时模型训练,获得每种歌唱合成特征的各长时模型,对每种歌唱合成特征进行长时模型训练具体包括:
利用收集的海量歌曲数据训练普通长时模型;
利用所述普通长时模型初始化残差长时模型;
利用收集的海量歌曲数据训练残差长时模型。
10.一种歌唱合成装置,包括:
文本数据接收单元,用于接收待合成文本数据;
歌曲合成单元,用于利用建模获得的每种歌唱合成特征的长时模型对所述待合成文本数据进行歌唱合成,得到合成后的歌曲;
其中,所述歌唱合成特征包括根据歌曲数据提取的频谱特征和基频特征,每种歌唱合成特征分别采用普通长时模型和残差长时模型描述,所述残差长时模型除包含歌曲的频谱信息及基频信息外,还包含每首歌曲的频谱残差长时信息和基频残差长时信息;其中,所述频谱残差长时信息表示不同歌手对相同语法单元的发音音色差异或相同语法单元在不同的歌词中的发音音色差异。
11.如权利要求10所述的一种歌唱合成装置,其特征在于,所述歌唱合成装置还包括:
歌曲数据收集单元,用于收集海量歌曲数据;
歌唱合成特征建模单元,用于分别对收集歌曲的歌唱合成特征进行多模型长时建模,得到每种歌唱合成特征的长时模型。
12.如权利要求11所述的一种歌唱合成装置,其特征在于,所述歌唱合成特征建模单元包括:
文本标注单元,用于对收集歌曲进行文本标注,得到文本标注特征;
残差信息提取单元,用于提取每首歌曲歌唱合成特征的残差信息,所述残差信息包括频谱残差长时信息与基频残差长时信息;
建模单元,用于根据每首歌曲的文本标注特征及残差信息对歌唱合成特征进行多模型长时建模。
13.如权利要求12所述的一种歌唱合成装置,其特征在于,所述建模单元包括:
输入输出确定单元,用于根据文本标注特征以及频谱残差长时信息、基频残差长时信息确定歌唱合成特征各长时模型的输入输出,其中,频谱残差长时模型的输入为每首歌曲的文本标注特征及频谱残差长时向量,输出为频谱特征;基频残差长时模型的输入为每首歌的文本标注特征及基频残差长时信息,输出为基频特征;
模型训练单元,用于利用收集的海量歌曲数据分别对每种歌唱合成特征进行长时模型训练,获得每种歌唱合成特征的各长时模型。
14.一种电子设备,其特征在于,所述电子设备包括:
存储介质,存储有多条指令,所述指令由处理器加载,执行权利要求1至9任一项所述方法的步骤;以及
处理器,用于执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710640027.0A CN109326280B (zh) | 2017-07-31 | 2017-07-31 | 一种歌唱合成方法及装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710640027.0A CN109326280B (zh) | 2017-07-31 | 2017-07-31 | 一种歌唱合成方法及装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109326280A CN109326280A (zh) | 2019-02-12 |
CN109326280B true CN109326280B (zh) | 2022-10-04 |
Family
ID=65245583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710640027.0A Active CN109326280B (zh) | 2017-07-31 | 2017-07-31 | 一种歌唱合成方法及装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326280B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292717B (zh) * | 2020-02-07 | 2021-09-17 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111798821B (zh) * | 2020-06-29 | 2022-06-14 | 北京字节跳动网络技术有限公司 | 声音转换方法、装置、可读存储介质及电子设备 |
CN111862937A (zh) * | 2020-07-23 | 2020-10-30 | 平安科技(深圳)有限公司 | 歌声合成方法、装置及计算机可读存储介质 |
CN113192522B (zh) * | 2021-04-22 | 2023-02-21 | 北京达佳互联信息技术有限公司 | 音频合成模型生成方法及装置、音频合成方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040243413A1 (en) * | 2003-03-20 | 2004-12-02 | Sony Corporation | Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
CN106898340A (zh) * | 2017-03-30 | 2017-06-27 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲的合成方法及终端 |
CN106971703A (zh) * | 2017-03-17 | 2017-07-21 | 西北师范大学 | 一种基于hmm的歌曲合成方法及装置 |
-
2017
- 2017-07-31 CN CN201710640027.0A patent/CN109326280B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040243413A1 (en) * | 2003-03-20 | 2004-12-02 | Sony Corporation | Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
CN106971703A (zh) * | 2017-03-17 | 2017-07-21 | 西北师范大学 | 一种基于hmm的歌曲合成方法及装置 |
CN106898340A (zh) * | 2017-03-30 | 2017-06-27 | 腾讯音乐娱乐(深圳)有限公司 | 一种歌曲的合成方法及终端 |
Non-Patent Citations (2)
Title |
---|
"基于统计模型的汉语歌声合成研究";李贤;《中国博士学位论文全文数据库 信息科技辑》;20160315(第3期);摘要、第1-89页、图2.3-2.4、表3.1-3.2 * |
Serkan Özer."F0 Modeling For Singing Voice Synthesizers with LSTM Recurrent Neural Networks".《www.mtg.upf.edu》.2015,参见摘要、第1-39页. * |
Also Published As
Publication number | Publication date |
---|---|
CN109326280A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
CN109326280B (zh) | 一种歌唱合成方法及装置、电子设备 | |
CN106531150B (zh) | 一种基于深度神经网络模型的情感合成方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
JP5293460B2 (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN106688034A (zh) | 具有情感内容的文字至语音转换 | |
CN104391980A (zh) | 生成歌曲的方法和装置 | |
KR20070077042A (ko) | 음성처리장치 및 방법 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN101785048A (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
CN109949783B (zh) | 歌曲合成方法及系统 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
CN108492817A (zh) | 一种基于虚拟偶像的歌曲数据处理方法及演唱交互系统 | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
CN109326278B (zh) | 一种声学模型构建方法及装置、电子设备 | |
CN112164379A (zh) | 音频文件生成方法、装置、设备及计算机可读存储介质 | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
JP2013164609A (ja) | 歌唱合成用データベース生成装置、およびピッチカーブ生成装置 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
O’Callaghan | Mediated Mimesis: Transcription as Processing | |
CN110556092A (zh) | 语音的合成方法及装置、存储介质、电子装置 |