CN113223486A - 信息处理方法、装置、电子设备及存储介质 - Google Patents
信息处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113223486A CN113223486A CN202110474567.2A CN202110474567A CN113223486A CN 113223486 A CN113223486 A CN 113223486A CN 202110474567 A CN202110474567 A CN 202110474567A CN 113223486 A CN113223486 A CN 113223486A
- Authority
- CN
- China
- Prior art keywords
- word
- duration
- phoneme
- boundary
- music score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 33
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 238000002372 labelling Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000004519 manufacturing process Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 abstract description 9
- 238000012549 training Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000009423 ventilation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请公开了一种信息处理方法、装置、电子设备及存储介质,具体实现方案为:获取待处理对象对应的乐谱信息;根据该乐谱信息,得到构成该待处理对象的每个字的时长边界;根据每个字的时长边界,得到构成每个字的字内部每个音素的时长;根据每个字的时长边界、及该字内部每个音素的时长进行合成处理,得到目标对象。采用本申请,可以使生成歌曲的节奏更符合乐谱上的标记信息,使得发声状态更接近歌手的自身特点,使合成的歌声更为自然。
Description
技术领域
本申请涉及语音合成技术领域,尤其涉及一种信息处理方法、装置、电 子设备及存储介质。
背景技术
随着语音技术和人工智能的发展,歌曲的制作方式也越来越多样。一些 音乐制作软件提供歌曲的合成功能,可以将多个音频片段拼接在一起,形成 一首较为完整的歌曲作品。
对于拼接生成的歌曲作品,需要保证其整体流畅,不管在歌词、歌声还 是音乐节奏方面都要衔接流畅自然,没有拼接的痕迹,因此,在拼接的过程 中,需要由熟练掌握乐理知识的相关工作人员通过反复聆听、调整达到最佳 的拼接效果,相关技术中,对如何借助电脑技术对歌曲进行自动的分析和拼 接,并保证拼接作品的高流畅度,未存在有效的解决方案。
发明内容
本申请提供了一种信息处理方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种信息处理方法,包括:
获取待处理对象对应的乐谱信息;
根据该乐谱信息,得到构成该待处理对象的每个字的时长边界;
根据上述每个字的时长边界,得到构成上述每个字的字内部每个音素的 时长;
根据上述每个字的时长边界、及该字内部每个音素的时长进行合成处理, 得到目标对象。
根据本申请的另一方面,提供了一种信息处理装置,包括:
乐谱获取模块,用于获取待处理对象对应的乐谱信息;
时长获取模块,用于根据该乐谱信息,得到构成该待处理对象的每个字 的时长边界;
音素时长获取模块,用于根据上述每个字的时长边界,得到构成上述每 个字的字内部每个音素的时长;
合成处理模块,用于根据上述每个字的时长边界、及该字内部每个音素 的时长进行合成处理,得到目标对象。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一 个处理器执行,以使该至少一个处理器能够执行本申请任意一实施例所提供 的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机 可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所 提供的方法。
采用本申请,可以基于演唱作品,生成符合目标歌手演唱特点和发音习 惯的歌词中每个音素的目标起止时间,以实现对生成歌声每个字的时长、及 字对应的所有音素的时长进行约束,使生成歌曲的节奏更符合乐谱上的标记 信息,使得发声状态更接近歌手的自身特点,使合成的歌声更为自然。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或 重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说 明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的信息处理方法的流程示意图;
图2是根据本申请实施例的信息处理方法的另一流程示意图;
图3是根据本申请实施例的一神经网络结构示意图;
图4是根据本申请实施例的第一时长模型输出内容示意图;
图5是根据本申请实施例的第二时长模型输出内容示意图;
图6是根据本申请实施例的信息处理装置的组成结构示意图;
图7是根据本申请实施例的信息处理装置的另一组成结构示意图;
图8是用来实现本申请实施例的信息处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施 例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域 普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改, 而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省 略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以 存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B, 单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或 多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表 示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语 “第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是 限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征, 是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一 个或多个。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的 具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以 实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路 未作详细描述,以便于凸显本申请的主旨。
在语音合成领域中,语音中每个字的时间边界以及每个音素的时长分配 一般不做特定限制,但是在针对歌声的合成过程中,由于乐谱的存在,为了 使合成歌声听感符合乐谱上的标记,需要对歌声中每个字的时长、以及字对 应的所有音素的时长进行约束。其中,音素即语音中的最小单位,依据音节 中的发音动作划分,一个动作构成一个音素。在确定音素的发声时长准确的 前提下才能合成自然的歌声。
在合成歌曲作品时,经常使用乐谱中标记的音符起始与终止时间,作为 音符所对应唱词的起始与终止时间,但是,这种做法无法解决字内部音素时 长分配的问题,而且若将按照此方法截取的歌曲作品片段进行拼合,经常会 有在听感上出现明显节奏误差的情况。
另外,在合成语音的过程中,还可以先提取语音对应文本的文本特征, 然后利用其中的时长信息生成神经网络模型,生成发音时长信息序列,通过 考虑发音时长提高了语音拼接的准确性。但是,此方法仅仅是针对普通语音 内容的合成,并不适用于歌曲的合成,因为其中没有考虑乐谱限制,且没有 考虑到不同人存在不同的发声状态和语言习惯的情况。
根据本申请的实施例,提供了一种信息处理方法,图1是根据本申请实 施例的信息处理方法的流程示意图,该方法可以应用于信息处理装置,例如, 该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以获取乐 谱、获取时长边界或音素时长、合成歌声等等。其中,终端可以为用户设备 (UE,User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理 (PDA,Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿 戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器 中存储的计算机可读指令的方式来实现。如图1所示,包括:
S101、获取待处理对象对应的乐谱信息。
一示例中,待处理对象包括待合成的歌声、歌曲或是演唱作品,乐谱信 息包括乐谱文本信息,其中包括多种标记信息,获取待处理对象对应的乐谱 信息即是获取待合成作品对应的乐谱文本。
S102、根据该乐谱信息,得到构成该待处理对象的每个字的时长边界。
一示例中,可以根据乐谱文本信息生成每个字的时长范围。
S103、根据上述每个字的时长边界,得到构成每个字的字内部每个音素 的时长。
一示例中,在给定上述每个字的时长范围后,基于该时长范围生成每个 音素的持续时长。
S104、根据上述每个字的时长边界、及该字内部每个音素的时长进行合 成处理,得到目标对象。
一示例中,上述“目标对象”即为合成后的歌声。在将上述待合成歌声进 行合成的场景中,由于歌声有对应的乐谱信息,需要使得最终合成得到的合 成歌声在听感上符合乐谱信息中的标记信息,从而,需要对生成该合成歌声 的每个字的时长、及字内部的所有音素的时长,基于该乐谱信息进行上述步 骤中的约束,经过约束后,进行上述合成处理,最终得到与该乐谱信息相匹 配的合成歌声,技术效果为该合成歌声的节奏更符合乐谱信息中的标记信息, 从而该合成歌声至少在听感上与乐谱信息相匹配。
采用本实施例,基于待合成的音频及其对应的乐谱信息,预测特定歌手 歌声合成中每个字的起止时间以及内部的音素起止时间,使得生成歌声的听 感符合乐谱上标记的节奏信息,保证字内部的音素时间分配合理从而使得字 内部听起来自然真实,使得发声状态更接近歌手的自身特点,合成的歌声更 为自然。
如图2所示,上述信息处理方法还包括:
S105、根据每个人不同的发声状态、和/或语言习惯,对该目标对象进行 优化,得到优化后的目标对象。
一示例中,由于不同的人,可能会存在不同的发声状态和语言习惯,比 如,南、北方的地域差异,方言等等,会使得不同的人对同一个字的发音、 吐字习惯等不同,而这些发音、吐字习惯等会对上述合成处理所得到的目标 对象造成不同的影响,为了使得发声状态更接近不同歌手的自身特点,使合 成的歌声更为自然,需要针对每个人不同的发声状态、和/或语言习惯,对该 目标对象进行优化,比如,在模型训练时,对不同歌手的数据加不同的标签, 这样生成时通过指定标签可以得到不同歌手的音素时长,从而,可以根据不 同歌手的音素时长进行合成处理,得到优化后的目标对象,即得到优化后更 流畅的合成歌声。
一示例中,上述根据该乐谱信息,得到构成该待处理对象的每个字的时 长边界,具体包括:将该待处理对象,即是待合成的歌曲或歌声,输入基于 该乐谱信息预先训练好的第一时长确定模型,得到每个字对应的第一目标起 止时间,将该第一目标起止时间作为每个字的时长边界。
一示例中,上述将待处理对象输入第一时长确定模型,具体还可以是: 提取该待处理对象的文本特征,将该文本特征输入该第一时长确定模型;根 据该第一时长确定模型预测每个字对应的实际发声边界与该乐谱信息上标记 时间的差值;根据该差值,得到每个字的绝对时间和持续时间,得到该第一 目标起止时间。具体的,可以包括:根据第一时长确定模型预测每个字对应 的持续时间和绝对时间,其中,第一时长模型进一步可以通过预测每个字对 应的实际发声边界与乐谱信息上标记时间的差值来得到该每个字的绝对时间和持续时间。
一示例中,根据每个字的时长边界,得到构成每个字的字内部每个音素 的时长,具体包括:将每个字的时长边界,输入基于该乐谱信息预先训练好 的第二时长确定模型,得到该字内部每个音素对应的第二目标起止时间,将 该第二目标起止时间作为该字内部每个音素的时长。
一示例中,上述将待处理对象输入第二时长确定模型,具体还可以是: 将每个字拆解为字内部的每个音素,具体地可以通过拼音系统及拼音转音素 系统将每个字拆解为字内部的每个音素;将每个字的时长边界输入该第二时 长确定模型,结合该字内部的每个音素,根据该第二时长确定模型预测该字 内部的每个音素对应分配的时间;确定好每个音素对应分配的时间后,可以 得到指定歌手演唱时每个音素的起止时间,每个音素的起止时间即为上述第 二目标起止时间,即根据该字内部的每个音素对应分配的时间,得到该第二目标起止时间。
一示例中,上述乐谱信息中包括标注信息;该标注信息至少包括:歌词 标注、音符时值标注、目标歌手编号。除此之外,该标注信息还可以包括: 音高标注,从而,可以根据该标注信息训练上述第一时长确定模型和上述第 二时长确定模型,以生成符合目标歌手演唱特点和发音习惯的歌词中每个字 及字内部每个音素的目标起止时间。
一示例中,还可以获取待合成歌声对应的文本;提取该文本的文本特征; 将该文本特征导入预先建立的第一时长确定模型,生成每个字发音时长类型 序列,该模型用于表征文本特征、乐谱与字发音时长类型序列之间的对应关 系;根据所生成的字的发音时长类型序列和字与音素的对应关系信息,由第 二时长确定模型确定特定歌手在该文本对应的音素序列中各个音素的发音时 长。
本申请中,通过歌手的演唱音频、音素时间标注以及乐谱信息标注,预 先训练神经网络(如第一时长确定模型及第二时长确定模型);以采用训练 后的该神经网络接受待合成乐谱信息(如歌词标注、音高标注、音符时值标 注、目标歌手编号)后生成符合目标歌手演唱特点和发音习惯的歌词中每个 音素的目标起止时间,其中,该每个音素的目标起止时间是由该乐谱信息生 成字边界,给定字时长后生成每个音素的持续时长,及由该乐谱信息生成演 唱音素时长,以实现对生成歌声每个字的时长、及字对应的所有音素的时长 进行约束。使生成歌曲的节奏更符合乐谱上的标记信息,使得发声状态更接 近歌手的自身特点,并且考虑了不同歌手的发音、吐字习惯等会对结果造成 不同的影响,使合成的歌声更为自然。
应用示例:
应用本申请实施例一处理流程包括如下内容:
第一步,获取待处理对象对应的乐谱信息;
第二步,根据该乐谱信息,得到构成该待处理对象的每个字的时长边界;
第三步,根据每个字的时长边界,得到构成每个字的字内部每个音素的 时长;
第四步,根据每个字的时长边界、及该字内部每个音素的时长进行合成 处理,得到目标对象;
第五步,根据每个人不同的发声状态、和/或语言习惯,对该目标对象进 行优化,得到优化后的目标对象。
其中,第一步中的待处理对象可以是待合成的歌曲或歌声,获取其对应 的乐谱信息,乐谱信息可以是乐谱文本信息,其中包括标注信息,标注信息 具体又包括:歌词标注、音高标注、音符时值标注、目标歌手编号中的至少 一种信息。
第二步中,根据乐谱信息得到时长边界,具体地,将乐谱信息输入第一 时长确定模型,就能得到每个字对应的第一目标起止时间,将该第一目标起 止时间作为每个字的时长边界。
一示例中,第一时长模型通过预测每个字实际发声的边界与乐谱上标记 的时间的差值来得到每个字的绝对时间和持续时间,在训练或使用之前,需 要基于乐谱信息进行文本特征的提取,作为第一时长模型的输入编码。首先, 对乐谱中的文本按字进行拆分,利用开源词典结合人工检查将拆分后的汉字 转换成拼音,然后利用国际音标(IPA,International Phonetic Alphabet)或自 建音素系统等方式将拼音转换成音素,具体地由汉字转换成音素的具体方法 不做限定;将每个汉字转拼音和音素后,连同该字所对应音符的时长信息生 成该字的编码向量,将所有字的编码向量拼接后可以得到模型的输入矩阵。 其中每个字的具体的编码内容包括:当前字最后一个音素的独热编码;当前 字的最后一个音素的属性编码;下一个字第一个音素的独热编码;下一个字 第一个音素的属性编码;当前字在乐谱上标记的时长编码;下一个字在乐谱 中标记的时长编码;歌手信息编码。编码完成后的矩阵作为该模型的输入。
其中,音素的独热编码为(phoneme),其中Onehotk表示将数值 映射为k维的独热向量,Np代表音素系统中的音素种类总数,phoneme为当 前的音素。定义的音素的属性编码包括:音素类型、发音方法、发声部位、 清浊音、气流机制、是否圆唇、是否卷舌、口腔闭合状态等。定义的时长编 码表示为:Onehot7(t),其中t的值参见公式(1):其中T为时长,单位为 秒。
第一时长模型主要基于卷积神经网络。它的一种实现参见图3。该网络 的输入经过编码后的矩阵,先经过一个全连接层将输出维度和线性整流函数 变换到128维。图例3中的100指代字符的长度,字符的长度在网络间中保 持一致。经过卷积层、池化层、卷积层后将输出维数变换到16维。最后由卷 积层输出向量,此向量的长度仍为输入字符的长度,向量中数值代表着模型 预测出每个字的终止时间与谱上字所对应的音符的差值。
一示例中,训练第一时长模型的过程中,先根据乐谱中的节奏信息计算 每个字的理论起始与终止时间,将该理论起始与终止时间与根据歌手音频人 工标注的音素时间序列作差得到训练目标。空白及换气字段训练目标为上一 个字所对应乐谱最后一个音符的终止时间与标记音素时间差。训练过程中, 使用的代价函数为网络输出值与理论值的均方误差:MSE(T)=E(T-θ)2。 意义是对于无法观察的参数θ的一个估计函数T,均方误差为差值平方的期 望值。
一示例中,在训练完成后,提取该待处理对象的文本特征,将该文本特 征输入该第一时长确定模型,可以是乐谱上的歌词标注、音符时值标注或其 余文本标注,结合歌手编号生成模型输入,由训练好的模型生成与乐谱计算 时值后的差值ydiff,由差值计算每个字的起始与终止发声时间:
ynext_char_start=ycur_cur_end=ydiff+ymidi_cur_end
上式中ynext_char_start代表下一个字符的起始时间,ycur_cur_end代表当前 字符的结束时间,ymidi_cur_end为乐谱上当前字所对应音符计算出的终止发声 时间。基于起始和终止发生时间,可以获得每个字的绝对时间和持续时间。
基于此第一时长模型可以得到每个字的时间预测值,具体如图4所示。 其中第一行是网络预测出歌手演唱该乐谱时字发声的起止时间。第二行的每 一块为每个字在乐谱上计算出的起止时间。第三行为训练之前人工标注的字 的起止边界。图中的“#”代表休止或演唱中的空白及换气。
第三步中,将每个字的时长边界,输入基于该乐谱信息预先训练好的第 二时长确定模型,得到该字内部每个音素对应的第二目标起止时间,将该第 二目标起止时间作为该字内部每个音素的时长。
一示例中,在汉语音韵学中,一个字的音节通常被分为五个部分:声母、 韵头、韵腹、韵尾、声调。其中声调变化对音素时长影响极小,在此忽略不 计。剩下的除韵腹一定要包含1个音素外,其余三个部分每个都包含0或1 个音素。本算法只考虑每个字对应一个音节的情况,遇到拆音字需要先拆分 成多个单音字。
因为每个字中的音素时长t音素和音节时长t音节关系最密切,因此将其关 系用函数t音素=a tanh ht+bt拟合,以模拟音素时长曲线先陡后缓的特性。 a、h、b为可训练的参数,其中a、b分别确定了拐点前后的斜率,h确定了拐 点的位置。由于音素发音方式和特征不尽相同,每个音素分别拟合得到不同 的a、b参数值,同时为了防止拐点位置不同导致音素时长曲线交叉,所有音 素共用同一个h参数值。
具体地,采取以下拟合方式训练第二时长确定模型:
考虑到声母时长受韵母影响很小,所以拟合时取t=t音节为整个音节的时 长。
韵头时长会根据音节是否存在韵尾而发生规律性变化,同时易收到声母 种类的干扰,所以训练时每个韵头会根据韵尾是否存在分两种情况各自分别 训练,同时取t=t音节-t声母为去掉声母后的时长。
韵尾时长也会因音节是否存在韵头受到和上一项相似的影响,同时也会 收到声母种类的干扰,所以采取和上一项相同的训练方式。
生成方式与上述方法类似。先通过整个音节的时长根据不同声母来计算 声母时长。然后再经由去掉声母后的音节时长,根据不同韵头及韵尾是否存 在来计算韵头时长,同时根据不同韵尾及韵头是否存在来计算韵尾时长。余 下的时长则分配给韵腹。计算过程如列公式(2)-(7)所示:
t0=t音节 (6)
一示例中,在使用训练好第二时长确定模型时,先将每个字拆解为字内 部的多个音素;然后将上一步中生成的每个字的时长边界输入该第二时长确 定模型,结合该字内部的每个音素,根据该第二时长确定模型预测该字内部 的每个音素对应分配的时间;最后根据该字内部的每个音素对应分配的时间, 得到该第二目标起止时间。每次训练结束后有必要把所有可能的音节在不同 时长下测试一遍生成。在极端情况下,一旦有韵腹时长为负数的情形发生, 则需要根据情况手动调整修改训练用的数据集,或采用其他方式拟合各音素时长。
基于此第一时长模型可以得到每个字中每个音素的时长,具体如图5所 示,第一行是生成字在时间轴上的位置,第二行是根据字时长生成的音素时 长。
一示例中,上述乐谱信息中包括标注信息;该标注信息至少包括:歌词 标注、音符时值标注、目标歌手编号。除此之外,还可以包括:音高标注。 根据该标注信息训练上述第一时长确定模型和上述第二时长确定模型,以生 成符合目标歌手演唱特点和发音习惯的歌词中每个字及字内部每个音素的目 标起止时间。
一示例中,还可以获取待合成歌声对应的文本;提取该文本的文本特征; 将该文本特征导入预先建立的第一时长确定模型,生成每个字发音时长类型 序列,该模型用于表征文本特征、乐谱与字发音时长类型序列之间的对应关 系;根据所生成的字的发音时长类型序列和字与音素的对应关系信息,由第 二时长确定模型确定特定歌手在该文本对应的音素序列中各个音素的发音时 长。
第四步中,根据每个字的时长边界、及该字内部每个音素的时长进行合 成处理,得到合成后的歌曲或歌声。
第五步,根据每个人不同的发声状态、和/或语言习惯,对该目标对象进 行优化,得到优化后的合成歌曲或歌声。
采用本应用示例,提高了音素时长信息的准确性,使生成歌曲的节奏更 符合乐谱上的标记信息,使得发声状态更接近歌手的自身特点,使合成的歌 声更为自然。
根据本申请的实施例,提供了一种信息处理装置,图6是根据本申请实 施例的信息处理装置的组成结构示意图,如图6所示,包括:乐谱获取模块 61,用于获取待处理对象对应的乐谱信息;时长获取模块62,用于根据该乐 谱信息,得到构成该待处理对象的每个字的时长边界;音素时长获取模块63, 用于根据每个字的时长边界,得到构成每个字的字内部每个音素的时长;合 成处理模块64,用于根据每个字的时长边界、及该字内部每个音素的时长进 行合成处理,得到目标对象。
根据本申请的实施例,提供了一种信息处理装置,图7是根据本申请实 施例的又一信息处理装置的组成结构示意图,如图7所示,该装置还包括: 优化模块65,用于根据每个人不同的发声状态、和/或语言习惯,对该目标对 象进行优化,得到优化后的目标对象。
一实施方式中,该时长获取模块,用于:将该待处理对象,输入基于该 乐谱信息预先训练好的第一时长确定模型,得到每个字对应的第一目标起止 时间,将该第一目标起止时间作为每个字的时长边界。
一实施方式中,该音素时长获取模块,用于:将该每个字的时长边界, 输入基于该乐谱信息预先训练好的第二时长确定模型,得到该字内部每个音 素对应的第二目标起止时间,将该第二目标起止时间作为该字内部每个音素 的时长。
一实施方式中,该时长获取模块,还用于:提取该待处理对象的文本特 征,将该文本特征输入该第一时长确定模型;根据该第一时长确定模型预测 该每个字对应的实际发声边界与该乐谱信息上标记时间的差值;根据该差值, 得到该第一目标起止时间。
一实施方式中,该音素时长获取模块,还用于:将该每个字拆解为字内 部的每个音素;将该每个字的时长边界输入该第二时长确定模型,结合该字 内部的每个音素,根据该第二时长确定模型预测该字内部的每个音素对应分 配的时间;根据该字内部的每个音素对应分配的时间,得到该第二目标起止 时间。
一实施方式中,该乐谱信息中包括标注信息,标注信息进一步包括:歌 词标注、音高标注、音符时值标注、目标歌手编号中的至少一种信息。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述, 在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介 质。
如图8所示,是用来实现本申请实施例的信息处理方法的电子设备的框 图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形 式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助 理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备 还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电 话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关 系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要 求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以 及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的 总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。 处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者 存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示 GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/ 或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子 设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式 服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,该 存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执 行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储 计算机指令,该计算机指令用于使计算机执行本申请所提供的信息处理方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软 件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息处理 方法对应的程序指令/模块(例如,附图7所示的乐谱获取模块、时长获取模 块、音素时长获取模块、合成处理模块和优化模块等)。处理器801通过运 行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器 的各种功能应用以及数据处理,即实现上述方法实施例中的信息处理方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子 设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储 器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或 其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处 理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。 上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及 其组合。
信息处理方法的电子设备,还可以包括:输入装置803和输出装置804。 处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其 他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用 户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹 板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。 输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈 装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、 发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设 备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成 电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或 它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算 机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可 编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理 器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和 指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至 少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程 处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/ 或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质” 和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的 任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编 程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可 读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程 处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术, 该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管) 或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者 轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它 种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是 任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户 的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如, 作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、 或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的 用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述 的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或 者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数 据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括: 局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并 且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客 户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删 除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行 也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果, 本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人 员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子 组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进 等,均应包含在本申请保护范围之内。
Claims (16)
1.一种信息处理方法,其特征在于,所述方法包括:
获取待处理对象对应的乐谱信息;
根据所述乐谱信息,得到构成所述待处理对象的每个字的时长边界;
根据所述每个字的时长边界,得到构成所述每个字的字内部每个音素的时长;
根据所述每个字的时长边界、及所述字内部每个音素的时长进行合成处理,得到目标对象。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据每个人不同的发声状态、和/或语言习惯,对所述目标对象进行优化,得到优化后的目标对象。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述乐谱信息,得到构成所述待处理对象的每个字的时长边界,包括:
将所述待处理对象,输入基于所述乐谱信息预先训练好的第一时长确定模型,得到所述每个字对应的第一目标起止时间,将所述第一目标起止时间作为所述每个字的时长边界。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个字的时长边界,得到构成所述每个字的字内部每个音素的时长,包括:
将所述每个字的时长边界,输入基于所述乐谱信息预先训练好的第二时长确定模型,得到所述字内部每个音素对应的第二目标起止时间,将所述第二目标起止时间作为所述字内部每个音素的时长。
5.根据权利要求4所述的方法,其特征在于,所述将所述待处理对象,输入基于所述乐谱信息预先训练好的第一时长确定模型,得到所述每个字对应的第一目标起止时间,包括:
提取所述待处理对象的文本特征,将所述文本特征输入所述第一时长确定模型;
根据所述第一时长确定模型预测所述每个字对应的实际发声边界与所述乐谱信息上标记时间的差值;
根据所述差值,得到所述第一目标起止时间。
6.根据权利要求4所述的方法,其特征在于,所述将所述每个字的时长边界,输入基于所述乐谱信息预先训练好的第二时长确定模型,得到所述字内部每个音素对应的第二目标起止时间,包括:
将所述每个字拆解为字内部的每个音素;
将所述每个字的时长边界输入所述第二时长确定模型,结合所述字内部的每个音素,根据所述第二时长确定模型预测所述字内部的每个音素对应分配的时间;
根据所述字内部的每个音素对应分配的时间,得到所述第二目标起止时间。
7.根据权利要求4所述的方法,其特征在于,所述乐谱信息中包括标注信息;
所述标注信息至少包括:歌词标注、音符时值标注、目标歌手编号。
8.一种信息处理装置,其特征在于,所述装置包括:
乐谱获取模块,用于获取待处理对象对应的乐谱信息;
时长获取模块,用于根据所述乐谱信息,得到构成所述待处理对象的每个字的时长边界;
音素时长获取模块,用于根据所述每个字的时长边界,得到构成所述每个字的字内部每个音素的时长;
合成处理模块,用于根据所述每个字的时长边界、及所述字内部每个音素的时长进行合成处理,得到目标对象。
9.根据权利要求8所述的装置,其特征在于,还包括:
优化模块,用于根据每个人不同的发声状态、和/或语言习惯,对所述目标对象进行优化,得到优化后的目标对象。
10.根据权利要求8或9所述的装置,其特征在于,所述时长获取模块,用于:
将所述待处理对象,输入基于所述乐谱信息预先训练好的第一时长确定模型,得到所述每个字对应的第一目标起止时间,将所述第一目标起止时间作为所述每个字的时长边界。
11.根据权利要求10所述的装置,其特征在于,所述音素时长获取模块,用于:
将所述每个字的时长边界,输入基于所述乐谱信息预先训练好的第二时长确定模型,得到所述字内部每个音素对应的第二目标起止时间,将所述第二目标起止时间作为所述字内部每个音素的时长。
12.根据权利要求11所述的装置,其特征在于,所述时长获取模块,还用于:
提取所述待处理对象的文本特征,将所述文本特征输入所述第一时长确定模型;
根据所述第一时长确定模型预测所述每个字对应的实际发声边界与所述乐谱信息上标记时间的差值;
根据所述差值,得到所述第一目标起止时间。
13.根据权利要求11所述的装置,其特征在于,所述音素时长获取模块,还用于:
将所述每个字拆解为字内部的每个音素;
将所述每个字的时长边界输入所述第二时长确定模型,结合所述字内部的每个音素,根据所述第二时长确定模型预测所述字内部的每个音素对应分配的时间;
根据所述字内部的每个音素对应分配的时间,得到所述第二目标起止时间。
14.根据权利要求11所述的装置,其特征在于,所述乐谱信息中包括标注信息;
所述标注信息至少包括:歌词标注、音符时值标注、目标歌手编号。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474567.2A CN113223486B (zh) | 2021-04-29 | 2021-04-29 | 信息处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110474567.2A CN113223486B (zh) | 2021-04-29 | 2021-04-29 | 信息处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223486A true CN113223486A (zh) | 2021-08-06 |
CN113223486B CN113223486B (zh) | 2023-10-17 |
Family
ID=77090036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110474567.2A Active CN113223486B (zh) | 2021-04-29 | 2021-04-29 | 信息处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223486B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090314155A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
WO2020007148A1 (zh) * | 2018-07-05 | 2020-01-09 | 腾讯科技(深圳)有限公司 | 音频合成方法、存储介质和计算机设备 |
CN111402843A (zh) * | 2020-03-23 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 说唱音乐生成方法、装置、可读介质及电子设备 |
CN111445892A (zh) * | 2020-03-23 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 歌曲生成方法、装置、可读介质及电子设备 |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
-
2021
- 2021-04-29 CN CN202110474567.2A patent/CN113223486B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090314155A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Synthesized singing voice waveform generator |
WO2020007148A1 (zh) * | 2018-07-05 | 2020-01-09 | 腾讯科技(深圳)有限公司 | 音频合成方法、存储介质和计算机设备 |
CN111402843A (zh) * | 2020-03-23 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 说唱音乐生成方法、装置、可读介质及电子设备 |
CN111445892A (zh) * | 2020-03-23 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 歌曲生成方法、装置、可读介质及电子设备 |
CN111681637A (zh) * | 2020-04-28 | 2020-09-18 | 平安科技(深圳)有限公司 | 歌曲合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113223486B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020200178A1 (zh) | 语音合成方法、装置和计算机可读存储介质 | |
CN107464559B (zh) | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 | |
JP7259197B2 (ja) | モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN112309366B (zh) | 语音合成方法、装置、存储介质及电子设备 | |
JP6900536B2 (ja) | 音声合成モデルのトレーニング方法、装置、電子機器及び記憶媒体 | |
US9431011B2 (en) | System and method for pronunciation modeling | |
KR100391243B1 (ko) | 음조언어(tonallanguage)인식을위해콘텍스트의존형(contextdependent)부음절(sub-syllable)모델을생성하고사용하기위한시스템및방법 | |
Hono et al. | Sinsy: A deep neural network-based singing voice synthesis system | |
CN112542155B (zh) | 歌曲合成方法及模型训练方法、装置、设备与存储介质 | |
EP4029010B1 (en) | Neural text-to-speech synthesis with multi-level context features | |
RU2421827C2 (ru) | Способ синтеза речи | |
CN112802446B (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
CN113808571B (zh) | 语音合成方法、装置、电子设备以及存储介质 | |
CN112382269B (zh) | 音频合成方法、装置、设备以及存储介质 | |
CN112309367B (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN112466313A (zh) | 一种多歌者歌声合成方法及装置 | |
CN112382274B (zh) | 音频合成方法、装置、设备以及存储介质 | |
CN102254554A (zh) | 一种对普通话重音进行层次化建模和预测的方法 | |
CN113593520A (zh) | 歌声合成方法及装置、电子设备及存储介质 | |
CN114495902A (zh) | 语音合成方法、装置、计算机可读介质及电子设备 | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
CN112002304A (zh) | 语音合成方法及装置 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
CN113223486B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN115273806A (zh) | 歌曲合成模型的训练方法和装置、歌曲合成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |