CN111899720A - 用于生成音频的方法、装置、设备和介质 - Google Patents
用于生成音频的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111899720A CN111899720A CN202010753525.8A CN202010753525A CN111899720A CN 111899720 A CN111899720 A CN 111899720A CN 202010753525 A CN202010753525 A CN 202010753525A CN 111899720 A CN111899720 A CN 111899720A
- Authority
- CN
- China
- Prior art keywords
- information
- target
- audio
- user
- voice audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001228 spectrum Methods 0.000 claims description 72
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例公开了用于生成音频的方法、装置、设备和介质。该用于生成音频的方法的一具体实施方式包括:获取说话人无关信息和目标用户发出的用户语音音频的音色信息;基于说话人无关信息和用户语音音频的音色信息,生成目标语音音频。该实施方式可以将说话文本转换为歌唱语音音频并且保持用户语音音频的音色及其对应的文本信息,由此提升了生成语音音频的准确度,丰富了语音音频的生成方式。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于生成音频的 方法、装置、设备和介质。
背景技术
目前,在音频信号处理领域,常见的音频处理方式包括:格式转 换、音频拼接、加快或减慢音频节奏等等。然而,音频通常可以包含 响度、音调、频率、音色、乐音等多项特征,每一项特征的差异,都 将产生音频的不同。例如,现阶段,越来越多的人喜欢用歌曲来表达 自己的情感、释放压力等等。而由于唱歌技巧的缺乏,用户往往难以 演绎出自己满意的歌曲,存在走音、跑调、音不准等问题。
发明内容
本公开提出了用于生成音频的方法、装置、设备和介质。
第一方面,本公开的实施例提供了一种用于生成音频的方法,该 方法包括:获取说话人无关信息和目标用户发出的用户语音音频的音 色信息,其中,说话人无关信息包括:目标音高信息、目标歌词信息、 目标音素时长信息;基于说话人无关信息和用户语音音频的音色信息, 生成目标语音音频,其中,目标语音音频的音色与用户语音音频的音 色信息相匹配,目标歌词信息用于指示目标语音音频所对应的文本信 息,目标音高信息用于指示目标语音音频的音高,目标音素时长信息 用于指示目标语音音频的音素时长。
在一些实施例中,目标音素时长信息基于时长模型和歌唱音频数据 得到。
在一些实施例中,基于说话人无关信息和所述用户语音音频的音 色信息,生成目标语音音频,包括:将说话人无关信息输入预训练的 编码器,得到编码后的说话人无关信息;将编码后的说话人无关信息 和用户语音音频的音色信息输入预训练的解码器,得到梅尔频谱信息, 其中,用户语音音频的音色信息基于目标用户提供的音频数据和预训 练的音色编码器得到;将梅尔频谱信息输入声码器,得到目标语音音 频。
在一些实施例中,预训练的编码器和预训练的解码器通过以下方式 训练得到:获取标注有梅尔频谱信息的不同用户提供的音频样本;将 音频样本输入待训练的编码器,得到编码后的音频样本;将编码后的 音频样本分别输入说话人无关信息分类器和音色信息分类器,得到分 类后的说话人无关信息和分类后的音色信息;将分类后的说话人无关 信息和分类后的音色信息输入解码器,得到预测的梅尔频谱信息;根 据标注的梅尔频谱信息与预测的梅尔频谱信息的偏差,调整编码器和 解码器的参数,直到所述偏差满足预设条件,则得到训练完成的编码 器和解码器。
在一些实施例中,目标音高信息包括进行音高增广后的目标音高信 息,目标音素时长信息包括进行时长增广后的目标音素时长信息,以及 在将所述梅尔频谱信息输入声码器,得到目标语音音频之前,所述方 法还包括:对梅尔频谱信息的目标音高信息进行音高增广和对梅尔频 谱信息的目标音素时长信息进行时长增广。
在一些实施例中,歌唱音频数据的发音者与所述目标用户的性别 相同。
在一些实施例中,基于说话人无关信息和目标用户发出的用户语 音音频的音色信息,生成目标语音音频,包括:基于说话人无关信息、 目标用户发出的用户语音音频的音色信息和目标语音风格信息,生成 目标语音音频,所述目标语音风格信息用于指示目标语音音频的风格。
在一些实施例中,目标语音风格信息通过如下步骤获得:获取具有 目标语音风格信息指示的语音风格的人员的语音音频;将人员的语音音 频输入预训练的语音风格编码器,生成目标语音风格信息。
第二方面,本公开的实施例提供了一种用于生成音频的装置,该 装置包括:获取单元,被配置成获取说话人无关信息和目标用户发出 的用户语音音频的音色信息,其中,说话人无关信息包括:目标音高 信息、目标歌词信息、目标音素时长信息;生成单元,被配置成基于说 话人无关信息和用户语音音频的音色信息,生成目标语音音频,其中, 目标语音音频的音色与用户语音音频的音色信息相匹配,目标歌词信 息用于指示目标语音音频所对应的文本信息,目标音高信息用于指示 目标语音音频的音高,目标音素时长信息用于指示目标语音音频的音 素时长。
第三方面,本公开的实施例提供了一种用于生成音频的电子设备, 包括:一个或多个处理器;存储装置,其上存储有一个或多个程序, 当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或 多个处理器实现如上述用于生成音频的方法中任一实施例的方法。
第四方面,本公开的实施例提供了一种用于生成音频的计算机可 读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述 用于生成音频的方法中任一实施例的方法。
本公开的实施例提供的用于生成音频的方法、装置、设备和介质, 通过获取说话人无关信息和目标用户发出的用户语音音频的音色信 息,其中,说话人无关信息包括:目标音高信息、目标歌词信息、目 标音素时长信息;基于说话人无关信息和所述用户语音音频的音色信 息,生成目标语音音频,其中,目标语音音频的音色与用户语音音频 的音色信息相匹配,目标歌词信息用于指示目标语音音频所对应的文 本信息,目标音高信息用于指示目标语音音频的音高,目标音素时长 信息用于指示目标语音音频的音素时长,可以将说话文本转换为歌唱语 音音频并且保持用户语音音频的音色及其对应的文本信息,由此提升了 生成语音音频的准确度,丰富了语音音频的生成方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描 述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构 图;
图2是根据本公开的用于生成音频的方法的一个实施例的流程 图;
图3是根据本公开的用于生成音频的方法的一个应用场景的示意 图;
图4是根据本公开的用于生成音频的方法的又一个实施例的流程 图;
图5是根据本公开的用于生成音频的装置的一个实施例的结构示 意图;
图6是适于用来实现本公开的实施例的电子设备的计算机系统的 结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解 的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开 的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本 公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例 中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本 公开。
图1示出了可以应用本公开的实施例的用于生成音频的方法或用 于生成音频的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103, 网络104和服务器105。网络104用以在终端设备101、102、103和 服务器105之间提供通信链路的介质。网络104可以包括各种连接类 型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105 交互,以接收或发送数据(例如说话人无关信息和目标用户发出的用 户语音音频的音色信息)等。终端设备101、102、103上可以安装有 各种客户端应用,例如音频播放软件、音乐处理应用、新闻资讯类应 用、图像处理类应用、网页浏览器应用、购物类应用、搜索类应用、 即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设 备101、102、103为硬件时,可以是具有信息处理功能的各种电子设 备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计 算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提 供生成音频服务的软件或软件模块),也可以实现成单个软件或软件 模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如基于终端设备 101、102、103发送的说话人无关信息和目标用户发出的用户语音音 频的音色信息,基于说话人无关信息和目标用户发出的用户语音音频 的音色信息,生成目标语音音频。可选的,后台音频处理服务器还可 以将所生成的目标语音音频反馈给终端设备,以供终端设备播放。作 为示例,服务器105可以是云端服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为 硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实 现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模 块(例如用来提供生成音频服务的软件或软件模块),也可以实现成 单个软件或软件模块。在此不做具体限定。
还需要说明的是,本公开的实施例所提供的用于生成音频的方法 可以由服务器执行,也可以由终端设备执行,还可以由服务器和终端 设备彼此配合执行。相应地,用于生成音频的装置包括的各个部分(例 如各个单元、子单元、模块、子模块)可以全部设置于服务器中,也 可以全部设置于终端设备中,还可以分别设置于服务器和终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意 性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。 当用于生成音频的方法运行于其上的电子设备不需要与其他电子设备 进行数据传输时,该系统架构可以仅包括用于生成音频的方法运行于 其上的电子设备(例如服务器或终端设备)。
继续参考图2,示出了根据本公开的用于生成音频的方法的一个 实施例的流程200。该用于生成音频的方法,包括以下步骤:
步骤201,获取说话人无关信息和目标用户发出的用户语音音频 的音色信息。
在本实施例中,用于生成音频的方法的执行主体(例如图1所示 的服务器或终端设备)可以通过有线连接方式或者无线连接方式从其 他电子设备,或者本地获取说话人无关信息和目标用户发出的用户语音 音频的音色信息。
其中,说话人无关信息包括目标音高信息、目标歌词信息、目标 音素时长信息。
这里,目标音高信息可以是任意音高信息,例如,乐谱的G调、 F调等等。目标歌词信息可以是用户想要转换成目标语音音频的任意 歌词信息。目标歌词信息由执行主体对目标歌词进行文本分析得到, 包括音素、音调、分词、韵律短语等信息。具体地,执行主体可以采用 BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码语义表示)模型对目标歌词进行文本分析得到目 标歌词信息。
目标用户可以是任意用户。用户语音音频可以是目标用户发出的任 意语音的音频。例如,用户语音音频可以是目标用户演唱的歌曲的音频, 也可以是目标用户在对话过程中发出的语音的音频。
此外,需要指出的是,目标音素时长信息可以基于音频数据和预设 的音频数据与音素时长信息对照表得到,也可以基于音频数据和预设的 时长模型得到,本申请对此不作限定。
在一些可选的方式中,目标音素时长信息基于时长模型和歌唱音频 数据得到。
在本实现方式中,时长模型用于预测音素时长信息,由于说话语 音音频和歌唱语音音频的音素时长信息不同,即说话语音音频的声母 音素和韵母音素的时长与歌唱语音音频的声母音素和韵母音素的时长 不同,故时长模型采用歌唱音频数据进行训练,可有助于时长模型在 歌唱音频转换出的唱字时长限制下,预测声韵母时长,相较于基于说 话语音音频预测出的音素时长更加准确。
时长模型可以基于神经网络模型实现,例如,LSTM(Long Short-Term Memory,长短期记忆网络)、BiLSTM(Bidirectional Long Short-Term Memory,双向长短期记忆网络)等。
这里,歌唱音频数据的发音者的性别可以与目标用户的性别相同, 也可以和目标用户的性别不同,本申请对此不作限定。
在一些可选的方式中,歌唱音频数据的发音者与所述目标用户的 性别相同。
在本实现方式中,歌唱音频数据的发音者与目标用户的性别相同。
作为示例,若目标用户的性别为女性,则选用歌唱音频数据的发 音者为女性的音频数据对时长模型进行训练;若目标用户的性别为男 性,则选用歌唱音频数据的发音者为男性的音频数据对时长模型进行 训练。
该实现方式通过采用与目标用户同性别的发音者的歌唱音频数据 对音素时长模型进行训练,可有助于提升获取的音素时长信息的准确 性。
步骤202,基于说话人无关信息和目标用户发出的用户语音音频 的音色信息,生成目标语音音频。
在本实施例中,执行主体可以根据说话人无关信息和用户语音音 频的音色信息,生成目标语音音频。其中,目标语音音频的音色与用 户语音音频的音色信息相匹配,目标歌词信息用于指示目标语音音频 所对应的文本信息,目标音高信息用于指示目标语音音频的音高,目 标音素时长信息用于指示目标语音音频的音素时长。
作为示例,上述执行主体可以将说话人无关信息和用户语音音频的 音色信息输入至预先训练的音频生成模型,生成目标语音音频。其中, 上述音频生成模型可以基于标注有语音音频的具有说话人无关信息和 用户语音音频的音色信息的样本数据训练得到。
在一些可选的方式中,基于说话人无关信息和用户语音音频的音色 信息,生成目标语音音频,包括:基于说话人无关信息、用户语音音 频的音色信息和目标语音风格信息,生成目标语音音频。
在本实现方式中,执行主体可以基于上述步骤获取的说话人无关 信息、用户语音音频的音色信息和目标语音风格信息,生成目标语音 音频。其中,目标语音音频的语音风格为目标语音风格信息指示的语音 风格。
这里,语音风格信息(包括目标语音风格信息)可以表征语音的风 格,例如,语音风格信息可以表征以下至少一项:语速、节奏、语调、 重音、咬字。
执行主体可以将语音音频输入至预先训练的语音风格信息生成模 型,得到语音音频的语音风格信息。其中,语音风格信息生成模型可以 基于标注有语音风格信息的语音音频样本训练得到。
该实现方式通过基于说话人无关信息、用户语音音频的音色信息 和目标语音风格信息,生成目标语音音频,使得生成的目标语音音频 可以进一步具有某一歌唱人员的风格信息,进而提升生成的目标语音 音频自然度和流畅度。
在一些可选的方式中,目标语音风格信息通过如下步骤获得:获取 具有目标语音风格信息指示的语音风格的人员的语音音频;将该人员的 语音音频输入预训练的语音风格编码器,生成目标语音风格信息。
在本实现方式中,执行主体可以获取具有目标语音风格信息指示的 语音风格的人员的语音音频,将该人员的语音音频输入预训练的语音风 格编码器,得到目标语音风格信息。
其中,语音风格编码器用于捕捉输入的语音音频的风格特征,风格 特征独立于语音音频对应的文本特征和独特的说话者音色特征,预先训 练的风格编码器的输出可以以嵌入向量的形式体现。
作为示例,若想要目标语音音频的风格信息为某歌唱家的风格,则 可将某歌唱家的风格信息作为目标风格信息,并获取某歌唱家的语音音 频,将某歌唱家的语音音频输入预训练的语音风格编码器,得到目标语 音风格信息。
该实现方式通过获取具有目标语音风格信息指示的语音风格的人员 的语音音频;将该人员的语音音频输入预训练的语音风格编码器,生成 目标语音风格信息,可更好的捕获语音音频的风格特征,进而提升获取 的目标语音风格信息的准确度。
继续参见图3,图3是根据本实施例的用于生成音频的方法的一 个应用场景的示意图。在图3的应用场景中,服务器301首先获取获 取说话人无关信息302和目标用户发出的用户语音音频的音色信息 303,其中,说话人无关信息302包括:目标音高信息(例如,G调)、 目标歌词信息、目标音素时长信息。基于说话人无关信息302和目标 用户发出的用户语音音频的音色信息303,生成目标语音音频304,其 中,目标语音音频304的音色与用户语音音频的音色信息相匹配,目 标歌词信息用于指示目标语音音频所对应的文本信息,目标音高信息 用于指示目标语音音频的音高,目标音素时长信息用于指示目标语音 音频的音素时长。
本公开的上述实施例提供的方法,通过获取说话人无关信息和目 标用户发出的用户语音音频的音色信息,其中,说话人无关信息包括: 目标音高信息、目标歌词信息、目标音素时长信息;基于说话人无关 信息和所述用户语音音频的音色信息,生成目标语音音频,其中,目 标语音音频的音色与用户语音音频的音色信息相匹配,目标歌词信息 用于指示目标语音音频所对应的文本信息,目标音高信息用于指示目 标语音音频的音高,目标音素时长信息用于指示目标语音音频的音素 时长,可以将说话文本转换为歌唱语音音频并且保持用户语音音频的音 色及其对应的文本信息,由此提升了生成语音音频的准确度,丰富了语 音音频的生成方式。
进一步参考图4,其示出了用于生成音频的方法的又一个实施例 的流程400。该用于生成音频的方法的流程400,包括以下步骤:
步骤401,获取说话人无关信息和目标用户发出的用户语音音频 的音色信息。
在本实施例中,步骤401与图2对应实施例中的步骤201基本一 致,这里不再赘述。
步骤402,将说话人无关信息输入预训练的编码器,得到编码后 的说话人无关信息。
在本实施例中,编码器用于编码文本特征信息,编码器可以基于 现有技术或未来发展技术中的卷积神经网络实现,例如,CNN (Convolutionla Neural Networks,卷积神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated Recurrent Unit,门控循环单元)、BGRU(Bidirectional Gated Recurrent Unit,双向门控循 环单元)等,本申请对此不作限定。优选地,编码器可以基于CNN+BGRU 的混合神经网络实现,BGRU+CNN模型通过卷积层可学习到更深的文本 特征。
此外,需要指出的是,执行主体在将目标音高信息、目标歌词信息、 目标音素时长信息输入编码器之前,可以先将目标歌词信息和目标音 素时长信息进行对齐,得到对齐后的目标歌词信息和目标音素时长信 息,将对齐后的目标歌词信息和目标音素时长信息以及音高信息输入 编码器。
可以理解,基于对齐后的目标歌词信息和目标音素时长信息,来生 成目标语音音频,可提高后续目标语音音频中目标歌词信息和目标音素 时长信息的同步性,进而提高所生成的目标语音音频的质量。
步骤403,将编码后的说话人无关信息和用户语音音频的音色信 息输入预训练的解码器,得到梅尔频谱信息。
在本实施例中,在本实施例中,执行主体可以将编码后的文本特 征信息和用户语音音频的音色信息输入预训练的解码器,得到梅尔频 谱信息。
其中,用户语音音频的音色信息基于目标用户提供的音频数据和 预训练的音色编码器得到。
这里,音色编码器用于捕捉输入语音音频的音色特征,音色特征独 立于语音音频对应的文本特征和独特的说话者风格特征,预先训练的音 色编码器的输出可以以嵌入向量的形式体现。
此外,预训练的解码器可以采用自回归解码器,也可以采用非自回 归解码器,相对于采用其他形式的编码器,采用自回归解码器,可以更 好地利用语音音频在不同时间尺度上的依赖特点,提高目标语音音频的 生成质量。
需要指出的是,编码器和解码器之间可以通过注意力机制模型连接。
在一些可选的方式中,目标音高信息包括进行音高增广后的目标音 高信息,目标音素时长信息包括进行时长增广后的目标音素时长信息, 以及在将梅尔频谱信息输入声码器,得到目标语音音频之前,该方法 还包括:对梅尔频谱信息的目标音高信息进行音高增广和对梅尔频谱 信息的目标音素时长信息进行时长增广。
在本实现方式中,执行主体在将梅尔频谱信息输入声码器之前可 以对梅尔频谱信息的目标音高信息进行音高增广和对梅尔频谱信息的 目标音素时长信息进行时长增广。
这里,具体的音高增广的高度和时长增广的长度可以根据经验、 实际需求和具体的应用场景进行设定。
作为示例,执行主体可以将梅尔频谱信息的音高升高半个八度、 一个八度或降低半个八度、一个八度等,将梅尔频谱信息的时长延长 为之前的1.2倍、1.5倍等,或缩短为之前的0.9倍或0.8倍等。
该实现方式通过对梅尔频谱信息的目标音高信息进行音高增广和 对梅尔频谱信息的目标音素时长信息进行时长增广,使得生成的目标 语音音频即歌唱语音音频的音高和时长更接近实际歌唱语音音频的音 高和时长。
步骤404,将梅尔频谱信息输入声码器,得到目标语音音频。
在本实施例中,在本实施例中,执行主体将上述步骤得到的梅尔 频谱信息输入声码器,得到目标语音音频。其中,声码器用于表征梅尔 频谱信息与语音音频之间的对应关系。
在一些可选的方式中,预训练的编码器和预训练的解码器通过以下 方式训练得到:获取标注有梅尔频谱信息的不同用户提供的音频样本; 将音频样本输入待训练的编码器,得到编码后的音频样本;将编码后 的音频样本分别输入文本信息分类器和音色信息分类器,得到分类后 的文本信息和分类后的音色信息;将分类后的文本信息和分类后的音色信息输入解码器,得到预测的梅尔频谱信息;根据标注的梅尔频谱 信息与预测的梅尔频谱信息的偏差,调整编码器和解码器的参数,直 到偏差满足预设条件,则得到训练完成的编码器和解码器。
在本实现方式中,预训练的编码器和预训练的解码器通过以下方 式训练得到:首先,获取标注有梅尔频谱信息的不同用户提供的音频 样本。这里,不同用户提供的音频样本可以包括目标用户发出的用户 语音音频、其他用户发出的歌唱语音音频。
然后,将音频样本输入待训练的编码器,得到编码后的音频样本 并将编码后的音频样本分别输入文本信息分类器和音色信息分类器, 得到分类后的文本信息和分类后的音色信息。
这里,文本信息分类器用于通过监督学习的方式保证编码器仅编码 文本特征信息。音色信息分类器用于通过监督学习的方式保证编码器仅 编码音色特征信息。
进一步地,将分类后的文本信息和分类后的音色信息分别组合输入 解码器,得到预测的梅尔频谱信息,并计算预测梅尔频谱信息和标注 的梅尔频谱信息的偏差,并根据偏差调整编码器和解码器的参数,直 到偏差满足预设条件,则得到训练完成的编码器和解码器。
此外,需要指出的是编码后的音频样本还可以输入风格信息分类器。 风格信息分类器用于通过监督学习的方式保证编码器仅编码风格特征信 息。
进一步地,执行主体可以将分类后的文本信息、分类后的音色信息 和分类后的风格信息分别进行组合输入待训练的解码器,得到预测的 梅尔频谱信息,并计算预测梅尔频谱信息和标注的梅尔频谱信息的偏 差,根据偏差调整编码器和解码器的参数,直到偏差满足预设条件, 则得到训练完成的编码器和解码器。
该实现方式通过基于获取标注有梅尔频谱信息的不同用户提供的 音频样本,对待训练的编码器和解码器进行训练,得到训练完成的编 码器和解码器,使得训练完成的编码器和解码器可以学习到不同语音 音频样本的文本特征信息的特征、音色信息的特征和风格信息的特征, 有助于提升训练完成的编码器和解码器的泛化能力。
从图4可以看出与图2对应的实施例相比,本实施例中的用于生 成网页的方法的流程400突出了通过将说话人无关信息输入预训练的 编码器,得到编码后的说话人无关信息;将编码后的说话人无关信息 和用户语音音频的音色信息输入预训练的解码器,得到梅尔频谱信息; 将梅尔频谱信息输入声码器,得到目标语音音频的步骤。由此,使得 目标语音音频充分结合了说话人无关信息和音色信息,提高了生成的 目标语音音频的准确度,并且采用声码器(vocoder)来生成目标语音音 频,可以使得所生成的目标语音音频更接近真实的语音音频由此可以使 得合成效果更为自然。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供 了一种用于生成音频的装置的一个实施例,该装置实施例与图2所示 的方法实施例相对应,除下面所记载的特征外,该装置实施例还可以 包括与图2所示的方法实施例相同或相应的特征,以及产生与图2所 示的方法实施例相同或相应的效果。该装置具体可以应用于各种电子 设备中。
如图5所示,本实施例的用于生成音频的装置500包括:获取单 元501被配置成获取说话人无关信息和目标用户发出的用户语音音频 的音色信息,其中,所述说话人无关信息包括:目标音高信息、目标 歌词信息、目标音素时长信息;生成单元502被配置成基于说话人无关 信息和所述用户语音音频的音色信息,生成目标语音音频,其中,目 标语音音频的音色与用户语音音频的音色信息相匹配,目标歌词信息 用于指示目标语音音频所对应的文本信息,目标音高信息用于指示目 标语音音频的音高,目标音素时长信息用于指示目标语音音频的音素 时长。
在本实施例中,用于生成音频的装置500的获取单元501可以通 过有线连接方式或者无线连接方式从其他电子设备,或者本地获取目 标语音风格信息和目标用户发出的用户语音音频。
在本实施例中,基于获取单元501获取到的说话人无关信息和用 户语音音频的音色信息,上述生成单元502可以生成目标语音音频。目 标语音音频的语音风格为目标语音风格信息指示的语音风格,目标语音 音频的音色与用户语音音频的音色相匹配,并且,目标语音音频对应的 文本信息与用户语音音频对应的文本信息相匹配。
在本实施例的一些可选的实现方式中,目标音素时长信息基于时长 模型和歌唱音频数据得到。
在本实施例的一些可选的实现方式中,生成单元502包括:第一生 成子单元(图中未示出),被配置成将说话人无关信息输入预训练的编 码器,得到编码后的说话人无关信息;第二生成子单元(图中未示出), 被配置成将编码后的说话人无关信息和用户语音音频的音色信息输入 预训练的解码器,得到梅尔频谱信息,其中,用户语音音频的音色信 息基于目标用户提供的音频数据和预训练的音色编码器得到;第三生 成子单元(图中未示出)被配置成将梅尔频谱信息输入声码器,得到 目标语音音频。
在本实施例的一些可选的实现方式中,预训练的编码器和预训练的 解码器通过以下方式训练得到:获取标注有梅尔频谱信息的不同用户提 供的音频样本;将音频样本输入待训练的编码器,得到编码后的音频 样本;将编码后的音频样本分别输入说话人无关信息分类器和音色信 息分类器,得到分类后的说话人无关信息和分类后的音色信息;将分类后的说话人无关信息和分类后的音色信息输入解码器,得到预测的 梅尔频谱信息;根据标注的梅尔频谱信息与预测的梅尔频谱信息的偏 差,调整编码器和解码器的参数,直到所述偏差满足预设条件,则得 到训练完成的编码器和解码器。
在本实施例的一些可选的实现方式中,目标音高信息包括进行音高 增广后的目标音高信息,目标音素时长信息包括进行时长增广后的目标 音素时长信息,以及在第三生成子单元之前,该装置还包括:第四生成 子单元,被配置成对梅尔频谱信息的目标音高信息进行音高增广和对 梅尔频谱信息的目标音素时长信息进行时长增广。
在本实施例的一些可选的实现方式中,歌唱音频数据的发音者与 所述目标用户的性别相同。
在本实施例的一些可选的实现方式中,所述生成单元进一步被配 置成基于说话人无关信息、目标用户发出的用户语音音频的音色信息 和目标语音风格信息,生成目标语音音频,目标语音风格信息用于指 示目标语音音频的风格。
在本实施例的一些可选的实现方式中,目标语音风格信息通过如下 步骤获得:获取具有目标语音风格信息指示的语音风格的人员的语音音 频;将人员的语音音频输入预训练的语音风格编码器,生成目标语音风 格信息。
本公开的上述实施例提供的装置,通过获取单元501获取说话人 无关信息和目标用户发出的用户语音音频的音色信息,然后,生成单 元502基于说话人无关信息和用户语音音频的音色信息,生成目标语 音音频,其中,目标语音音频的音色与用户语音音频的音色信息相匹 配,目标歌词信息用于指示目标语音音频所对应的文本信息,目标音 高信息用于指示目标语音音频的音高,目标音素时长信息用于指示目 标语音音频的音素时长,可以将说话文本转换为歌唱语音音频并且保持 用户语音音频的音色及其对应的文本信息,由此提升了生成语音音频的 准确度,丰富了语音音频的生成方式。
下面参考图6,其示出了适于用来实现本公开的实施例的电子设 备(例如图1中的服务器或终端设备)600的结构示意图。本公开的 实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、 数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移 动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的终 端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用 范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、 图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的 程序或者从存储装置608加载到随机访问存储器(RAM)603中的程 序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备 600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸 板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置 607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通 信装置609可以允许电子设备600与其他设备进行无线或有线通信以 交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理 解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具 备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也 可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以 被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程 序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程 序包含用于执行流程图所示的方法的程序代码。在这样的实施例中, 该计算机程序可以通过通信装置609从网络上被下载和安装,或者从 存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处 理装置601执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开所述的计算机可读介质可以是计算机可读 信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算 机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红 外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机 可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导 线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、 光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存 储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储 介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行 系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机 可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信 号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采 用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组 合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何 计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由 指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限 于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开 的操作的计算机程序代码,所述程序设计语言包括面向目标的程序设 计语言—诸如Python、Java、Smalltalk、C++,还包括常规的过程式程 序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全 地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立 的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者 完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远 程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利 用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码 的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实 现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实 现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。 例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时 也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是, 框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现, 或者可以用专用硬件与计算机指令的组合来实现。
根据本公开的一个或多个实施例,本公开提供了一种用于生成音 频的方法,该方法包括:获取说话人无关信息和目标用户发出的用户 语音音频的音色信息,其中,说话人无关信息包括:目标音高信息、 目标歌词信息、目标音素时长信息;基于说话人无关信息和用户语音 音频的音色信息,生成目标语音音频,其中,目标语音音频的音色与 用户语音音频的音色信息相匹配,目标歌词信息用于指示目标语音音 频所对应的文本信息,目标音高信息用于指示目标语音音频的音高, 目标音素时长信息用于指示目标语音音频的音素时长。
根据本公开的一个或多个实施例,目标音素时长信息基于时长模型 和歌唱音频数据得到。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 方法中,基于所述说话人无关信息和所述用户语音音频的音色信息, 生成目标语音音频,包括:将说话人无关信息输入预训练的编码器, 得到编码后的说话人无关信息;将编码后的说话人无关信息和用户语 音音频的音色信息输入预训练的解码器,得到梅尔频谱信息,其中, 用户语音音频的音色信息基于目标用户提供的音频数据和预训练的音 色编码器得到;将梅尔频谱信息输入声码器,得到目标语音音频。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 方法中,预训练的编码器和预训练的解码器通过以下方式训练得到:获 取标注有梅尔频谱信息的不同用户提供的音频样本;将音频样本输入 待训练的编码器,得到编码后的音频样本;将编码后的音频样本分别 输入说话人无关信息分类器和音色信息分类器,得到分类后的说话人 无关信息和分类后的音色信息;将分类后的说话人无关信息和分类后 的音色信息输入解码器,得到预测的梅尔频谱信息;根据标注的梅尔 频谱信息与预测的梅尔频谱信息的偏差,调整编码器和解码器的参数, 直到所述偏差满足预设条件,则得到训练完成的编码器和解码器。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 方法中,目标音高信息包括进行音高增广后的目标音高信息,目标音素 时长信息包括进行时长增广后的目标音素时长信息,以及在将梅尔频谱 信息输入声码器,得到目标语音音频之前,该方法还包括:对梅尔频 谱信息的目标音高信息进行音高增广和对梅尔频谱信息的目标音素时长信息进行时长增广。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 方法中,歌唱音频数据的发音者与目标用户的性别相同。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 方法中,基于说话人无关信息和目标用户发出的用户语音音频的音色 信息,生成目标语音音频,包括:基于说话人无关信息、目标用户发 出的用户语音音频的音色信息和目标语音风格信息,生成目标语音音 频,目标语音风格信息用于指示目标语音音频的风格。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 方法中,目标语音风格信息通过如下步骤获得:获取具有目标语音风格 信息指示的语音风格的人员的语音音频;将人员的语音音频输入预训练 的语音风格编码器,生成目标语音风格信息。
根据本公开的一个或多个实施例,本公开提供了一种用于生成音 频的装置,该装置包括:获取单元被配置成获取说话人无关信息和目 标用户发出的用户语音音频的音色信息,其中,说话人无关信息包括: 目标音高信息、目标歌词信息、目标音素时长信息;生成单元被配置 成基于说话人无关信息和所述用户语音音频的音色信息,生成目标语 音音频,其中,目标语音音频的音色与用户语音音频的音色信息相匹 配,目标歌词信息用于指示目标语音音频所对应的文本信息,目标音 高信息用于指示目标语音音频的音高,目标音素时长信息用于指示目 标语音音频的音素时长。
根据本公开的一个或多个实施例,目标音素时长信息基于时长模型 和歌唱音频数据得到。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 装置中,生成单元包括:第一生成子单元,被配置成将说话人无关信息 输入预训练的编码器,得到编码后的说话人无关信息;第二生成子单 元,被配置成将编码后的说话人无关信息和用户语音音频的音色信息 输入预训练的解码器,得到梅尔频谱信息,其中,用户语音音频的音 色信息基于目标用户提供的音频数据和预训练的音色编码器得到;第 三生成子单元,被配置成将梅尔频谱信息输入声码器,得到目标语音 音频。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 装置中,预训练的编码器和预训练的解码器通过以下方式训练得到:获 取标注有梅尔频谱信息的不同用户提供的音频样本;将音频样本输入 待训练的编码器,得到编码后的音频样本;将编码后的音频样本分别 输入说话人无关信息分类器和音色信息分类器,得到分类后的说话人 无关信息和分类后的音色信息;将分类后的说话人无关信息和分类后 的音色信息输入解码器,得到预测的梅尔频谱信息;根据标注的梅尔 频谱信息与预测的梅尔频谱信息的偏差,调整编码器和解码器的参数, 直到偏差满足预设条件,则得到训练完成的编码器和解码器。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 装置中,目标音高信息包括进行音高增广后的目标音高信息,目标音素 时长信息包括进行时长增广后的目标音素时长信息,以及在第三生成子 单元之前,该装置还包括:第四生成子单元,被配置成对梅尔频谱信 息的目标音高信息进行音高增广和对梅尔频谱信息的目标音素时长信息进行时长增广。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 装置中,歌唱音频数据的发音者与所述目标用户的性别相同。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 装置中,生成单元进一步被配置成基于说话人无关信息、目标用户发 出的用户语音音频的音色信息和目标语音风格信息,生成目标语音音 频,目标语音风格信息用于指示目标语音音频的风格。
根据本公开的一个或多个实施例,本公开提供的用于生成音频的 装置中,目标语音风格信息通过如下步骤获得:获取具有目标语音风格 信息指示的语音风格的人员的语音音频;将人员的语音音频输入预训练 的语音风格编码器,生成目标语音风格信息。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实 现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理 器中,例如,可以描述为:一种处理器包括获取单元和生成单元。其 中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例 如,获取单元还可以被描述为“获取说话人无关信息和目标用户发出的 用户语音音频的音色信息的单元”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机 可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是 单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一 个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使 得该电子设备:获取说话人无关信息和目标用户发出的用户语音音频 的音色信息,其中,说话人无关信息包括:目标音高信息、目标歌词 信息、目标音素时长信息;基于说话人无关信息和用户语音音频的音 色信息,生成目标语音音频,其中,目标语音音频的音色与用户语音 音频的音色信息相匹配,目标歌词信息用于指示目标语音音频所对应的文本信息,目标音高信息用于指示目标语音音频的音高,目标音素 时长信息用于指示目标语音音频的音素时长。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说 明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限 于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离 本公开构思的情况下,由上述技术特征或其等同特征进行任意组合而 形成的其它技术方案。例如上述特征与本公开中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (11)
1.一种用于生成音频的方法,包括:
获取说话人无关信息和目标用户发出的用户语音音频的音色信息,其中,所述说话人无关信息包括:目标音高信息、目标歌词信息、目标音素时长信息;
基于所述说话人无关信息和所述用户语音音频的音色信息,生成目标语音音频,其中,所述目标语音音频的音色与用户语音音频的音色信息相匹配,所述目标歌词信息用于指示目标语音音频所对应的文本信息,所述目标音高信息用于指示目标语音音频的音高,所述目标音素时长信息用于指示目标语音音频的音素时长。
2.根据权利要求1所述的方法,其中,所述目标音素时长信息基于时长模型和歌唱音频数据得到。
3.根据权利要求1所述的方法,其中,所述基于所述说话人无关信息和所述用户语音音频的音色信息,生成目标语音音频,包括:
将说话人无关信息输入预训练的编码器,得到编码后的说话人无关信息;
将编码后的说话人无关信息和用户语音音频的音色信息输入预训练的解码器,得到梅尔频谱信息,其中,所述用户语音音频的音色信息基于目标用户提供的音频数据和预训练的音色编码器得到;
将所述梅尔频谱信息输入声码器,得到目标语音音频。
4.根据权利要求3所述的方法,其中,所述预训练的编码器和预训练的解码器通过以下方式训练得到:
获取标注有梅尔频谱信息的不同用户提供的音频样本;
将所述音频样本输入待训练的编码器,得到编码后的音频样本;
将编码后的音频样本分别输入说话人无关信息分类器和音色信息分类器,得到分类后的说话人无关信息和分类后的音色信息;
将分类后的说话人无关信息和分类后的音色信息输入解码器,得到预测的梅尔频谱信息;
根据标注的梅尔频谱信息与预测的梅尔频谱信息的偏差,调整编码器和解码器的参数,直到所述偏差满足预设条件,则得到训练完成的编码器和解码器。
5.根据权利要求3所述的方法,其中,所述目标音高信息包括进行音高增广后的目标音高信息,所述目标音素时长信息包括进行时长增广后的目标音素时长信息,以及在所述将所述梅尔频谱信息输入声码器,得到目标语音音频之前,所述方法还包括:
对梅尔频谱信息的目标音高信息进行音高增广和对梅尔频谱信息的目标音素时长信息进行时长增广。
6.根据权利要求2所述的方法,其中,所述歌唱音频数据的发音者与所述目标用户的性别相同。
7.根据权利要求1所述的方法,其中,所述基于说话人无关信息和目标用户发出的用户语音音频的音色信息,生成目标语音音频,包括:
基于说话人无关信息、目标用户发出的用户语音音频的音色信息和目标语音风格信息,生成目标语音音频,所述目标语音风格信息用于指示目标语音音频的风格。
8.根据权利要求7所述的方法,其中,所述目标语音风格信息通过如下步骤获得:
获取具有所述目标语音风格信息指示的语音风格的人员的语音音频;
将所述人员的语音音频输入预训练的语音风格编码器,生成目标语音风格信息。
9.一种用于生成音频的装置,包括:
获取单元,被配置成获取说话人无关信息和目标用户发出的用户语音音频的音色信息,其中,所述说话人无关信息包括:目标音高信息、目标歌词信息、目标音素时长信息;
生成单元,被配置成基于所述说话人无关信息和所述用户语音音频的音色信息,生成目标语音音频,其中,所述目标语音音频的音色与用户语音音频的音色信息相匹配,所述目标歌词信息用于指示目标语音音频所对应的文本信息,所述目标音高信息用于指示目标语音音频的音高,所述目标音素时长信息用于指示目标语音音频的音素时长。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010753525.8A CN111899720B (zh) | 2020-07-30 | 2020-07-30 | 用于生成音频的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010753525.8A CN111899720B (zh) | 2020-07-30 | 2020-07-30 | 用于生成音频的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111899720A true CN111899720A (zh) | 2020-11-06 |
CN111899720B CN111899720B (zh) | 2024-03-15 |
Family
ID=73182802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010753525.8A Active CN111899720B (zh) | 2020-07-30 | 2020-07-30 | 用于生成音频的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111899720B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365877A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN112382297A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112614477A (zh) * | 2020-11-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
CN112652292A (zh) * | 2020-11-13 | 2021-04-13 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN113362804A (zh) * | 2021-06-09 | 2021-09-07 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN113593520A (zh) * | 2021-09-08 | 2021-11-02 | 广州虎牙科技有限公司 | 歌声合成方法及装置、电子设备及存储介质 |
CN113781993A (zh) * | 2021-01-20 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 定制音色歌声的合成方法、装置、电子设备和存储介质 |
CN113808555A (zh) * | 2021-09-17 | 2021-12-17 | 广州酷狗计算机科技有限公司 | 歌曲合成方法及其装置、设备、介质、产品 |
CN114005428A (zh) * | 2021-12-31 | 2022-02-01 | 科大讯飞股份有限公司 | 语音合成方法、装置、电子设备、存储介质和程序产品 |
CN117746834A (zh) * | 2024-02-21 | 2024-03-22 | 青岛海尔科技有限公司 | 基于大模型的语音生成方法及装置、存储介质、电子装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
JP2017045073A (ja) * | 2016-12-05 | 2017-03-02 | ヤマハ株式会社 | 音声合成方法および音声合成装置 |
CN107705783A (zh) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN108806665A (zh) * | 2018-09-12 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN111091800A (zh) * | 2019-12-25 | 2020-05-01 | 北京百度网讯科技有限公司 | 歌曲生成方法和装置 |
CN111161702A (zh) * | 2019-12-23 | 2020-05-15 | 爱驰汽车有限公司 | 个性化语音合成方法、装置、电子设备、存储介质 |
CN111276120A (zh) * | 2020-01-21 | 2020-06-12 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111402842A (zh) * | 2020-03-20 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN111402843A (zh) * | 2020-03-23 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 说唱音乐生成方法、装置、可读介质及电子设备 |
-
2020
- 2020-07-30 CN CN202010753525.8A patent/CN111899720B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
JP2017045073A (ja) * | 2016-12-05 | 2017-03-02 | ヤマハ株式会社 | 音声合成方法および音声合成装置 |
CN107705783A (zh) * | 2017-11-27 | 2018-02-16 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN108806665A (zh) * | 2018-09-12 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN111161702A (zh) * | 2019-12-23 | 2020-05-15 | 爱驰汽车有限公司 | 个性化语音合成方法、装置、电子设备、存储介质 |
CN111091800A (zh) * | 2019-12-25 | 2020-05-01 | 北京百度网讯科技有限公司 | 歌曲生成方法和装置 |
CN111276120A (zh) * | 2020-01-21 | 2020-06-12 | 华为技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111402842A (zh) * | 2020-03-20 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN111402843A (zh) * | 2020-03-23 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 说唱音乐生成方法、装置、可读介质及电子设备 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382297A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382268A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112652292A (zh) * | 2020-11-13 | 2021-04-13 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112614477A (zh) * | 2020-11-16 | 2021-04-06 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
CN112614477B (zh) * | 2020-11-16 | 2023-09-12 | 北京百度网讯科技有限公司 | 多媒体音频的合成方法、装置、电子设备和存储介质 |
CN112365877A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN113781993A (zh) * | 2021-01-20 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 定制音色歌声的合成方法、装置、电子设备和存储介质 |
CN113362804A (zh) * | 2021-06-09 | 2021-09-07 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN113362804B (zh) * | 2021-06-09 | 2024-03-19 | 平安科技(深圳)有限公司 | 一种合成语音的方法、装置、终端及存储介质 |
CN113593520A (zh) * | 2021-09-08 | 2021-11-02 | 广州虎牙科技有限公司 | 歌声合成方法及装置、电子设备及存储介质 |
CN113593520B (zh) * | 2021-09-08 | 2024-05-17 | 广州虎牙科技有限公司 | 歌声合成方法及装置、电子设备及存储介质 |
CN113808555A (zh) * | 2021-09-17 | 2021-12-17 | 广州酷狗计算机科技有限公司 | 歌曲合成方法及其装置、设备、介质、产品 |
CN113808555B (zh) * | 2021-09-17 | 2024-08-02 | 广州酷狗计算机科技有限公司 | 歌曲合成方法及其装置、设备、介质、产品 |
CN114005428A (zh) * | 2021-12-31 | 2022-02-01 | 科大讯飞股份有限公司 | 语音合成方法、装置、电子设备、存储介质和程序产品 |
CN117746834A (zh) * | 2024-02-21 | 2024-03-22 | 青岛海尔科技有限公司 | 基于大模型的语音生成方法及装置、存储介质、电子装置 |
CN117746834B (zh) * | 2024-02-21 | 2024-05-24 | 青岛海尔科技有限公司 | 基于大模型的语音生成方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111899720B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899720B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN111899719B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN111402842B (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN111369967B (zh) | 基于虚拟人物的语音合成方法、装置、介质及设备 | |
CN111445892B (zh) | 歌曲生成方法、装置、可读介质及电子设备 | |
CN111402843B (zh) | 说唱音乐生成方法、装置、可读介质及电子设备 | |
CN111798821B (zh) | 声音转换方法、装置、可读存储介质及电子设备 | |
CN111583900A (zh) | 歌曲合成方法、装置、可读介质及电子设备 | |
CN111161695B (zh) | 歌曲生成方法和装置 | |
CN111782576B (zh) | 背景音乐的生成方法、装置、可读介质、电子设备 | |
CN112802446B (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
WO2021212954A1 (zh) | 极低资源下的特定发音人情感语音合成方法及装置 | |
CN112786013B (zh) | 基于唱本的语音合成方法、装置、可读介质和电子设备 | |
WO2022042418A1 (zh) | 音乐合成方法、装置、设备和计算机可读介质 | |
WO2022237665A1 (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN113421550A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN111477210A (zh) | 语音合成方法和装置 | |
CN112383721B (zh) | 用于生成视频的方法、装置、设备和介质 | |
CN111862933A (zh) | 用于生成合成语音的方法、装置、设备和介质 | |
CN112652292A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN112382297A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN112382268A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN112382273A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN113079327A (zh) | 视频生成方法和装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |