CN117496923A - 歌曲生成方法、装置、设备及存储介质 - Google Patents

歌曲生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117496923A
CN117496923A CN202311368487.4A CN202311368487A CN117496923A CN 117496923 A CN117496923 A CN 117496923A CN 202311368487 A CN202311368487 A CN 202311368487A CN 117496923 A CN117496923 A CN 117496923A
Authority
CN
China
Prior art keywords
song
audio
model
sound
attribute information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311368487.4A
Other languages
English (en)
Inventor
陈孝良
黄赟贺
李良斌
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202311368487.4A priority Critical patent/CN117496923A/zh
Publication of CN117496923A publication Critical patent/CN117496923A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/111Automatic composing, i.e. using predefined musical rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种歌曲生成方法、装置、设备及存储介质,属于人工智能技术领域。本申请能够根据用户需求生成具有特定人声的歌曲。其中,该方案首先获取歌曲生成请求,该歌曲生成请求中包括歌曲属性信息和参考声音样本。之后根据歌曲属性信息来生成歌曲。由于在生成歌曲时考虑了用户需求,因此生成的歌曲与用户期望更为相符,提高了歌曲质量。另外,该方案还包括声音模仿过程,即会调用声音模仿模型的编码器将参考声音样本映射为潜在向量,并调用声音模仿模型的解码器根据该潜在向量生成与参考声音样本中人声的声音特征相符的模仿音频。接下来,通过将初始音频和模仿音频进行合成,生成具有特定人声的歌曲,丰富了歌曲生成方式。

Description

歌曲生成方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种歌曲生成方法、装置、设备及存储介质。
背景技术
近年来,随着人工智能技术的快速发展,自然语言处理作为人工智能的一个重要方向也取得了显著进步。目前,自然语言处理技术已应用于众多领域,比如可用于歌曲生成。
针对歌曲生成任务,生成歌曲的质量至关重要,因为这会严重影响用户体验。基于此,目前亟需一种有效的方式来自动创作歌曲,以提高歌曲质量。
发明内容
本申请实施例提供了一种歌曲生成方法、装置、设备及存储介质,能够提高歌曲质量。所述技术方案如下:
一方面,提供了一种歌曲生成方法,所述方法包括:
获取歌曲生成请求;其中,所述歌曲生成请求中包括输入的歌曲属性信息和用于进行声音模仿的参考声音样本;所述歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型;
根据所述歌曲属性信息生成初始音频;
调用声音模仿模型的编码器,将所述参考声音样本映射为潜在向量;以及,调用所述声音模仿模型的解码器,根据所述潜在向量生成与所述参考声音样本中人声的声音特征相符的模仿音频;
将所述初始音频和所述模仿音频进行合成,得到目标歌曲。
在一种可能的实现方式中,所述根据所述歌曲属性信息,生成初始音频,包括:
调用歌曲生成模型,根据所述歌曲属性信息生成所述初始音频;
其中,所述歌曲生成模型的训练过程,包括:
获取音乐数据集,并将所述音乐数据集中包括的音乐数据转化为音乐序列;其中,一个所述音乐序列中包括多个时间步的音符;
根据转化得到的音乐序列训练第一深度学习模型,得到所述歌曲生成模型;
其中,模型训练过程中的训练目标为最大化模型生成的音符的第一对数似然函数;所述第一对数似然函数用于表示模型在给定前i-1个元素的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的音乐序列。
在一种可能的实现方式中,所述歌曲生成请求中还包括输入的初始音乐序列;所述调用歌曲生成模型,根据所述歌曲属性信息生成所述初始音频,包括:
调用所述歌曲生成模型,在所述歌曲属性信息的约束下,根据所述初始音乐序列生成所述初始音频。
在一种可能的实现方式中,所述声音模仿模型的训练过程,包括:
获取未被标注的人声数据集;
对所述人声数据集中包括的人声数据进行预处理,得到人声样本;
根据得到的人声样本训练第二深度学习模型,得到所述声音模仿模型;
其中,模型训练过程中的训练目标为最大化模型生成的人声样本的第二对数似然函数,并最小化第一潜在向量和第二潜在向量之间的距离;
所述第二对数似然函数用于表示模型在给定前i-1个元素和第三潜在向量的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的人声样本;
所述第一潜在向量为模型生成的人声样本的潜在向量;所述第二潜在向量为输入模型的人声样本的潜在向量;所述第三潜在向量是从所述第二潜在向量的概率分布中采样得到的。
在一种可能的实现方式中,所述将所述初始音频和所述模仿音频进行合成,得到目标歌曲,包括:
将所述初始音频和所述模仿音频进行音频叠加,得到叠加后的音频;
对所述叠加后的音频执行音量平衡操作、节奏调整操作和损失补偿操作,得到所述目标歌曲;
其中,所述音量平衡操作用于调整音频中不同部分的音量;所述节奏调整操作用于基于用户节奏需求调整音频节奏;所述损失补偿操作用于修复音质。
在一种可能的实现方式中,所述将所述初始音频和所述模仿音频进行音频叠加,得到叠加后的音频,包括:
在将所述初始音频和所述模仿音频进行时间对齐后,将所述初始音频对应的波形的样本值与所述模仿音频对应的波形的样本值进行相加,得到所述叠加后的音频。
在一种可能的实现方式中,所述获取歌曲生成请求,包括:
显示歌曲设置界面;其中,所述歌曲设置界面上包括歌曲属性信息设置控件和参考声音样本上传控件;
基于所述歌曲属性信息设置控件,获取输入的歌曲属性信息;
基于所述参考声音样本上传控件,获取上传的参考声音样本;
基于输入的歌曲属性信息和上传的参考声音样本,生成所述歌曲生成请求。
另一方面,提供了一种歌曲生成装置,所述装置包括:
获取单元,被配置为获取歌曲生成请求;其中,所述歌曲生成请求中包括输入的歌曲属性信息和用于进行声音模仿的参考声音样本;所述歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型;
第一生成单元,被配置为根据所述歌曲属性信息生成初始音频;
第二生成单元,被配置为调用声音模仿模型的编码器,将所述参考声音样本映射为潜在向量;以及,调用所述声音模仿模型的解码器,根据所述潜在向量生成与所述参考声音样本中人声的声音特征相符的模仿音频;
合成单元,被配置为将所述初始音频和所述模仿音频进行合成,得到目标歌曲。
在一种可能的实现方式中,所述第一生成单元,被配置为调用歌曲生成模型,根据所述歌曲属性信息生成所述初始音频;
其中,所述歌曲生成模型的训练过程,包括:
获取音乐数据集,并将所述音乐数据集中包括的音乐数据转化为音乐序列;其中,一个所述音乐序列中包括多个时间步的音符;
根据转化得到的音乐序列训练第一深度学习模型,得到所述歌曲生成模型;
其中,模型训练过程中的训练目标为最大化模型生成的音符的第一对数似然函数;所述第一对数似然函数用于表示模型在给定前i-1个元素的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的音乐序列。
在一种可能的实现方式中,所述歌曲生成请求中还包括输入的初始音乐序列;所述第一生成单元,被配置为调用所述歌曲生成模型,在所述歌曲属性信息的约束下,根据所述初始音乐序列生成所述初始音频。
在一种可能的实现方式中,所述声音模仿模型的训练过程,包括:
获取未被标注的人声数据集;
对所述人声数据集中包括的人声数据进行预处理,得到人声样本;
根据得到的人声样本训练第二深度学习模型,得到所述声音模仿模型;
其中,模型训练过程中的训练目标为最大化模型生成的人声样本的第二对数似然函数,并最小化第一潜在向量和第二潜在向量之间的距离;
所述第二对数似然函数用于表示模型在给定前i-1个元素和第三潜在向量的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的人声样本;
所述第一潜在向量为模型生成的人声样本的潜在向量;所述第二潜在向量为输入模型的人声样本的潜在向量;所述第三潜在向量是从所述第二潜在向量的概率分布中采样得到的。
在一种可能的实现方式中,所述合成单元,被配置为:
将所述初始音频和所述模仿音频进行音频叠加,得到叠加后的音频;
对所述叠加后的音频执行音量平衡操作、节奏调整操作和损失补偿操作,得到所述目标歌曲;
其中,所述音量平衡操作用于调整音频中不同部分的音量;所述节奏调整操作用于基于用户节奏需求调整音频节奏;所述损失补偿操作用于修复音质。
在一种可能的实现方式中,所述合成单元,被配置为:
在将所述初始音频和所述模仿音频进行时间对齐后,将所述初始音频对应的波形的样本值与所述模仿音频对应的波形的样本值进行相加,得到所述叠加后的音频。
在一种可能的实现方式中,所述获取单元,被配置为:
显示歌曲设置界面;其中,所述歌曲设置界面上包括歌曲属性信息设置控件和参考声音样本上传控件;
基于所述歌曲属性信息设置控件,获取输入的歌曲属性信息;
基于所述参考声音样本上传控件,获取上传的参考声音样本;
基于输入的歌曲属性信息和上传的参考声音样本,生成所述歌曲生成请求。
另一方面,提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现上述的歌曲生成方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述的歌曲生成方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述的歌曲生成方法。
本申请实施例提供的歌曲生成方案,能够根据用户需求生成具有特定人声的歌曲。详细来说,该方案首先获取歌曲生成请求,该歌曲生成请求中包括用户输入的歌曲属性信息和用于进行声音模仿的参考声音样本。之后根据歌曲属性信息来生成歌曲。由于在生成歌曲时考虑了用户需求,因此生成的歌曲与用户期望更为相符,提高了歌曲质量。另外,该方案还包括声音模仿过程,即该方案会调用声音模仿模型的编码器将参考声音样本映射为潜在向量,并调用声音模仿模型的解码器根据该潜在向量生成与参考声音样本中人声的声音特征相符的模仿音频。接下来通过将初始音频和模仿音频进行合成,生成具有特定人声的歌曲,极大地丰富了歌曲生成方式。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种歌曲生成方法涉及的实施环境示意图;
图2是本申请实施例提供的一种歌曲生成方法的架构示意图;
图3是本申请实施例提供的一种歌曲生成方法的流程图;
图4是本申请实施例提供的另一种歌曲生成方法的流程图;
图5是本申请实施例提供的一种歌曲生成装置的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图;
图7是本申请实施例提供的另一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一元素能够被称为第二元素,并且类似地,第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素,并且在某些情况下,可以是单独且不同的元素。
其中,至少一个是指一个或一个以上,例如,至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而多个是指两个或者两个以上,例如,多个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。
在本文中提及的“和/或”,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。
图1是本申请实施例提供的一种歌曲生成方法涉及的实施环境示意图。
在本申请实施例中,该实施环境包括计算机设备。示例性地,参见图1,上述计算机设备包括终端101和服务器102,换言之,该歌曲生成方法由终端101和服务器102联合执行,本申请对此不作限定。
在一种可能的实现方式中,服务器102用于进行歌曲生成模型和声音模仿模型的训练,以及在接收到终端101发送的歌曲生成请求后,基于训练好的歌曲生成模型和声音模仿模型自动生成歌曲,并将生成好的歌曲返回给终端101。或者,由专门的服务器进行歌曲生成模型和声音模仿模型的训练,并将训练好的歌曲生成模型和声音模仿模型发送给服务器102,这样服务器102在接收到终端101发送的歌曲生成请求后,基于训练好的歌曲生成模型和声音模仿模型自动生成歌曲,并将生成好的歌曲返回给终端101。
示例性地,终端101为具有显示屏幕的计算机设备,比如智能手机或平板电脑等;而服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,本申请对此不作限定。
另外,本申请实施例涉及的服务器还可以包括其他服务器,以便提供更全面且多样化的服务。另外,本领域技术人员可以知晓,终端的数量可以比图示更多或更少。比如上述终端可以仅为几个,或者上述终端为几十个或几百个,或者更多数量,本申请对此不作限定。
示例性地,终端101上安装有提供歌曲生成功能的应用程序,比如用户可以通过手机或平板电脑下载该应用程序,而服务器102用于为该应用程序提供后台服务,比如服务器102上植入有训练好的能够自动生成歌曲的歌曲生成模型和声音模仿模型。
基于上述实施环境,本申请实施例提供了一种歌曲生成方案,该方案基于深度学习技术进行歌曲生成和人声模仿。示例性地,该方案使用大模型作为歌曲生成模型,即使用大模型生成歌曲,使用声音模仿模型(比如变分自编码器)来模仿特定人声。如图2所示,本申请实施例提供了一种生成歌曲并进行人声模仿的系统20。参见图2,该系统包括:歌曲生成模块21、声音模仿模块22和合成模块23。
在一种可能的实现方式中,歌曲生成模块21使用大模型来生成歌曲。其中,大模型通过对大量音乐数据进行学习来生成新的歌曲,新生成的歌曲包括旋律、和弦和节奏等元素。声音模仿模块22用于基于VITS模型来模仿人声。其中,VITS模型是一种结合了变分自编码器和Transformer的深度学习模型。该模块通过对大量人声数据进行学习来生成模仿特定人声的音频,即模仿音频。而模仿音频可以用于音频合成,从而生成与特定人声的声音特征相符的歌曲,即得到具有指定人声特征的歌曲。合成模块23用于将歌曲生成模块生成的歌曲和声音模仿模块输出的模仿音频进行合成,从而得到完整的歌曲。
下面结合图1和图2,通过如下实施方式对本申请实施例提供的歌曲生成方案进行详细介绍。
图3是本申请实施例提供的一种歌曲生成方法的流程图。该方法的执行主体为计算机设备。参见图3,本申请实施例提供的方法流程包括:
301、计算机设备获取歌曲生成请求;其中,该歌曲生成请求中包括输入的歌曲属性信息和用于进行声音模仿的参考声音样本;该歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型。
在一种可能的实现方式中,该歌曲属性信息除了包括歌曲风格的基本构成要素之外,还包括歌曲情感类型,以生成符合用户情感需求的歌曲。
示例性地,歌曲风格的基本构成要素包括但不限于曲调、节奏、节拍、力度、音区、音色、和声、复调、调式、调性等;歌曲情感类型包括但不限于回忆、疗伤、思念、伤感、寂寞、甜蜜、快乐、励志、激情、安静等。
在另一种可能的实现方式中,本申请实施例通过如下方式来获取歌曲生成请求:计算机设备显示歌曲设置界面;其中,该歌曲设置界面上至少包括歌曲属性信息设置控件和参考声音样本上传控件;之后,计算机设备基于该歌曲属性信息设置控件,获取用户输入的歌曲属性信息;以及,基于该参考声音样本上传控件,获取用户上传的参考声音样本;最终,计算机设备基于用户输入的歌曲属性信息和用户上传的参考声音样本,生成歌曲生成请求。
示例性地,该歌曲属性信息设置控件包括多个设置项,一个设置项支持用户设置一种基本构成要素,本申请对此不作限定。
另外,以终端和服务器联合执行本方案为例,则终端在生成歌曲生成请求后,会将该歌曲生成请求上传至服务器,以请求服务器根据该歌曲生成请求进行歌曲生成。
302、计算机设备根据该歌曲属性信息生成初始音频。
本步骤由图2中的歌曲生成模块21基于歌曲生成模型执行。另外,本申请实施例以初始音频对歌曲生成模块21生成的歌曲进行称谓。
其中,歌曲生成模块21根据该歌曲属性信息生成初始音频属于条件生成。在条件生成中,计算机设备获取用户额外提供的信息或条件,以此来指导歌曲生成。例如,用户可以提供诸如歌曲的曲调、节奏、节拍、音色、和声、情感类型等信息或条件,然后歌曲生成模块便可以根据这些信息或条件来生成歌曲。这种条件生成方式可以帮助用户更精确地控制生成的歌曲的特征。
另外,由于歌曲通常是由一系列音符和时间步组成的序列。因此,歌曲生成模型可以采用序列生成技术来逐步生成每个时间步的音符。
另外,针对歌曲生成,用户还可以提供初始音乐序列,其中,该初始音乐序列中包括多个音符,然后歌曲生成模型通过条件生成方式,基于该初始音乐序列逐步扩展出整首歌曲,本申请对此不作限定。
303、计算机设备调用声音模仿模型的编码器,将参考声音样本映射为潜在向量;以及,调用声音模仿模型的解码器,根据该潜在向量生成与参考声音样本中人声的声音特征相符的模仿音频。
本步骤由图2中的歌曲生成模块21执行。需要说明的是,潜在向量也被称为隐向量或隐藏向量。示例性地,参考声音样本为用于声音模仿的人声样本。
针对声音模仿,该过程包括通过声音模仿模型的编码器将参考声音样本编码为潜在向量,以及,通过声音模仿模型的解码器生成与参考声音样本类似的人声。
304、计算机设备将初始音频和模仿音频进行合成,得到目标歌曲。
本步骤即是通过图2中的合成模块23将生成的歌曲和模仿的人声进行合成,以生成最终的歌曲。
本申请实施例提供的歌曲生成方案,能够根据用户需求生成具有特定人声的歌曲。详细来说,该方案首先获取歌曲生成请求,该歌曲生成请求中包括用户输入的歌曲属性信息和用于进行声音模仿的参考声音样本。之后根据歌曲属性信息来生成歌曲。由于在生成歌曲时考虑了用户需求,因此生成的歌曲与用户期望更为相符,提高了歌曲质量。另外,该方案还包括声音模仿过程,即该方案会调用声音模仿模型的编码器将参考声音样本映射为潜在向量,并调用声音模仿模型的解码器根据该潜在向量生成与参考声音样本中人声的声音特征相符的模仿音频。接下来通过将初始音频和模仿音频进行合成,生成具有特定人声的歌曲,极大地丰富了歌曲生成方式。
以上介绍了本申请实施例提供的歌曲生成方案的部分技术细节。下面基于图4所示的具体实施方式对该歌曲生成方案进行介绍。
图4是本申请实施例提供的另一种歌曲生成方法的流程图。该方法的执行主体为计算机设备。参见图4,本申请实施例提供的方法流程包括:
401、计算机设备获取歌曲生成请求;其中,该歌曲生成请求中包括输入的歌曲属性信息和初始音乐序列,以及用于进行声音模仿的参考声音样本;该歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型。
在一种可能的实现方式中,该歌曲生成请求中除了包括歌曲属性信息和参考声音样本之外,还包括初始音乐序列。其中,该初始音乐序列作为歌曲生成模型的输入数据,进而歌曲生成模型基于该输入数据逐步扩展出整首歌曲,即得到初始音频。
402、计算机设备调用歌曲生成模型,在该歌曲属性信息的约束下,根据该初始音乐序列生成初始音频。
在一种可能的实现方式中,该歌曲生成模型的训练过程,包括如下步骤:
4021、获取音乐数据集,并将该音乐数据集中包括的音乐数据转化为音乐序列;其中,一个音乐序列中包括多个时间步的音符。
在本申请实施例中,该音乐数据集中包括事先收集的大量音乐数据。示例性地,该音乐数据集中包括各种类型的音乐数据。
在训练过程中,由于原始收集的音乐数据不适合直接作为模型的输入,因此会先对这些音乐数据进行预处理,即将这些音乐数据转化为一系列的音符或音符组,进而利用转化得到的音符或音符组来训练歌曲生成模型,详见下述步骤4022。
4022、根据转化得到的音乐序列训练第一深度学习模型,得到该歌曲生成模型。
示例性地,上述第一深度学习模型包括但不限于生成对抗网络、循环神经网络或Transformer结构,本申请对此不作限定。
针对歌曲生成模型的训练,模型训练过程中的训练目标为最大化模型生成的音符的对数似然函数。该对数似然函数用于表示模型在给定前i-1个元素的条件下,生成第i个元素的概率;其中,前i-1个元素和第i个元素来自输入模型的音乐序列。在另一种可能的实现方式中,该对数似然函数的形式如下:
L=∑log P(xi|x1,...,xi-1;θ)
其中,xi是输入的音乐序列的第i个元素,x1,...,xi-1是输入的音乐序列的前i-1个元素,θ是模型参数,P表示概率分布。
需要说明的是,为了同后文出现的对数似然函数进行区分,此处的对数似然函数也被称为第一对数似然函数,后文出现的对数似然函数也被称为第二对数似然函数。
在另一种可能的实现方式中,还可以通过随机抽样方式、优化方式或混合方式来生成歌曲。针对随机抽样方式,以变分自编码器为例,可以提供一组潜在向量的均值和方差,然后从潜在向量(将输入数据编码到潜在空间,得到该潜在向量)的概率分布中进行随机采样,即通过随机采样生成潜在向量(与前一个潜在向量不同)。之后,生成的潜在向量经过解码器转换成音频数据,即得到生成的歌曲。优化方式是通过最小化或最大化目标函数来生成歌曲。示例性地,可以定义一个目标函数,比如该函数与歌曲的音质、节奏等方面相关。然后,使用优化算法来调整模型参数或潜在向量,以最大程度地满足用户要求。其中,优化方法通常需要更多的计算资源和时间,但可以提供更精细的控制。混合方式旨在将多种方式进行结合以获得更好的生成结果。即,混合方式能够利用不同生成方式的优势,以满足用户需求。例如,可以先使用随机抽样方式生成一个粗略的音乐片段,然后再使用优化方式或条件生成方式对生成的音乐片段进行调整。
在另一种可能的实现方式中,在生成音频过程中,还可以执行如下操作,以实现节奏调整:
在生成歌曲时,可以使用音符插值和扩展技术来增加或减少音符的数量,以适应特定的节奏需求。该种方式有助于生成具有良好连贯性的歌曲,以确保音符之间过渡平滑。或者,歌曲生成模型具备节奏自动化调整功能,比如可以自动调整音符的时长和强度,以满足用户节奏需求。该种方式能够确保生成的歌曲的不同部分之间具有连贯的节奏。
403、计算机设备调用声音模仿模型的编码器,将参考声音样本映射为潜在向量;以及,调用声音模仿模型的解码器,根据该潜在向量生成与参考声音样本中人声的声音特征相符的模仿音频。
在一种可能的实现方式中,该声音模仿模型的训练过程,包括如下步骤:
4031、获取未被标注的人声数据集;对该人声数据集中包括的人声数据进行预处理,得到人声样本。
在本申请实施例中,该人声数据集中包括事先收集的大量人声数据。示例性地,该人声数据集中包括不同人的语音和唱歌片段。需要说明的是,本申请实施例通过对未被标注的人声数据进行学习,实现模仿人声。
在训练过程中,本申请实施例会将人声数据处理为人声样本,并使用人声样本来训练模型,详见下述步骤4032。
其中,将人声数据处理为人声样本即是对人声数据进行预处理。而之所以需要进行预处理,是因为原始收集的人声数据不适合直接作为模型的输入。
示例性地,以人声数据为唱歌片段为例,则预处理可以是将该唱歌片段转化为一系列的音符或音符组;以人声数据为用户语音为例,则预处理可以是对该用户语音进行分帧和语音活性检测等,本申请对此不作限定。
4032、根据得到的人声样本训练第二深度学习模型,得到声音模仿模型。
针对声音模仿模型的训练,模型训练过程中的训练目标为最大化模型生成的人声样本的对数似然函数(第二对数似然函数),并最小化第一潜在向量和第二潜在向量之间的距离。其中,第一潜在向量为模型生成的人声样本的潜在向量;第二潜在向量为输入模型的人声样本的潜在向量。
在另一种可能的实现方式中,以人声数据为唱歌片段为例,则输入模型的人声样本也被称为人声序列(由音符组成),相应地,对数似然函数的形式如下:
其中,yi是输入的人声序列的第i个元素,y1,...,yi-1是输入的人声序列的前i-1个元素,是模型参数,P表示概率分布。
针对上式,对数似然函数用于表示模型在给定前i-1个元素和第三潜在向量z的条件下,生成第i个元素的概率;其中,前i-1个元素和第i个元素来自输入模型的人声样本。第三潜在向量z是从第二潜在向量的概率分布中采样得到的。
在另一种可能的实现方式中,在生成音频过程中,还可以执行如下操作,以实现音量平衡:
通过控制潜在向量中的参数,来调整生成的音频的音量和音质。或者,还可以通过在潜在空间中插值不同的潜在向量来生成连续变化的音频。其中,通过在潜在空间中进行插值,可以实现音量平衡,使生成的音频的音量逐渐变化,即实现平滑的音量过渡。或者,还可以通过实时监控和调整来实现音量平衡。其中,该方式允许在生成过程中实时监控和调整音量。即在生成过程中进行实时干预,以确保生成的音频满足音量平衡要求。
404、计算机设备将初始音频和模仿音频进行合成,得到目标歌曲。
在一种可能的实现方式中,可以通过如下方式将初始音频和模仿音频进行合成:
4041、将初始音频和模仿音频进行音频叠加,得到叠加后的音频。
示例性地,将初始音频和模仿音频进行音频叠加,得到叠加后的音频,包括但不限于采用如下方式:
在将初始音频和模仿音频进行时间对齐后,将初始音频对应的波形的样本值与模仿音频对应的波形的样本值进行相加,得到叠加后的音频。
4042、对叠加后的音频执行音量平衡操作、节奏调整操作和损失补偿操作,得到目标歌曲;其中,音量平衡操作用于调整音频中不同部分的音量;节奏调整操作用于基于用户节奏需求调整音频节奏;损失补偿操作用于修复音质。
在本申请实施例中,图2中的合成模块23还具备音量平衡、节奏调整和损失补偿等功能,以确保最终生成的歌曲具有良好的一致性和连贯性。下面对音量平衡、节奏调整和损失补偿进行详细介绍。
其中,音量平衡是调整音频中不同部分的音量,以确保整首歌曲的音量听起来平衡和一致的过程。换言之,音量平衡的主要目的是防止音频中某些部分的音量过于强烈或太弱,从而导致最终生成的歌曲在音量方面听起来不平衡。示例性地,可以通过音频后处理工具来自动或半自动地调整音频中不同部分的音量,以确保音量在整首歌曲中保持平衡。
示例性地,可以通过时间轴调整技术或节奏匹配技术进行节奏调整。针对时间轴调整,生成的歌曲通常具有固定的时间轴,但可能需要根据特定的节奏和时长要求对其进行调整。而通过调整时间轴上的时间点、拍子或小节,可以确保生成的歌曲符合期望的节奏。节奏匹配是一种将生成的音符与期望的节奏模式进行匹配技术。示例性地,节奏匹配通过识别音符的起始时间、时长和强度,并将它们调整到与所需节奏一致的位置来实现。
其中,损失补偿是指在音频生成过程中对可能引入的音频质量损失进行修复或弥补的过程。示例性地,损失补偿包括但不限于:去噪和去混响、均衡器调整、压缩和限制、音频修复、动态处理等。
针对去噪和去混响,音乐生成过程中可能会引入噪音或混响,而去噪和去混响可以帮助消除这些不必要的干扰,以确保音乐的音质。即,去噪和去混响有助于减少音频中的杂音和混响效应,使音乐听起来更加干净和透明。
针对均衡器调整,是使用均衡器来调整音频的频率响应,以增强或降低特定频率范围的声音,这有助于改善音质。
针对压缩和限制,使用压缩和限制技术可以调整音频的动态范围,以避免音频的不同部分之间出现剧烈的音量差异。这有助于实现音乐的音量平衡,避免音频的某些部分过于强烈或太弱。
针对音频修复,音频生成过程中可能会引入各种失真或出现音损,如爆炸声、噪音间隙等。而音频修复技术可以帮助修复这些问题,以保持音乐的完整性。这有助于实现音乐的连贯,避免音频中断或噪音干扰。
针对动态处理,可以平衡音频的动态范围,并确保音乐的不同部分之间响度一致。这能够使得音乐听起来更加平衡和连贯。
综上所述,损失补偿技术能够提高生成歌曲的音质。通过去噪和去混响、调整音频的频率响应和动态范围、音频修复以及进行动态处理,可以使得生成的歌曲听起来更加清晰、平衡,且具有连贯性和一致性,从而提高了生成的歌曲的音质和可听性。
本申请实施例提供的歌曲生成方案,能够根据用户需求生成具有特定人声的歌曲,显著提高了歌曲质量。
详细来说,该方案基于大量音乐数据训练得到的歌曲生成模型能够生成高质量的歌曲。另外,基于大量人声数据训练得到的声音模仿模型能够准确地模仿特定人声,即模仿音频的可听性较高,具有自然的表达力。另外,在模型训练过程中不需要任何人工的数据标注,即该方案无需人工标注数据即可训练声音模仿模型,这使得该方案更具实用性。另外,由于不需要任何人工的数据标注,因此模型能够在大规模数据集上训练,大幅降低了实施成本。另外,通过执行音量平衡、节奏调整和损失补偿等操作,能够确保生成的歌曲具有良好的一致性和连贯性,生成的歌曲能够达到近似人类作曲家的水平,提升了生成的歌曲的音质。另外,生成歌曲过程和模仿人声过程可以并行化,因此该方案可以快速地生成歌曲和模仿人声,提高了歌曲生成效率。
图5是本申请实施例提供的一种歌曲生成装置的结构示意图。参见图5,该装置包括:
获取单元501,被配置为获取歌曲生成请求;其中,所述歌曲生成请求中包括输入的歌曲属性信息和用于进行声音模仿的参考声音样本;所述歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型;
第一生成单元502,被配置为根据所述歌曲属性信息生成初始音频;
第二生成单元503,被配置为调用声音模仿模型的编码器,将所述参考声音样本映射为潜在向量;以及,调用所述声音模仿模型的解码器,根据所述潜在向量生成与所述参考声音样本中人声的声音特征相符的模仿音频;
合成单元504,被配置为将所述初始音频和所述模仿音频进行合成,得到目标歌曲。
本申请实施例提供的歌曲生成方案,能够根据用户需求生成具有特定人声的歌曲。详细来说,该方案首先获取歌曲生成请求,该歌曲生成请求中包括用户输入的歌曲属性信息和用于进行声音模仿的参考声音样本。之后根据歌曲属性信息来生成歌曲。由于在生成歌曲时考虑了用户需求,因此生成的歌曲与用户期望更为相符,提高了歌曲质量。另外,该方案还包括声音模仿过程,即该方案会调用声音模仿模型的编码器将参考声音样本映射为潜在向量,并调用声音模仿模型的解码器根据该潜在向量生成与参考声音样本中人声的声音特征相符的模仿音频。接下来通过将初始音频和模仿音频进行合成,生成具有特定人声的歌曲,极大地丰富了歌曲生成方式。
在一种可能的实现方式中,第一生成单元502,被配置为调用歌曲生成模型,根据所述歌曲属性信息生成所述初始音频;
其中,所述歌曲生成模型的训练过程,包括:
获取音乐数据集,并将所述音乐数据集中包括的音乐数据转化为音乐序列;其中,一个所述音乐序列中包括多个时间步的音符;
根据转化得到的音乐序列训练第一深度学习模型,得到所述歌曲生成模型;
其中,模型训练过程中的训练目标为最大化模型生成的音符的第一对数似然函数;所述第一对数似然函数用于表示模型在给定前i-1个元素的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的音乐序列。
在一种可能的实现方式中,所述歌曲生成请求中还包括输入的初始音乐序列;第一生成单元502,被配置为调用所述歌曲生成模型,在所述歌曲属性信息的约束下,根据所述初始音乐序列生成所述初始音频。
在一种可能的实现方式中,所述声音模仿模型的训练过程,包括:
获取未被标注的人声数据集;
对所述人声数据集中包括的人声数据进行预处理,得到人声样本;
根据得到的人声样本训练第二深度学习模型,得到所述声音模仿模型;
其中,模型训练过程中的训练目标为最大化模型生成的人声样本的第二对数似然函数,并最小化第一潜在向量和第二潜在向量之间的距离;
所述第二对数似然函数用于表示模型在给定前i-1个元素和第三潜在向量的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的人声样本;
所述第一潜在向量为模型生成的人声样本的潜在向量;所述第二潜在向量为输入模型的人声样本的潜在向量;所述第三潜在向量是从所述第二潜在向量的概率分布中采样得到的。
在一种可能的实现方式中,合成单元504,被配置为:
将所述初始音频和所述模仿音频进行音频叠加,得到叠加后的音频;
对所述叠加后的音频执行音量平衡操作、节奏调整操作和损失补偿操作,得到所述目标歌曲;
其中,所述音量平衡操作用于调整音频中不同部分的音量;所述节奏调整操作用于基于用户节奏需求调整音频节奏;所述损失补偿操作用于修复音质。
在一种可能的实现方式中,合成单元504,被配置为:
在将所述初始音频和所述模仿音频进行时间对齐后,将所述初始音频对应的波形的样本值与所述模仿音频对应的波形的样本值进行相加,得到所述叠加后的音频。
在一种可能的实现方式中,获取单元501,被配置为:
显示歌曲设置界面;其中,所述歌曲设置界面上包括歌曲属性信息设置控件和参考声音样本上传控件;
基于所述歌曲属性信息设置控件,获取输入的歌曲属性信息;
基于所述参考声音样本上传控件,获取上传的参考声音样本;
基于输入的歌曲属性信息和上传的参考声音样本,生成所述歌曲生成请求。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的歌曲生成装置在生成歌曲时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的歌曲生成装置与歌曲生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请实施例提供的一种计算机设备600的结构示意图。
通常,计算机设备600包括有:处理器601和存储器602。
处理器601包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-ProgrammableGate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。或者,处理器601包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一种可能的实现方式中,处理器601集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一种可能的实现方式中,处理器601还包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602包括一个或多个计算机可读存储介质,该计算机可读存储介质是非暂态的。存储器602还包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一种可能的实现方式中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器601所执行以实现本申请中方法实施例提供的歌曲生成方法。
在一种可能的实现方式中,计算机设备600还包括:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间通过总线或信号线相连。各个外围设备通过总线、信号线或电路板与外围设备接口603相连。外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。
外围设备接口603被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一种可能的实现方式中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在另一种可能的实现方式中,处理器601、存储器602和外围设备接口603中的任意一个或两个在单独的芯片或电路板上实现,本申请对此不作限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。在一种可能的实现方式中,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一种可能的实现方式中,射频电路604还包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不作限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI包括图形、文本、图标、视频及其它们的任意组合。在显示屏605是触摸显示屏的情况下,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号作为控制信号输入至处理器601进行处理。此时,显示屏605还用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一种可能的实现方式中,显示屏605为一个,设置在计算机设备600的前面板;在另一种可能的实现方式中,显示屏605为至少两个,分别设置在计算机设备600的不同表面或呈折叠设计;在另一种可能的实现方式中,显示屏605是柔性显示屏,设置在计算机设备600的弯曲表面上或折叠面上。或者,显示屏605设置成非矩形的不规则图形,也即异形屏。显示屏605采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。在一种可能的实现方式中,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一种可能的实现方式中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在另一种可能的实现方式中,摄像头组件606还包括闪光灯。闪光灯是单色温闪光灯或双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,用于不同色温下的光线补偿。
音频电路607包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风为多个,分别设置在计算机设备600的不同部位。或者,麦克风是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器是传统的薄膜扬声器或压电陶瓷扬声器。在扬声器是压电陶瓷扬声器的情况下,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一种可能的实现方式中,音频电路607还包括耳机插孔。
定位组件608用于定位计算机设备600的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的格洛纳斯系统或欧盟的伽利略系统的定位组件。
电源609用于为计算机设备600中的各个组件进行供电。电源609是交流电、直流电、一次性电池或可充电电池。在电源609包括可充电电池的情况下,该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。
在一种可能的实现方式中,计算机设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。
加速度传感器611检测以计算机设备600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611用于检测重力加速度在三个坐标轴上的分量。处理器601根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还用于游戏或者用户的运动数据的采集。
陀螺仪传感器612检测计算机设备600的机体方向及转动角度,陀螺仪传感器612与加速度传感器611协同采集用户对计算机设备600的3D动作。处理器601根据陀螺仪传感器612采集的数据,实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613设置在计算机设备600的侧边框和/或显示屏605的下层。在压力传感器613设置在计算机设备600的侧边框的情况下,检测用户对计算机设备600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。在压力传感器613设置在显示屏605的下层的情况下,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器614用于采集用户的指纹,由处理器601根据指纹传感器614采集到的指纹识别用户的身份,或者,由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614被设置在计算机设备600的正面、背面或侧面。在计算机设备600上设置有物理按键或厂商Logo的情况下,指纹传感器614与物理按键或厂商Logo集成在一起。
光学传感器615用于采集环境光强度。在一种可能的实现方式中,处理器601根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。在环境光强度较高的情况下,调高显示屏605的显示亮度;在环境光强度较低的情况下,调低显示屏605的显示亮度。在另一种可能的实现方式中,处理器601还根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在计算机设备600的前面板。接近传感器616用于采集用户与计算机设备600的正面之间的距离。在一种可能的实现方式中,在接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变小的情况下,由处理器601控制显示屏605从亮屏状态切换为息屏状态;在接近传感器616检测到用户与计算机设备600的正面之间的距离逐渐变大的情况下,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对计算机设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是本申请实施例提供的另一种计算机设备700的结构示意图。
该计算机700可以是服务器。该计算机设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)701和一个或一个以上的存储器702,其中,所述存储器702中存储有至少一条程序代码,所述至少一条程序代码由所述处理器701加载并执行以实现上述各个方法实施例提供的歌曲生成方法。当然,该计算机设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的歌曲生成方法。例如,所述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述歌曲生成方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种歌曲生成方法,其特征在于,所述方法包括:
获取歌曲生成请求;其中,所述歌曲生成请求中包括输入的歌曲属性信息和用于进行声音模仿的参考声音样本;所述歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型;
根据所述歌曲属性信息生成初始音频;
调用声音模仿模型的编码器,将所述参考声音样本映射为潜在向量;以及,调用所述声音模仿模型的解码器,根据所述潜在向量生成与所述参考声音样本中人声的声音特征相符的模仿音频;
将所述初始音频和所述模仿音频进行合成,得到目标歌曲。
2.根据权利要求1所述的方法,其特征在于,所述根据所述歌曲属性信息,生成初始音频,包括:
调用歌曲生成模型,根据所述歌曲属性信息生成所述初始音频;
其中,所述歌曲生成模型的训练过程,包括:
获取音乐数据集,并将所述音乐数据集中包括的音乐数据转化为音乐序列;其中,一个所述音乐序列中包括多个时间步的音符;
根据转化得到的音乐序列训练第一深度学习模型,得到所述歌曲生成模型;
其中,模型训练过程中的训练目标为最大化模型生成的音符的第一对数似然函数;所述第一对数似然函数用于表示模型在给定前i-1个元素的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的音乐序列。
3.根据权利要求1所述的方法,其特征在于,所述歌曲生成请求中还包括输入的初始音乐序列;所述调用歌曲生成模型,根据所述歌曲属性信息生成所述初始音频,包括:
调用所述歌曲生成模型,在所述歌曲属性信息的约束下,根据所述初始音乐序列生成所述初始音频。
4.根据权利要求1所述的方法,其特征在于,所述声音模仿模型的训练过程,包括:
获取未被标注的人声数据集;
对所述人声数据集中包括的人声数据进行预处理,得到人声样本;
根据得到的人声样本训练第二深度学习模型,得到所述声音模仿模型;
其中,模型训练过程中的训练目标为最大化模型生成的人声样本的第二对数似然函数,并最小化第一潜在向量和第二潜在向量之间的距离;
所述第二对数似然函数用于表示模型在给定前i-1个元素和第三潜在向量的条件下,生成第i个元素的概率;所述前i-1个元素和所述第i个元素来自输入模型的人声样本;
所述第一潜在向量为模型生成的人声样本的潜在向量;所述第二潜在向量为输入模型的人声样本的潜在向量;所述第三潜在向量是从所述第二潜在向量的概率分布中采样得到的。
5.根据权利要求1所述的方法,其特征在于,所述将所述初始音频和所述模仿音频进行合成,得到目标歌曲,包括:
将所述初始音频和所述模仿音频进行音频叠加,得到叠加后的音频;
对所述叠加后的音频执行音量平衡操作、节奏调整操作和损失补偿操作,得到所述目标歌曲;
其中,所述音量平衡操作用于调整音频中不同部分的音量;所述节奏调整操作用于基于用户节奏需求调整音频节奏;所述损失补偿操作用于修复音质。
6.根据权利要求5所述的方法,其特征在于,所述将所述初始音频和所述模仿音频进行音频叠加,得到叠加后的音频,包括:
在将所述初始音频和所述模仿音频进行时间对齐后,将所述初始音频对应的波形的样本值与所述模仿音频对应的波形的样本值进行相加,得到所述叠加后的音频。
7.根据权利要求1至6中任一项权利要求所述的方法,其特征在于,所述获取歌曲生成请求,包括:
显示歌曲设置界面;其中,所述歌曲设置界面上包括歌曲属性信息设置控件和参考声音样本上传控件;
基于所述歌曲属性信息设置控件,获取输入的歌曲属性信息;
基于所述参考声音样本上传控件,获取上传的参考声音样本;
基于输入的歌曲属性信息和上传的参考声音样本,生成所述歌曲生成请求。
8.一种歌曲生成装置,其特征在于,所述装置包括:
获取单元,被配置为获取歌曲生成请求;其中,所述歌曲生成请求中包括输入的歌曲属性信息和用于进行声音模仿的参考声音样本;所述歌曲属性信息至少包括歌曲风格的基本构成要素和歌曲情感类型;
第一生成单元,被配置为根据所述歌曲属性信息生成初始音频;
第二生成单元,被配置为调用声音模仿模型的编码器,将所述参考声音样本映射为潜在向量;以及,调用所述声音模仿模型的解码器,根据所述潜在向量生成与所述参考声音样本中人声的声音特征相符的模仿音频;
合成单元,被配置为将所述初始音频和所述模仿音频进行合成,得到目标歌曲。
9.一种计算机设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至7中任一项权利要求所述的歌曲生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至7中任一项权利要求所述的歌曲生成方法。
CN202311368487.4A 2023-10-20 2023-10-20 歌曲生成方法、装置、设备及存储介质 Pending CN117496923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311368487.4A CN117496923A (zh) 2023-10-20 2023-10-20 歌曲生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311368487.4A CN117496923A (zh) 2023-10-20 2023-10-20 歌曲生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117496923A true CN117496923A (zh) 2024-02-02

Family

ID=89666803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311368487.4A Pending CN117496923A (zh) 2023-10-20 2023-10-20 歌曲生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117496923A (zh)

Similar Documents

Publication Publication Date Title
CN111326132B (zh) 音频处理方法、装置、存储介质及电子设备
CN108008930B (zh) 确定k歌分值的方法和装置
CN111031386B (zh) 基于语音合成的视频配音方法、装置、计算机设备及介质
US20230252964A1 (en) Method and apparatus for determining volume adjustment ratio information, device, and storage medium
CN111899706A (zh) 音频制作方法、装置、设备及存储介质
CN110956971B (zh) 音频处理方法、装置、终端及存储介质
CN112487940B (zh) 视频的分类方法和装置
CN109147757A (zh) 歌声合成方法及装置
CN109616090B (zh) 多音轨序列生成方法、装置、设备及存储介质
CN109243479B (zh) 音频信号处理方法、装置、电子设备及存储介质
CN111933098A (zh) 伴奏音乐的生成方法、装置及计算机可读存储介质
CN111223475B (zh) 语音数据生成方法、装置、电子设备及存储介质
CN111276122A (zh) 音频生成方法及装置、存储介质
CN111081277B (zh) 音频测评的方法、装置、设备及存储介质
CN113420177A (zh) 音频数据处理方法、装置、计算机设备及存储介质
CN110867194B (zh) 音频的评分方法、装置、设备及存储介质
CN111428079A (zh) 文本内容处理方法、装置、计算机设备及存储介质
CN111048109A (zh) 声学特征的确定方法、装置、计算机设备及存储介质
CN112435643B (zh) 生成电音风格歌曲音频的方法、装置、设备及存储介质
WO2023061330A1 (zh) 音频合成方法、装置、设备及计算机可读存储介质
CN113920979B (zh) 语音数据的获取方法、装置、设备及计算机可读存储介质
CN112992107B (zh) 训练声学转换模型的方法、终端及存储介质
CN111091807B (zh) 语音合成方法、装置、计算机设备及存储介质
CN117496923A (zh) 歌曲生成方法、装置、设备及存储介质
CN111063364A (zh) 生成音频的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination