CN116129938A - 歌声合成方法、装置、设备及存储介质 - Google Patents

歌声合成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116129938A
CN116129938A CN202310141983.XA CN202310141983A CN116129938A CN 116129938 A CN116129938 A CN 116129938A CN 202310141983 A CN202310141983 A CN 202310141983A CN 116129938 A CN116129938 A CN 116129938A
Authority
CN
China
Prior art keywords
information
sample
characteristic information
representation
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310141983.XA
Other languages
English (en)
Inventor
庄晓滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202310141983.XA priority Critical patent/CN116129938A/zh
Publication of CN116129938A publication Critical patent/CN116129938A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本申请公开了歌声合成方法、装置、设备及存储介质,该方法包括:获取目标对象的音色特征信息和目标对象的随机噪声表示,以及获取目标歌曲的音素特征信息、音高特征信息和能量信息;将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,该歌声合成模型是基于样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示进行训练得到的;基于目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频。通过本申请,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。

Description

歌声合成方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及歌声合成方法、歌声合成装置、计算机设备及计算机可读存储介质。
背景技术
随着人工智能的不断突破,音乐应用中的歌声合成技术也越来越受到关注。歌唱合成技术是将乐谱信息和歌词转换为歌唱语音的技术。相较于语音合成,歌曲合成需要输入更多维度的音乐标注信息(如音高、音符的时值等),同时要求输出的歌声更有感情的起伏,声音展现还要有连续性,技术实现上来说更为复杂。然而,目前很多无人工参与的歌曲合成作品都比较机械,缺乏表现力。因此,如何进行歌声合成以提高歌声合成的质量和表现力,是一个有待解决的问题。
发明内容
本发明实施例提供了歌声合成方法、装置、设备及存储介质,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
一方面,本发明实施例提供了一种歌声合成方法,该方法包括:
获取目标对象的音色特征信息和目标对象的随机噪声表示;
获取目标歌曲的音素特征信息、音高特征信息和能量信息;
将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,该歌声合成模型是基于样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示进行训练得到的;
基于该目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频。
一方面,本申请实施例提供一种歌声合成装置,该装置包括:
获取单元,用于获取目标对象的音色特征信息和目标对象的随机噪声表示;
该获取单元,还用于获取目标歌曲的音素特征信息、音高特征信息和能量信息;
处理单元,用于将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;
生成单元,用于基于该目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的歌声合成方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的歌声合成方法。
一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的歌声合成方法。
本申请实施例,首先获取目标对象的音色特征信息和目标对象的随机噪声表示,以及获取目标歌曲的音素特征信息、音高特征信息和能量信息;然后,将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;最后,基于目标梅尔谱信息生成合成歌曲,该合成歌曲便是目标对象针对该目标歌曲的合成音频,从而实现歌声合成。针对歌声合成场景,利用不同维度的信息(如音素、音高和气声)对音频数据进行处理,能够在歌唱力度、歌唱气声以及咬字等方面进行有效控制,并且实现模型内部参数从外部输入,保证了各个参数的可控性,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种歌声合成系统的结构示意图;
图2是本申请实施例提供的一种歌声合成方法的流程示意图;
图3是本申请实施例提供的一种音素标注的示意图;
图4是本申请实施例提供的一种音素编码器的结构示意图;
图5是本申请实施例提供的一种歌声合成模型的示意图;
图6是本申请实施例提供的一种合成歌曲调节界面的示意图;
图7是本申请实施例提供的另一种歌声合成方法的流程示意图;
图8是本申请实施例提供的一种歌声合成装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
在本申请实施例中,涉及人工智能(Artificial Intelligence,AI)技术;所谓的AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。具体的,AI技术涉及领域广泛,既有硬件层面的技术也有软件层面的技术;在硬件层面,AI技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术;在软件层面,AI技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着AI技术的研究和进步,AI技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,AI技术将在更多的领域得到应用,并发挥越来越重要的价值。
其中,语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、自监督学习、对比学习等技术。其中,自监督学习属于无监督学习范式的一种,特点是不需要人工标注的类别标签信息,直接利用数据本身作为监督信息,来学习样本数据的特征表达,并用于下游任务。对比学习技术则是完成自监督学习的一种方法,具体是通过将数据分别与正样本和负样本在特征空间进行对比,来学习样本的特征表示,其核心是在特征空间拉近正样本之间的距离,拉远负样本之间的距离。
基于上述所提及的机器学习/深度学习等技术,本申请实施例提出了一种歌声合成方法,以提高歌声合成的质量和表现力,提高歌声合成的效果。具体的,该歌声合成方法的大致原理如下:首先,获取目标对象的音色特征信息和目标对象的随机噪声表示,以及获取目标歌曲的音素特征信息、音高特征信息和能量信息;然后,将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;最后,基于目标梅尔谱信息生成合成歌曲,该合成歌曲便是目标对象针对该目标歌曲的合成音频,从而实现歌声合成。
在具体实现中,上述所提及的歌声合成方法可以由计算机设备执行的,该计算机设备可以是终端设备或服务器。其中,终端设备可以例如是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、飞行器等,但并不局限于此;服务器可以例如是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务器(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
或者,上述所提及的歌声合成方法可以由终端设备和服务器共同执行。例如,参见图1所示:可以先由终端设备101获取到目标对象的音色特征信息和目标对象的随机噪声表示,以及获取到目标歌曲的音素特征信息、音高特征信息和能量信息,然后将该音素特征信息、该音高特征信息、该音色特征信息、该随机噪声表示和该能量信息发送给服务器102。相应地,服务器102接收该音素特征信息、该音高特征信息、该音色特征信息、该随机噪声表示和该能量信息,并将其输入到预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;最后基于该目标梅尔谱信息生成合成歌曲。当然,服务器102还可以将该合成歌曲发送给终端设备101。
本申请实施例,针对歌声合成场景,利用不同维度的信息(如音素、音高和气声)对音频数据进行处理,能够在歌唱力度、歌唱气声以及咬字等方面进行有效控制,并且实现模型内部参数从外部输入,保证了各个参数的可控性,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述阐述,下面结合图2所示的流程图,对本申请实施例所提出的歌声合成方法作进一步阐述。在本申请实施例中,主要以上述所提及的计算机设备执行该歌声合成方法为例进行说明。请参见图2,该歌声合成方法具体可以包括步骤S201~S204:
S201、获取目标对象的音色特征信息和目标对象的随机噪声表示。
在本申请实施例中,音色是指不同声音表现在波形方面有与众不同的特性,不同的物体振动有不同的特点。其中,该目标对象的音色特征信息可以是通过对目标对象的历史音频数据进行分析得到的,不同的目标对象对应的音色特征信息也是不同的。此处所提及的目标对象可以是指用户或其他物体,在此不做限定。
另外,目标对象的随机噪声表示可以认为是目标对象的气声特征信息,可以利用随机噪声函数生成。其中,气声也称为气噪声,是指一种不按正常的发声规律,有意让声带不完全闭合,使声带边缘或部分振动,让气流通过未完全振动的声带发出的气与声的结合音。气声越多,演唱的歌声越沙哑缥缈,使得情感表达更加真切。
需要说明的是,当目标对象是用户时,本申请实施例所涉及到目标对象的音色特征信息、目标对象的音频数据等相关的数据,均是经过用户授权后所获取到的。并且,当本申请实施例运用到具体产品或技术中时,所涉及使用到的数据需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在一种可能的实现方式中,计算机设备可以采用以下两种方式中的一种获取目标对象的音色特征信息:
方式一:计算机设备可以从其他设备直接获取该目标对象的音色特征信息。基于该方式,无需计算处理,能够节省计算机设备的计算资源。
方式二:计算机设备获取目标对象的音频数据;对该音频数据进行梅尔谱提取,得到第一梅尔谱信息;基于该第一梅尔谱信息确定目标对象的音色特征信息。基于该方式,有利于节省传输资源的开销,提高获取音色特征信息的效率。其中,该目标对象的音频数据可以是指目标对象的历史清唱音频数据等。
可选地,计算机设备基于该第一梅尔谱信息确定目标对象的音色特征信息的具体实现方式可以是:对该第一梅尔谱信息进行均值计算,得到均值信息;将该均值信息确定为目标对象的音色特征信息。也就是说,目标对象的音色特征信息可以采用音频数据的第一梅尔谱信息的均值信息进行表示。此处选用梅尔谱作为声学特征的原因是,人耳能听到的频率范围是20~20000赫兹,但人耳对赫兹这种标度单位并不是线性感知关系,使用梅尔谱更加符合人耳的工作原理。
具体地,首先对音频数据进行分帧加窗,然后通过傅里叶变化计算线性频谱,最后采用梅尔标度的滤波器组将线性频谱变换为梅尔频谱,实现将频谱的线性标度转化为梅尔标度,得到该音频数据的第一梅尔谱信息,最后对该音频数据的第一梅尔谱信息取均值,将音频数据的第一梅尔谱信息的均值信息表示为该目标对象的音色特征信息。
S202、获取目标歌曲的音素特征信息、音高特征信息和能量信息。
在本申请实施例中,音素是指根据语音的自然属性划分出来的最小语音单位,例如“好”这个字,发音单位就是h和ao,即h和ao就是音素;另外,音素特征信息可以通过共振峰信息进行反映,共振峰是区分不同元音音素的主要依据。音高是指各种音调高低不同的声音,即音的高度,音高决定于物体振动的频率。能量信息是指唱歌的力度(或音波的强度),也可以称为音量或强度等。其中,目标歌曲的音素特征信息、音高特征信息和能量信息可以从目标歌曲中分析得到。此处的目标歌曲便是目标对象待合成的演唱歌曲。此处的能量信息可以是预先设定的,也可以是与该目标歌曲相似的歌曲的能量信息,也可以是通过其他模型预测出来的,在此不做限定。
在一种可能的实现方式中,计算机设备可以采用以下两种方式中的一种获取目标歌曲的音素特征信息和音高特征信息:
方式一:计算机设备可以从其他设备直接获取该目标歌曲的音素特征信息和音高特征信息。基于该方式,无需计算处理,能够节省计算机设备的计算资源。
方式二:计算机设备获取目标歌曲的曲谱数据,该曲谱数据包括歌词文本和歌曲音频数据;对该歌曲音频数据和该歌词文本进行对齐处理;基于对齐后的歌曲音频数据和歌词文本,确定该目标歌曲的音素特征信息;对该歌曲音频数据进行基频提取,得到该目标歌曲的音高特征信息。基于该方式,有利于节省传输资源的开销,提高获取音素特征信息和音高特征信息的效率。
需要说明的是,计算机设备可以利用歌声对齐模型将歌曲音频数据与歌词文本进行对齐处理,得到初步标注结果,然后可以经过人工再次精细化修复对齐边界。根据对齐后的歌曲音频数据和歌词文本可以确定出该目标歌曲的音素特征信息以及每个音素特征对应的音频帧数。其中,歌声对齐模型可以是深度神经网络模型,也可以是卷积神经网络模型,在此不做限定。
另外,基频(fundamental frequency)也称基音的频率,是指自由振荡系统的最低振荡频率,也就是复合波中的最低频率,基频的高低决定一个音的高低。针对基频提取(pitch estimation),通常是用来识别音乐的旋律和语音处理,经过提取后可以得到基频信息。其中,基频提取方法可以采用常见的概率时域算法(probabilistic YIN,pYin)、YIN算法、DIO算法、harvest算法、频域算法、机器学习等等。计算机设备对该歌曲音频数据进行基频提取后,由于基频是区别音高的主要成分,基频决定了音高,因此在本申请实施例中,可以直接将提取得到的基频信息作为该目标歌曲的音高特征信息。
如图3所示,歌词文本为“就像穿行在璀璨”,图3中(a)表示歌曲音频数据,图3中(b)表示提取的基频信息,图3中(c)表示音素标注结果,即“sp/j/iou/x/iang/ch/uan/x/ing/z/ai/c/uei/c/an”。其中,sp表示静音。因此,根据音素标注结果可以得到音素特征信息为:j、iou、x、iang、ch、uan、x、ing、z、ai、c、uei、c、an这些音素。
需要说明的是,计算机设备可以对确定出的目标歌曲的音素特征信息和目标歌曲的音高特征信息进行保存,便于后续可以直接使用,提高数据处理的效率。
S203、将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息。
在本申请实施例中,该歌声合成模型是基于样本音频数据以及对应的歌词文本、样本能力信息和样本随机噪声表示进行训练得到的。具体训练过程可以参考下述图7中步骤S701~S704的描述。
在一种可能的实现方式中,计算机设备将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,具体的实现方式可以包括以下步骤s11~s14:
s11、将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型。
s12、通过该歌声合成模型的编码器对音素特征信息、音高特征信息和音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示。
可选地,计算机设备通过歌声合成模型的编码器对音素特征信息、音高特征信息和音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示,具体的实现方式可以包括步骤A~C。基于该方式,有利于提高编码的准确性和有效性。
A、调用音素编码器对音素特征信息进行编码处理得到音素特征表示。
如图4所示,假设音素特征信息包括“n a sh i uo”五个音素,共T帧。若每个音素对应的音频帧数分别为[2,3,1,2,2],则将其展开为“n n a a a sh i iuo uo”,共10帧,即T=10。这里的T值可根据需求进行调整。
将音素特征信息作为音素编码器的输入,确定出该音素特征信息的词嵌入编码(word embedding),维度为[T,128]。然后使用固定的正弦和余弦函数得到该音素特征信息的位置编码(positional encoding),采用多头注意力机制(Multi-Head Attention)进行处理,经过相加和正则化得到第一音素表征向量;然后输入到一维卷积(conv 1D)中进行处理,经过相加和正则化得到第二音素特征向量;通过线性变换层对第二音素特征向量进行处理,得到共振峰表征向量,即作为音素特征表示,维度为[T,128]。其中,该音素编码器由N个FFT块组成,这里的N取值为5。
B、调用音高编码器对音高特征信息进行编码处理得到音高特征表示。
在具体实现中,该音高编码器由4层的线性映射层组成。将音高特征信息作为音高编码器的输入,其维度为[T,1],经过4层的线性映射层得到一个维度为[T,128]的表征向量;然后利用ReLU激活函数对该表征向量进行处理,得到音高特征表示,维度为[1,128]。
需要说明的是,Relu激活函数是常用的神经激活函数,是一个分段线性函数,将所有的负值都变为0,而正值不变,这种操作被成为单侧抑制,能够保证结果为正值。因此,采用ReLU激活函数对该表征向量进行处理,能够保证音高特征表示能够以正值的形式叠加于梅尔谱中。
C、调用音色编码器对音色特征信息进行编码处理得到音色特征表示。
在具体实现中,该音色编码器也是由4层的线性映射层组成。将音色特征信息作为音色编码器的输入,其维度为[1,128],经过4层的线性映射层得到一个维度为[1,128]的表征向量;然后利用归一化LayerNorm层对该表征向量进行处理,得到音色特征表示,维度为[1,128]。其中,LayerNorm层的作用是保证音色特征表示为一个正态分布,有利于提高模型的稳定性。
另外,这里的随机噪声表示为一个区间[0,1)的均匀分布,以保证非周期信息(即随机噪声表示)以正值的形式叠加到梅尔谱上,其维度为[1,128]。
需要说明的是,步骤A~C的执行的先后顺序不做限定,也可能是同时执行的。其中,音素特征表示、音高特征表示、音色特征表示和随机噪声表示均采用同一维度。
s13、基于音素特征表示、音高特征表示、音色特征表示和随机噪声表示、气声权重值、音素权重值和音高权重值和能量信息,确定目标梅尔谱表示。
在一种可能的实现方式中,计算机设备基于该音素特征表示、该音高特征表示、该音色特征表示和该随机噪声表示、气声权重值、音素权重值和音高权重值和该能量信息,确定目标梅尔谱表示时,具体的实现方式可以是:基于该随机噪声表示和气声权重值确定第一结果;基于该音素特征表示和音素权重值确定第二结果;基于该音高特征表示和音高权重值确定第三结果;对该第一结果、该第二结果、该第三结果、该音色特征表示和该能量信息进行叠加处理,得到目标梅尔谱表示。
具体地,计算机设备利用已经确定的气声权重值与随机噪声表示相乘,得到第一结果;利用已经确定的音素权重值与音素特征表示相乘,得到第二结果;利用已经确定的音高权重值与音高特征表示相乘,得到第三结果;由于音素特征表示、音高特征表示、音色特征表示和随机噪声表示均采用同一维度,可以将第一结果、第二结果和第三结果进行叠加,再加上音色特征表示以及能量信息,得到目标梅尔谱表示。
需要说明的是,由于音色特征表示是目标对象与众不同的特性,不同的对象具有不同的音色特征表示,因此不能对音色特征表示进行调整,否则合成歌曲便不是目标对象的演唱歌声。另外,能量信息是针对音频整体而言的信息,用于表示唱歌的力度,可以称为音量或强度,并不是音频的某个特征信息,不会影响合成歌曲的特性,因此无需在确定目标梅尔谱表示时对能量信息进行调整,这里的能量信息可以认为是一个预设值,在合成歌曲生成后,可以再根据目标对象的需求调整能量信息,例如调大音量或减小音量。
可选地,气声权重值、音素权重值、音高权重值之和为1。基于该方式,能够保证歌声合成的稳定性。
s14、通过歌声合成模型的解码器对目标梅尔谱表示进行解码处理,得到目标梅尔谱信息。
在具体实现中,该歌声合成模型的解码器可以由4个卷积核大小分别为[3,5,7,9]的卷积组成。将目标梅尔谱表示作为歌声合成模型的解码器的输入,对经过4个卷积操作后的特征取均值,将其均值作为解码的结果,即目标梅尔谱信息。
总的来说,如图5所示,该歌声合成模型可以由音素编码器、音高编码器、音色编码器以及解码器组成,w1为气声权重值,w2为音素权重值,w3为音高权重值。将音素特征信息输入到音素编码器中,得到音素特征表示;将音高特征信息输入到音高编码器中,得到音高特征表示;将音色特征信息输入到音色编码器中,得到音色特征表示;然后将随机噪声表示与w1相乘,得到第一结果;将音素特征表示与w2相乘,得到第二结果;将音高特征表示与w3相乘,得到第三结果;然后将第一结果、第二结果、第三结果、音色特征表示和能量信息叠加,得到目标梅尔谱表示;然后利用解码器对目标梅尔谱表示进行解码处理,得到目标梅尔谱信息。
S204、基于该目标梅尔谱信息生成合成歌曲。
在本申请实施例中,该合成歌曲为目标对象针对该目标歌曲的合成音频。计算机设备可以通过声码器将目标梅尔谱信息转化为歌曲形式,即得到由该目标对象演唱的合成音频,从而实现了目标对象对目标歌曲的演唱。
在一种可能的实现方式中,该方法还包括:获取到第一调整信息,基于该第一调整信息调整该气声权重值;获取到第二调整信息,基于该第二调整信息调整该音高权重值;获取到第三调整信息,基于该第三调整信息调整该能量信息。也就是说,目标对象可以对目标歌曲的合成歌曲的气声、咬字以及力度进行控制:目标对象可以调整随机噪声的比例(即气声权重值),以控制每一帧的合成音量,实现力度可控;还可以调整音高特征的比例(即音高权重值),以调整发音的清晰度,实现咬字可控;还可以调整能量信息,以控制合成歌声的力度(音量),实现力度可控。需要说明的是,音素权重值通常保持不变,气声权重值和音高权重值之间存在负相关的关系。例如,当目标对象增加气声权重值时,音高权重值便会相应地减少。另外,调整能量信息的方式可以是调整帧级别的能量信息,实现控制每一帧的合成音量;也可以是直接替换为新的能量信息,在此不做限定。基于该方式,有利于提高歌声合成的灵活性,提高用户体验。
如图6所示,图6是本申请实施例提供的一种合成歌曲调节界面的示意图。该合成歌曲调节界面包括气声调节按钮、清晰度调节按钮、力度调节按钮、保存按钮和取消按钮。其中,气声调节按钮包括两个触发区域,气声调节按钮的左边触发区域表示增加气声,气声调节按钮的右边触发区域表示减少气声;清晰度调节按钮也包括两个触发区域,清晰度调节按钮的左边触发区域表示增加咬字清晰度(音高),清晰度调节按钮的右边触发区域表示减少咬字清晰度(音高);力度调节按钮也包括两个触发区域,力度调节按钮的左边触发区域表示增加当前力度(能量),力度调节按钮的右边触发区域表示减少当前力度(能量)。
假设气声权重值为0.2,音高权重值为0.3,音素权重值为0.5。例如,当用户触发气声调节按钮的右边触发区域时,表示用户希望减少合成歌曲中的气声,那么计算机设备可以将气声权重值减少第一预设值(即0.1),调整后的气声权重值为0.1。相应地,计算机设备为了保证气声权重值、音高权重值和音素权重值为1,因此需要自动调整音高权重值为0.4,音素权重值(即0.5)保持不变。
又例如,当用户触发清晰度调节按钮的左边触发区域时,表示用户希望增加合成歌曲中的咬字清晰度,那么计算机设备可以将音高权重值增加第二预设值(即0.1),调整后的音高权重值为0.4。相应地,计算机设备为了保证气声权重值、音高权重值和音素权重值为1,因此需要自动调整气声权重值为0.1,音素权重值(即0.5)保持不变。
又例如,当用户触发力度调节按钮的左边触发区域时,表示用户希望增加合成歌曲的力度,那么计算机设备可以对能量信息增加第三预设值。
当然,用户可以通过触发保存按钮对该调整结果进行保存,也可以通过触发取消按钮对该调整结果进行取消。
综上所述,在本申请实施例中,首先,获取目标对象的音色特征信息和目标对象的随机噪声表示,以及获取目标歌曲的音素特征信息、音高特征信息和能量信息;然后,将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;最后,基于目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频,从而实现歌声合成。针对歌声合成场景,利用不同维度的信息(如音素、音高和气声)对音频数据进行处理,能够在歌唱力度、歌唱气声以及咬字等方面进行有效控制,并且实现模型内部参数从外部输入,保证了各个参数的可控性,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
基于上述阐述,下面结合图7所示的流程图,对本申请实施例所提出的歌声合成方法作进一步阐述。在本申请实施例中,主要以上述所提及的计算机设备执行该歌声合成方法为例进行说明。请参见图7,该歌声合成方法具体可以包括步骤S701~S708。其中,步骤S701~S704是歌声合成模型的数据集获取以及训练过程;步骤S705~S708是歌声合成模型的应用过程。
S701、获取样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示。
在本申请实施例中,在训练歌声合成模型之前,计算机设备需要获取数据集:样本音频数据、样本音频数据对应的歌词文本以及样本音频数据的样本能量信息;同时需要利用随机噪声函数生成样本音频数据的样本随机噪声表示。其中,这里的样本音频数据可以包括一个或多个。
S702、基于样本音频数据和样本音频数据对应的歌词文本确定样本音频数据的样本音素特征信息。
在本申请实施例中,计算机设备获取到样本音频数据和样本音频数据对应的歌词文本后,需要对样本音频数据和样本音频数据对应的歌词文本进一步处理,以确定出样本音频数据的样本音素特征信息。
可选地,计算机设备基于样本音频数据和样本音频数据对应的歌词文本确定样本音频数据的样本音素特征信息的具体实现方式可以是:对样本音频数据和样本音频数据对应的歌词文本进行对齐处理;基于对齐后的样本音频数据以及对应的歌词文本,确定样本音频数据的样本音素特征信息。具体可以参考上述步骤S202中计算机设备基于曲谱数据确定目标歌曲的音素特征信息的具体实现方式,在此不做赘述。
S703、基于样本音频数据确定样本音频数据的样本音高特征信息、样本音色特征信息和第二梅尔谱信息。
在本申请实施例中,计算机设备还需要对样本音频数据做进一步处理,以确定出样本音频数据的样本音高特征信息、样本音色特征信息和第二梅尔谱信息。
可选地,计算机设备基于样本音频数据确定样本音频数据的样本音高特征信息的具体实现方式可以是:对样本音频数据进行基频提取,得到该样本音频数据的样本音高特征信息。具体可以参考上述步骤S202中计算机设备确定目标歌曲的音高特征信息的具体实现方式,在此不做赘述。
可选地,计算机设备基于样本音频数据确定样本音频数据的样本音色特征信息和第二梅尔谱信息的具体实现方式可以是:对样本音频数据进行梅尔谱提取,得到第二梅尔谱信息;基于该第二梅尔谱信息确定该样本音频数据的样本音色特征信息。具体可以参考上述步骤S201中计算机设备确定目标对象的音色特征信息和第一梅尔谱信息的具体实现方式,在此不做赘述。
需要说明的是,步骤S702和S703的执行的先后顺序不做限定,也可能是同时执行的。另外,步骤S701~S703也可以由其他设备执行,其他设备可以将确定出的样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息发送给计算机设备进行模型训练,在此不做限定。
S704、基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型。
在一种可能的实现方式中,计算机设备基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型,具有的实现方式可以包括步骤s21~s27:
s21、将样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示和样本能量信息输入初始歌声合成模型。
s22、通过初始歌声合成模型的编码器对样本音素特征信息、样本音高特征信息和样本音色特征信息进行编码处理,得到样本音素特征表示、样本音高特征表示和样本音色特征表示。
可选地,计算机设备通过初始歌声合成模型的编码器对样本音素特征信息、样本音高特征信息和样本音色特征信息进行编码处理,得到样本音素特征表示、样本音高特征表示和样本音色特征表示,具体的实现方式可以是:调用音素编码器对样本音素特征信息进行编码处理,得到样本音素特征表示;调用音高编码器对样本音高特征信息进行编码处理,得到样本音高特征表示;调用样本音色编码器对样本音色特征信息进行编码处理,得到样本音色特征表示。
其中,步骤s21和s22的具体实现方式可以参考上述步骤s11和s12的具体实现方式,在此不做赘述。
s23、基于样本音素特征表示、样本音高特征表示、样本音色特征表示和样本气声特征表示,确定样本气声权重值、样本音素权重值和样本音高权重值。
在具体实现中,计算机设备通过编码器确定出样本音素特征表示、样本音高特征表示和样本音色特征表示后,然后通过softmax激活函数,得到三个权重值,即样本气声权重值、样本音素权重值和样本音高权重值,分别表示非周期能量(气声)的叠加比例、共振峰能量(音素)的叠加比例和激励能量(音高)的叠加比例。
可选地,样本气声权重值、样本音素权重值、样本音高权重值之和为1。
s24、基于样本音素特征表示、样本音高特征表示、样本音色特征表示和样本随机噪声表示、样本气声权重值、样本音素权重值和样本音高权重值和样本能量信息,确定预测梅尔谱表示。
s25、通过初始歌声合成模型的解码器对预测梅尔谱表示进行解码处理,得到预测梅尔谱信息。
其中,步骤s24和s25的具体实现方式可以参考上述步骤s13和s14的具体实现方式,计算机设备也需要利用确定的样本气声权重值与样本随机噪声表示相乘,得到第一结果;利用已经确定的样本音素权重值与样本音素特征表示相乘,得到第二结果;利用已经确定的样本音高权重值与样本音高特征表示相乘,得到第三结果;然后将第一结果、第二结果和第三结果进行叠加,加上样本音色特征表示以及样本能量信息,得到预测梅尔谱表示。进一步,通过初始歌声合成模型的解码器对预测梅尔谱表示进行解码处理,便可得到预测梅尔谱信息。
s26、基于预测梅尔谱信息和第二梅尔谱信息确定的损失值,更新该初始歌声合成模型的模型参数,得到训练完成的歌声合成模型。
在具体实现中,该模型参数包括样本气声权重值、样本音素权重值和样本音高权重值。损失函数可以为预测梅尔谱信息和第二梅尔谱信息的最小均分误差。计算机设备通过该损失函数可以计算出该初始歌声合成模型的损失值;然后基于该损失值进行梯度反向传播更新初始歌声合成模型的模型参数。例如,可以采用优化器为Adam优化器,学习率为0.001,当损失值下降到目标预设值时(一般结合推断结果来判断),表示模型收敛,训练结束。
需要说明的是,歌声合成模型训练结束后,更新得到的样本气声权重值、样本音素权重值和样本音高权重值便可在歌声合成模型中进行应用。也就是说,更新得到的样本气声权重值、样本音素权重值和样本音高权重值便是上述步骤s13中应用的气声权重值、音素权重值和音高权重值。
S705、获取目标对象的音色特征信息和目标对象的随机噪声表示。
S706、获取目标歌曲的音素特征信息、音高特征信息和能量信息。
S707、将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息。
S708、基于该目标梅尔谱信息生成合成歌曲。
其中,步骤S705~S708的具体实现方式可以参考上述步骤S201~S204的具体实现方式,在此不做赘述。
综上所述,在本申请实施例中,首先,对歌声合成模型进行训练:获取样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示;基于样本音频数据和样本音频数据对应的歌词文本确定样本音频数据的样本音素特征信息;基于样本音频数据确定样本音频数据的样本音高特征信息、样本音色特征信息和第二梅尔谱信息;基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型。然后对该歌声模型进行应用,生成合成歌曲,该合成歌曲便是目标对象针对该目标歌曲的合成音频,从而实现歌声合成。针对歌声合成场景,利用不同维度的信息(如音素、音高和气声)对音频数据进行处理,能够在歌唱力度、歌唱气声以及咬字等方面进行有效控制,并且实现模型内部参数从外部输入,将音素特征、音高特征和气声特征三部分按比例混合,并支持单独调整,保证了各个参数的可控性,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
基于上述的歌声合成方法,本申请实施例提供了一种歌声合成装置。请参见图8,是本申请实施例提供的一种歌声合成装置的结构示意图,该歌声合成装置800可以运行如下单元:
获取单元801,用于获取目标对象的音色特征信息和目标对象的随机噪声表示;
该获取单元801,还用于获取目标歌曲的音素特征信息、音高特征信息和能量信息;
处理单元802,用于将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,该歌声合成模型是基于样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示进行训练得到的;
生成单元803,用于基于该目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频。
在一种实施方式中,处理单元802,在将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标对象的目标梅尔谱信息时,可具体用于:将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型;通过歌声合成模型的编码器对音素特征信息、音高特征信息和音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示;基于音素特征表示、音高特征表示、音色特征表示和随机噪声表示、气声权重值、音素权重值和音高权重值和能量信息,确定目标梅尔谱表示;通过歌声合成模型的解码器对目标梅尔谱表示进行解码处理,得到目标梅尔谱信息。
另一种实施方式中,处理单元802,在基于该音素特征表示、该音高特征表示、该音色特征表示和该随机噪声表示、气声权重值、音素权重值和音高权重值和该能量信息,确定目标梅尔谱表示时,可具体用于:基于该随机噪声表示和气声权重值确定第一结果;基于该音素特征表示和音素权重值确定第二结果;基于该音高特征表示和音高权重值确定第三结果;对该第一结果、该第二结果、该第三结果、该音色特征表示和该能量信息进行叠加处理,得到目标梅尔谱表示。
另一种实施方式中,该编码器包括音素编码器、音高编码器和音色编码器,处理单元802,在通过歌声合成模型的编码器对音素特征信息、音高特征信息和音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示时,可具体用于:调用音素编码器对音素特征信息进行编码处理得到音素特征表示;调用音高编码器对音高特征信息进行编码处理得到音高特征表示;调用音色编码器对音色特征信息进行编码处理得到音色特征表示。
另一种实施方式中,处理单元802,还用于:获取到第一调整信息,基于该第一调整信息调整该气声权重值;获取到第二调整信息,基于该第二调整信息调整该音高权重值;获取到第三调整信息,基于该第三调整信息调整该能量信息。
在一种实施方式中,获取单元801,在获取目标对象的音色特征信息时,可具体用于:获取目标对象的音频数据;对该音频数据进行梅尔谱提取,得到第一梅尔谱信息;基于该第一梅尔谱信息确定该目标对象的音色特征信息。
另一种实施方式中,获取单元801,在获取目标歌曲的音素特征信息、所述目标歌曲的音高特征信息时,可具体用于:获取目标歌曲的曲谱数据;对该歌曲音频数据和歌词文本进行对齐处理;基于对齐后的歌曲音频数据和歌词文本,确定目标歌曲的音素特征信息;对该歌曲音频数据进行基频提取,得到目标歌曲的音高特征信息。
另一种实施方式中,处理单元802,还用于:获取样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示;基于样本音频数据和样本音频数据对应的歌词文本确定样本音频数据的样本音素特征信息;基于样本音频数据确定样本音频数据的样本音高特征信息、样本音色特征信息和第二梅尔谱信息;基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型。
另一种实施方式中,处理单元802,在基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型时,可具体用于:将样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示和样本能量信息输入初始歌声合成模型;通过初始歌声合成模型的编码器对样本音素特征信息、样本音高特征信息和样本音色特征信息进行编码处理,得到样本音素特征表示、样本音高特征表示和样本音色特征表示;基于样本音素特征表示、样本音高特征表示、样本音色特征表示和样本气声特征表示,确定样本气声权重值、样本音素权重值和样本音高权重值;基于样本音素特征表示、样本音高特征表示、样本音色特征表示和样本随机噪声表示、样本气声权重值、样本音素权重值和样本音高权重值和样本能量信息,确定预测梅尔谱表示;通过初始歌声合成模型的解码器对预测梅尔谱表示进行解码处理,得到预测梅尔谱信息;基于预测梅尔谱信息和第二梅尔谱信息确定的损失值,更新初始歌声合成模型的模型参数,得到训练完成的歌声合成模型,该模型参数包括样本气声权重值、样本音素权重值和样本音高权重值。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图7中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的歌声合成装置,以及来实现本申请实施例的歌声合成方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例,首先获取目标对象的音色特征信息和目标对象的随机噪声表示,以及获取目标歌曲的音素特征信息、音高特征信息和能量信息;然后,将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;最后,基于目标梅尔谱信息生成合成歌曲,该合成歌曲便是目标对象针对该目标歌曲的合成音频,从而实现歌声合成。针对歌声合成场景,利用不同维度的信息(如音素、音高和气声)对音频数据进行处理,能够在歌唱力度、歌唱气声以及咬字等方面进行有效控制,并且实现模型内部参数从外部输入,保证了各个参数的可控性,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图9,该计算机设备900至少包括处理器901、通信接口902以及计算机存储介质903。其中,处理器901、通信接口902以及计算机存储介质903可通过总线或其他方式连接。计算机存储介质903可以存储在计算机设备900的存储器904中,所述计算机存储介质903用于存储计算机程序,所述计算机程序包括程序指令,所述处理器901用于执行所述计算机存储介质903存储的程序指令。处理器901(或称中央处理器(Central Processing Unit,CPU))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例所述的处理器901可以用于进行一系列的处理,具体包括:获取目标对象的音色特征信息和目标对象的随机噪声表示;获取目标歌曲的音素特征信息、音高特征信息和能量信息;将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,该歌声合成模型是基于样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示进行训练得到的;基于该目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频,等等。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2或图6所示的歌声合成方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤:
获取目标对象的音色特征信息和目标对象的随机噪声表示;
获取目标歌曲的音素特征信息、音高特征信息和能量信息;
将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;
基于该目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频。
在一种实施方式中,在将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标对象的目标梅尔谱信息时,该一条或多条指令可由处理器加载并执行:将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型;通过歌声合成模型的编码器对音素特征信息、音高特征信息和音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示;基于音素特征表示、音高特征表示、音色特征表示和随机噪声表示、气声权重值、音素权重值和音高权重值和能量信息,确定目标梅尔谱表示;通过歌声合成模型的解码器对目标梅尔谱表示进行解码处理,得到目标梅尔谱信息。
另一种实施方式中,在基于该音素特征表示、该音高特征表示、该音色特征表示和该随机噪声表示、气声权重值、音素权重值和音高权重值和该能量信息,确定目标梅尔谱表示时,该一条或多条指令可由处理器加载并执行:基于该随机噪声表示和气声权重值确定第一结果;基于该音素特征表示和音素权重值确定第二结果;基于该音高特征表示和音高权重值确定第三结果;对该第一结果、该第二结果、该第三结果、该音色特征表示和该能量信息进行叠加处理,得到目标梅尔谱表示。
另一种实施方式中,该编码器包括音素编码器、音高编码器和音色编码器,在通过歌声合成模型的编码器对音素特征信息、音高特征信息和音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示时,该一条或多条指令可由处理器加载并执行:调用音素编码器对音素特征信息进行编码处理得到音素特征表示;调用音高编码器对音高特征信息进行编码处理得到音高特征表示;调用音色编码器对音色特征信息进行编码处理得到音色特征表示。
另一种实施方式中,该一条或多条指令可由处理器加载并还执行:获取到第一调整信息,基于该第一调整信息调整该气声权重值;获取到第二调整信息,基于该第二调整信息调整该音高权重值;获取到第三调整信息,基于该第三调整信息调整该能量信息。
在一种实施方式中,在获取目标对象的音色特征信息时,该一条或多条指令可由处理器加载并执行:获取目标对象的音频数据;对该音频数据进行梅尔谱提取,得到第一梅尔谱信息;基于该第一梅尔谱信息确定该目标对象的音色特征信息。
另一种实施方式中,在获取目标歌曲的音素特征信息、所述目标歌曲的音高特征信息时,该一条或多条指令可由处理器加载并执行:获取目标歌曲的曲谱数据;对该歌曲音频数据和歌词文本进行对齐处理;基于对齐后的歌曲音频数据和歌词文本,确定目标歌曲的音素特征信息;对该歌曲音频数据进行基频提取,得到目标歌曲的音高特征信息。
另一种实施方式中,该一条或多条指令可由处理器加载并还执行:获取样本音频数据以及对应的歌词文本、样本能量信息和样本随机噪声表示;基于样本音频数据和样本音频数据对应的歌词文本确定样本音频数据的样本音素特征信息;基于样本音频数据确定样本音频数据的样本音高特征信息、样本音色特征信息和第二梅尔谱信息;基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型。
另一种实施方式中,在基于样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示、样本能量信息和第二梅尔谱信息对初始歌声合成模型进行训练,得到歌声合成模型时,该一条或多条指令可由处理器加载并执行:将样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示和样本能量信息输入初始歌声合成模型;通过初始歌声合成模型的编码器对样本音素特征信息、样本音高特征信息和样本音色特征信息进行编码处理,得到样本音素特征表示、样本音高特征表示和样本音色特征表示;基于样本音素特征表示、样本音高特征表示、样本音色特征表示和样本气声特征表示,确定样本气声权重值、样本音素权重值和样本音高权重值;基于样本音素特征表示、样本音高特征表示、样本音色特征表示和样本随机噪声表示、样本气声权重值、样本音素权重值和样本音高权重值和样本能量信息,确定预测梅尔谱表示;通过初始歌声合成模型的解码器对预测梅尔谱表示进行解码处理,得到预测梅尔谱信息;基于预测梅尔谱信息和第二梅尔谱信息确定的损失值,更新初始歌声合成模型的模型参数,得到训练完成的歌声合成模型,该模型参数包括样本气声权重值、样本音素权重值和样本音高权重值。
本申请实施例,首先获取目标对象的音色特征信息和目标对象的随机噪声表示,以及获取目标歌曲的音素特征信息、音高特征信息和能量信息;然后,将音素特征信息、音高特征信息、音色特征信息、随机噪声表示和能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息;最后,基于目标梅尔谱信息生成合成歌曲,该合成歌曲为目标对象针对该目标歌曲的合成音频,从而实现歌声合成。针对歌声合成场景,利用不同维度的信息(如音素、音高和气声)对音频数据进行处理,能够在歌唱力度、歌唱气声以及咬字等方面进行有效控制,并且实现模型内部参数从外部输入,保证了各个参数的可控性,能够提高歌声合成的质量和表现力,有利于提高歌声合成的效果。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图7所示的歌声合成方法实施例方面的各种可选方式中提供的方法。并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种歌声合成方法,其特征在于,所述方法包括:
获取目标对象的音色特征信息和所述目标对象的随机噪声表示;
获取目标歌曲的音素特征信息、音高特征信息和能量信息;
将所述音素特征信息、所述音高特征信息、所述音色特征信息、所述随机噪声表示和所述能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,所述歌声合成模型是基于样本音频数据的样本音素特征信息、样本音高特征信息、样本音色特征信息、样本随机噪声表示和样本能量信息进行训练得到的;
基于所述目标梅尔谱信息生成所述目标对象针对所述目标歌曲的合成音频。
2.根据权利要求1所述的方法,其特征在于,所述将所述音素特征信息、所述音高特征信息、所述音色特征信息、所述随机噪声表示和所述能量信息输入预先训练完成的歌声合成模型进行处理,得到目标梅尔谱信息,包括:
将所述音素特征信息、所述音高特征信息、所述音色特征信息、所述随机噪声表示和所述能量信息输入预先训练完成的歌声合成模型,由所述歌声合成模型的编码器对所述音素特征信息、所述音高特征信息和所述音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示;
基于所述音素特征表示、所述音高特征表示、所述音色特征表示和所述随机噪声表示、气声权重值、音素权重值和音高权重值和所述能量信息,确定目标梅尔谱表示;
由所述歌声合成模型的解码器对所述目标梅尔谱表示进行解码处理,得到目标梅尔谱信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述音素特征表示、所述音高特征表示、所述音色特征表示和所述随机噪声表示、气声权重值、音素权重值和音高权重值和所述能量信息,确定目标梅尔谱表示,包括:
基于所述随机噪声表示和气声权重值确定第一结果,基于所述音素特征表示和音素权重值确定第二结果,以及基于所述音高特征表示和音高权重值确定第三结果;
对所述第一结果、所述第二结果、所述第三结果、所述音色特征表示和所述能量信息进行叠加处理,得到目标梅尔谱表示。
4.根据权利要求2所述的方法,其特征在于,所述编码器包括音素编码器、音高编码器和音色编码器,所述由所述歌声合成模型的编码器对所述音素特征信息、所述音高特征信息和所述音色特征信息进行编码处理,得到音素特征表示、音高特征表示和音色特征表示,包括:
调用所述音素编码器对所述音素特征信息进行编码处理得到音素特征表示;
调用所述音高编码器对所述音高特征信息进行编码处理得到音高特征表示;
调用所述音色编码器对所述音色特征信息进行编码处理得到音色特征表示。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取通过合成歌曲调整界面输入的第一调整信息、第二调整信息及第三调整信息;
基于所述第一调整信息调整所述气声权重值,基于所述第二调整信息调整所述音高权重值,及基于所述第三调整信息调整所述能量信息;其中所述气声权重值和所述音高权重值存在负相关关系。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述获取目标对象的音色特征信息,包括:
获取目标对象的音频数据;
对所述音频数据进行梅尔谱提取,得到第一梅尔谱信息;
基于所述第一梅尔谱信息确定所述目标对象的音色特征信息。
7.根据权利要求1~5中任一项所述的方法,其特征在于,获取目标歌曲的音素特征信息和音高特征信息,包括:
获取目标歌曲的曲谱数据,所述曲谱数据包括歌词文本和歌曲音频数据;
对所述歌曲音频数据和所述歌词文本进行对齐处理;
基于对齐后的所述歌曲音频数据和所述歌词文本,确定所述目标歌曲的音素特征信息;
对所述歌曲音频数据进行基频提取,得到所述目标歌曲的音高特征信息。
8.根据权利要求1~5中任一项所述的方法,其特征在于,还包括:
获取样本音频数据、所述样本音频数据对应的歌词文本、所述样本音频数据的样本能量信息和所述样本音频数据的样本随机噪声表示;
基于所述样本音频数据和所述样本音频数据对应的歌词文本确定所述样本音频数据的样本音素特征信息;
基于所述样本音频数据确定所述样本音频数据的样本音高特征信息和所述样本音频数据的样本音色特征信息;
基于所述样本音素特征信息、所述样本音高特征信息、所述样本音色特征信息、所述样本随机噪声表示和所述样本能量信息对初始歌声合成模型进行训练,得到训练完成的所述歌声合成模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~8任一项所述的歌声合成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1~8任一项所述的歌声合成方法。
CN202310141983.XA 2023-02-13 2023-02-13 歌声合成方法、装置、设备及存储介质 Pending CN116129938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310141983.XA CN116129938A (zh) 2023-02-13 2023-02-13 歌声合成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310141983.XA CN116129938A (zh) 2023-02-13 2023-02-13 歌声合成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116129938A true CN116129938A (zh) 2023-05-16

Family

ID=86299112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310141983.XA Pending CN116129938A (zh) 2023-02-13 2023-02-13 歌声合成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116129938A (zh)

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US11017788B2 (en) System and method for creating timbres
Gold et al. Speech and audio signal processing: processing and perception of speech and music
JP4851447B2 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
Zhou et al. Emotion intensity and its control for emotional voice conversion
CN111312245A (zh) 一种语音应答方法、装置和存储介质
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
CN117711444B (zh) 一种基于口才表达的互动方法、装置、设备及存储介质
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
Mirbeygi et al. Speech and music separation approaches-a survey
Fan et al. The impact of student learning aids on deep learning and mobile platform on learning behavior
CN116959393B (zh) 音乐生成模型的训练数据生成方法、装置、设备及介质
Yu Research on multimodal music emotion recognition method based on image sequence
CN116884386A (zh) 语音合成方法、语音合成装置、设备和存储介质
US10403304B1 (en) Neural networks for identifying the potential of digitized audio to induce frisson in listeners
Kreković et al. An algorithm for controlling arbitrary sound synthesizers using adjectives
Nigro et al. Multimodal system for audio scene source counting and analysis
Yerigeri et al. Meta-heuristic approach in neural network for stress detection in Marathi speech
CN116129938A (zh) 歌声合成方法、装置、设备及存储介质
CN115171660A (zh) 一种声纹信息处理方法、装置、电子设备及存储介质
Gao Audio deepfake detection based on differences in human and machine generated speech
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
Shen et al. Solfeggio Teaching Method Based on MIDI Technology in the Background of Digital Music Teaching
CN115132204B (zh) 一种语音处理方法、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination