CN116645957A - 乐曲生成方法、装置、终端、存储介质及程序产品 - Google Patents
乐曲生成方法、装置、终端、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116645957A CN116645957A CN202310933426.1A CN202310933426A CN116645957A CN 116645957 A CN116645957 A CN 116645957A CN 202310933426 A CN202310933426 A CN 202310933426A CN 116645957 A CN116645957 A CN 116645957A
- Authority
- CN
- China
- Prior art keywords
- data
- text content
- rhythm
- melody
- music
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims abstract description 25
- 230000033764 rhythmic process Effects 0.000 claims abstract description 169
- 238000012545 processing Methods 0.000 claims abstract description 24
- 239000000203 mixture Substances 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012916 structural analysis Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract description 22
- 238000005516 engineering process Methods 0.000 description 36
- 238000013473 artificial intelligence Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 12
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical group N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 11
- 230000008451 emotion Effects 0.000 description 10
- 241000721047 Danaus plexippus Species 0.000 description 9
- 241001342895 Chorus Species 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013475 authorization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000092161 Pithys Species 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/111—Automatic composing, i.e. using predefined musical rules
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请公开了一种乐曲生成方法、装置、终端、存储介质及程序产品,涉及多媒体处理领域。该方法包括:获取文本内容;对文本内容进行节奏识别,得到节奏划分结果;生成符合节奏划分结果的旋律数据;基于旋律数据生成伴奏数据;基于旋律数据对文本内容进行转换,得到歌声数据,融合伴奏数据和歌声数据生成目标乐曲。针对获取的文本内容进行节奏识别,得到对应的节奏特征并确定节奏划分结果后,根据节奏划分结果生成旋律数据与文本内容进行匹配,从而使得生成的旋律数据与文本内容的表达匹配,在此基础下,由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配,提高了生成的乐曲中歌词与伴奏之间的匹配程度,提高了乐曲的表达流畅度和准确度。
Description
技术领域
本申请实施例涉及多媒体处理领域,特别涉及一种乐曲生成方法、装置、终端、存储介质及程序产品。
背景技术
随着人工智能技术的发展,一些音乐软件中提供有将文本内容转换为歌曲的功能。也即,用户可以通过上传一段文本内容,通过机器学习模型对文本内容进行分析后,生成以文本内容作为歌词的乐曲。
相关技术中,通过获取大量对齐的旋律-歌词数据作为训练样本,对乐曲生成模型进行训练,从而通过训练后的乐曲生成模型对文本内容进行乐曲预测。
然而,通过上述方式进行乐曲自动生成时,由于旋律和歌词之间只能实现简单对齐,而歌词与旋律之间可能存在节奏偏差的问题,导致乐曲生成的效果较差。
发明内容
本申请实施例提供了一种乐曲生成方法、装置、终端、存储介质及程序产品,所述技术方案如下。
一方面,本申请实施例提供了一种乐曲生成方法,所述方法包括:
获取文本内容,所述文本内容是待作为歌词以生成对应的乐曲的内容;
对所述文本内容进行节奏识别,根据识别得到的节奏特征对所述文本内容进行节奏划分,得到节奏划分结果;
生成符合所述节奏划分结果的旋律数据,所述旋律数据用于对生成乐曲的曲调进行确定;
基于所述旋律数据生成伴奏数据,所述伴奏数据用于作为生成乐曲的伴奏;
基于所述旋律数据对所述文本内容进行转换,得到歌声数据,融合所述伴奏数据和所述歌声数据生成目标乐曲,所述歌声数据是对所述文本内容进行模拟演唱生成的数据。
另一方面,本申请实施例提供了一种乐曲生成装置,所述装置包括:
获取模块,用于获取文本内容,所述文本内容是待作为歌词以生成对应的乐曲的内容;
识别模块,用于对所述文本内容进行节奏识别,根据识别得到的节奏特征对所述文本内容进行节奏划分,得到节奏划分结果;
生成模块,用于生成符合所述节奏划分结果的旋律数据,所述旋律数据用于对生成乐曲的曲调进行确定;
所述生成模块,还用于基于所述旋律数据生成伴奏数据,所述伴奏数据用于作为生成乐曲的伴奏;
转换模块,用于基于所述旋律数据对所述文本内容进行转换,得到歌声数据,融合所述伴奏数据和所述歌声数据生成目标乐曲,所述歌声数据是对所述文本内容进行模拟演唱生成的数据。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的乐曲生成方法。
另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的乐曲生成方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的乐曲生成方法。
本申请实施例提供的技术方案至少包括如下有益效果。
首先针对获取的文本内容进行节奏识别,得到对应的节奏特征并确定节奏划分结果后,根据节奏划分结果生成旋律数据与文本内容进行匹配,从而使得生成的旋律数据与文本内容的表达匹配,在此基础下,由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配,避免歌词中同一词汇或者同一短语被拆分至不同的乐曲小节,提高了生成的乐曲中歌词与伴奏之间的匹配程度,提高了乐曲的表达流畅度和准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的整体流程示意图;
图2示出了本申请一个示例性实施例提供的实施环境的示意图;
图3示出了本申请一个示例性实施例提供的乐曲生成方法的流程图;
图4示出了基于图3示出的实施例提供的诗词文本内容的节奏划分示意图;
图5示出了本申请另一个示例性实施例提供的乐曲生成方法的流程图;
图6示出了基于图5示出的实施例提供的生成旋律数据的示意图;
图7示出了本申请又一个示例性实施例提供的乐曲生成方法的流程图;
图8示出了基于图7示出的实施例提供的基于音素序列和旋律数据确定歌声数据的示意图;
图9示出了本申请一个示例性实施例提供的乐曲生成装置的结构框图;
图10示出了本申请另一个示例性实施例提供的乐曲生成装置的结构框图;
图11示出了本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)和语音合成技术(Text To Speech ,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(Artificial Intelligence GeneratedContent,AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音技术、自然语言处理、机器学习等技术,具体通过如下实施例进行说明。
本申请实施例中,提供了一种根据文本内容自动生成乐曲的方法。示意性的,如图1所示,其示出了本申请一个示例性实施例提供的乐曲生成整体流程示意图。首先获取文本内容100,该文本内容100可以实现为诗词文本内容、演讲稿内容、散文内容、新闻内容等内容类型中的至少一种。图1中以文本内容100实现为诗词文本内容为例进行说明。
对文本内容100进行节奏划分,得到节奏划分结果110,节奏划分结果110中包括文本内容100根据表达方式的节奏划分,如,语句“我住长江头”中,“长江头”是一个完整词汇,故在对语句进行节奏划分时,可以划分为“我住/长江头”,而无法划分为“我住长/江头”。
在获取节奏划分结果110后,基于该节奏划分结果110生成旋律数据120,旋律数据120用于对乐曲的曲调进行确定。根据旋律数据120还可以提取得到乐曲的伴奏数据130,伴奏数据130是用于作为乐曲伴奏,也即人声背景音频的数据。
对文本内容100进行人声转换后,得到歌声数据140,并与伴奏数据130进行融合,得到目标乐曲150。
本申请实施例提供的乐曲生成方法可以由人机对话系统或者数据虚拟人执行,在对话过程中根据用户提出的文本内容自动生成乐曲并进行播放;也可以由移动终端或者其他类型终端执行,以移动终端为例,用户通过上传文本内容,由移动终端自动生成乐曲进行播放。
本申请实施例提供的乐曲生成方法可以由终端单独执行,也可以由终端和服务器配合执行。当由终端单独执行时,终端中包括乐曲生成相关的各机器学习模型,通过机器学习模型对文本内容进行分析后,生成目标乐曲。
当终端和服务器配合执行乐曲生成方法时,请参考如下图2,其示出了本申请一个示例性实施例提供的实施环境的结构示意图。如图2所示,该实施环境中主要包括终端210和服务器220,其中,终端210和服务器220之间通过通信网络230建立通信连接。
终端210用于向服务器220指示需要生成乐曲的文本内容。在一些实施例中,终端210通过上传的方式向服务器220发送需要生成乐曲的文本内容;或者,在终端210中显示服务器220中已存储的文本内容选项,通过对文本内容选项的选择操作,向服务器220指示需要生成乐曲的文本内容。
本实施例中,以终端210上传文本内容为例进行说明。终端210在确定文本内容后,将文本内容对应的文件或者文本内容本身上传至服务器220中,服务器220在接收到文本内容后,通过节奏划分、旋律生成、伴奏生成以及人声合成等操作,生成目标乐曲,并将生成的目标乐曲反馈至终端210,终端210对服务器220反馈的乐曲将进行播放。
在一些实施例中,终端210中安装并运行有应用程序,通过应用程序将文本内容上传至服务器220。该应用程序可以是独立运行的应用程序,也可以是寄生于宿主应用程序运行的小程序。如:宿主应用程序为搜索引擎程序、旅游应用程序、生活辅助应用程序、即时通讯应用程序、视频类程序、游戏类程序等,本申请实施例对此不加以限定。
上述终端可以是手机、平板电脑、智能机器人、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备,本申请实施例对此不加以限定。
上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
需要进行说明的是,本申请在收集用户的相关数据之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关法律法规和标准。
结合上述说明,对本申请提供的乐曲生成方法进行说明,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由终端执行为例进行说明,如图3所示,该方法包括如下步骤。
步骤301,获取文本内容,文本内容是待作为歌词以生成对应的乐曲的内容。
在一些实施例中,文本内容是用户编辑的内容;或者,文本内容是用户从已有的内容库中选取的内容;或者,文本内容是用户引用的公开内容。可选地,当文本内容是用户引用的内容时,用户在获得内容引用授权后对文本内容进行引用。
文本内容的获取方式包括如下方式中的至少一种。
1、在文本内容设置界面中显示有文本键入区域,接收在文本键入区域中的文本键入操作,从而获取被键入的文本内容。
可选地,当在文本键入区域中键入有文本内容,且接收到文本确认操作时,将文本键入区域中的文本内容作为被获取的文本内容。
2、在文本内容设置界面中包括上传控件,接收对上传控件的触发操作后, 选择本地存储的文本内容文件进行上传,从而确定文本内容。
示意性的,接收对上传控件的触发操作后,显示本地存储地址的文件列表,在其中对文件1进行选择,并将文件1中的文本内容作为获取的文本内容。
3、在文本内容设置界面中包括文本选择区域,文本选择区域中包括服务器中存储的可供选择并使用的文本内容,接收在文本选择区域中对目标内容选项的选择操作,将被选择的目标内容选项对应的文本内容作为获取的文本内容。
示意性的,在文本选择区域中包括文本1、文本2、文本3作为内容选项,当接收到对文本2的选择操作,则将文本2中的文本内容作为获取的文本内容。
在一些实施例中,文本内容的内容类型包括:歌词类型、诗词类型、演讲稿类型、散文类型、记忆口诀类型等。
当文本内容实现为歌词类型时,也即对已有歌曲的歌词进行重新改编,得到一首新的乐曲;当文本内容实现为诗词类型、演讲稿类型、散文类型时,即对具有传诵需求的内容编写为乐曲进行传诵,其中,诗词类型可以是古诗词,也可以是诗歌,本实施例对此不加以限定;当文本内容实现为记忆口诀时,也即针对存在记忆需求的内容,如:元素符号记忆口诀、乘法表记忆口诀等,通过自动转换为乐曲的方式加强记忆能力。
文本内容是被作为歌词的内容,通过文本内容自动生成乐曲时,需要确定与文本内容匹配的旋律和歌声,从而结合得到目标乐曲。其中,旋律是指乐曲的曲调,歌声是指对文本内容进行模拟演唱得到的音频数据。
步骤302,对文本内容进行节奏识别,根据识别得到的节奏特征对文本内容进行节奏划分,得到节奏划分结果。
节奏用于确定旋律的律动,故,在需要文本内容的节奏与乐曲的节奏匹配的情况下,对文本内容进行节奏划分,从而根据节奏确定的旋律能够与文本内容本身的节奏进行匹配。
在一些实施例中,对文本内容进行结构解析,得到文本内容的结构划分结果,结构划分结果用于表达文本内容中语句的韵律特征,基于结构划分结果对文本内容进行节奏划分,得到与结构划分结果对齐的节奏划分结果。
其中,结构划分结果是指对文本内容的语句结构进行解析得到的结果,示意性的,在结构划分结果中,按照语言表达的特点,将连续表达的内容划分至同一节拍中。在基于结构划分结果对文本内容进行节奏划分时,首先根据语句对文本内容进行主歌部分和副歌部分的划分,再根据每句语句中的结构划分结果进行小节划分。
节奏划分是为了将文本内容中连贯的内容划分至相同小节中,避免连贯的内容被拆分到不同的小节后,生成旋律以及乐曲时,文本内容被分裂表达,提高了文本与旋律之间的匹配度。
示意性的,针对文本内容“日日思君不见君”可以划分为“日日思君/不见君”,其中,“日日思君”和“不见君”都表达了清晰完整的含义,而若根据旋律将文本内容划分为“日日思/君不见君”,则无论是“日日思”还是“君不见君”都存在含义不清楚和存在歧义的问题。故本申请实施例中,首先针对文本内容进行节奏划分,在节奏划分结果的基础上生成旋律、歌声等内容,降低了文本演唱时存在歌词不匹配的问题。
在一些实施例中,针对文本内容进行结构划分时,包括如下方式:将文本内容输入预先训练得到的结构解析模型,输出得到文本内容的结构划分结果,其中,结构解析模型是通过标注有结构划分参考标签的样本文本内容训练得到的模型。
示意性的,获取样本文本内容以及样本文本内容对应的结构划分参考标签,其中,结构划分参考标签用于表征样本文本内容的参考结构划分。
将样本文本内容输入至结构解析模型进行结构解析后,输出得到结构划分预测结果,根据结构划分预测结果与结构划分参考标签之间的差异,对结构解析模型进行训练。
在一些实施例中,上述结构解析模型实现为专家模型,也即通过专家模型对文本内容进行结构划分,得到结构划分结果。
在一些实施例中,当文本内容实现为诗词文本内容时,根据诗词文本内容本身的韵律对诗词文本内容进行结构解析。
也即获取多个候选节奏划分模板,候选节奏划分模板是按照诗词韵律设置的划分模板,基于诗词文本内容从多个候选节奏划分模板中确定第一节奏划分模板,并基于第一节奏划分模板对诗词文本内容进行结构解析,得到诗词文本内容的结构划分结果。
多个候选节奏划分模板是根据诗词的韵律人工设计的模板,如:针对绝句、律诗、词牌名等多种不同的诗词,人工设计不同的节奏划分模板。
示意性的,针对七言绝句设计的模板1中包括两个字/两个字/三个字的划分方式;或者,针对七言绝句设计的模板2中包括四个字/三个字的划分方式等。用户可以根据划分需求,从已有的划分模板中选择至少一种划分模板,对诗词文本内容进行划分后得到结构划分结果。
在一些实施例中,针对文本内容首先进行主歌部分和副歌部分,当文本内容实现为诗词文本内容时,主歌部分和副歌部分的节奏划分规律相同或者不相同。示意性的,针对主歌部分选择第一节奏划分模板进行结构划分,针对副歌部分选择第二节奏划分模板进行结构划分。
在一些实施例中,确定乐曲所遵循的节拍,如:4/4拍,则在对文本内容进行节奏划分时,根据节拍对文本内容进行划分,使文本内容以符合节拍的方式进行节奏划分。可选地,当划分出的文本内容中,在同一小节中的字符数量小于节拍数量,则以延长音的方式填补节拍。在一些实施例中,在小节尾部填充延长音,或者,在小节中间任意位置填充延长音。
本申请实施例中,以诗词文本内容为例进行说明。输入诗词文本内容后,自动解析诗词文本内容中诗句的结构和节奏特征,得到与歌词对齐的旋律节奏。一种可行的方案是基于专家模型进行节奏识别,诗词文本内容通常遵循严格的结构和韵律,基于诗词文本内容的韵律(比如,绝句,律诗,词牌名),人工设计模板来解析结构和节奏。示意性的,针对诗词文本内容是宋词的情况,把上片、下片的最后一句作为副歌部分,把其他诗句作为主歌部分,可以得到主歌1-副歌1-主歌2-副歌2的歌词结构。
示意性的,如图4所示,诗词文本内容400被划分为主歌410、副歌420、主歌430以及副歌440。
根据古诗词的断句特点,每种长度可能有若干种断句方式,所以设计对于不同长度的节奏划分模板,示意性的,歌曲遵循4/4拍,“_”表示延音,“|”表示小节线,则存在如下划分结果。
句长=2,争渡,|争_渡_|;
句长=3,浪淘尽,|浪淘尽_|;
句长=4,大江东去,|大江东去|;
句长=5,我住长江头,|我_住_|长江头_| 或 |我住长江|头_ _ _|;
……
句长=7,日日思君不见君,|日日思君|不见君_|。
每种长度可能有若干种断句方式,可以随机选择,也可以由用户选择。可选的,主歌1 和 主歌2 可以共享相同的节奏,也可以有适当不同。
步骤303,生成符合节奏划分结果的旋律数据。
旋律数据用于对生成乐曲的曲调进行确定。
旋律是指若干乐音经过艺术构思而形成的有组织、节奏的序列。按一定的音高、时值和音量构成的、具有逻辑因素的单声部进行的。旋律是由许多音乐基本要素,如调式、节奏、节拍、力度、音色表演方法方式等。
在一些实施例中,首先确定乐曲所使用的和弦,确定和弦后,根据和弦和上述节奏划分结果确定旋律数据。也即,生成与节奏划分结果匹配的和弦数据,可选地,节奏划分结果中包括文本内容中被划分为主歌节奏的主歌内容和被划分为副歌节奏的副歌内容,则和弦数据中包括与主歌内容对应的主歌和弦数据,以及与副歌内容对应的副歌和弦数据。基于和弦数据和节奏划分结果进行旋律预测,生成旋律数据。其中,主歌和弦数据和副歌和弦数据相同或者不同。
可选的,生成与节奏划分结果匹配的和弦数据,基于和弦数据和节奏划分结果进行旋律预测,生成旋律数据。可选地,和弦可以是随机确定的,也可以是选择得到的。
在一些实施例中,通过预先训练的旋律生成模型对节奏划分结果以及和弦进行分析,得到旋律数据。其中,旋律生成模型是通过标注有旋律信息的样本乐曲训练得到的模型。
在一些实施例中,将和弦数据和节奏划分结果输入预先训练得到的旋律生成模型,输出得到旋律数据。
可选的,旋律数据是在节奏划分结果确定的节拍和小节划分的基础上,确定节拍中每个音符对应的音高和音符的延续时长,从而确定出乐曲完整的旋律。
步骤304,基于旋律数据生成伴奏数据。
伴奏数据用于作为生成乐曲的伴奏。
伴奏是指音乐中用来支持旋律的辅助音乐部分,一般是以和弦为主线,贯穿整个音乐作品,为旋律创造出丰富的音乐背景。
在一些实施例中,通过预先训练的伴奏提取模型对旋律数据进行伴奏提取,得到与旋律数据对应的伴奏数据,伴奏提取模型是通过伴奏-旋律数据对训练得到的模型。
其中,伴奏提取模型在训练时,首先获取伴奏-旋律数据对,也即预先获取的伴奏数据与旋律数据之间的对应关系。
在一些实施例中,伴奏-旋律数据对是从已发布的公开乐曲中获取的数据对,也即,已发布的公开乐曲中包括伴奏数据和旋律数据,将伴奏数据和旋律数据作为伴奏-旋律数据对,用于对伴奏提取模型进行训练;或者,伴奏-旋律数据对是从公开数据中获取的基础数据对,也即,公开数据中提供的基本伴奏和旋律之间的对应关系;或者,伴奏-旋律数据对是获得数据使用授权后获取的数据对,在获取数据使用授权时,需要指明数据的使用场景和使用目的,并且获取数据的单独使用授权。
将旋律数据输入至伴奏提取模型后,输出得到与该旋律数据对应的伴奏预测数据,基于该伴奏预测数据和伴奏数据之间的差异对伴奏提取模型进行训练,从而得到训练后的伴奏提取模型。
可选地,在生成伴奏数据时,还可以随机确定伴奏数据对应的音频音色;或者,根据对音色的选择操作确定伴奏数据对应的音频音色;或者,对旋律数据进行分析预测后,得到与该旋律数据匹配的伴奏数据的音色。
伴奏数据的音频音色包括钢琴音色、小提琴音色、笛子音色、基础音色等音色类型中的至少一种。
在一些实施例中,对旋律数据进行分析预测时,对旋律数据对应的情感表达进行分析,如,分析旋律数据的情感表达中包括:悲伤、欢快、恐怖等情感。示意性的,当旋律数据表达的情感是悲伤情感时,确定伴奏数据的音频音色为钢琴音色;当旋律数据表达的情感是欢快情感时,确定伴奏数据的音频音色为笛子音色等,本实施例对具体的对应关系不加以限定。
在一些实施例中,将旋律数据输入情感预测模型,并输出得到旋律数据对应的情感表达。其中,情感预测模型是通过标注有情感标签的样本旋律数据训练得到的机器学习模型。
步骤305,基于旋律数据对文本内容进行转换,得到歌声数据,融合伴奏数据和歌声数据生成目标乐曲。
歌声数据是对文本内容进行模拟演唱生成的数据。
歌声数据是指按照文本内容的音素表达,将文本内容转换为音素的语音表达的数据。
其中,音素表达是指歌声数据在发音时的音素序列,如:在汉语中,音素表达是通过拼音形式表达的。如:我住长江头通过音素序列表达为“w/o/zh/u/ch/ang/j/iang/t/ou”。按照音素表达和旋律数据将文本内容转换为歌声数据后,与伴奏数据融合,得到目标乐曲。
综上所述,本实施例提供的乐曲生成方法,首先针对获取的文本内容进行节奏识别,得到对应的节奏特征并确定节奏划分结果后,根据节奏划分结果生成旋律数据与文本内容进行匹配,从而使得生成的旋律数据与文本内容的表达匹配,在此基础下,由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配,避免歌词中同一词汇或者同一短语被拆分至不同的乐曲小节,提高了生成的乐曲中歌词与伴奏之间的匹配程度,提高了乐曲的表达流畅度和准确度。
本实施例提供的方法,在对文本内容进行节奏划分时,通过对文本内容进行结构解析,确定出文本内容中语句的韵律特征,从而对文本内容进行节奏划分,提高了节奏划分准确率。
本实施例提供的方法,通过预先训练的结构解析模型对文本内容中的韵律特征进行分析,提高了节奏划分的准确率。
本实施例提供的方法,针对诗词文本内容,通过从预先配置的节奏划分模板中选择或者确定第一节奏划分模型,从而基于第一节奏划分模板对诗词文本内容进行节奏划分,利用诗词的表达特性和表达习惯提高了诗词文本内容的节奏划分效率,节约了资源处理量。
在一个可选的实施例中,通过旋律生成模型对节奏划分结果进行旋律预测,得到旋律数据。图5是本申请另一个示例性实施例提供的乐曲生成方法的流程图,以该方法应用于终端为例进行说明,如图5所示,上述步骤303还可以实现为如下步骤3031至步骤3033。
步骤3031,生成与节奏划分结果匹配的和弦数据。
可选的,为主歌和副歌节奏分配适当的和弦进行用于与节奏划分结果匹配,在实现时,示意性的,维护一个和弦进行集合,从和弦进行集合中随机选取和弦数据得到和弦进行。其中,和弦进行是歌曲中和弦数据的排布,能传达歌曲情感和韵律美。
示意性的,该和弦进行可以实现为如下示例。
C-Am-F-G
F-G-Em-Am-Dm-G-C
其中,C、Am、F、G、Em、Dm分别实现为一种和弦类型。
在一些实施例中,和弦进行中的和弦数据包括主歌和弦数据和副歌和弦数据,其中,主歌和弦数据和副歌和弦数据相同或者不同。可选地,不同主歌段对应的主歌和弦数据相同或者不同;不同副歌段对应的副歌和弦数据相同或者不同。
步骤3032,基于和弦数据和节奏划分结果构建第一旋律序列。
其中,第一旋律序列中包括多个序列位置,每个序列位置对应一个音符,每个序列位置的位置数据中包括音符所在小节标识、音符在小节中的位置标识以及音符所在和弦标识。
其中,音符所在小节标识是指音符在乐曲中的小节位置。示意性的,节奏划分结果中确定乐曲为4/4拍乐曲,则音符的小节标识用于表征该音符在乐曲的第几个4拍,如:音符的小节标识为02,则表示音符在乐曲的第二个4拍中。
音符在小节中的位置标识是指音符在小节中的位置,也即,音符在小节中的第几个节拍。示意性的,节奏划分结果中确定乐曲为4/4拍,小节标识表征音符在第2个小节,音符在小节中的位置标识为01,则表示音符在第二个4拍中的第一拍,也即,第二个4拍中的第一个音符。
音符所在和弦标识是指音符所在小节的和弦,如:音符所在和弦标识为C,则表示音符所在的小节所使用的和弦为C和弦。
本实施例中,以bar表达小节标识,以beat表达小节中的位置标识,以chord表达和弦标识,则第一旋律序列表达为Template=bar1,beat1,chord1,bar2,beat2,chord2,bar3,beat3,chord3,…,barN,beatN, chordN,其中,N表达旋律长度,也即音符数量。在一些实施例中,音符数量与文本内容中的字符数量对应。
步骤3033,将第一旋律序列输入旋律生成模型,输出得到旋律数据,旋律数据中包括第二旋律序列。
第二旋律序列中包括多个序列位置,每个序列位置对应一个音符,每个序列位置的位置数据中包括音符所在小节标识、音符所在小节中的位置标识、音符的音高数据以及音符的延续时长。
其中,音符所在的小节标识和音符所在小节中的位置标识可参考上述步骤3032中的含义。
音符的音高数据是指音符对应的音高,音高(Pitch)是指各种音调高低不同的声音,即音的高度,是音的基本特征的一种。
音符的延续时长是指该音符持续的时长,在一些实施例中,该音符的延续时长是指音符持续的节拍数。
本实施例中,以bar表达小节标识,以beat表达小节中的位置标识,pitch音符的音高,duration表达音符的延续时长。则第二旋律序列表达为Melody= bar1,beat1,pitch1,duration1,bar2,beat2,pitch2,duration2,bar3,beat3,pitch3,duration3,…,barN,beatN,pitchN,durationN,其中,N表达旋律长度,也即音符数量。
可选地,通过Transformer模型进行建模对节奏划分结果生成旋律数据。其中,模型在训练时,从公开数据集中抽取节奏和和弦进行、组装模板,得到<Template,Melody>的对齐数据,然后训练Template-to-Melody序列生成任务,解码时,可以自回归地从模板中解码得到旋律。
示意性的,模型结构如图6所示,输入第一旋律序列610后,对第一旋律序列610进行特征提取,得到序列特征表达620,并通过N次特征处理分别对旋律数据进行预测,其中,N次特征处理中,针对序列特征表达620进行多头注意力处理、残差标准化处理、前馈网络处理以及残差标准化处理等。其中,针对每个音符位置,通过候选音高和候选延续时长进行预测,确定每个候选音高和候选延续时长的输出概率,将输出概率最高的音高和延续时长确定为音符的音高和延续时长。
综上所述,本实施例提供的乐曲生成方法,首先针对获取的文本内容进行节奏识别,得到对应的节奏特征并确定节奏划分结果后,根据节奏划分结果生成旋律数据与文本内容进行匹配,从而使得生成的旋律数据与文本内容的表达匹配,在此基础下,由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配,避免歌词中同一词汇或者同一短语被拆分至不同的乐曲小节,提高了生成的乐曲中歌词与伴奏之间的匹配程度,提高了乐曲的表达流畅度和准确度。
本实施例提供的方法,通过构建第一旋律序列对节奏划分结果和和弦进行表达,从而将第一旋律序列输入值旋律生成模型中进行旋律预测,从而得到对应的第二旋律序列,并基于第二旋律序列确定出旋律数据,提高了旋律数据的确定效率和准确率。
在一个可选的实施例中,上述文本内容需要首先进行人声转换,再与伴奏数据进行融合。图7是本申请另一个示例性实施例提供的乐曲生成方法的流程图,以该方法应用于终端为例进行说明,如图7所示,上述步骤305还可以实现为如下步骤3051至步骤3053。
步骤3051,将文本内容转换为音素序列。
音素序列用于表征文本内容的发音特征。其中,以汉语为例,则音素序列是以汉语拼音的形式表达;以英语为例,则音素序列是以元音和辅音的音素表达。
本实施例中,以文本内容实现为诗词文本内容为例,则将诗词文本内容按照汉语的发音特征,以拼音的形式转换为音素序列,音素序列中的每个音素实现为一个声母或者韵母,声母和韵母衔接则得到诗词文本内容中的每个文字。
步骤3052,对音素序列和旋律数据进行合成,得到发声音频作为歌声数据。
发声音频是对音素序列按旋律数据进行发声得到的音频。可选地,通过预先训练得到的歌声合成模型对音素序列进行转换。其中,歌声合成模型是基于扩散模型得到的模型,对输入表示增加噪声,使其接近高斯噪声后,再从噪声中恢复出特征表示,并转换得到歌声数据。
示意性的请参考图8,如图8所示,获取音素序列和旋律数据提取得到的第一特征表示810,并对第一特征表示810增加噪声,使得增加噪声后的第二特征表示820接近高斯噪声,从而从第二特征表示820中恢复第三特征表示830后,基于第三特征表示830输出得到歌声数据840。
在一些实施例中,针对歌声数据还需要通过声码器进行转换,也即,基于输入的音素、音高和时长合成目标歌声的输出:梅尔谱输出。
步骤3053,将伴奏数据和歌声数据按音频轨道叠加,生成目标乐曲。
在一些实施例中,以预设的音强比例对伴奏数据和歌声数据按音频轨道的叠加,得到第一乐曲,在第一乐曲的基础上叠加预设混音数据,得到目标乐曲。
在一些实施例中,通过合成工具对伴奏数据和歌声数据进行叠加,在叠加后还可以通过合成工具中的功能项对合成数据进行微调。
综上所述,本实施例提供的乐曲生成方法,首先针对获取的文本内容进行节奏识别,得到对应的节奏特征并确定节奏划分结果后,根据节奏划分结果生成旋律数据与文本内容进行匹配,从而使得生成的旋律数据与文本内容的表达匹配,在此基础下,由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配,避免歌词中同一词汇或者同一短语被拆分至不同的乐曲小节,提高了生成的乐曲中歌词与伴奏之间的匹配程度,提高了乐曲的表达流畅度和准确度。
本实施例提供的方法,通过将文本内容转换为音素序列,再将音素序列根据发音特征与旋律数据进行融合,得到歌声数据,从而在歌声数据的基础上与伴奏混合得到目标乐曲,提高了目标乐曲的生成效率和准确率。
图9是本申请一个示例性实施例提供的乐曲生成装置的结构框图,如图9所示,该装置包括如下模块。
获取模块910,用于获取文本内容,所述文本内容是待作为歌词以生成对应的乐曲的内容;
识别模块920,用于对所述文本内容进行节奏识别,根据识别得到的节奏特征对所述文本内容进行节奏划分,得到节奏划分结果;
生成模块930,用于生成符合所述节奏划分结果的旋律数据,所述旋律数据用于对生成乐曲的曲调进行确定;
所述生成模块930,还用于基于所述旋律数据生成伴奏数据,所述伴奏数据用于作为生成乐曲的伴奏;
转换模块940,用于基于所述旋律数据对所述文本内容进行转换,得到歌声数据,融合所述伴奏数据和所述歌声数据生成目标乐曲,所述歌声数据是对所述文本内容进行模拟演唱生成的数据。
在一个可选的实施例中,如图10所示,所述识别模块920,包括:
解析单元921,用于对所述文本内容进行结构解析,得到所述文本内容的结构划分结果,所述结构划分结果用于表达所述文本内容中的语句的韵律特征;
划分单元922,用于基于所述结构划分结果对所述文本内容进行节奏划分,得到与所述结构划分结果对齐的所述节奏划分结果。
在一个可选的实施例中,所述解析单元921,还用于将所述文本内容输入预先训练得到的结构解析模型,输出得到所述文本内容的所述结构划分结果;
其中,所述结构解析模型是通过标注有结构划分参考标签的样本文本内容训练得到的模型。
在一个可选的实施例中,所述文本内容包括诗词文本内容;
所述获取模块910,还用于获取多个候选节奏划分模板,所述候选节奏划分模板是按照诗词韵律设置的划分模板;
所述解析单元921,还用于基于所述诗词文本内容从所述多个候选节奏划分模板中确定第一节奏划分模板,并基于所述第一节奏划分模板对所述诗词文本内容进行结构解析,得到所述诗词文本内容的结构划分结果。
在一个可选的实施例中,所述节奏划分结果中包括所述文本内容中被划分为主歌节奏的主歌内容和被划分为副歌节奏的副歌内容;
所述生成模块930,还用于生成与所述节奏划分结果匹配的和弦数据,其中,所述和弦数据中包括与所述主歌内容对应的主歌和弦数据;以及与所述副歌内容对应的副歌和弦数据;基于所述和弦数据和所述节奏划分结果进行旋律预测,生成所述旋律数据。
在一个可选的实施例中,所述生成模块930,还用于将所述和弦数据和所述节奏划分结果输入预先训练得到的旋律生成模型,输出得到所述旋律数据,所述旋律生成模型是通过标注有旋律信息的样本乐曲训练得到的模型。
在一个可选的实施例中,所述生成模块930,还用于基于所述和弦数据和所述节奏划分结果构建第一旋律序列,所述第一旋律序列中包括多个序列位置,每个序列位置对应一个音符,每个序列位置的位置数据中包括音符所在小节标识、音符在小节中的位置标识以及音符所在和弦标识;
所述生成模块930,还用于将所述第一旋律序列输入所述旋律生成模型,输出得到所述旋律数据,所述旋律数据中包括第二旋律序列,所述第二旋律序列中包括多个序列位置,每个序列位置对应一个音符,每个序列位置的位置数据中包括音符所在小节标识、音符在小节中的位置标识、音符的音高数据和音符的延续时长。
在一个可选的实施例中,所述生成模块930,还用于通过预先训练的伴奏提取模型对所述旋律数据进行伴奏提取,得到与所述旋律数据对应的伴奏数据,所述伴奏提取模型是通过伴奏-旋律数据对训练得到的模型。
在一个可选的实施例中,所述转换模块940,还用于将所述文本内容转换为音素序列,所述音素序列用于表征所述文本内容的发音特征;
所述转换模块940,还用于对所述音素序列和所述旋律数据进行合成,得到发声音频作为所述歌声数据,所述发声音频是对所述音素序列按所述旋律数据进行发声得到的音频。
在一个可选的实施例中,所述装置,还包括:
融合模块950,用于将所述伴奏数据和所述歌声数据按音频轨道叠加,生成所述目标乐曲。
在一个可选的实施例中,所述融合模块950,还用于以预设的音强比例对所述伴奏数据和所述歌声数据按音频轨道叠加,得到第一乐曲;在所述第一乐曲的基础上叠加预设混音数据,得到所述目标乐曲。
综上所述,本实施例提供的乐曲生成装置,首先针对获取的文本内容进行节奏识别,得到对应的节奏特征并确定节奏划分结果后,根据节奏划分结果生成旋律数据与文本内容进行匹配,从而使得生成的旋律数据与文本内容的表达匹配,在此基础下,由旋律数据确定的伴奏数据和歌声数据能够实现准确的匹配,避免歌词中同一词汇或者同一短语被拆分至不同的乐曲小节,提高了生成的乐曲中歌词与伴奏之间的匹配程度,提高了乐曲的表达流畅度和准确度。
需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其实现过程详见方法实施例,这里不再赘述。
请参考图11,其示出了本申请一个示例性实施例提供的计算机设备1100的结构框图。该计算机设备1100可以是便携式移动计算机设备,比如:智能手机、平板电脑、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III,MP3)播放器、动态影像专家压缩标准音频层面4(Moving Picture Experts Group Audio Layer IV,MP4)播放器。计算机设备1100还可能被称为用户设备、便携式计算机设备等其他名称。
通常,计算机设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是有形的和非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请实施例提供的乐曲生成方法。
在一些实施例中,计算机设备1100还可选包括有:外围设备接口1103和至少一个外围设备。
外围设备接口1103可被用于将输入/输出(Input /Output,I/O)相关的至少一个外围设备连接到处理器1101和存储器1102。
在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上各个实施例所述的乐曲生成方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该终端执行上述方面的各种可选实现方式中提供的乐曲生成方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种乐曲生成方法,其特征在于,所述方法包括:
获取文本内容,所述文本内容是待作为歌词以生成对应的乐曲的内容;
对所述文本内容进行节奏识别,根据识别得到的节奏特征对所述文本内容进行节奏划分,得到节奏划分结果;
生成符合所述节奏划分结果的旋律数据,所述旋律数据用于对生成乐曲的曲调进行确定;
基于所述旋律数据生成伴奏数据,所述伴奏数据用于作为生成乐曲的伴奏;
基于所述旋律数据对所述文本内容进行转换,得到歌声数据,融合所述伴奏数据和所述歌声数据生成目标乐曲,所述歌声数据是对所述文本内容进行模拟演唱生成的数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本内容进行节奏识别,根据识别得到的节奏特征对所述文本内容进行节奏划分,得到节奏划分结果,包括:
对所述文本内容进行结构解析,得到所述文本内容的结构划分结果,所述结构划分结果用于表达所述文本内容中的语句的韵律特征;
基于所述结构划分结果对所述文本内容进行节奏划分,得到与所述结构划分结果对齐的所述节奏划分结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本内容进行结构解析,得到所述文本内容的结构划分结果,包括:
将所述文本内容输入预先训练得到的结构解析模型,输出得到所述文本内容的所述结构划分结果;
其中,所述结构解析模型是通过标注有结构划分参考标签的样本文本内容训练得到的模型。
4.根据权利要求2所述的方法,其特征在于,所述文本内容包括诗词文本内容;
所述对所述文本内容进行结构解析,得到所述文本内容的结构划分结果,包括:
获取多个候选节奏划分模板,所述候选节奏划分模板是按照诗词韵律设置的划分模板;
基于所述诗词文本内容从所述多个候选节奏划分模板中确定第一节奏划分模板,并基于所述第一节奏划分模板对所述诗词文本内容进行结构解析,得到所述诗词文本内容的结构划分结果。
5.根据权利要求1至4任一所述的方法,其特征在于,所述节奏划分结果中包括所述文本内容中被划分为主歌节奏的主歌内容和被划分为副歌节奏的副歌内容;
所述生成符合所述节奏划分结果的旋律数据,包括:
生成与所述节奏划分结果匹配的和弦数据,其中,所述和弦数据中包括与所述主歌内容对应的主歌和弦数据,以及与所述副歌内容对应的副歌和弦数据;
基于所述和弦数据和所述节奏划分结果进行旋律预测,生成所述旋律数据。
6.根据权利要求5所述的方法,其特征在于,所述基于所述和弦数据和所述节奏划分结果进行旋律预测,生成所述旋律数据,包括:
将所述和弦数据和所述节奏划分结果输入预先训练得到的旋律生成模型,输出得到所述旋律数据,所述旋律生成模型是通过标注有旋律信息的样本乐曲训练得到的模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述和弦数据和所述节奏划分结果输入预先训练得到的旋律生成模型,输出得到所述旋律数据,包括:
基于所述和弦数据和所述节奏划分结果构建第一旋律序列,所述第一旋律序列中包括多个序列位置,每个序列位置对应一个音符,每个序列位置的位置数据中包括音符所在小节标识、音符在小节中的位置标识以及音符所在和弦标识;
将所述第一旋律序列输入所述旋律生成模型,输出得到所述旋律数据,所述旋律数据中包括第二旋律序列,所述第二旋律序列中包括多个序列位置,每个序列位置对应一个音符,每个序列位置的位置数据中包括音符所在小节标识、音符在小节中的位置标识、音符的音高数据和音符的延续时长。
8.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述旋律数据生成伴奏数据,包括:
通过预先训练的伴奏提取模型对所述旋律数据进行伴奏提取,得到与所述旋律数据对应的伴奏数据,所述伴奏提取模型是通过伴奏-旋律数据对训练得到的模型。
9.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述旋律数据对所述文本内容进行转换,得到歌声数据,包括:
将所述文本内容转换为音素序列,所述音素序列用于表征所述文本内容的发音特征;
对所述音素序列和所述旋律数据进行合成,得到发声音频作为所述歌声数据,所述发声音频是对所述音素序列按所述旋律数据进行发声得到的音频。
10.根据权利要求1至4任一所述的方法,其特征在于,所述融合所述伴奏数据和所述歌声数据生成目标乐曲,包括:
将所述伴奏数据和所述歌声数据按音频轨道叠加,生成所述目标乐曲。
11.根据权利要求10所述的方法,其特征在于,所述将所述伴奏数据和所述歌声数据按音频轨道叠加,生成所述目标乐曲,包括:
以预设的音强比例对所述伴奏数据和所述歌声数据按音频轨道叠加,得到第一乐曲;
在所述第一乐曲的基础上叠加预设混音数据,得到所述目标乐曲。
12.一种乐曲生成装置,其特征在于,所述装置包括:
获取模块,用于获取文本内容,所述文本内容是待作为歌词以生成对应的乐曲的内容;
识别模块,用于对所述文本内容进行节奏识别,根据识别得到的节奏特征对所述文本内容进行节奏划分,得到节奏划分结果;
生成模块,用于生成符合所述节奏划分结果的旋律数据,所述旋律数据用于对生成乐曲的曲调进行确定;
所述生成模块,还用于基于所述旋律数据生成伴奏数据,所述伴奏数据用于作为生成乐曲的伴奏;
转换模块,用于基于所述旋律数据对所述文本内容进行转换,得到歌声数据,融合所述伴奏数据和所述歌声数据生成目标乐曲,所述歌声数据是对所述文本内容进行模拟演唱生成的数据。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至11任一所述的乐曲生成方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至11任一所述的乐曲生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310933426.1A CN116645957B (zh) | 2023-07-27 | 2023-07-27 | 乐曲生成方法、装置、终端、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310933426.1A CN116645957B (zh) | 2023-07-27 | 2023-07-27 | 乐曲生成方法、装置、终端、存储介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645957A true CN116645957A (zh) | 2023-08-25 |
CN116645957B CN116645957B (zh) | 2023-10-03 |
Family
ID=87643842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310933426.1A Active CN116645957B (zh) | 2023-07-27 | 2023-07-27 | 乐曲生成方法、装置、终端、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645957B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014170146A (ja) * | 2013-03-05 | 2014-09-18 | Univ Of Tokyo | 日本語歌詞からの多重唱の自動作曲方法及び装置 |
CN106652984A (zh) * | 2016-10-11 | 2017-05-10 | 张文铂 | 一种使用计算机自动创作歌曲的方法 |
CN109166564A (zh) * | 2018-07-19 | 2019-01-08 | 平安科技(深圳)有限公司 | 为歌词文本生成乐曲的方法、装置及计算机可读存储介质 |
CN113192473A (zh) * | 2021-05-06 | 2021-07-30 | 成都潜在人工智能科技有限公司 | 一种基于诗歌自动化作曲的方法及音频合成装置 |
CN113920968A (zh) * | 2021-10-09 | 2022-01-11 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN116343723A (zh) * | 2023-03-17 | 2023-06-27 | 广州趣研网络科技有限公司 | 旋律生成方法、装置、存储介质及计算机设备 |
-
2023
- 2023-07-27 CN CN202310933426.1A patent/CN116645957B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014170146A (ja) * | 2013-03-05 | 2014-09-18 | Univ Of Tokyo | 日本語歌詞からの多重唱の自動作曲方法及び装置 |
CN106652984A (zh) * | 2016-10-11 | 2017-05-10 | 张文铂 | 一种使用计算机自动创作歌曲的方法 |
CN109166564A (zh) * | 2018-07-19 | 2019-01-08 | 平安科技(深圳)有限公司 | 为歌词文本生成乐曲的方法、装置及计算机可读存储介质 |
CN113192473A (zh) * | 2021-05-06 | 2021-07-30 | 成都潜在人工智能科技有限公司 | 一种基于诗歌自动化作曲的方法及音频合成装置 |
CN113920968A (zh) * | 2021-10-09 | 2022-01-11 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN116343723A (zh) * | 2023-03-17 | 2023-06-27 | 广州趣研网络科技有限公司 | 旋律生成方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116645957B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10891928B2 (en) | Automatic song generation | |
CN108806655B (zh) | 歌曲的自动生成 | |
CN111445892B (zh) | 歌曲生成方法、装置、可读介质及电子设备 | |
Hono et al. | Sinsy: A deep neural network-based singing voice synthesis system | |
CN101156196A (zh) | 混合语音合成器、方法和使用 | |
CN101785048A (zh) | 基于hmm的双语(普通话-英语)tts技术 | |
CN109326280B (zh) | 一种歌唱合成方法及装置、电子设备 | |
CN112802446B (zh) | 音频合成方法及装置、电子设备和计算机可读存储介质 | |
CN112164379A (zh) | 音频文件生成方法、装置、设备及计算机可读存储介质 | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN114360492B (zh) | 音频合成方法、装置、计算机设备和存储介质 | |
CN110164460A (zh) | 歌唱合成方法和装置 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN111477210A (zh) | 语音合成方法和装置 | |
CN112035699A (zh) | 音乐合成方法、装置、设备和计算机可读介质 | |
CN115101042B (zh) | 一种文本处理方法、装置及设备 | |
Gupta et al. | Deep learning approaches in topics of singing information processing | |
Lorenzo-Trueba et al. | Simple4all proposals for the albayzin evaluations in speech synthesis | |
CN113178182A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN112989109A (zh) | 一种音乐结构分析方法、电子设备及存储介质 | |
CN116645957B (zh) | 乐曲生成方法、装置、终端、存储介质及程序产品 | |
CN112242134A (zh) | 语音合成方法及装置 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
Dai et al. | ExpressiveSinger: Multilingual and Multi-Style Score-based Singing Voice Synthesis with Expressive Performance Control | |
CN114242032A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |