CN113192473A

CN113192473A - 一种基于诗歌自动化作曲的方法及音频合成装置

Info

Publication number: CN113192473A
Application number: CN202110491659.1A
Authority: CN
Inventors: 尹学渊; 杨杰; 陈洪宇; 江天宇
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-30

Abstract

本发明提供了一种基于诗歌自动化作曲的方法，包括如下步骤：获取待合成的目标诗歌的细粒度属性信息；基于细粒度属性信息或其与输入的音频效果的结合调用预构建的旋律数据库内对应的节奏型、调式调性以及和声，利用和声进行和对应的节奏型生成旋律，并保存为旋律midi文件；基于细粒度属性信息、旋律midi文件以及和声进行，调用预构建的伴奏数据库，生成对应的伴奏乐谱并保存为伴奏midi文件；将旋律midi文件输入基于深度学习的fastspeech模型中进行处理，生成干声音频文件；对伴奏midi文件进行波形拼接，得到伴奏音频文件；对干声音频文件和伴奏音频文件进行混音处理，合成音乐作品。本发明确保用户在交互式操作下，能够简便的完成音乐创作，降低了音乐创作的门槛。

Description

一种基于诗歌自动化作曲的方法及音频合成装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种基于诗歌自动化作曲的方法及音频合成装置。

背景技术

随着中国发展强大，中华文化渐渐地被外国人所了解，特别是其中的古代文化，令很多外国人，特别是外国研究人员所着迷，其中的唐诗宋词，用短短的几行有限的字，就能充分表述了人们的意境，让人感叹。

且如今随着人工智能和音乐教育领域需求的发展，特别是在音乐教育编创应用中，教材的设计和内容非常清晰，但在实际的教学过程中发现，学生在编创环节出现许多问题，比如：旋律线条走向的模糊，节奏与节拍概念的混淆，音乐创作中调式调性与情绪表达的偏离，大多数存在“纸上谈兵”的问题，不能直观的参与音乐编创的过程。

因此，如何将国学经典唐诗宋词作为歌词原型，以高用户参与度的方式进行作曲是目前亟需解决的问题。

发明内容

本发明旨在解决现有技术中如何将国学经典唐诗宋词作为歌词原型，以高用户参与度的方式进行作曲的问题，以唐诗宋词作为歌词原型，利用作曲规则和深度学习模型对诗词进行曲式结构划分和情绪分析，用户利用三种输入的方式进行对诗词进行逐句的创作，并支持自定义修改，在生成满意旋律的情况下，为其创作伴奏、合成干声、混音等。确保了用户在交互式操作下，能够简便的完成音乐创作和后期合成的整个过程，大大降低了音乐创作的门槛，体验一站式交互式作曲的乐趣。

本发明的实施例通过以下技术方案实现：一种基于诗歌自动化作曲的方法，包括如下步骤：

S1.获取待合成的目标诗歌的细粒度属性信息；

S2.基于所述细粒度属性信息或其与输入的音频效果的结合调用预构建的旋律数据库内对应的节奏型、调式调性以及和声，利用和声进行和对应的节奏型生成旋律，并保存为旋律midi文件；

S3.基于所述细粒度属性信息、旋律midi文件以及和声进行，调用预构建的伴奏数据库，生成对应的伴奏乐谱并保存为伴奏midi文件；

S4.将所述旋律midi文件输入基于深度学习的fastspeech模型中进行处理，生成干声音频文件；

S5.对所述伴奏midi文件进行波形拼接，得到伴奏音频文件；

S6.对所述干声音频文件和伴奏音频文件进行混音处理，合成音乐作品。

根据一种优选实施方式，所述细粒度信息包括但不限于曲式结构和情绪维度。

根据一种优选实施方式，步骤S1具体包括：

S11.对目标诗歌进行段落划分，确定曲式结构；

S12.将目标诗歌输入预训练的深度学习模型中进行处理，获取目标诗歌的情绪维度。

根据一种优选实施方式，步骤S2之前还包括：采用包括但不限于画笔输入或哼唱输入的方式获取音频效果，其中，

画笔输入的方式为：获取用户通过画笔所输入的线条并对线条进行解析，获取音高关系；

哼唱输入的方式为：获取用户通过哼唱所输入的旋律并对旋律进行解析，提取音高。

根据一种优选实施方式，步骤S2具体包括：

S21.基于所述曲式结构，确定目标诗歌每句的字数；

S22.根据所确定的字数，在旋律数据库中检索对应长度的节奏型；

S23.为目标诗歌分配和声进行；

S24.按预设规则依次填充节奏型当中的所有音符，形成旋律音符序列，其中，所述预设规则为：重要的音符对应填充和弦内音，不重要的音符对应填充和弦外音；

S25.将旋律音符序列发送至人机交互应用客户端进行显示。

根据一种优选实施方式，步骤S2还包括：

S26.获取人机交互应用客户端发送的操作指令，所述操作指令用以指示所要修改的目标旋律中的音符；

S27.响应所述操作指令修改所述音符。

本发明还提供一种基于诗歌自动化作曲的音频合成装置，应用到如前述所述的方法，包括：

数据预处理模块，用以获取待合成的目标诗歌的细粒度属性信息；

交互式作曲模块，与所述数据预处理模块连接，用以基于所述细粒度属性信息或其与输入的音频效果的结合调用预构建的旋律数据库内对应的节奏型、调式调性以及和声，利用和声进行和对应的节奏型生成旋律，并保存为旋律midi文件；

自动化伴奏模块，分别与所述数据预处理模块和交互式作曲模块连接，用以基于所述细粒度属性信息、旋律midi文件以及和声进行，调用预构建的伴奏数据库，生成对应的伴奏乐谱并保存为伴奏midi文件；

音频合成模块，其包括歌唱合成模块、器乐合成模块以及混音模块，其中

所述歌唱合成模块与所述交互式作曲模块连接，用以将所述旋律midi 文件输入基于深度学习的fastspeech模型中进行处理，生成干声音频文件；

所述器乐合成模块与所述自动化伴奏模块连接，用以对所述伴奏midi 文件进行波形拼接，得到伴奏音频文件；

所述混音模块，分别与所述歌唱合成模块以及器乐合成模块连接，用以对所述干声音频文件和伴奏音频文件进行混音处理，合成音乐作品。

根据一种优选实施方式，所述交互式作曲模块包括系统推荐模块、画笔输入模块以及哼唱输入模块，

其中，所述系统推荐模块与所述数据预处理模块连接，用以基于所述所述细粒度属性信息生成旋律；

所述画笔输入模块与所述数据预处理模块连接，用以获取用户通过画笔所输入的线条并对线条进行解析，获取音高关系；

所述哼唱输入模块与所述数据预处理模块连接，用以获取用户通过哼唱所输入的旋律并对旋律进行解析，提取音高。

根据一种优选实施方式，所述交互式作曲模块还包括获取模块以及旋律修改模块，

所述获取模块与人机交互应用客户端连接，用以获取人机交互应用客户端发送的操作指令，其中，所述操作指令用以指示所要修改的目标旋律中的音符；

所述旋律修改模块用以响应所述操作指令修改所述音符。

本发明实施例的技术方案至少具有如下优点和有益效果：本发明以唐诗宋词作为歌词原型，利用作曲规则和深度学习模型对诗词进行曲式结构划分和情绪分析，用户利用三种输入的方式进行对诗词进行逐句的创作，并支持自定义修改，在生成满意旋律的情况下，为其创作伴奏、合成干声、混音等。确保用户在交互式操作下，能够简便的完成音乐创作和后期合成的整个过程，大大降低了音乐创作的门槛，体验一站式交互式作曲的乐趣。

附图说明

图1为本发明实施例1提供的基于诗歌自动化作曲的方法的逻辑流程图；

图2为本发明实施例1提供的基于诗歌自动化作曲的音频合成装置的结构框图；

图标：100-数据与处理模块，200-交互式作曲模块，210-系统推荐模块，220-画笔输入模块，230-哼唱输入模块，240-获取模块，250-旋律修改模块，300-自动化伴奏模块，400-音频合成模块，410-歌唱合成模块， 420-器乐合成模块，430-混音模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

参阅图1所示，图1为本发明实施例提供的基于诗歌自动化作曲的方法的逻辑流程图。

需要说明的是，如今随着人工智能和音乐教育领域需求的发展，特别是在音乐教育编创应用中，教材的设计和内容非常清晰，但在实际的教学过程中发现，学生在编创环节出现许多问题，比如：旋律线条走向的模糊，节奏与节拍概念的混淆，音乐创作中调式调性与情绪表达的偏离，大多数存在“纸上谈兵”的问题，不能直观的参与音乐编创的过程。因此，如何将国学经典唐诗宋词作为歌词原型，以高用户参与度的方式进行作曲是目前亟需解决的问题。所以，本发明实施例提供一种基于诗歌自动化作曲的方法，具体内容如下所述：

方法包括如下步骤：

数据库准备步骤，具体如下：

构建唐诗宋词数据库，用于以txt的格式存储经过校对多音字后的的唐诗宋词。

构建旋律数据库，用于以midi文件的格式收集现有的唐诗宋词音乐作品的主旋律，例如《春夜喜雨》、《春晓》等，目的在于现有的唐诗宋词音乐作品主旋律的音符信息，并对其曲式结构、BPM(每分钟节拍数)、节奏节拍、情绪等进行标记并录入数据库。此外，还可以自创适合古诗词的主旋律以增加主旋律的多样性，并对自创的主旋律进行上述处理录入数据库。

构建伴奏数据库，用以存储格式为midi文件的情绪维度、风格、配器、演奏法等标记。

构建器乐合成音源服务器，用以自行采样器乐音源并按照乐器名称进行标记，以wav格式存储。

具体实施步骤，具体如下：

获取待合成的目标诗歌的细粒度属性信息，所述细粒度信息包括但不限于曲式结构、情绪维度、类型、主题、主题词、韵脚、风格等；本发明实施例以曲式结构、情绪维度为例进行说明。

具体地说，步骤如下：对目标诗歌进行段落划分，确定曲式结构；将目标诗歌输入预训练的深度学习模型中进行处理，获取目标诗歌的情绪维度。

此处以《春夜喜雨》进行举例说明：

首先，对诗歌进行段落划分，确定其曲式结构，通常情况下按四句为一段来划分处理，标记为A段。那么《春夜喜雨》全诗共八句，则按照“4+4” 来划分，标记为“A+B”段，前四句为A段，后四句为B段，该诗句每句字数为五。

进一步的，使用预训练的深度学习模型，训练计算出《春夜喜雨》的情绪维度、提取关键标签；具体为，《春夜喜雨》每句诗对应一个小节，A 段的四句每个小节有1个和弦，表明情绪较为平缓；而B段的四句，每个小节对应两个和弦，表明情绪较为丰富激烈，由此获取到目标诗歌的情绪维度。值得一提的是，通过预训练的深度学习模型对《春夜喜雨》进行处理最终得到的情绪维度为：[(喜，0.4)、(怒，0.1)、(哀,0.2)、(乐,0.3)]。

进一步的，本发明实施例包括三种用户输入方式，

一为，系统自动推荐；二为，画笔输入；三为，哼唱输入；其中画笔输入为获取用户通过画笔所输入的线条并对线条进行解析，获取音高关系，进而从旋律数据库中提取适合的节奏型，再根据乐理规则进行旋律作曲；哼唱输入为获取用户通过哼唱所输入的旋律并对旋律进行解析，提取音高，结合作曲规则将不符合作曲规则的音符修正到邻近符合的和弦内容当中。需要说明的是，本发明实施例设置画笔输入和哼唱输入的目的在于以交互式的作曲方式提高用户参与度，从用户输入的信息中提取音频信息，进而结合目标诗歌的细粒度信息进行歌曲创作。

以下以系统自动推荐的作曲方式进行举例说明：

具体包括如下步骤：

基于上述所确定的目标诗歌的曲式结构以及情绪维度，例如“好雨知时节，当初乃发生”，通过预训练的深度学习模块预测情绪为“喜”；

则调用预构建的旋律数据库内对应“喜”情绪的节奏型、调式调性以及和声，利用和声进行和对应的节奏型生成旋律，需要说明的是，和声进行指即指调性音乐中和弦在一定和声范围内的连接；具体包括如下步骤：

首先，基于所述曲式结构，确定目标诗歌每句的字数，例如“好雨知时节，当初乃发生”由两行诗句组成，分别有五个字；

进一步的，根据所确定的字数，在旋律数据库中检索对应长度的节奏型；例如已确定诗句分别有五个字，则从旋律数据库中检索情绪标记为“喜” 的长度为五个音符的节奏型；

进一步的，为目标诗歌分配和声进行，例如根据诗歌枚举的字数分配两个级数的和弦进行；

进一步的，按预设规则依次填充节奏型当中的所有音符，形成旋律音符序列，其中，所述预设规则为：重要的音符对应填充和弦内音，不重要的音符对应填充和弦外音；

最后，将旋律音符序列发送至人机交互应用客户端进行显示。

本发明实施例还包括修改步骤，以进一步提高用户参与度。具体的，通过上述三种方式生成的旋律运用歌唱合成模型对其进行演唱，如果用户在试听旋律之后需要对音符进行调整修改，则可以直接通过在人机交互应用客户端用拖拽等方式对该旋律的音高、节奏、时值等进行修改。具体的实现方法为：获取人机交互应用客户端发送的操作指令，所述操作指令用以指示所要修改的目标旋律中的音符；响应所述操作指令修改所述音符。

需要说明的是，上述三种方式创作出的旋律保存为旋律midi文件。

进一步的，基于所述细粒度属性信息、旋律midi文件以及和声进行，调用预构建的伴奏数据库，生成对应的伴奏乐谱并保存为伴奏midi文件。

进一步的，将所述旋律midi文件输入基于深度学习的fastspeech模型中进行处理，生成干声音频文件，并保存为wav格式。

进一步的，对所述伴奏midi文件进行波形拼接，得到伴奏音频文件，并保存为wav格式；

进一步的，对所述干声音频文件和伴奏音频文件进行混音处理，合成音乐作品，并保存为wav格式。

参阅图2所示，图2为本发明实施例提供的基于诗歌自动化作曲的音频合成装置的结构框图。

需要说明的是该音频合成装置应用到上述所述的方法，具体包括：数据预处理模块，用以获取待合成的目标诗歌的细粒度属性信息；交互式作曲模块200，与所述数据预处理模块连接，用以基于所述细粒度属性信息或其与输入的音频效果的结合调用预构建的旋律数据库内对应的节奏型、调式调性以及和声，利用和声进行和对应的节奏型生成旋律，并保存为旋律 midi文件；自动化伴奏模块300，分别与所述数据预处理模块和交互式作曲模块200连接，用以基于所述细粒度属性信息、旋律midi文件以及和声进行，调用预构建的伴奏数据库，生成对应的伴奏乐谱并保存为伴奏midi 文件；音频合成模块400，其包括歌唱合成模块410、器乐合成模块420以及混音模块430，其中所述歌唱合成模块410与所述交互式作曲模块200连接，用以将所述旋律midi文件输入基于深度学习的fastspeech模型中进行处理，生成干声音频文件；所述器乐合成模块420与所述自动化伴奏模块300连接，用以对所述伴奏midi文件进行波形拼接，得到伴奏音频文件；所述混音模块430，分别与所述歌唱合成模块410以及器乐合成模块420连接，用以对所述干声音频文件和伴奏音频文件进行混音处理，合成音乐作品。需要说明的是，本发明实施例的混音处理为调用预制的混音模板，其中，混音模板用以调整干声和伴奏的动态和效果，主要体现在音量比例、混响状态、压缩、均衡器预制应用等，可以对齐伴奏调整每一轨乐器的声像位置和音质。

进一步的，所述细粒度信息包括但不限于曲式结构和情绪维度。

进一步的，所述交互式作曲模块200包括系统推荐模块210、画笔输入模块220以及哼唱输入模块230，其中，所述系统推荐模块210与所述数据预处理模块连接，用以基于所述所述细粒度属性信息生成旋律；所述画笔输入模块220与所述数据预处理模块连接，用以获取用户通过画笔所输入的线条并对线条进行解析，获取音高关系；所述哼唱输入模块230与所述数据预处理模块连接，用以获取用户通过哼唱所输入的旋律并对旋律进行解析，提取音高。

进一步的，所述交互式作曲模块200还包括获取模块240以及旋律修改模块250，所述获取模块240与人机交互应用客户端连接，用以获取人机交互应用客户端发送的操作指令，其中，所述操作指令用以指示所要修改的目标旋律中的音符；所述旋律修改模块250用以响应所述操作指令修改所述音符。

综上所述，本发明以唐诗宋词作为歌词原型，利用作曲规则和深度学习模型对诗词进行曲式结构划分和情绪分析，用户利用三种输入的方式进行对诗词进行逐句的创作，并支持自定义修改，在生成满意旋律的情况下，为其创作伴奏、合成干声、混音等。确保用户在交互式操作下，能够简便的完成音乐创作和后期合成的整个过程，大大降低了音乐创作的门槛，体验一站式交互式作曲的乐趣。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于诗歌自动化作曲的方法，其特征在于，包括如下步骤：

S1.获取待合成的目标诗歌的细粒度属性信息；

S5.对所述伴奏midi文件进行波形拼接，得到伴奏音频文件；

2.如权利要求1所述的基于诗歌自动化作曲的方法，其特征在于，所述细粒度信息包括但不限于曲式结构和情绪维度。

3.如权利要求2所述的基于诗歌自动化作曲的方法，其特征在于，步骤S1具体包括：

S11.对目标诗歌进行段落划分，确定曲式结构；

4.如权利要求3所述的基于诗歌自动化作曲的方法，其特征在于，步骤S2之前还包括：采用包括但不限于画笔输入或哼唱输入的方式获取音频效果，其中，

5.如权利要求3所述的基于诗歌自动化作曲的方法，其特征在于，步骤S2具体包括：

S21.基于所述曲式结构，确定目标诗歌每句的字数；

S23.为目标诗歌分配和声进行；

S25.将旋律音符序列发送至人机交互应用客户端进行显示。

6.如权利要求5所述的基于诗歌自动化作曲的方法，其特征在于，步骤S2还包括：

S27.响应所述操作指令修改所述音符。

7.一种基于诗歌自动化作曲的音频合成装置，应用到如前述权利要求1-6任一项所述的方法，其特征在于，包括：

交互式作曲模块(200)，与所述数据预处理模块连接，用以基于所述细粒度属性信息或其与输入的音频效果的结合调用预构建的旋律数据库内对应的节奏型、调式调性以及和声，利用和声进行和对应的节奏型生成旋律，并保存为旋律midi文件；

自动化伴奏模块(300)，分别与所述数据预处理模块和交互式作曲模块(200)连接，用以基于所述细粒度属性信息、旋律midi文件以及和声进行，调用预构建的伴奏数据库，生成对应的伴奏乐谱并保存为伴奏midi文件；

音频合成模块(400)，其包括歌唱合成模块(410)、器乐合成模块(420)以及混音模块(430)，其中

所述歌唱合成模块(410)与所述交互式作曲模块(200)连接，用以将所述旋律midi文件输入基于深度学习的fastspeech模型中进行处理，生成干声音频文件；

所述器乐合成模块(420)与所述自动化伴奏模块(300)连接，用以对所述伴奏midi文件进行波形拼接，得到伴奏音频文件；

所述混音模块(430)，分别与所述歌唱合成模块(410)以及器乐合成模块(420)连接，用以对所述干声音频文件和伴奏音频文件进行混音处理，合成音乐作品。

8.如权利要求7所述的基于诗歌自动化作曲的音频合成装置，其特征在于，所述细粒度信息包括但不限于曲式结构和情绪维度。

9.如权利要求7所述的基于诗歌自动化作曲的音频合成装置，其特征在于，所述交互式作曲模块(200)包括系统推荐模块(210)、画笔输入模块(220)以及哼唱输入模块(230)，

其中，所述系统推荐模块(210)与所述数据预处理模块连接，用以基于所述所述细粒度属性信息生成旋律；

所述画笔输入模块(220)与所述数据预处理模块连接，用以获取用户通过画笔所输入的线条并对线条进行解析，获取音高关系；

所述哼唱输入模块(230)与所述数据预处理模块连接，用以获取用户通过哼唱所输入的旋律并对旋律进行解析，提取音高。

10.如权利要求9所述的基于诗歌自动化作曲的音频合成装置，其特征在于，所述交互式作曲模块(200)还包括获取模块(240)以及旋律修改模块(250)，

所述获取模块(240)与人机交互应用客户端连接，用以获取人机交互应用客户端发送的操作指令，其中，所述操作指令用以指示所要修改的目标旋律中的音符；

所述旋律修改模块(250)用以响应所述操作指令修改所述音符。