CN117217261B - 一种基于和弦和歌词结构的吉他和弦生成模型的方法 - Google Patents
一种基于和弦和歌词结构的吉他和弦生成模型的方法 Download PDFInfo
- Publication number
- CN117217261B CN117217261B CN202311473396.7A CN202311473396A CN117217261B CN 117217261 B CN117217261 B CN 117217261B CN 202311473396 A CN202311473396 A CN 202311473396A CN 117217261 B CN117217261 B CN 117217261B
- Authority
- CN
- China
- Prior art keywords
- chord
- layer
- model
- music
- softmax
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 239000000203 mixture Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 4
- 238000005728 strengthening Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000013461 design Methods 0.000 abstract description 4
- 210000002569 neuron Anatomy 0.000 description 15
- 230000008451 emotion Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 239000000306 component Substances 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
一种基于和弦和歌词结构的吉他和弦生成模型的方法,包括如下步骤:S1收集和准备:收集和准备用于模型训练的音乐样本;S2输入编码:将所述音乐样本编码成音乐数据;S3 Dropout层:在所述音乐数据中应用Dropout层;S4全连接层:将Dropout层后的音乐数据传递给全连接层;S5位置编码:引入位置编码;S6双向Transformer层:双向Transformer层由正向Transformer网络和反向Transformer网络组成,所述双向Transformer层的目标是在模型中引入自注意力机制,以来捕获音乐数据中的内部关系;S7全连接层;S8 Softmax层;S9和弦预测。本发明所述的基于和弦和歌词结构的吉他和弦生成模型的方法,设计合理,采用双向Transformer结构的创新方法有助于解决音乐生成中和弦与歌词之间的关联问题,提高了生成音乐作品的质量和一致性。
Description
技术领域
本发明属于音乐生成技术领域,具体涉及一种基于和弦和歌词结构的吉他和弦生成模型。
背景技术
吉他和弦作为音乐表达的核心要素,为歌曲赋予情感色彩和旋律的方向。然而,创作歌曲吉他和弦时需要综合考虑多重因素,如调性、节奏、情感张力和和弦进行方式等。此过程依赖于音乐背景和创作者的个人选择,需要丰富的音乐知识和长时间的吉他演奏经验。因此,对于音乐新手而言,吉他和弦的编排往往是创作中的难题。
近年来,音乐自动生成技术领域引起了广泛关注,其中符号表示的音乐生成已取得一定成果。然而,吉他和弦的自动生成仍处于初级阶段。在机器学习方法中,基于概率建模是和弦生成研究中常见的方式。这类方法通常使用隐马尔可夫模型(HMM),将音乐的12个半音向量作为观测值,和弦作为隐藏状态来预测和弦。然而,现代流行音乐中存在着较长的和弦进行和旋律序列依赖性。为了处理这一问题,最新研究多采用长短时记忆网络(LSTM),该网络在时间序列中可以保持长期依赖性。
尽管使用符号表示有助于音乐生成,但是各种和弦类型繁多,和弦符号数量庞大,因此,许多任务将和弦简化为基于根音的三和弦,以减少训练复杂度。然而,简化后的和弦可能损失音乐情感张力,影响音乐的可听性。流行音乐中,吉他和弦编排主要以三和弦和七和弦为基础,根据情感需要添加音程关系,构建丰富多样的和弦表达。
因此,为了保持生成的和弦音乐的情感张力,研究寻找新的和弦表示方法,以能够表达所有和弦类型,成为一个重要的课题。现有技术的吉他和弦生成模型通常忽略了歌词与和弦之间的联系,采用同一模型从头到尾生成和弦序列。然而,这种方法忽略了歌词和和弦在情感表达上的关联,导致生成的和弦与歌词情感不协调。因此,在构建吉他和弦生成模型时,需考虑如何更好地将歌词与和弦进行整合,以保持情感一致性。
因此,本发明的目的是提供一种基于和弦和歌词结构的吉他和弦生成模型以及方法,以来解决上述技术问题。
发明内容
发明目的:为了克服以上不足,本发明的目的是提供一种基于和弦和歌词结构的吉他和弦生成模型的方法,设计合理,通过一系列处理,模型能够更好地学习和理解歌词与和弦之间的关系,特别是双向Transformer结构的创新方法有助于解决音乐生成中和弦与歌词之间的关联问题,提高了生成音乐作品的质量和一致性。
本发明的目的是通过以下技术方案实现的:
一种基于和弦和歌词结构的吉他和弦生成模型的方法,包括如下步骤:
S1收集和准备:收集和准备用于模型训练的音乐样本;
S2输入编码:将所述音乐样本编码成音乐数据,所述音乐数据为模型可以理解的形式;
S3 Dropout层:在所述音乐数据中应用Dropout层;
S4全连接层:将Dropout层后的音乐数据传递给全连接层,进行捕获和强化特征;
S5位置编码:引入位置编码,将上述音乐数据中不同位置的元素区分开,帮助模型理解音乐数据的顺序信息;
S6双向Transformer层:双向Transformer层由正向Transformer网络和反向Transformer网络组成,所述双向Transformer层的目标是在模型中引入自注意力机制,以来捕获音乐数据中的内部关系,同时分别学习全曲和弦信息和整曲歌词信息;
S7全连接层:将双向Transformer层后的音乐数据再次传递给全连接层,进行进一步捕获和强化特征;
S8 Softmax层:将上述音乐数据传递给Softmax层,所述Softmax层在模型中用于预测下一个和弦;
S9 和弦预测:根据Softmax层的输出,选择概率最高的和弦作为模型的预测结果,从而生成音乐的下一部分。
本发明所述的基于和弦和歌词结构的吉他和弦生成模型的方法,设计合理,将音乐数据编码成模型可以理解的形式(向量,向量是音乐数据转换为模型可理解的数据),使其能够被神经网络处理,由于训练数据量有限,为了防止过拟合的风险,通过应用Dropout层,以增加网络的泛化能力、减少网络的复杂性。接下来,全连接层用于进一步提取和抽象特征,然后引入位置编码,位置编码用于处理音乐数据中不同元素的顺序信息,并将音乐数据分别输入到双向Transformer层的正向Transformer网络和反向Transformer网络中,双向Transformer层是核心部分,正向Transformer网络和反向Transformer网络分别学习和整合全曲和弦信息以及整曲歌词信息。在经过Dropout层、归一化层和全连接层的处理后,我们将正向和反向网络块的输出进行连接,并输出综合的特征表示。在模型的输出阶段,通过Softmax层将生成的和弦向量转化为和弦的概率分布,并选择具有最高概率的和弦作为生成音乐的下一部分。这个过程使模型能够深入学习和弦与歌词之间的联系,生成更具情感和创意的音乐作品。
通过这一系列处理,使得模型能够更好地学习和理解歌词与和弦之间的关系,从而生成更具情感和创意的和弦序列。这种双向Transformer层的创新方法有助于解决音乐生成中和弦与歌词之间的关联问题,提高了生成音乐作品的质量和一致性。
其中,所述“元素”是一个泛指,表示音乐数据中的基本组成单位,具体含义取决于正在处理的数据类型和任务。在此模型中,“元素”可以是音符、和弦、歌词或者时间步骤等。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S1,所述音乐样本包括但不限于和弦、歌词、(旋律)音符。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S2,采用独热编码的方式进行编码,具体如下:
(1)和弦编码:先构建一个唯一和弦的词汇表,然后对每个和弦进行独热编码,每个和弦都被映射成一个长度为词汇表大小的二进制向量;
(2) 歌词编码:先构建一个唯一歌词的词汇表,然后对每个歌词进行独热编码,每个歌词都被映射成一个长度为词汇表大小的二进制向量;
(3)音符编码:先构建一个唯一音符的词汇表,然后对每个音符进行独热编码,每个音符都被映射成一个长度为词汇表大小的二进制向量。
在这一步骤,音乐样本需要被编码成模型可以理解的形式。通常,对于和弦、歌词以及旋律音符等这类离散的符号性数据,可以采用独热编码(One-Hot Encoding)的方式进行编码。独热编码是一种将每个符号映射到一个固定长度的二进制向量的方法,其中只有一个位置为1,表示当前符号的位置,其他位置都为0。即每个和弦、隔磁、音符都用一个唯一的向量表示。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S6,所述正向Transformer网络用于学习全曲和弦信息;所述正向Transformer网络包括多层Transformer编码器,所述多层Transformer编码器的每个编码器均由多头自注意力层和前馈神经网络组成;所述多头自注意力层允许模型在处理每个和弦时关注其他和弦的上下文,所述前馈神经网络用于进一步提取和强化特征。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S6,所述反向Transformer网络用于学习整曲歌词信息;所述反向Transformer网络也包括多层Transformer编码器,所述多层Transformer编码器的每个编码器均由多头自注意力层和前馈神经网络组成;所述多头自注意力层允许模型在处理每个歌词时关注其他歌词的上下文,所述前馈神经网络用于进一步提取和强化特征。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S6,所述多头自注意力层允许模型同时关注输入的音乐数据的不同部分,以更好地捕捉不同方面的信息;所述多头自注意力层的每个注意力头学习不同的权重,然后所有的注意力头的输出被组合起来,以产生全局的自注意力表示。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S6,所述自注意力机制允许模型在处理音乐数据的每个元素时,动态地调整关注其他元素的权重,以捕获元素之间的关系。
在正向Transformer网络和反向Transformer网络中,自注意力机制是关键组件之一。自注意力机制对于处理音乐数据中的依赖性非常重要,因为和弦和歌词的生成通常依赖于先前的元素。
所述步骤S6,还包括位置编码。位置编码在双向Transformer层中也起着重要作用,它有助于模型理解和利用音乐数据中元素的位置信息,从而更好地捕捉顺序关系。
双向Transformer层是一种强大的架构,用于音乐生成模型,它结合了正向Transformer网络和反向Transformer网络,利用自注意力机制来学习音乐序列中的内部关系。这一模块允许模型同时学习全曲和弦信息和整曲歌词信息,从而生成更具情感和创意的音乐序列。通过多头自注意力层以及位置编码等技术,它有助于提高模型的性能和泛化能力。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S8,所述Softmax层的任务是将模型的输出转换为概率分布,以进行下一个和弦的预测,所述Softmax层帮助模型决定哪个和弦是最可能的,从而生成音乐的下一部分,具体包括如下内容:
S81输入:所述Softmax层接收来自接收来自前一层的音乐数据;
S82 Softmax函数:采用Softmax函数,所述Softmax函数对模型的原始分数进行指数化并归一化,以生成概率分布,所述Softmax函数的输出是一个概率分布向量,其中每个元素对应于一个可能的和弦,并且表示模型对该和弦的预测概率;
S83损失函数:模型的训练采用交叉熵损失函数与所述Softmax层一起使用;
S84输出结果:在训练过程中,所述Softmax层的输出用于计算损失,优化模型参数;在生成过程中,模型根据Softmax层的输出选择具有最高概率的和弦作为音乐生成的一部分。
Softmax层在深度学习模型中用于生成预测的概率分布,它将模型的原始分数转化为概率值,帮助模型决定最可能的和弦或类别。Softmax层是多类别分类问题中的常见组件,也在音乐生成模型中用于预测下一个和弦。
进一步的,上述的基于和弦和歌词结构的吉他和弦生成模型的方法,所述步骤S9,所述和弦预测的任务是基于Softmax层的输出,选择具有最高预测概率的和弦作为生成的下一个和弦,具体包括如下内容:
S91 Softmax层输出:在所述Softmax层中,模型生成了一个概率分布,其中每个元素对应于不同和弦的预测概率;
S92 和弦选择:根据所述Softmax层的输出,从可能的和弦中选择具有最高概率的一个作为生成的下一个和弦;
S93 生成音乐:所选的和弦成为生成音乐作品的一部分,这个和弦可以用于生成音符序列,将其添加到音乐中,以延续或变化音乐的进行。
和弦预测是音乐生成模型中的关键步骤,它根据Softmax层的输出选择最有可能的和弦,从而生成音乐的下一部分。这个步骤在音乐生成中发挥着重要的作用,帮助模型创作出富有创意和情感的音乐作品。
与现有技术相比,本发明具有如下的有益效果:
(1) 本发明所述的基于和弦和歌词结构的吉他和弦生成模型的方法,设计合理,由于所述模型综合考虑了和弦结构、歌曲结构和歌词内容,它能够更有效地利用有限的训练数据,相对于一些传统模型或复杂的深度学习模型,所述模型在达到相似或更好性能的情况下,所需的训练数据量更小,这对于音乐创作者来说是一个明显的优势,尤其是在数据稀缺的情况下;
(2)本发明所述的基于和弦和歌词结构的吉他和弦生成模型的方法,相较于传统的吉他和弦生成模型,所述模型不仅仅着眼于和弦的生成,还考虑了歌曲的整体结构和歌词的内容。通过双层、双向的Transformer结构,可以分阶段生成和弦以及歌曲和歌词结构的联系,从而创造更加一体化、丰富多样的音乐作品;
(3)本发明所述的基于和弦和歌词结构的吉他和弦生成模型的方法,在歌曲和歌词结构模型中引入了自注意力机制,这使得模型可以更加准确地关注歌曲和歌词之间的关联,从而生成更具情感和表达的和弦,自注意力机制在提升音乐生成的质量和一致性方面具有独特的优势。
附图说明
图1为本发明所述基于和弦和歌词结构的吉他和弦生成模型的方法的机和弦与歌词结构和弦生成图;
图2为本发明所述基于和弦和歌词结构的吉他和弦生成模型的和弦序列生成模型图;
具体实施方式
下面将附图1-2、实施例对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通的技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明的保护范围。
以下实施例提供了一种基于和弦和歌词结构的吉他和弦生成模型。
实施例
如图1、2所示,实施例的基于和弦和歌词结构的吉他和弦生成模型的方法,包括如下步骤:
S1收集和准备:这一步涉及收集和准备用于模型训练的音乐样本,所述音乐样本包括歌曲和弦和歌曲歌词、歌曲旋律(音符)等信息。
S2输入编码:在这一步骤,音乐样本需要被编码成模型可以理解的形式(向量)。通常,对于和弦、歌词、音符等这类离散的符号性数据,可以采用独热编码(One-HotEncoding)的方式进行编码。独热编码是一种将每个符号映射到一个固定长度的二进制向量的方法,其中只有一个位置为1,表示当前符号的位置,其他位置都为0。以下是详细说明:
1、音符编码:对于音符数据,首先需要构建一个唯一音符的词汇表(vocabulary),然后对每个音符进行独热编码,每个音符都会被映射成一个长度为词汇表大小的二进制向量。例如,如果词汇表包含C、D、E、F、G、A、B七个音符,那么C音符可能被编码成[1, 0, 0, 0,0, 0, 0],D音符编码成[0, 1, 0, 0, 0, 0, 0],以此类推。这样,每个音符都用一个唯一的向量表示。
2、和弦编码:对于和弦数据,同样需要构建一个唯一和弦的词汇表,然后对每个和弦进行独热编码。例如,如果有Major、Minor、Dominant七个和弦,那么Major和弦可能被编码成[1, 0, 0, 0, 0, 0, 0],Minor和弦编码成[0, 1, 0, 0, 0, 0, 0],以此类推。
3、歌词编码:对于歌词,同样需要构建一个唯一歌词的词汇表,然后对每个歌词进行独热编码。例如,如果词汇表包含"love"、"you"、"I"、"the"等词,那么"love"可能被编码成[1, 0, 0, 0],"you"编码成[0, 1, 0, 0],以此类推。
S3 Dropout层: Dropout是一种正则化技术,通常用于神经网络中,以减少模型的过拟合风险,提高泛化能力。Dropout层的作用是在训练过程中随机地将神经元的输出设置为零,从而使模型不能过度依赖某些特定的神经元,迫使模型更全面地学习数据的特征。以下是详细说明:
1、工作原理:在每次前向传播过程中,Dropout会以一定的概率(通常为0.5或其他合适的值)随机地关闭神经元(将其输出设为零)。这意味着在每个训练迭代中,模型的架构都会随机变化,从而鼓励模型不依赖于特定的神经元,提高了模型的鲁棒性。
2、防止过拟合:Dropout有助于防止过拟合,因为它迫使模型在训练期间适应不同的神经元组合。如果没有Dropout,模型可能会过于自信地依赖于一小部分神经元,而不会考虑其他神经元的贡献,这可能导致在新数据上的性能下降。
3、计算代价:Dropout在训练期间增加了计算代价,因为它需要在每次前向传播中计算不同的神经元组合。但这是一个小代价,因为它通常能够显著提高模型的泛化性能。
4、在测试中的行为:在训练期间使用Dropout,但在测试或推理期间通常不使用。在测试期间,模型使用所有的神经元,而不进行随机关闭,以获得更稳定的预测结果。
总之,Dropout是一种强大的正则化技术,有助于提高神经网络模型的泛化能力,减少过拟合风险。通过随机关闭神经元,Dropout迫使模型更全面地学习数据,使其更能够适应不同的情况,从而提高了模型的鲁棒性和性能。
S4全连接层:全连接层是深度神经网络中的一种常见层,用于进一步的特征提取和抽象。全连接层的每个神经元都与前一层的所有神经元相连接,每个连接都有一个权重,这些权重用于线性组合前一层的输出以产生新的特征表示。以下是详细说明:
1、权重连接:在全连接层中,每个神经元与前一层的所有神经元相连接。这意味着每个输入特征都会对当前层的每个神经元产生影响,但具体的影响程度由连接权重决定。
2、非线性激活函数:通常,在全连接层之后,会应用一个非线性激活函数,例如ReLU(Rectified Linear Unit)或Sigmoid函数,以引入非线性性质。这样,网络可以学习复杂的特征和模式,而不仅仅是线性组合。
3、特征提取和抽象:全连接层的主要作用是将输入数据映射到一个更高层次的特征表示。通过学习适当的连接权重,网络可以自动发现输入数据中的关键特征,并将其表示为更抽象的特征。这些抽象特征通常更有利于模型进行最终的预测或分类任务。
4、参数学习:全连接层中的连接权重是需要在训练过程中学习的参数。通过反向传播算法和梯度下降等优化方法,网络会不断地调整这些权重,以使其能够更好地拟合训练数据。
5、多层堆叠:在深度神经网络中,通常会堆叠多个全连接层,以构建更深层次的特征表示。这种层级结构允许网络逐渐提取更抽象和高级别的特征,从而实现更复杂的任务。
总之,全连接层是神经网络中的一个重要组成部分,用于学习和提取输入数据的特征表示。通过权重连接和非线性激活函数,它有助于网络学习复杂的特征和模式,使得网络更能够理解和泛化输入数据。全连接层通常用于深度神经网络中的中间层,以逐渐提取更高层次的抽象特征。
S5位置编码:位置编码是一种在神经网络中用于处理序列数据的技术,它的主要目的是为模型提供有关音乐数据中元素位置的信息。在处理音乐数据等序列数据时,元素的顺序通常很重要,因此位置编码有助于模型理解和利用这种顺序信息。以下是详细说明:
1、位置信息的需求:在音乐数据这类序列数据中,不同位置的元素可能具有不同的语义或重要性。例如,一首歌曲的开头和结尾可能包含不同的和弦。为了让模型能够区分和记住这些位置信息,需要引入位置编码。
2、位置编码的形式:位置编码通常以矩阵或向量的形式添加到音乐数据中。常用的一种方式是采用正弦和余弦函数的组合(通常称为正弦余弦位置编码),生成一个矩阵,其中每行表示序列中的一个位置,每列表示不同的位置编码维度。这个矩阵的每个元素根据正弦和余弦函数的不同组合生成,以编码位置信息。
3、位置编码的可学习:在某些情况下,位置编码可以作为可学习的参数直接由模型学习。这允许模型自动地学习适合特定任务的位置信息表示。不过,通常情况下,正弦余弦位置编码已经被广泛证明在处理序列数据时效果很好。
4、位置编码的添加方式:位置编码可以与音乐数据相加,或者在音乐数据的嵌入表示中进行拼接。这样,每个元素的表示都会包含有关其位置的信息,使模型能够更好地理解序列。
5、位置编码的影响:位置编码有助于模型更好地处理音乐数据这类序列数据,尤其是对长序列来说。它允许模型区分不同位置的元素,更好地捕捉序列中的顺序信息,从而提高了模型的性能。
总之,位置编码是一种用于序列数据处理的技术,它提供了关于序列中元素位置的信息,帮助模型更好地理解和利用序列的顺序信息。在处理音乐数据这类序列数据时,位置编码通常被添加到音乐数据中,以提高模型的表现。
S6双向Transformer层: 双向Transformer层是音乐生成模型的核心组成部分,由正向Transformer网络和反向Transformer网络组成。双向Transformer层的目标是在模型中引入自注意力机制,以捕获输入音乐数据中的内部关系,同时分别学习全曲和弦信息和整曲歌词信息。以下是详细说明:
1、正向Transformer网络:正向Transformer网络负责学习全曲和弦信息。它包括多层Transformer编码器,多层Transformer编码器的每个编码器由多头自注意力层和前馈神经网络组成。多头自注意力层允许模型在处理每个和弦时关注其他和弦的上下文,从而更好地理解和弦之间的依赖关系。前馈神经网络用于进一步提取和强化特征。
2、反向Transformer网络:反向Transformer网络专注于学习整曲歌词信息。反向Transformer网络与正向Transformer网络具有相似的结构,也包括多层Transformer编码器,多层Transformer编码器的每个编码器由多头自注意力层和前馈神经网络组成。反向Transformer网络的任务是理解歌词数据序列中的上下文和依赖关系,以便更好地生成与歌词相关的和弦。
3、自注意力机制:在正向Transformer网络和反向Transformer网络中,自注意力机制是关键组件之一。它允许模型在处理每个元素时,动态地调整关注其他元素的权重,以捕获元素之间的关系。这对于处理音乐序列中的依赖性非常重要,因为和弦和歌词的生成通常依赖于先前的元素。其中,“元素”是一个泛指,表示数据中的基本组成单位,具体含义取决于正在处理的数据类型和任务。在此模型中,它可以是音符、和弦、歌词或时间步骤等,直接使用元素即可。)
4、多头注意力层:多头注意力层机制允许模型同时关注音乐数据的不同部分,以更好地捕捉不同方面的信息。每个注意力头学习不同的权重,然后这些意力头的输出被组合起来,以产生全局的自注意力表示。
5、位置编码的作用:位置编码在这一模块中也起着重要作用,它有助于模型理解和利用音乐数据中元素的位置信息,从而更好地捕捉顺序关系。
总之,双向Transformer层是一种强大的架构,用于音乐生成模型,它结合了正向Transformer网络和反向Transformer网络,利用自注意力机制来学习音乐序列中的内部关系。双向Transformer层允许模型同时学习全曲和弦信息和整曲歌词信息,从而生成更具情感和创意的音乐序列。通过多头自注意力层和位置编码等技术,它有助于提高模型的性能和泛化能力。
S7全连接层:在双向Transformer层之后,可以再次使用全连接层来进一步捕获和强化特征。
S8 Softmax层:以下是详细说明:
1、任务:Softmax层的主要任务是将模型的输出转换为概率分布,以便进行下一个和弦的预测。它帮助模型决定哪个和弦是最可能的,从而生成音乐的下一部分。
2、输入:Softmax层接收来自前一层(全连接层或其他层)的向量。这些分数对应于不同和弦的非标准化评分,表示模型对各种和弦的相对置信度。
3、Softmax函数:Softmax函数是一种激活函数,它对原始分数进行指数化并归一化,以生成概率分布。
4、概率分布:Softmax函数的输出是一个概率分布向量,其中每个元素对应于一个可能的和弦,并表示模型对该和弦的预测概率。和弦具有更高概率的被认为是模型的预测结果。
5、损失函数:通常,模型的训练会使用交叉熵损失函数(Cross-Entropy Loss)与Softmax层一起使用。交叉熵损失度量了模型的预测概率分布与真实和弦之间的差异,并用于调整模型的权重。
6、输出结果:在训练过程中,Softmax层的输出用于计算损失,优化模型参数。在生成过程中,模型可以根据Softmax层的输出选择具有最高概率的和弦作为音乐生成的一部分。
7、适用场景:Softmax层适用于音乐生成等任务,其中需要将模型的原始输出映射为概率分布,以便进行下一个元素的预测。
总之,Softmax层在深度学习模型中用于生成预测的概率分布,它将模型的原始分数转化为概率值,帮助模型决定最可能的和弦或类别。Softmax层是多类别分类问题中的常见组件,也在音乐生成模型中用于预测下一个和弦。
S9 和弦预测:以下是详细说明:
1、任务:和弦预测作为第九层,其主要任务是基于Softmax层的输出,选择具有最高预测概率的和弦作为生成的下一个和弦。这是音乐生成模型中的关键步骤,决定了生成音乐作品的下一部分。
2、Softmax层输出:在第八层的Softmax层中,模型生成了一个概率分布,其中每个元素对应于不同和弦的预测概率。这些概率表示了模型对各种和弦的相对置信度。
3、和弦选择:第九层根据Softmax层的输出,从可能的和弦中选择具有最高概率的一个作为生成的下一个和弦。这通常涉及简单地选择概率最高的和弦或应用一些随机性来增加音乐的变化性。
4、生成音乐:所选的和弦成为生成音乐作品的一部分。这个和弦可以用于生成音符序列,将其添加到音乐中,以延续或变化音乐的进行。
5、适用场景:这一步骤适用于音乐生成任务,尤其是在自动作曲中,它决定了生成音乐中的和弦变化和和声结构。
总之,和弦预测是音乐生成模型中的关键步骤,它根据Softmax层的输出选择最有可能的和弦,从而生成音乐的下一部分。这个步骤在音乐生成中发挥着重要的作用,帮助模型创作出富有创意和情感的音乐作品。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式。应当指出,以上实施例仅用于说明本发明,而并不用于限制本发明的保护范围。对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也应视为本发明的保护范围。
Claims (6)
1.一种基于和弦和歌词结构的吉他和弦生成模型的方法,其特征在于,包括如下步骤:
S1收集和准备:收集和准备用于模型训练的音乐样本;
S2输入编码:将所述音乐样本编码成音乐数据,所述音乐数据为模型可以理解的形式;
S3 Dropout层:在所述音乐数据中应用Dropout层;
S4全连接层:将Dropout层后的音乐数据传递给全连接层,进行捕获和强化特征;
S5位置编码:引入位置编码,将上述音乐数据中不同位置的元素区分开,帮助模型理解音乐数据的顺序信息;
S6双向Transformer层:双向Transformer层由正向Transformer网络和反向Transformer网络组成,所述双向Transformer层的目标是在模型中引入自注意力机制,以来捕获音乐数据中的内部关系,同时分别学习全曲和弦信息和整曲歌词信息;所述正向Transformer网络用于学习全曲和弦信息;所述正向Transformer网络包括多层Transformer编码器,所述多层Transformer编码器的每个编码器均由多头自注意力层和前馈神经网络组成;所述多头自注意力层允许模型在处理每个和弦时关注其他和弦的上下文,所述前馈神经网络用于进一步提取和强化特征;所述反向Transformer网络用于学习整曲歌词信息;所述反向Transformer网络也包括多层Transformer编码器,所述多层Transformer编码器的每个编码器均由多头自注意力层和前馈神经网络组成;所述多头自注意力层允许模型在处理每个歌词时关注其他歌词的上下文,所述前馈神经网络用于进一步提取和强化特征;所述多头自注意力层允许模型同时关注输入的音乐数据的不同部分,以更好地捕捉不同方面的信息;所述多头自注意力层的每个注意力头学习不同的权重,然后所有的注意力头的输出被组合起来,以产生全局的自注意力表示;
S7全连接层:将双向Transformer层后的音乐数据再次传递给全连接层,进行进一步捕获和强化特征;
S8 Softmax层:将上述音乐数据传递给Softmax层,所述Softmax层在模型中用于预测下一个和弦;
S9 和弦预测:根据Softmax层的输出,选择概率最高的和弦作为模型的预测结果,从而生成音乐的下一部分。
2.根据权利要求1所述基于和弦和歌词结构的吉他和弦生成模型的方法,其特征在于,所述步骤S1,所述音乐样本包括但不限于和弦、歌词、音符。
3.根据权利要求2所述基于和弦和歌词结构的吉他和弦生成模型的方法,其特征在于,所述步骤S2,采用独热编码的方式进行编码,具体如下:
(1)和弦编码:先构建一个唯一和弦的词汇表,然后对每个和弦进行独热编码,每个和弦都被映射成一个长度为词汇表大小的二进制向量;
(2)歌词编码:先构建一个唯一歌词的词汇表,然后对每个歌词进行独热编码,每个歌词都被映射成一个长度为词汇表大小的二进制向量;
(3)音符编码:先构建一个唯一音符的词汇表,然后对每个音符进行独热编码,每个音符都被映射成一个长度为词汇表大小的二进制向量。
4.根据权利要求1所述基于和弦和歌词结构的吉他和弦生成模型的方法,其特征在于,所述步骤S6,所述自注意力机制允许模型在处理音乐数据的每个元素时,动态地调整关注其他元素的权重,以捕获元素之间的关系。
5.根据权利要求1所述基于和弦和歌词结构的吉他和弦生成模型的方法,其特征在于,所述步骤S8,所述Softmax层的任务是将模型的输出转换为概率分布,以进行下一个和弦的预测,所述Softmax层帮助模型决定哪个和弦是最可能的,从而生成音乐的下一部分,具体包括如下内容:
S81输入:所述Softmax层接收来自接收来自前一层的音乐数据;
S82 Softmax函数:采用Softmax函数,所述Softmax函数对模型的原始分数进行指数化并归一化,以生成概率分布,所述Softmax函数的输出是一个概率分布向量,其中每个元素对应于一个可能的和弦,并且表示模型对该和弦的预测概率;
S83损失函数:模型的训练采用交叉熵损失函数与所述Softmax层一起使用;
S84输出结果:在训练过程中,所述Softmax层的输出用于计算损失,优化模型参数;在生成过程中,模型根据Softmax层的输出选择具有最高概率的和弦作为音乐生成的一部分。
6.根据权利要求1所述基于和弦和歌词结构的吉他和弦生成模型的方法,其特征在于,所述步骤S9,所述和弦预测的任务是基于Softmax层的输出,选择具有最高预测概率的和弦作为生成的下一个和弦,具体包括如下内容:
S91 Softmax层输出:在所述Softmax层中,模型生成了一个概率分布,其中每个元素对应于不同和弦的预测概率;
S92 和弦选择:根据所述Softmax层的输出,从可能的和弦中选择具有最高概率的一个作为生成的下一个和弦;
S93 生成音乐:所选的和弦成为生成音乐作品的一部分,这个和弦可以用于生成音符序列,将其添加到音乐中,以延续或变化音乐的进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473396.7A CN117217261B (zh) | 2023-11-08 | 2023-11-08 | 一种基于和弦和歌词结构的吉他和弦生成模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311473396.7A CN117217261B (zh) | 2023-11-08 | 2023-11-08 | 一种基于和弦和歌词结构的吉他和弦生成模型的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117217261A CN117217261A (zh) | 2023-12-12 |
CN117217261B true CN117217261B (zh) | 2024-02-09 |
Family
ID=89049626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311473396.7A Active CN117217261B (zh) | 2023-11-08 | 2023-11-08 | 一种基于和弦和歌词结构的吉他和弦生成模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117217261B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN115602139A (zh) * | 2022-09-30 | 2023-01-13 | 武汉轻工大学(Cn) | 一种基于两阶段生成模型的自动音乐生成方法及装置 |
-
2023
- 2023-11-08 CN CN202311473396.7A patent/CN117217261B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN115602139A (zh) * | 2022-09-30 | 2023-01-13 | 武汉轻工大学(Cn) | 一种基于两阶段生成模型的自动音乐生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117217261A (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bretan et al. | A unit selection methodology for music generation using deep neural networks | |
Park et al. | A bi-directional transformer for musical chord recognition | |
CN110737769A (zh) | 一种基于神经主题记忆的预训练文本摘要生成方法 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
Chen et al. | Attend to Chords: Improving Harmonic Analysis of Symbolic Music Using Transformer-Based Models. | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN114492407B (zh) | 一种新闻评论生成方法、系统、设备及存储介质 | |
CN113707112B (zh) | 基于层标准化的递归跳跃连接深度学习音乐自动生成方法 | |
CN117789680B (zh) | 基于大模型的多媒体资源的生成方法、装置及存储介质 | |
CN117236323B (zh) | 一种基于大数据的信息处理方法及系统 | |
CN117648469A (zh) | 一种基于对比学习的交叉双塔结构答案选择方法 | |
Sajad et al. | Music generation for novices using Recurrent Neural Network (RNN) | |
Zhao et al. | A review of intelligent music generation systems | |
CN117217261B (zh) | 一种基于和弦和歌词结构的吉他和弦生成模型的方法 | |
CN117808103A (zh) | 一种基于话语级特征动态交互的共情回复生成方法 | |
CN114842819B (zh) | 基于深度强化学习的单音轨midi音乐生成方法 | |
CN115602139A (zh) | 一种基于两阶段生成模型的自动音乐生成方法及装置 | |
CN116052621A (zh) | 一种基于语言模型的音乐创作辅助方法 | |
CN115169363A (zh) | 一种融合知识的增量编码的对话情感识别方法 | |
Mohanty et al. | Temporally conditioning of generative adversarial networks with lstm for music generation | |
Fu et al. | Improve symbolic music pre-training model using MusicTransformer structure | |
Tang et al. | Harmonic Classification with Enhancing Music Using Deep Learning Techniques | |
Mohanty et al. | Music Regeneration with RNN Architecture Using LSTM | |
Kuznetsov | Text Generation with Gan Networks Using Feedback Score | |
CN113257240A (zh) | 一种基于对抗训练的端到端的语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |