CN113033778B - 佛乐生成方法、装置、设备及存储介质 - Google Patents
佛乐生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113033778B CN113033778B CN202110284960.5A CN202110284960A CN113033778B CN 113033778 B CN113033778 B CN 113033778B CN 202110284960 A CN202110284960 A CN 202110284960A CN 113033778 B CN113033778 B CN 113033778B
- Authority
- CN
- China
- Prior art keywords
- vector
- matrix
- model
- music
- timestamp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 398
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 129
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 125000004122 cyclic group Chemical group 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 230000002441 reversible effect Effects 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- QGVLYPPODPLXMB-UBTYZVCOSA-N (1aR,1bS,4aR,7aS,7bS,8R,9R,9aS)-4a,7b,9,9a-tetrahydroxy-3-(hydroxymethyl)-1,1,6,8-tetramethyl-1,1a,1b,4,4a,7a,7b,8,9,9a-decahydro-5H-cyclopropa[3,4]benzo[1,2-e]azulen-5-one Chemical compound C1=C(CO)C[C@]2(O)C(=O)C(C)=C[C@H]2[C@@]2(O)[C@H](C)[C@@H](O)[C@@]3(O)C(C)(C)[C@H]3[C@@H]21 QGVLYPPODPLXMB-UBTYZVCOSA-N 0.000 claims 1
- QGVLYPPODPLXMB-QXYKVGAMSA-N phorbol Natural products C[C@@H]1[C@@H](O)[C@]2(O)[C@H]([C@H]3C=C(CO)C[C@@]4(O)[C@H](C=C(C)C4=O)[C@@]13O)C2(C)C QGVLYPPODPLXMB-QXYKVGAMSA-N 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Auxiliary Devices For Music (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种佛乐生成方法、装置、设备及存储介质。该方法通过将佛教音乐的数字文件进行离散化和独热编码后,输入至3‑gram mLSTM模型进行向量的计算,然后将计算到的向量采用梯度下降反向传播操作,生成所述数字文件对应的佛乐;而采用离散特征进行one‑hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征,保证了数字文件处理后的连续性,避免存在过拟合的处理,提高了合成的准确率,同时还有效提高了音乐合成的效率,增强合成音乐的趣味性,适用性更强。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种佛乐生成方法、装置、设备及存储介质。
背景技术
音乐作为人类智慧活动的高级产物,具有相当复杂的结构。经过一定音乐训练的音乐家可以容易地创作具有长时结构的音乐作品,包含起承转合等段落。然而对于人工智能系统而言,尽管能生成具有一些小结构的作品,却很难保证其在分钟尺度上的前后呼应、发展、转折等等长时结构。
传统的隐马尔可夫模型、循环神经网络等时间序列模型往往仅在相邻的单元上有联系和控制函数,却没有将跨越较多的时间单元连接起来。循环神经网络具有梯度爆炸/梯度消失的特性,又导致其在经历多次循环生成后输出趋于一致,缺乏变化。利用传统模型训练的音乐生成系统容易产生重复较多、结构单一、过拟合后输出近似等于训练样本等等问题。且由于佛教音乐的特殊性,需要在维持和声稳定性的前提下,根据歌词经文的段落做出旋律上的改变。目前的传统模型难以达到这样的要求。
发明内容
本发明的主要目的是解决传统模型训练的音乐生成系统容易产生过拟合后输出近似等于训练样本的技术问题。
本发明第一方面提供了一种佛乐生成方法,所述佛乐生成方法包括:
获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集,其中所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型;
根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
可选地,在本发明第一方面的第一种实现方式中,所述利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列包括:
利用预设的分词算法将所述数字文件按照相同宽度划分为N等份,N为大于0的自然数;
将每等份的数字文件与所述佛乐知识词库进行匹配,并将匹配的数字文件等份作为离散的单词;
根据所述数字文件的时间戳,将所有离散的单词进行排序,得到离散序列。
可选地,在本发明第一方面的第二种实现方式中,所述通过独热编码算法,将所述离散序列转化为向量矩阵包括:
提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;其中,所述词汇表中不含有重复的单词;
依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;
将所述离散序列对应的独热编码向量相互组合,形成向量矩阵。
可选地,在本发明第一方面的第三种实现方式中,所述3-gram mLSTM模型包括第一隐含层和第二隐含层,所述第一隐含层包括第一中间层,所述第二隐含层包括第二中间层;
将所述向量矩阵输入到预置3-gram mLSTM模型中,通过所述3-gram mLSTM模型获得第一向量集和第二向量集包括:
将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-grammLSTM模型中,通过所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集;
将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-grammLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集。
可选地,在本发明第一方面的第四种实现方式中,所述将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述第一中间层中,所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集包括:
将所述向量矩阵中的输入向量输入至所述第一隐含层中,所述确定所述输入向量对应的第一时间戳t;
基于所述第一时间戳t确定所述第一时间戳t的第二时间戳t-1总输出的向量;
根据所述第一模型参数矩阵和所述第二时间戳t-1总输出的向量,计算出中间向量;
根据所述中间向量和输入向量,计算出所述第一中间层的第一输出向量和隐变量向量;
根据所述第一输出向量和隐变量向量,计算出所述第一时间戳t对应的第一向量;
直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第一向量集。
可选地,在本发明第一方面的第五种实现方式中,所述将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集包括:
基于所述第一时间戳t确定所述第一时间戳t的第三时间戳t-2总输出的向量;
根据所述第二模型参数矩阵和所述第三时间戳t-2总输出的向量,计算出结果向量;
将所述结果向量输入至所述第一中间层进行反向计算,得到第三模型参数矩阵,并更新所述第二模型参数矩阵;
根据所述第三模型参数矩阵和结果向量,计算出所述第一时间戳t对应的第二向量;
直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第二向量集。
可选地,在本发明第一方面的第六种实现方式中,所述佛乐生成方法,还包括:
收集原始佛教音乐文件,并对所述音乐文件进行离散化处理,得到离散训练序列和离散验证序列;
将所述离散训练序列分别输出至积性循环神经网络和长短记忆循环神经网络中进行深度学习,得到第一隐含层和第二隐含层;
将所述离散验证序列分别输出至第一隐含层和中,输出最终的佛教音乐文件;
将所述佛教音乐文件与原始佛教音乐文件比较,计算出两者的相似度;
若相似度满足预设的百分比,则根据所述第一隐含层和第二隐含层形成3-grammLSTM模型。
本发明第二方面提供了一种佛乐生成装置,所述佛乐生成装置包括:
采集模块,用于获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
编码模块,用于通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
计算模块,用于将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集,其中所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型;
生成模块,用于根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
反向处理模块,用于对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
可选地,在本发明第二方面的第一种实现方式中,所述采集模块包括:
分词单元,用于利用预设的分词算法将所述数字文件按照相同宽度划分为N等份,N为大于0的自然数;
匹配单元,用于将每等份的数字文件与所述佛乐知识词库进行匹配,并将匹配的数字文件等份作为离散的单词;
排序单元,用于根据所述数字文件的时间戳,将所有离散的单词进行排序,得到离散序列。
可选地,在本发明第二方面的第二种实现方式中,所述编码模块包括:
提取单元,用于提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;其中,所述词汇表中不含有重复的单词;
标记单元,用于依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;
编码单元,用于将所述离散序列对应的独热编码向量相互组合,形成向量矩阵。
可选地,在本发明第二方面的第三种实现方式中,所述3-gram mLSTM模型包括第一隐含层和第二隐含层,所述第一隐含层包括第一中间层,所述第二隐含层包括第二中间层;
所述计算模块包括:
第一计算单元,用于将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集;
第二计算单元,用于将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集。
可选地,在本发明第二方面的第四种实现方式中,所述第一计算单元具体用于:
将所述向量矩阵中的输入向量输入至所述第一隐含层中,所述确定所述输入向量对应的第一时间戳t;
基于所述第一时间戳t确定所述第一时间戳t的第二时间戳t-1总输出的向量;
根据所述第一模型参数矩阵和所述第二时间戳t-1总输出的向量,计算出中间向量;
根据所述中间向量和输入向量,计算出所述第一中间层的第一输出向量和隐变量向量;
根据所述第一输出向量和隐变量向量,计算出所述第一时间戳t对应的第一向量;
直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第一向量集。
可选地,在本发明第二方面的第五种实现方式中,所述第二计算单元具体用于:
基于所述第一时间戳t确定所述第一时间戳t的第三时间戳t-2总输出的向量;
根据所述第二模型参数矩阵和所述第三时间戳t-2总输出的向量,计算出结果向量;
将所述结果向量输入至所述第一中间层进行反向计算,得到第三模型参数矩阵,并更新所述第二模型参数矩阵;
根据所述第三模型参数矩阵和结果向量,计算出所述第一时间戳t对应的第二向量;
直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第二向量集。
可选地,在本发明第二方面的第六种实现方式中,所述佛乐生成装置还包括训练模块,其具体用于:
收集原始佛教音乐文件,并对所述音乐文件进行离散化处理,得到离散训练序列和离散验证序列;
将所述离散训练序列分别输出至积性循环神经网络和长短记忆循环神经网络中进行深度学习,得到第一隐含层和第二隐含层;
将所述离散验证序列分别输出至第一隐含层和中,输出最终的佛教音乐文件;
将所述佛教音乐文件与原始佛教音乐文件比较,计算出两者的相似度;
若相似度满足预设的百分比,则根据所述第一隐含层和第二隐含层形成3-grammLSTM模型。
本发明第三方面提供了一种佛乐生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛乐生成设备执行上述的佛乐生成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的佛乐生成方法。
本发明提供的技术方案中,提出了一种结合了两种改进的循环神经网络(RNN)模型:积性循环神经网络(Multiplicative RNN)和长短记忆循环神经网络(Long-Short TermMemory RNN)的3-gram mLSTM模型来实现佛乐的自动生成的方案,该方案具体是通过将佛教音乐的数字文件进行离散化和独热编码后,输入至3-gram mLSTM模型进行向量的计算,然后将计算到的向量采用梯度下降反向传播操作,生成所述数字文件对应的佛乐;而采用离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征,保证了数字文件处理后的连续性,避免存在过拟合的处理,提高了合成的准确率,同时还有效提高了音乐合成的效率,增强合成音乐的趣味性,适用性更强。
附图说明
图1为本发明实施例中佛乐生成方法的第一个流程示意图;
图2为本发明实施例中佛乐生成方法的第二个流程示意图;
图3为本发明实施例中佛乐生成方法的第三个流程示意图;
图4为本发明实施例中佛乐生成方法的第四个流程示意图;
图5为本发明实施例中佛乐生成装置的一个实施例示意图;
图6为本发明实施例中佛乐生成装置的另一个实施例示意图;
图7为本发明实施例中佛乐生成设备的一个实施例示意图。
具体实施方式
针对于上述的问题,本申请通过提出采用积性循环神经网络和长短记忆循环神经网络改进的双隐含层网络的模型来对佛教音乐的生成,同时还使用独热编码对佛乐的数字文件中的特征进行编码,以增加了更长时间段的前后特征的连接,使得模型能够更好地学习非临近数据点之间的关系,得到更符合其音乐特征的生成文件,从而解决了传统模型训练的音乐生成系统容易产生重复较多、结构单一、过拟合后输出近似等于训练样本的问题。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中佛乐生成方法的第一个实施例包括:
101、获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
该步骤中,所述数字文件指的是音乐文件中的MIDI文件,该MIDI文件是MusicalInstrument Digital Interface的,简称意为音乐设备数字接口。它是一种电子乐器之间以及电子乐器与电脑之间的统一交流协议。MIDI文件,文件体积较小,但不支持真人原唱或者人声,采用该种文件可以更加精准的提取其中的乐理特征,基于该乐理特征进行离散化处理,得到离散序列。
在本实施例中,所述离散化处理具体是采用无监督的方式对数字文件进行离散化,具体的实现为:
首先利用预设的分词算法将所述数字文件按照相同宽度划分为N等份,N为大于0的自然数,优选的可用采用pandas.cut方法来实现等分处理;在实际应用中,在等分化处理时,可以是通过pandas.cut对数字文件按照音乐片段来进行划分;
然后将每等份的数字文件与所述佛乐知识词库进行匹配,并将匹配的数字文件等份作为离散的单词;这里的佛乐知识词库可以理解为是佛教音乐的音阶和词语的组成结构。在实际应用中,对于每等份的数字文件还可以通过分词算法来进行再分词,以得到更加详细词语和音阶的字节,通过将该字节与佛乐知识词库中不同的组成结构进行匹配,以得到匹配结果,从而得到每等份的离散单词;
根据所述数字文件的时间戳,将所有离散的单词进行排序,得到离散序列。具体的,在离散化处理的同时,还包括对每个单词的时间戳进行提取,并建立对应关系,基于该时间戳来对每个单词进行排序,以得到离散序列。
102、通过独热编码算法,将所述离散序列转化为向量矩阵;
其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量。
在本实施例中,其独热编码具体可以理解为是对离散序列中的特征的距离和位置的编码,具体的是通过提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;其中,所述词汇表中不含有重复的单词;
依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;
将所述离散序列对应的独热编码向量相互组合,形成向量矩阵。
103、将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集;
该步骤中,所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型。
在本实施例中,所述向量矩阵中包含有多个输入向量,并且该输入向量时按照时间戳的先后顺序进行排序,在将其输入模型中时,具体是按照时间戳的先后顺序输入模型中的不同隐含层进行向量的进一步计算处理,其中,第二隐含层与第一隐含层的计算相关,首先通过第一隐含层计算出输入向量的第一乐谱向量,基于该第一乐谱向量再通过第二隐含层计算出第二乐谱向量。
在实际应用中,每个第一乐谱向量和第二乐谱向量的计算均与其前时间戳对应的输入向量的计算有关,例如当前计算时间戳为t的输入向量的乐谱向量时,则需要获取t-1和t-2两个时间戳的乐谱向量,基于这两个时间戳t-1和t-2、以及时间戳t对应的向量计算时间戳t对应的最终向量,在将从数字文件中提取到的所有时间戳对应的输入向量输入至模型中计算完成后,得到两个隐含层输出的向量集。
在本实施例中,所述3-gram mLSTM模型具体通过以下方式训练得到:
收集原始佛教音乐文件,并对所述音乐文件进行离散化处理,得到离散训练序列和离散验证序列;
将所述离散训练序列分别输出至积性循环神经网络和长短记忆循环神经网络中进行深度学习,得到第一隐含层和第二隐含层;
将所述离散验证序列分别输出至第一隐含层和中,输出最终的佛教音乐文件;
将所述佛教音乐文件与原始佛教音乐文件比较,计算出两者的相似度;
若相似度满足预设的百分比,则根据所述第一隐含层和第二隐含层形成3-grammLSTM模型。
104、根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
该步骤中,在生成最终向量集的过程中具体是逐个时间戳对应的向量进行计算,例如将同一时间戳对应的第一向量和第二向量相加,以得到该时间戳的最终向量,在将全部时间戳的最终向量计算完成后,形成最终向量集。
进一步的,在计算出最终向量集之后,还可以包括将最终向量集中的每个向量进行排序,得到向量序列。
105、对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
在本实施例中,这里的梯度下降反向传播操作具体可以理解为是按照上述第一隐含层和第二隐含层的计算过程的相反操作,也即是将其计算得到向量反向推算出佛乐特征,然后基于佛乐特征按照时间戳顺序重新组合得到新的数字文件,基于新的数据文件进行声乐的仿真,得到最终的人声佛乐。
通过对上述提供的方法的执行,可以得到更符合其音乐特征的生成文件。该系统可用于生成佛经对应的歌唱音乐文件,为佛教音乐研究提供更多参考,为相关佛教场所、佛教仪式、佛教音乐听众提供更多高质量的佛教音乐素材。其生成样本经简单人工筛选和加工后,可制作成为正式发行的音乐专辑。
请参阅图2,本发明实施例中佛乐生成方法的第二个实施例包括:
201、获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
202、提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;
该步骤中,所述词汇表中不含有重复的单词;具体的可以通过关键词提取算法来提取离散序列中的单词,将单词排序成词汇表,并给每个单词配置一个位置,以得到位置唯一的词汇表。
203、依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;
独热编码(One-Hot Encoding),又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。
本实施例中,通过位置标记工具按照配置的位置对每个单词进行标记,并利用独热编码度算法对标记的单词进行编码。
例如,对六个标记的单词进行编码:独热编码则是000001,000010,000100,001000,010000,100000。
204、将所述离散序列对应的独热编码向量相互组合,形成向量矩阵;
在本实施例中,按照时间戳的顺序将上述的编码进行组合得到完整的数据文件的向量矩阵。
205、将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-grammLSTM模型中,通过所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集;
在该步骤中,所述3-gram mLSTM模型包括第一隐含层和第二隐含层,所述第一隐含层包括第一中间层,所述第二隐含层包括第二中间层。
在计算第一向量集时,具体是逐一时间戳的向量进行计算,具体的,向量矩阵中包括t=1,2,3,4……,t个输入向量,首先t=1的输入向量输入至第一隐含层中进行向量的计算,得到第一最终输出向量,直到将t个输入向量计算完成后,形成一个向量序列,基于向量序列采用采样策略对输入的第二音符序列的各个音符事件进行计算、排序,输出第三音符序列;将所述第三音符序列解码转换为MIDI格式的音符序列文件。
206、将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-grammLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集;
该步骤中,在计算所述第二向量时,其计算原理与所述第一中间层的计算原理基本相同,唯一不同的是中间层中的模型参数不相同。
207、根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
208、对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
通过上述方案的实施,利用改进后的模型能够更好地生成具有长时间结构的音乐样本。系统在原有模型的基础上,增加了更长时间段的前后连接,使得模型能够更好地学习非临近数据点之间的关系,得到更符合其音乐特征的生成文件,从而解决了传统模型训练的音乐生成系统容易产生重复较多、结构单一、过拟合后输出近似等于训练样本的问题。
请参阅图3-4,本发明实施例中佛乐生成方法的另一种实施例包括:
301、获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
302、通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
该步骤中,具体通过大数据搜索引擎采集佛教相关数据,并以音乐主题为关键词,从佛教相关数据中筛选对应的佛教音乐数据,即是收集佛教音乐的MIDI文件,并利用专门定义的词库将其转化为离散序列。
将以单词为元素的离散序列以独热编码(one-hot encoding)转化为模型的输入矩阵x,其中每个时间戳t的输入向量为xt。
在本实施例中,该步骤301-302的实现原理与上述步骤101-102的实现原来基本相同,这里就不再赘述。
303、将所述向量矩阵中的输入向量输入至所述第一隐含层中,所述确定所述输入向量对应的第一时间戳t;
304、基于所述第一时间戳t确定所述第一时间戳t的第二时间戳t-1总输出的向量;
305、根据所述第一模型参数矩阵和所述第二时间戳t-1总输出的向量,计算出中间向量;
306、根据所述中间向量和输入向量,计算出所述第一中间层的第一输出向量和隐变量向量;
307、根据所述第一输出向量和隐变量向量,计算出所述第一时间戳t对应的第一向量;
308、直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第一向量集;
在实际应用中,具体是首先将输入向量传递至模型的第一中间层,其公式为
m(1) t=(W(1) mxxt)⊙(W(1) mhht-1),
其中m(1) t代表第一中间层的中间向量,W(1) mx和W(2) mh为模型参数矩阵,ht-1为模型第二时间戳t-1的总输出。
然后,生成第一中间层的输入向量:
进一步的,生成第一中间层的遗忘向量:
进一步的,生成第一中间层的输出向量:
其中,为模型参数矩阵。
进一步的,生成第一中间层的隐变量向量:
其中tanh为双曲正切函数,为模型参数矩阵。
最后,生成第一层的最终输出向量:
309、基于所述第一时间戳t确定所述第一时间戳t的第三时间戳t-2总输出的向量;
310、根据所述第二模型参数矩阵和所述第三时间戳t-2总输出的向量,计算出结果向量;
311、将所述结果向量输入至所述第一中间层进行反向计算,得到第三模型参数矩阵,并更新所述第二模型参数矩阵;
312、根据所述第三模型参数矩阵和结果向量,计算出所述第一时间戳t对应的第二向量;
313、直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第二向量集;
在实际应用中,具体是将输入向量传递至模型的第二中间层,其公式为
m(2) t=(W(2) mxxt)⊙(W(2) mhht-2),
其中m(2) t代表第二中间层的结果向量,W(2) mx和W(2) mh为模型参数矩阵,ht-2为模型上上个时间戳的总输出。
对m(2) t重复步骤303-308,将所有矩阵的上标替换为(2)作为另一组模型参数矩阵,最终得到第二层的最终输出向量
314、根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
具体的,结合两个中间层的输出,得到最终输出向量 当前时间t和t-1,t-2形成一个3gram。
315、对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
在本实施例中的,利用梯度下降反向传播对所有模型参数进行训练,在多次循环后保存模型参数。将所有时间戳t的最终输出向量进行步骤303-308中的反操作,生成输出的佛教音乐MIDI文件。
综上,通过提出采用积性循环神经网络和长短记忆循环神经网络改进的双隐含层网络的模型来对佛教音乐的生成,同时还使用独热编码对佛乐的数字文件中的特征进行编码,以增加了更长时间段的前后特征的连接,使得模型能够更好地学习非临近数据点之间的关系,得到更符合其音乐特征的生成文件,从而解决了传统模型训练的音乐生成系统容易产生重复较多、结构单一、过拟合后输出近似等于训练样本的问题。
上面对本发明实施例中佛乐生成方法进行了描述,下面对本发明实施例中佛乐生成装置进行描述,请参阅图5,本发明实施例中佛乐生成装置的第一个实施例包括:
采集模块501,用于获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
编码模块502,用于通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
计算模块503,用于将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集,其中所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型;
生成模块504,用于根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
反向处理模块505,用于对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
在本实施例中,所述佛乐生成装置运行上述佛乐生成方法,该方法通过将佛教音乐的数字文件进行离散化和独热编码后,输入至3-gram mLSTM模型进行向量的计算,然后将计算到的向量采用梯度下降反向传播操作,生成所述数字文件对应的佛乐;而采用离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征,保证了数字文件处理后的连续性,避免存在过拟合的处理,提高了合成的准确率,同时还有效提高了音乐合成的效率,增强合成音乐的趣味性,适用性更强。
请参阅图6,本发明实施例中佛乐生成装置的第二个实施例,该佛乐生成装置具体包括:
采集模块501,用于获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
编码模块502,用于通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
计算模块503,用于将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集,其中所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型;
生成模块504,用于根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
反向处理模块505,用于对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐。
可选地,所述采集模块501包括:
分词单元5011,用于利用分词算法,将所述数字文件按照相同宽度划分为N等份,N为大于0的自然数;
匹配单元5012,用于将每等份的数字文件与所述佛乐知识词库进行匹配,并将匹配的数字文件等份作为离散的单词;
排序单元5013,用于根据所述数字文件的时间戳,将所有离散的单词进行排序,得到离散序列。
可选地,所述编码模块502包括:
提取单元5021,用于提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;其中,所述词汇表中不含有重复的单词;
标记单元5022,用于依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;
编码单元5023,用于将所述离散序列对应的独热编码向量相互组合,形成向量矩阵。
可选地,所述3-gram mLSTM模型包括第一隐含层和第二隐含层,所述第一隐含层包括第一中间层,所述第二隐含层包括第二中间层;
所述计算模块503包括:
第一计算单元5031,用于将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集;
第二计算单元5032,用于将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集。
可选地,所述第一计算单元5031具体用于:
将所述向量矩阵中的输入向量输入至所述第一隐含层中,所述确定所述输入向量对应的第一时间戳t;
基于所述第一时间戳t确定所述第一时间戳t的第二时间戳t-1总输出的向量;
根据所述第一模型参数矩阵和所述第二时间戳t-1总输出的向量,计算出中间向量;
根据所述中间向量和输入向量,计算出所述第一中间层的第一输出向量和隐变量向量;
根据所述第一输出向量和隐变量向量,计算出所述第一时间戳t对应的第一向量;
直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第一向量集。
可选地,所述第二计算单元5032具体用于:
基于所述第一时间戳t确定所述第一时间戳t的第三时间戳t-2总输出的向量;
根据所述第二模型参数矩阵和所述第三时间戳t-2总输出的向量,计算出结果向量;
将所述结果向量输入至所述第一中间层进行反向计算,得到第三模型参数矩阵,并更新所述第二模型参数矩阵;
根据所述第三模型参数矩阵和结果向量,计算出所述第一时间戳t对应的第二向量;
直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第二向量集。
可选地,所述佛乐生成装置还包括训练模块506,其具体用于:
收集原始佛教音乐文件,并对所述音乐文件进行离散化处理,得到离散训练序列和离散验证序列;
将所述离散训练序列分别输出至积性循环神经网络和长短记忆循环神经网络中进行深度学习,得到第一隐含层和第二隐含层;
将所述离散验证序列分别输出至第一隐含层和中,输出最终的佛教音乐文件;
将所述佛教音乐文件与原始佛教音乐文件比较,计算出两者的相似度;
若相似度满足预设的百分比,则根据所述第一隐含层和第二隐含层形成3-grammLSTM模型。
上面图5和图6从模块化功能实体的角度对本发明实施例中的佛乐生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中佛乐生成设备进行详细描述。
图7是本发明实施例提供的一种佛乐生成设备的结构示意图,该佛乐生成设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对佛乐生成设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在佛乐生成设备700上执行存储介质730中的一系列指令操作,以实现上述佛乐生成方法的步骤。
佛乐生成设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的佛乐生成设备结构并不构成对本申请提供的佛乐生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行上述各实施例提供的佛乐生成方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种佛乐生成方法,其特征在于,所述佛乐生成方法包括:
获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集,其中,所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型;
根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐;
其中,所述通过独热编码算法,将所述离散序列转化为向量矩阵包括:提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;其中,所述词汇表中不含有重复的单词;依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;将所述离散序列对应的独热编码向量相互组合,形成向量矩阵;
所述3-gram mLSTM模型包括第一隐含层和第二隐含层,所述第一隐含层包括第一中间层,所述第二隐含层包括第二中间层;将所述向量矩阵输入到预置3-gram mLSTM模型中,通过所述3-gram mLSTM模型获得第一向量集和第二向量集包括:将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集;将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集;
所述将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述第一中间层中,所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集包括:将所述向量矩阵中的输入向量输入至所述第一隐含层中,确定所述输入向量对应的第一时间戳t;基于所述第一时间戳t确定所述第一时间戳t的第二时间戳t-1总输出的向量;根据所述第一模型参数矩阵和所述第二时间戳t-1总输出的向量,计算出中间向量;根据所述中间向量和输入向量,计算出所述第一中间层的第一输出向量和隐变量向量;根据所述第一输出向量和隐变量向量,计算出所述第一时间戳t对应的第一向量;直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第一向量集;
所述将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集包括:基于所述第一时间戳t确定所述第一时间戳t的第三时间戳t-2总输出的向量;根据所述第二模型参数矩阵和所述第三时间戳t-2总输出的向量,计算出结果向量;将所述结果向量输入至所述第一中间层进行反向计算,得到第三模型参数矩阵,并更新所述第二模型参数矩阵;根据所述第三模型参数矩阵和结果向量,计算出所述第一时间戳t对应的第二向量;直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第二向量集。
2.根据权利要求1所述的佛乐生成方法,其特征在于,所述利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列包括:
利用预设的分词算法将所述数字文件按照相同宽度划分为N等份,N为大于0的自然数;
将每等份的数字文件与所述佛乐知识词库进行匹配,并将匹配的数字文件等份作为离散的单词;
根据所述数字文件的时间戳,将所有离散的单词进行排序,得到离散序列。
3.根据权利要求1所述的佛乐生成方法,其特征在于,所述3-gram mLSTM模型具体通过以下方式训练得到:
收集原始佛教音乐文件,并对所述音乐文件进行离散化处理,得到离散训练序列和离散验证序列;
将所述离散训练序列分别输出至积性循环神经网络和长短记忆循环神经网络中进行深度学习,得到第一隐含层和第二隐含层;
将所述离散验证序列分别输出至第一隐含层和第二隐含层中,输出最终的佛教音乐文件;
将所述佛教音乐文件与原始佛教音乐文件比较,计算出两者的相似度;
若相似度满足预设的百分比,则根据所述第一隐含层和第二隐含层形成3-gram mLSTM模型。
4.一种佛乐生成装置,其特征在于,所述佛乐生成装置包括:
采集模块,用于获取佛教音乐的数字文件,并利用预设的佛乐知识词库将所述数字文件进行离散化处理,得到离散序列;
编码模块,用于通过独热编码算法,将所述离散序列转化为向量矩阵,其中,所述向量矩阵包括所述数字文件中每个时间点的输入向量;
计算模块,用于将所述向量矩阵输入到预置3-gram mLSTM模型中获得第一向量集和第二向量集,其中,所述3-gram mLSTM模型为基于积性循环神经网络和长短记忆循环神经网络训练得到的包含双层隐含层的佛乐生成模型;
生成模块,用于根据所述第一向量集和第二向量集,生成所述数字文件的最终向量集;
反向处理模块,用于对所述最终向量集进行梯度下降反向传播操作,生成所述数字文件对应的佛乐;
其中,所述通过独热编码算法,将所述离散序列转化为向量矩阵包括:提取所述离散序列所包含的单词,并将所述离散序列中的所有所述单词排列成词汇表;其中,所述词汇表中不含有重复的单词;依次将所述离散序列所包含的每个单词在所述词汇表中对应的位置采用预设数字进行标记,得到与所述离散序列对应的独热编码向量;将所述离散序列对应的独热编码向量相互组合,形成向量矩阵;
所述3-gram mLSTM模型包括第一隐含层和第二隐含层,所述第一隐含层包括第一中间层,所述第二隐含层包括第二中间层;将所述向量矩阵输入到预置3-gram mLSTM模型中,通过所述3-gram mLSTM模型获得第一向量集和第二向量集包括:将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集;将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集;
所述将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述第一中间层中,所述第一中间层基于其对应的第一模型参数矩阵和前一次总输出的向量计算出第一向量集包括:将所述向量矩阵中的输入向量输入至所述第一隐含层中,确定所述输入向量对应的第一时间戳t;基于所述第一时间戳t确定所述第一时间戳t的第二时间戳t-1总输出的向量;根据所述第一模型参数矩阵和所述第二时间戳t-1总输出的向量,计算出中间向量;根据所述中间向量和输入向量,计算出所述第一中间层的第一输出向量和隐变量向量;根据所述第一输出向量和隐变量向量,计算出所述第一时间戳t对应的第一向量;直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第一向量集;
所述将所述向量矩阵中每个时间戳对应的输入向量依次输入至所述3-gram mLSTM模型中,通过所述第二中间层基于其对应的第二模型参数矩阵和前前一次总输出的向量计算出第二向量集包括:基于所述第一时间戳t确定所述第一时间戳t的第三时间戳t-2总输出的向量;根据所述第二模型参数矩阵和所述第三时间戳t-2总输出的向量,计算出结果向量;将所述结果向量输入至所述第一中间层进行反向计算,得到第三模型参数矩阵,并更新所述第二模型参数矩阵;根据所述第三模型参数矩阵和结果向量,计算出所述第一时间戳t对应的第二向量;直到所述向量矩阵中的所有时间戳对应的输入向量计算完成后,形成第二向量集。
5.一种佛乐生成设备,其特征在于,所述佛乐生成设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述佛乐生成设备执行如权利要求1-3中任一项所述的佛乐生成方法。
6.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的佛乐生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110284960.5A CN113033778B (zh) | 2021-03-17 | 2021-03-17 | 佛乐生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110284960.5A CN113033778B (zh) | 2021-03-17 | 2021-03-17 | 佛乐生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113033778A CN113033778A (zh) | 2021-06-25 |
CN113033778B true CN113033778B (zh) | 2023-09-29 |
Family
ID=76470963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110284960.5A Active CN113033778B (zh) | 2021-03-17 | 2021-03-17 | 佛乐生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113033778B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109727590A (zh) * | 2018-12-24 | 2019-05-07 | 成都嗨翻屋科技有限公司 | 基于循环神经网络的音乐生成方法及装置 |
US10311361B1 (en) * | 2014-06-25 | 2019-06-04 | Amazon Technologies, Inc. | Media theme propagation using decretization of continuous variables |
CN109977257A (zh) * | 2019-03-22 | 2019-07-05 | 浙江大学城市学院 | 一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法 |
CN110097085A (zh) * | 2019-04-03 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 歌词文本生成方法、训练方法、装置、服务器及存储介质 |
CN110175235A (zh) * | 2019-04-23 | 2019-08-27 | 苏宁易购集团股份有限公司 | 基于神经网络的智能商品税分类编码方法及系统 |
CN111402855A (zh) * | 2020-03-06 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111583891A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于上下文信息的音符向量的自动作曲系统及方法 |
-
2021
- 2021-03-17 CN CN202110284960.5A patent/CN113033778B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311361B1 (en) * | 2014-06-25 | 2019-06-04 | Amazon Technologies, Inc. | Media theme propagation using decretization of continuous variables |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109727590A (zh) * | 2018-12-24 | 2019-05-07 | 成都嗨翻屋科技有限公司 | 基于循环神经网络的音乐生成方法及装置 |
CN109977257A (zh) * | 2019-03-22 | 2019-07-05 | 浙江大学城市学院 | 一种基于向量表征和长短时记忆网络的音乐重复收听行为预测方法 |
CN110097085A (zh) * | 2019-04-03 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 歌词文本生成方法、训练方法、装置、服务器及存储介质 |
CN110175235A (zh) * | 2019-04-23 | 2019-08-27 | 苏宁易购集团股份有限公司 | 基于神经网络的智能商品税分类编码方法及系统 |
CN111402855A (zh) * | 2020-03-06 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111583891A (zh) * | 2020-04-21 | 2020-08-25 | 华南理工大学 | 基于上下文信息的音符向量的自动作曲系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113033778A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brunner et al. | JamBot: Music theory aware chord based generation of polyphonic music with LSTMs | |
Raczyński et al. | Melody harmonization with interpolated probabilistic models | |
WO2019208070A1 (ja) | 質問応答装置、質問応答方法及びプログラム | |
Walder | Modelling symbolic music: Beyond the piano roll | |
CN113744764A (zh) | 一种演奏时值信息与曲谱时值信息最优比对路径的获得方法 | |
CN106875929B (zh) | 一种音乐旋律转化方法及系统 | |
Mikami | Long short-term memory recurrent neural network architectures for generating music and japanese lyrics | |
Boenn | Computational models of rhythm and meter | |
CN113033778B (zh) | 佛乐生成方法、装置、设备及存储介质 | |
Arronte Alvarez et al. | Distributed vector representations of folksong motifs | |
Buys et al. | Chorale harmonization with weighted finite-state transducers | |
Syarif et al. | Human and computation-based music representation for gamelan music | |
CN109635841B (zh) | 歌词评价方法、装置及存储介质、计算机设备 | |
Cope | Hidden structure: music analysis using computers | |
Thul | Measuring the complexity of musical rhythm | |
Arronte-Alvarez et al. | An attentional neural network architecture for folk song classification | |
Kumar et al. | Creativity in machines: music composition using artificial intelligence | |
CN112951239B (zh) | 基于注意力模型的佛乐生成方法、装置、设备及存储介质 | |
Bozkurt et al. | A computational analysis of Turkish makam music based on a probabilistic characterization of segmented phrases | |
Martins et al. | Similarity measures for rhythmic sequences | |
Buonamente et al. | Simulating music with associative self-organizing maps | |
CN113379875B (zh) | 卡通角色动画的生成方法、装置、设备及存储介质 | |
Gupta et al. | Music Generation and Retrieval Using LSTM and VAE | |
Hedges et al. | Improving predictions of derived viewpoints in multiple viewpoint systems | |
Vemula et al. | Music generation using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |