CN113010730B

CN113010730B - 音乐文件生成方法、装置、设备及存储介质

Info

Publication number: CN113010730B
Application number: CN202110301209.1A
Authority: CN
Inventors: 刘奡智; 郭锦岳; 韩宝强; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2023-07-21
Anticipated expiration: 2041-03-22
Also published as: CN113010730A

Abstract

本发明涉及人工智能领域，公开了一种音乐文件生成方法、装置、设备及存储介质。方法包括：接收输入的若干句歌词和目标时长；选择一句歌词作为目标歌词，从预置语法库中选择目标歌词对应的乐句片段类并确定乐句片段类对应的抽象乐句片段；确定待生成乐句对应的每个音符及各音符对应的音高和时值；根据目标歌词及待生成乐句对应的每个音符的音高和时值，生成目标歌词对应的乐句；若当前已生成乐句构成的乐曲时长与目标时长的差值未达到预置阈值范围则继续进行乐句生成，否则按预置音乐格式，输出由所有乐句构成的目标音乐文件。本发明可根据输入的音乐类型随机生成出符合输入的歌词和时长需求的音乐文件，满足了用户对音乐的个性化需求。

Description

音乐文件生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种音乐文件生成方法、装置、设备及存储介质。

背景技术

随着人工智能在音乐创作上的应用，自动作曲技术应运而生。自动作曲技术作为一门新兴技术，其主要目的是应用人工智能来模仿人们对音乐的认知，进而进行辅助创作和设计。探索自动作曲技术既可以了解作曲家在作曲过程中的思考方式又能提炼出某一类音乐的特性和规律进而研究该类音乐学，对作曲界有积极影响。

在实际应用中，一些有特殊音乐风格的音乐创作成本较高，人为参与度高，且现有的自动作曲系统在处理这类音乐时，往往难以做到生成出具有相似曲风的音乐，满足不了特定应用场景的使用。

发明内容

本发明的主要目的在于解决特殊应用场景下的音乐生成需求的技术问题。

本发明第一方面提供了一种音乐文件生成方法，包括：

接收输入的若干句歌词和目标时长；

选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类；

根据所述语法库中所述乐句片段类的发射概率，确定所述乐句片段类对应的抽象乐句片段；

选择所述目标歌词对应的调式，并根据所述调式与所述抽象乐句片段，确定待生成乐句对应的每个音符及各音符对应的音高和时值；

根据所述目标歌词及所述待生成乐句对应的每个音符的音高和时值，生成所述目标歌词对应的乐句；

判断当前已生成乐句构成的乐曲时长与所述目标时长的差值是否未达到预置阈值范围；

若是，则跳转执行所述选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类的步骤，直至所述乐曲时长与所述目标时长的差值达到预置阈值范围；

若否，则按预置音乐格式，输出由所有乐句构成的目标音乐文件。

可选的，在本发明第一方面的第一种实现方式中，在所述接收输入的若干句歌词和目标时长之前，还包括：

读取预置音乐库中的多个样本音乐文件，确定所述各样本音乐文件的原始调式，并分别将所述各样本音乐文件的调式移调至预置目标调式；

以预置音节长度为滑动窗，分别滑动截取所述各样本音乐文件，得到多个样本乐句片段，分析所述各样本乐句片段内每个音符、音符与和弦之间的关系，得到所述各样本乐句片段内每个音符的属性信息；

以预置语法格式记录所述各样本乐句片段内每个音符及各音符对应的属性信息，得到所述各样本乐句片段分别对应的抽象乐句片段；

分别以所述各抽象乐句片段的属性信息为数据，对所述各样本乐句片段进行聚类，得到多个乐句片段类；

统计每两个乐句片段类之间的转移概率，生成类到类的转移矩阵和类到乐句片段的转移矩阵；

根据所述类到类的转移矩阵和所述类到乐句片段的转移矩阵，生成对应的乐句语法规则，其中，所述乐句语法规则包含每个当前类到下一类的转移概率和当前类到某一抽象乐句片段的发射概率；

将所述各乐句语法规则、所述各样本音乐文件的原始调式保存到预置语法库中。

可选的，在本发明第一方面的第二种实现方式中，所述选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类包括：

将所述输入的若干句歌词依次存入预置歌词队列中，并在所述歌词队列中依次选择一句歌词作为目标歌词；

判断所述目标歌词是否为首句歌词；

若是，则根据所述目标歌词的字数，从预置语法库中选择音符数最接近所述字数是乐句片段类作为所述目标歌词对应的乐句片段类；

若否，则根据所述语法库中所述目标歌词的上一句歌词对应的乐句片段类到所述目标歌词的乐句片段类的转移矩阵，选择所述目标歌词对应的乐句片段类。

可选的，在本发明第一方面的第三种实现方式中，所述读取预置音乐库中的多个样本音乐文件，确定所述各样本音乐文件的原始调式包括：

读取所述音乐库中的多个样本音乐文件；

统计所述各样本音乐文件中各音符的出现次数，并根据所述各音符的出现次数，生成所述各样本音乐文件对应的音符数字向量；

分别计算所述各音符数字向量到各预置调式模板的音符数字向量的距离，得到各样本音乐文件对应的距离集合；

从所述各样本音乐文件对应的距离集合中，选择最短距离对应的调式作为对应样本音乐文件的原始调式。

可选的，在本发明第一方面的第四种实现方式中，在所述接收输入的若干句歌词和目标时长之前，还包括：

统计所述各原始调式出现的频率，并根据所述频率生成所述各原始调式的出现概率；

所述选择所述目标歌词对应的调式包括：

将所述各原始调式的出现概率最大的原始调式作为所述目标歌词对应的调式。

可选的，在本发明第一方面的第五种实现方式中，所述属性信息包括：级数信息、功能信息、音高分布信息和时值信息。

本发明第二方面提供了一种音乐文件生成装置，包括：

接收模块，用于接收输入的若干句歌词和目标时长；

选择模块，用于选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类；

第一确定模块，用于根据所述语法库中所述乐句片段类的发射概率，确定所述乐句片段类对应的抽象乐句片段；

第二确定模块，用于选择所述目标歌词对应的调式，并根据所述调式与所述抽象乐句片段，确定待生成乐句对应的每个音符及各音符对应的音高和时值；

第一生成模块，用于根据所述目标歌词及所述待生成乐句对应的每个音符的音高和时值，生成所述目标歌词对应的乐句；

判断模块，用于判断当前已生成乐句构成的乐曲时长与所述目标时长的差值是否未达到预置阈值范围；

循环模块，用于循环执行所述选择模块、所述第一确定模块、所述第二确定模块、所述生成模块和所述判断模块，直至所述乐曲时长与所述目标时长的差值达到预置阈值范围；

输出模块，用于按预置音乐格式，输出由所有乐句构成的目标音乐文件。

可选的，在本发明第二方面的第一种实现方式中，所述音乐文件生成装置还包括：

调式确定模块，用于读取预置音乐库中的多个样本音乐文件，确定所述各样本音乐文件的原始调式，并分别将所述各样本音乐文件的调式移调至预置目标调式；

分析模块，用于以预置音节长度为滑动窗，分别滑动截取所述各样本音乐文件，得到多个样本乐句片段，分析所述各样本乐句片段内每个音符及音符与和弦之间的关系，得到所述各样本乐句片段内每个音符的属性信息；

记录模块，用于以预置语法格式记录所述各样本乐句片段内每个音符及各音符对应的属性信息，得到所述各样本乐句片段分别对应的抽象乐句片段；

聚类模块，用于分别以所述各抽象乐句片段的属性信息为数据，对所述各样本乐句片段进行聚类，得到多个乐句片段类；

第二生成模块，用于统计每两个乐句片段类之间的转移概率，生成类到类的转移矩阵和类到乐句片段的转移矩阵；

第三生成模块，用于根据所述类到类的转移矩阵和所述类到乐句片段的转移矩阵，生成对应的乐句语法规则，其中，所述乐句语法规则包含每个当前类到下一类的转移概率和当前类到某一抽象乐句片段的发射概率；

保存模块，用于将所述各乐句语法规则、所述各样本音乐文件的原始调式保存到预置语法库中。

可选的，在本发明第二方面的第二种实现方式中，所述选择模块具体用于：

判断所述目标歌词是否为首句歌词；

可选的，在本发明第二方面的第三种实现方式中，所述调式确定模块具体用于：

读取所述音乐库中的多个样本音乐文件；

可选的，在本发明第二方面的第四种实现方式中，所述音乐文件生成装置还包括：

统计模块，用于统计所述各原始调式出现的频率，并根据所述频率生成所述各原始调式的出现概率；

所述第二确定模块还用于：将所述各原始调式的出现概率最大的原始调式作为所述目标歌词对应的调式。

可选的，在本发明第二方面的第五种实现方式中，所述属性信息包括：级数信息、功能信息、音高分布信息和时值信息。

本发明第三方面提供了一种音乐文件生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述音乐文件生成设备执行上述的音乐文件生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的音乐文件生成方法。

本发明提供的技术方案中，先接收用户输入的歌词和时长信息，再选择一句歌词作为目标歌词，根据目标歌词在预置语法库中匹配乐句片段类，然后再根据匹配到的乐句片段类的发射概率，确定对应的抽象乐句片段。通过预先确定的调式，确定待生成乐句的每个音符、及各音符对应的音高和时值，从而确定该乐句的具体演奏方式。最后判断所生成的乐句片段组合成的乐曲是否符合用户输入的时长需求，如果符合，则按预置音乐格式输出目标音乐文件，如果不符合，则循环生成乐句。本发明可根据输入的音乐类型随机生成出符合输入的歌词和时长需求的音乐文件，满足了用户对音乐的个性化需求。

附图说明

图1为本发明实施例中音乐文件生成方法的第一个实施例示意图；

图2为本发明实施例中音乐文件生成方法的第二个实施例示意图；

图3为本发明实施例中音乐文件生成装置的第一个实施例示意图；

图4为本发明实施例中音乐文件生成装置的第二个实施例示意图；

图5为本发明实施例中音乐文件生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种音乐文件生成方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中音乐文件生成方法的第一个实施例包括：

101、接收输入的若干句歌词和目标时长；

可以理解的是，本发明的执行主体可以为音乐文件生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

在本实施例中，用户可以输入自定义的歌词和时长，来确定所要生成的音乐的歌词和时间长度，其中输入歌词的方式不限定，例如可以语音输入，由系统转化为目标格式，本系统优先采用的是文本格式作为目标格式。

在本实施例中，接收到用户输入的歌词后，系统将对歌词进行断句处理，识别所输入的歌词中的标点符号或其它非文字的符号作为断句符号，并删除断句符号，只保留文字信息作为最终生成音乐的歌词。

在本实施例中，对用户输入的歌词长度未做限制，极限情况下可为一个字，一句话。如果用户输入的目标时长远大于输入的歌词长度所能吟唱的长度，系统将对所输入的歌词进行反复吟唱，直到目标时长符合要求为止。而如果用户输入的目标时长远小于输入的歌词长度所能吟唱的长度，那么未能吟唱到的歌词将将不再进行匹配，只保留在目标时长要求内所能匹配到的歌词部分，例如目标时长为1秒钟，而输入的歌词为3000字，那么只能生成11秒内长度的音乐，歌词只保留这11秒内所能匹配到的部分歌词，例如前11个文字。

102、选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类；

在本实施例中，将用户输入的歌词做断句处理后，循环存入待选歌词队列中，在队列中依次选择一句歌词作为目标歌词。选中的目标歌词将作为生成乐句片段的歌词部分与乐句片段中的曲谱信息共同构成了一段乐句，若干句乐句依次连接，组成了目标歌曲文件。

在本实施例中，由于生成目标音乐的方式是通过多条乐句片段组合的形式完成的，所以需要生成一个乐句片段数据库，并按照一定的语法规则匹配对应的目标乐句片段。将所述语法规则保存到预置语法库中，便于后续匹配乐句片段时使用。例如系统需要在乐句片段数据库中匹配音符数为5的乐句片段，那么在接收到请求后，系统将根据语法库中的规则，先匹配到音符数为5的一类乐句片段，再根据该类乐句片段在语法库中的发射概率，确定目标乐句片段。

可选的，在一可选实施例中，步骤102包括：

判断所述目标歌词是否为首句歌词；

在本可选实施例中，初始乐句片段类是根据首句歌词的字数确定的，非初始乐句片段类是根据语法库中的语法规则确定。当系统接收到有效的音乐生成请求时，把接收到的歌词断句处理后存入预置的歌词队列中，队首的歌词即作为首句歌词，具有唯一性。系统确定首句歌词后，计算首句歌词的字数，在语法库中选择音符数最接近字数的乐句片段类作为初始乐句片段类，而下一句歌词对应的乐句片段类将根据上一句的乐句片段类的转移概率确定，如第二句乐句片段类根据初始乐句片段类的转移概率确定；第三句乐句片段类根据第二句乐句片段类的转移概率确定，以此类推。通过这样的方式来保证乐句与乐句之间的关联性及联想生成的功能实现。

103、根据所述语法库中所述乐句片段类的发射概率，确定所述乐句片段类对应的抽象乐句片段；

在本实施例中，由于乐句片段被预先分为了多个聚类，当系统匹配到当前目标歌词对应的乐句片段类后，系统将根据该类到乐句片段的发射概率来进一步确定抽象乐句片段。其中，发射概率是系统预先通过对乐句片段库中的乐句进行聚类并计算后生成的概率，它表示当前类到某一句抽象乐句片段的发射概率，是隐马尔科夫模型中可观测矩阵中的概率。

隐马尔科夫模型是一个统计模型，它一般用来从可观察的参数中确定该过程的隐含参数，然后利用这些参数来作进一步的分析。在语音识别、行为识别、文字识别及故障诊断等领域有广泛应用。它的特征是将问题分为两类：一类是可以观测到的，即可观测序列；另一类是不可观测到的，即隐藏状态序列，简称为状态序列。例如我们在利用输入法输入文字时，在键盘上敲击出来的一系列文字是可观测序列，而脑子里想写的一系列文字为隐藏状态序列，输入法要做的事情就是尽可能地猜测到我们脑子里想的文字，把它们尽可能地前置显示供我们选择，这即可以看做是一个相似的隐马尔科夫模型。该模型在本发明中的应用为，当前乐句片段序列为可观测序列，对应的下一句联想乐句片段为隐藏状态序列，要通过该模型得出隐藏状态序列，以达到乐句联想生成的目的。通过对样本数据的分析，可以统计得出可观测序列概率矩阵和隐藏状态转移概率矩阵，在本发明中称为发射概率矩阵和转移矩阵，其中可观测序列概率矩阵中包含了多个状态的出现概率，在本发明中称为发射概率；隐藏状态转移概率矩阵中包含了状态与状态之间的转移概率，在本发明中称为转移概率。

在本实施例中，抽象乐句片段是以特定的语法格式记录乐句片段中每个音符及各音符对应的属性信息的编码组合，它可以被计算机解读为多个具有固定音高和时值的音符组合，结合指定的调式和歌词，即能生成出完整的音乐。抽象乐句片段使乐句在聚类时有更高的可操作性，计算机通过对编码组合的解读，即能提取出乐句片段中的抽象音乐属性，从而进行聚类。

104、选择所述目标歌词对应的调式，并根据所述调式与所述抽象乐句片段，确定待生成乐句对应的每个音符及各音符对应的音高和时值；

在本实施例中，调式是指以一个音为核心，按照一定的音程关系不同音高组合在一起的若干个音符组合。通过统计样本音乐中各个音符出现的频率，与现有调式的音符组合进行比对，从而确定样本音乐的原始调式。其中现有调式是指在音乐领域中所有已经存在且被利用的调式，所以现有调式的音符组合被提前存储在存储器中，读取存储器中的数据即可获得。由于调式信息并未记录在样本音乐文件或抽象乐句片段中，需要通过计算才能获得，本实施例的计算方法能更接近样本音乐的真实调式，从而减小目标音乐的误差值。

在本实施例中，每个待分析的样本文件都会有一对应的原始调式，通过对所有样本文件的原始调式进行统计，计算出频率最高的调式作为目标音乐对应的调式。这样做可以保证生成的音乐与样本音乐库中的音乐调式更接近，使目标音乐的曲风更符合预期。

105、根据所述目标歌词及所述待生成乐句对应的每个音符的音高和时值，生成所述目标歌词对应的乐句；

106、判断当前已生成乐句构成的乐曲时长与所述目标时长的差值是否未达到预置阈值范围；

在本实施例中，通过判断已生成乐句构成的乐曲时长与用户输入的目标时长间的差值，来确定是否达到输出目标音乐的要求。由于目标音乐是分段生成的，在时间上难以做到精确到具体的数值，所以设定一个允许的误差范围，只要在误差范围内是差值，则判断为符合生成要求，可以输出目标音乐。在本实施例中，优选10秒为差值的预置，减少用户感官上的敏感度。只要生成的乐曲时长大于或小于10秒内，则说明符合生成要求，可以进一步生成目标音乐。

107、若是，则循环步骤102-106，直至所述乐曲时长与所述目标时长的差值达到预置阈值范围；

108、若否，则按预置音乐格式，输出由所有乐句构成的目标音乐文件。

在本实施例中，当乐曲时长达到目标要求时，系统将按照预置音乐格式输出目标音乐文件，其中音乐格式未做限定，可以是现有的音乐格式中的任意一种，本实施例中优选以MIDI音乐格式输出目标音乐文件。MIDI是指乐器数字接口，是编曲界应用最广泛的音乐标准格式，它用音符的数字信号来记录音乐，传输音符、控制参数等指令，指示MIDI设备要做什么、怎么做，如演奏哪个音符、多大音量等。

在本实施例中，生成的每一句目标歌词对应的乐句将依次组合，构成乐曲。当乐曲的时长符合目标时长要求时，输出乐曲，生成目标音乐文件。

可选的，在步骤101之前，还包括：统计所述各原始调式出现的频率，并根据所述频率生成所述各原始调式的出现概率。

可选的，在步骤104中，采用以下方式选择所述目标歌词对应的调式，具体包括：将所述各原始调式的出现概率最大的原始调式作为所述目标歌词对应的调式。

本实施例中，先在接收到的若干句歌词中选择一句歌词作为目标歌词，然后在预置语法库中按照预置的语法规则确定抽象乐句片段，根据目标歌词对应的调式，生成目标歌词对应的乐句，最后将若干条乐句组合，生成目标音乐。本实施例通过将样本音乐片段抽象化后提取音乐特征，从而生成有相似音乐特征的目标音乐。本发明可根据输入的音乐类型随机生成出符合输入的歌词和时长需求的音乐文件，满足了用户对音乐的个性化需求。

请参阅图2，本发明实施例中音乐文件生成方法的第二个实施例包括：

201、读取预置音乐库中的多个样本音乐文件，确定所述各样本音乐文件的原始调式，并分别将所述各样本音乐文件的调式移调至预置目标调式；

在本实施例中，由于调式的不同，会导致同一首乐曲有多种不同的音符表现形式，而其中的音程关系却是固定不变的。利用这一原理，为了排除调式的影响，仅提取乐句中音符的相对音程关系，分别记录每个样本文件的原始调式后将对应的样本文件移调至预置目标调式。该预置目标调式为系统预先设置，可以自定义，本实施例中优选的是C调。

在本实施例中，样本音乐文件的原始调式确定方式是通过统计样本音乐中各个音符出现的频率，与现有调式的音符组合进行比对，匹配出频率最接近的调式，作为对应样本音乐文件的原始调式，存储在存储器中。

可选的，在一实施例中，步骤201包括：

读取所述音乐库中的多个样本音乐文件；

在本实施例中，音符数字向量为长度12的数字向量，每个元素分别代表[C, C#,D, D#, E, F, F#, G, G#, A, A#, B]各个音符的出现概率。如C大调的模板向量为[1, 0,1, 0, 1, 1, 0, 1, 0, 1, 0, 1]。统计每个样本音乐文件的音符数字向量，然后计算到每个模板向量的欧式距离，距离最短的被选中为该样本音乐文件的原始调式。其中欧式距离是指欧几里得度量距离，用来计算两点之间的直线距离。利用该方法可以算出原始调式与哪个预置调式模板最接近，从而确定原始调式，用于样本音乐文件的调式分析及统计。

202、以预置音节长度为滑动窗，分别滑动截取所述各样本音乐文件，得到多个样本乐句片段，分析所述各样本乐句片段内每个音符及音符与和弦之间的关系，得到所述各样本乐句片段内每个音符的属性信息，其中，所述属性信息包括：级数信息、功能信息、音高分布信息和时值信息；

在本实施例中，由于目标音乐是分段生成的，通过对样本音乐文件的分段处理，便于对样本文件的文件处理，从而生成目标音乐。在本实施例中，每段乐句片段的长度可以根据需求自定义设置，长度越短，对目标音乐歌词的吟唱速度越快，例如每段乐句为一小节长度，对应的目标歌词有10个字，那么这10个字将会在一小节长度的乐句内被全部吟唱，速度相对较快。本实施例优选以四小节长度为预置音节长度，进行样本音乐文件的截取。

在本实施例中，样本乐句片段中包含了每个音符的音高、级数、时值、功能及和弦等信息，通过对样本乐句片段中每个音符及音符与和弦之间的关系的分析，可以得出每个音符的相关音乐属性，如级数、功能、音高分布、时值均值、是否为弦内音等信息。其中和弦是指有一定音程关系的一组声音，在乐器上通常表现为多个音同时弹奏，通过分析音符与和弦的关系可以得出该音符是否为弦内音，若不是弦内音，则是弦外音。通过识别出来的和弦，在生成目标音乐时可以搭配不同的和弦生成旋律，从而更丰富系统的输出。而通过其它音乐属性的分析，有利于对乐句片段进行进一步地聚类，从而找到样本音乐中隐含的规律。

203、以预置语法格式记录所述各样本乐句片段内每个音符及各音符对应的属性信息，得到所述各样本乐句片段分别对应的抽象乐句片段；

204、分别以所述各抽象乐句片段的属性信息为数据，对所述各样本乐句片段进行聚类，得到多个乐句片段类；

在本实施例中，根据抽象乐句片段中包含的属性信息，将所有音乐片段进行聚类，得到多个乐句片段类。其中聚类的方式优选k-means聚类算法（K均值聚类算法）。K-means聚类首先随机选取K个对象作为初始的聚类中心，然后计算每个对象与聚类中心之间的距离，把对象分配到最近的聚类中，再重新更新该类的中心点，再把对象分配到最近的聚类中，以此类推，直到中心点不再发生变化。在本实施例中，将所有乐句片段根据时值均值、音符数均值、音高分布均值等属性参数作为聚类中心，进行k-means聚类，记录类到类的转移概率及类到某一个片段的发射概率。

为便于理解本实施例，下面以音符数分类为例进行举例说明，假设采用k-means算法将片段按音符数分为X、Y、Z类，统计各类之间的转移概率，生成转移矩阵A如下所示：

其中，A₁₁表示当前音符数为X类，下一句还是X类的概率是0.5；A₁₂表示当前音符数为X类，下一句是Y类的概率是0.2。在X类中，包含多条抽象乐句，各乐句根据不同属性可以统计出不同的发射概率，例如音符数为M，时值数为N的乐句出现的概率为0.3，则0.3为该类到N乐句的发射概率。

205、统计每两个乐句片段类之间的转移概率，生成类到类的转移矩阵和类到乐句片段的转移矩阵；

206、根据所述类到类的转移矩阵和所述类到乐句片段的转移矩阵，生成对应的乐句语法规则，其中，所述乐句语法规则包含每个当前类到下一类的转移概率和当前类到某一抽象乐句片段的发射概率；

207、将所述各乐句语法规则、所述各样本音乐文件的原始调式保存到预置语法库中；

208、接收输入的若干句歌词和目标时长；

209、选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类；

210、根据所述语法库中所述乐句片段类的发射概率，确定所述乐句片段类对应的抽象乐句片段；

211、选择所述目标歌词对应的调式，并根据所述调式与所述抽象乐句片段，确定待生成乐句对应的每个音符及各音符对应的音高和时值；

212、根据所述目标歌词及所述待生成乐句对应的每个音符的音高和时值，生成所述目标歌词对应的乐句；

213、判断当前已生成乐句构成的乐曲时长与所述目标时长的差值是否未达到预置阈值范围；

214、若是，则循环执行步骤209-213，直至所述乐曲时长与所述目标时长的差值达到预置阈值范围；

215、若否，则按预置音乐格式，输出由所有乐句构成的目标音乐文件。

在本实施例中，先统计出样本音乐库中各音乐文件的原始调式并统一移调至目标调式，从而避免了调式对目标音乐的影响。然后对各样本音乐文件进行切片，并识别出每个切片中的和弦音符，记录在各音符对应的属性信息中。再以各属性信息为基础，对各音乐片段进行聚类处理，统计每两个片段类之间的转移概率及各片段之间的发射概率，从而生成语法库，以便在生成目标音乐时使用。本实施例通过对样本音乐文件的分析及处理，可以提取出同类音乐的特殊属性，并生成语法库，便于模拟同类音乐风格得到目标音乐。

上面对本发明实施例中音乐文件生成方法进行了描述，下面对本发明实施例中音乐文件生成装置进行描述，请参阅图3，本发明实施例中音乐文件生成装置第一个实施例包括：

接收模块401，用于接收输入的若干句歌词和目标时长；

选择模块402，用于选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类；

第一确定模块403，用于根据所述语法库中所述乐句片段类的发射概率，确定所述乐句片段类对应的抽象乐句片段；

第二确定模块404，用于选择所述目标歌词对应的调式，并根据所述调式与所述抽象乐句片段，确定待生成乐句对应的每个音符及各音符对应的音高和时值；

第一生成模块405，用于根据所述目标歌词及所述待生成乐句对应的每个音符的音高和时值，生成所述目标歌词对应的乐句；

判断模块406，用于判断当前已生成乐句构成的乐曲时长与所述目标时长的差值是否未达到预置阈值范围；

循环模块407，用于循环选择模块-判断模块，直至所述乐曲时长与所述目标时长的差值达到预置阈值范围；

输出模块408，用于按预置音乐格式，输出由所有乐句构成的目标音乐文件。

请参阅图4，本发明实施例中音乐分析与文件生成装置第二个实施例包括：

接收模块401，用于接收输入的若干句歌词和目标时长；

调式确定模块409，用于读取预置音乐库中的多个样本音乐文件，确定所述各样本音乐文件的原始调式，并分别将所述各样本音乐文件的调式移调至预置目标调式；

分析模块410，用于以预置音节长度为滑动窗，分别滑动截取所述各样本音乐文件，得到多个样本乐句片段，分析所述各样本乐句片段内每个音符及音符与和弦之间的关系，得到所述各样本乐句片段内每个音符的属性信息；

记录模块411，用于以预置语法格式记录所述各样本乐句片段内每个音符及各音符对应的属性信息，得到所述各样本乐句片段分别对应的抽象乐句片段；

聚类模块412，用于分别以所述各抽象乐句片段的属性信息为数据，对所述各样本乐句片段进行聚类，得到多个乐句片段类；

第二生成模块413，用于统计每两个乐句片段类之间的转移概率，生成类到类的转移矩阵和类到乐句片段的转移矩阵；

第三生成模块414，用于根据所述类到类的转移矩阵和所述类到乐句片段的转移矩阵，生成对应的乐句语法规则，其中，所述乐句语法规则包含每个当前类到下一类的转移概率和当前类到某一抽象乐句片段的发射概率；

保存模块415，用于将所述各乐句语法规则、所述各样本音乐文件的原始调式保存到预置语法库中。

可选的，在一实施例中，所述选择模块402具体用于：

判断所述目标歌词是否为首句歌词；

可选的，在一实施例中，所述调式确定模块409具体用于：

读取所述音乐库中的多个样本音乐文件；

可选的，在一实施例中，所述音乐文件生成装置还包括：

统计模块，用于统计所述各原始调式出现的频率，并根据所述频率生成所述各原始调式的出现概率。

可选的，在一实施例中，所述第二确定模块404还用于将所述各原始调式的出现概率最大的原始调式作为所述目标歌词对应的调式。

上面图3和图4从模块化功能实体的角度对本发明实施例中的音乐文件生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中音乐文件生成设备进行详细描述。

图5是本发明实施例提供的一种音乐文件生成设备的结构示意图，该音乐文件生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对音乐文件生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在音乐文件生成设备500上执行存储介质530中的一系列指令操作。

音乐文件生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的音乐文件生成设备结构并不构成对音乐文件生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种音乐文件生成设备，所述音乐文件生成设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述音乐文件生成方法的步骤。本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述音乐文件生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音乐文件生成方法，其特征在于，所述音乐文件生成方法包括：

接收输入的若干句歌词和目标时长；

若否，则按预置音乐格式，输出由所有乐句构成的目标音乐文件；

在所述接收输入的若干句歌词和目标时长之前，还包括：

读取预置音乐库中的多个样本音乐文件，确定各样本音乐文件的原始调式，并分别将所述各样本音乐文件的调式移调至预置目标调式；

以预置音节长度为滑动窗，分别滑动截取所述各样本音乐文件，得到多个样本乐句片段，分析各样本乐句片段内每个音符、音符与和弦之间的关系，得到所述各样本乐句片段内每个音符的属性信息；

分别以各抽象乐句片段的属性信息为数据，对所述各样本乐句片段进行聚类，得到多个乐句片段类；

将各乐句语法规则、所述各样本音乐文件的原始调式保存到预置语法库中。

2.根据权利要求1所述的音乐文件生成方法，其特征在于，所述选择一句歌词作为目标歌词，并从预置语法库中选择所述目标歌词对应的乐句片段类包括：

判断所述目标歌词是否为首句歌词；

若是，则根据所述目标歌词的字数，从预置语法库中选择音符数最接近所述字数的乐句片段类作为所述目标歌词对应的乐句片段类；

3.根据权利要求1所述的音乐文件生成方法，其特征在于，所述读取预置音乐库中的多个样本音乐文件，确定所述各样本音乐文件的原始调式包括：

读取所述音乐库中的多个样本音乐文件；

4.根据权利要求1-3中任一项所述的音乐文件生成方法，其特征在于，在所述接收输入的若干句歌词和目标时长之前，还包括：

统计各原始调式出现的频率，并根据所述频率生成所述各原始调式的出现概率；

所述选择所述目标歌词对应的调式包括：

5.根据权利要求1所述的音乐文件生成方法，其特征在于，所述属性信息包括：级数信息、功能信息、音高分布信息和时值信息。

6.一种音乐文件生成装置，其特征在于，所述音乐文件生成装置包括：

接收模块，用于接收输入的若干句歌词和目标时长；

输出模块，用于按预置音乐格式，输出由所有乐句构成的目标音乐文件；

所述音乐文件生成装置还包括：

7.一种音乐文件生成设备，其特征在于，所述音乐文件生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述音乐文件生成设备执行如权利要求1-5中任一项所述的音乐文件生成方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-5中任一项所述的音乐文件生成方法。