CN112905835B

CN112905835B - 一种多模态乐曲标题生成方法、装置及存储介质

Info

Publication number: CN112905835B
Application number: CN202110217438.5A
Authority: CN
Inventors: 尹学渊; 马星宇; 江天宇
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-11-11
Anticipated expiration: 2041-02-26
Also published as: CN112905835A

Abstract

本发明提供一种多模态乐曲标题生成方法、装置及存储介质，包括：获取待生成标题的乐曲文件中的音频数据对应的梅尔频谱特征；通过乐曲特征提取器根据所述梅尔频谱特征生成对应的音频特征向量矩阵；获取所述乐曲文件的文本数据，并输入自回归语言模型；通过特征融合模块获取所述自回归语言模型中预设卷积块层输出的文本向量矩阵，对所述音频特征向量矩阵和所述文本向量矩阵进行几何特性对齐，并映射到同一分布空间后进行拼接，得到对应的融合向量矩阵；通过所述自回归语言模型中预设卷积块层后的各个卷积块层对所述融合向量矩阵进行处理后从输出层输出若干个乐曲标题，所述输出层包括概率输出层和采样算法处理层。

Description

一种多模态乐曲标题生成方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种多模态乐曲标题生成方法、装置及存储介质。

背景技术

随着人民日益增长的文化精神需求，各种精神创作呈现出多元化、多样化以及巨量化的趋势，当前音乐创作的数量已经难以满足人民日益增长的精神需求。在音乐创作过程中，乐曲的标题可以为大量音乐创作者提供灵感，从而加速创作过程。人工编写标题时，若数量较大，往往需要多人合作完成，即每个人编写一部分，由于个人的主观性，导致编写出的标题质量参差不齐，同时也不是一个风格；另一方面，每个人的词汇量有限，在编写一定数量标题后，会出现词穷的现象。传统基于规则的标题生成方案，需要语言学专家指导开发人员，构造语法规则，从而生成标题。受限于个人的眼界和学识，得到的规则可能不尽如人意，无法做到多样性。所以需要提供一种方案使生成的乐曲标题更好地概括整个乐曲的同时更加多样化。

发明内容

本发明的目的在于提供一种多模态乐曲标题生成方法、装置及存储介质，用以实现使生成的乐曲标题更好地概括整个乐曲的同时更加多样化的技术效果。

第一方面，本发明实施例提供了一种多模态乐曲标题生成方法，包括获取待生成标题的乐曲文件中的音频数据对应的梅尔频谱特征；通过乐曲特征提取器根据所述梅尔频谱特征生成对应的音频特征向量矩阵；获取所述乐曲文件的文本数据，并输入自回归语言模型；通过特征融合模块获取所述自回归语言模型中预设卷积块层输出的文本向量矩阵，对所述音频特征向量矩阵和所述文本向量矩阵进行几何特性对齐，并映射到同一分布空间后进行拼接，得到对应的融合向量矩阵；通过所述自回归语言模型中预设卷积块层后的各个卷积块层对所述融合向量矩阵进行处理后从输出层输出若干个乐曲标题，所述输出层包括概率输出层和采样算法处理层。

进一步地，所述方法还包括：构建训练数据集，所述训练数据集包括预训练语料、音乐数据集、乐曲标题数据集和音频与标题对应数据集；通过所述预训练语料对所述自回归语言模型进行预训练，获得第一预训练模型；通过所述音乐数据集对所述乐曲特征提取器进行预训练，获得第二预训练模型；通过所述乐曲标题数据集对所述第一预训练模型进一步进行训练，获得第三预训练模型；通过所述音频与标题对应数据集对所述第二预训练模型和所述第三预训练模型进行微调训练，获得多模态乐曲标题生成模型。

进一步地，所述微调训练包括：将所述第二预训练模型最后一层的参数去掉，其余参数加载到乐曲特征提取器中，将第一预训练模型概率输出层的参数去掉，其余参数加载到所述自回归语言模型中，将所述特征融合模块的所有层参数初始化，以音频与标题对应数据集中的音频数据的梅尔频谱特征作为输入，对应的标题作为输出，训练模型，直到模型收敛。

进一步地，所述方法还包括：对所述训练数据集进行去重处理，删除重复的数据；根据设置的阈值范围筛选所述训练数据集中符合要求的文本数据和音频数据；对所述训练数据集中的文本数据和音频数据进行去噪处理。

进一步地，所述去噪处理包括：对于训练数据集中的文本数据，根据设置的目标语言去除含有非目标语言的数据，同时去除噪声符号；对于训练数据集中的音频数据，则删除静默时间超过50％的数据，同时统一音频数据的格式和采样率，提取所述音频数据的梅尔频谱特征。

进一步地，所述噪声符号包括标点符号、空白字符和控制字符。

进一步地，所述文本数据的阈值范围为1-10个字；所述音频数据的阈值范围为10-60秒；若所述文本数据的字数多余10个字，则删除所述文本数据；若所述音频数据的时间长度低于10秒，则删除所述音频数据；若所述音频数据的时间长度大于60秒，则截掉超过60秒的部分。

进一步地，所述自回归语言模型为Bert-Chinese模型。

第二方面，本发明实施例提供了一种多模态乐曲标题生成装置，包括包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序实现上述的方法。

第三方面，本发明实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器运行时实现上述的方法。

本发明能够实现的有益效果是：本发明提供的乐曲标题生成方法通过设置的特征融合模块对乐曲特征提取器和入自回归语言模型获取到的数据进行融合，然后根据融合的数据和采样算法生成若干个乐曲标题，使得生成的乐曲标题在更好地概括整个乐曲的同时更加多样化。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种多模态乐曲标题生成方法流程示意图；

图2为本发明实施例提供的一种多模态乐曲标题生成模型拓扑结构示意图；

图3为本发明实施例提供的一种模型训练流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本发明实施例提供的一种多模态乐曲标题生成方法流程示意图。

经申请人的研究发现，现有的标题生成方法需要语言学专家指导开发人员，构造语法规则，从而生成标题。受限于个人的眼界和学识，得到的规则可能不尽如人意，无法做到多样性，同时增加了更多的人工成本。所以本发明实施例提供了一种多模态乐曲标题生成方法，以便于使生成的乐曲标题更好地概括整个乐曲的同时更加多样化。其具体内容如下所述。

步骤S101，获取待生成标题的乐曲文件中的音频数据对应的梅尔频谱特征。

在一种实施方式中，乐曲文件通过网络获取，然后根据乐曲文件中的音频数据提取对应的梅尔频谱特征。

步骤S102，通过乐曲特征提取器根据所述梅尔频谱特征生成对应的音频特征向量矩阵。

在一种实施方式中，可以将梅尔频谱当做二维的向量输入到乐曲特征提取器中，得到音频特征向量矩阵。

示例性地，乐曲特征提取器包括若干个连续的卷积块层和输出层。每个卷积块层由卷积神经网络层、池化层和全连接层堆叠而成。

步骤S103，获取所述乐曲文件的文本数据，并输入自回归语言模型。

在一种实施方式中，自回归语言模型可以选用Bert-Chinese模型，用于对中文乐曲文件的文本数据进行处理。

需要说明的是，自回归语言模型也可以根据实际需要选用其他语种的自回归语言模型，并不局限于Bert-Chinese模型。自回归语言模型第一层一般为embedding层，可以将离散的文本字符id，变成连续的向量表示；接着经过一系列block(卷积块)处理，得到文本的语义表示，最后经过softmax层获得对应到词表(vocabulary)上的概率，通过采样算法，得到生成的乐曲标题。

步骤S104，通过特征融合模块获取所述自回归语言模型中预设卷积块层输出的文本向量矩阵，对所述音频特征向量矩阵和所述文本向量矩阵进行几何特性对齐，并映射到同一分布空间后进行拼接，得到对应的融合向量矩阵。

在一种实施方式中，特征融合模块进行几何特性对齐时可以采用全连接层，两个数据如果只有一个维度不同，直接采用全连接层，使得其中一个数据几何特性与另一个相同；如果有多个维度不同，则要进行填充操作，然后再通过全连接层进行数据几何特性对齐。可以采用先填充(通过填充“0”将音频特征向量与文本向量对齐)，然后该向量通过全连接层将音频的维度与文本的维度对齐。

映射是将两个不同域的数据，通过线性变换或者非线性变换，使其映射到同一分布空间中；映射过程可以采用的方法是使用一个神经网络将其中一个数据进行几何特性不变的前向传播，从而将音频特征向量映射到文本特征向量所在的分布空间。

融合常见的方法有加法操作、乘法操作，拼接操作，本实施例中采用拼接操作，将映射后的音频特征向量与文本特征向量进行拼接，作为新的融合向量输入至自回归语言模型中预设卷积块层后的卷积块层继续进行后续处理。

步骤S105，通过所述自回归语言模型中预设卷积块层后的各个卷积块层对所述融合向量矩阵进行处理后从输出层输出若干个乐曲标题，所述输出层包括概率输出层和采样算法处理层。

在一种实施方式中，自回归语言模型包括若干个连续的卷积块层，预设卷积块层可以选用倒数第三个卷积块层。音频特征向量与文本特征向量拼接完成后获得的融合向量矩阵继续输入倒数第二个卷积块层进行后续处理，然后通过输出层的概率输出层和采样算法进行处理后输出若干个乐曲标题供用户选择。

示例性地，这些卷积块层可以为transformer等成熟的卷积块(block)方案，也可以是工程人员根据项目需要，自行叠加全连接层、卷积神经网络层和自注意力机制层。

请参看图2和图3，图2为本发明实施例提供的一种多模态乐曲标题生成模型拓扑结构示意图；图3为本发明实施例提供的一种模型训练流程示意图。

在一种实施方式中，为了使生成的标题更加准确，本发明提供的多模态乐曲标题生成方法还通过构建的数据集对乐曲特征提取器、自回归语言模型等进行训练。其具体内容如下所述。

步骤S201，构建训练数据集，所述训练数据集包括预训练语料、音乐数据集、乐曲标题数据集和音频与标题对应数据集。

示例性地，预训练语料可以选用中文的预训练语料，例如中文维基百科数据集。音乐数据集可以选用开源的音乐数据集，例如million song dataset数据集。乐曲标题数据集需要制作者自行构建。该数据集的格式，为常规的自回归语言模型格式：数据集输入为“开始标志位+标题”，比如“B梦中婚礼”，数据集输出为所有字符右移一位加上结束标志位，“梦中婚礼E”，其中B为开始标志位，E为结束标志位，开始和结束标志位可以为任意的字符。音频与标题对应数据集中的音频可以为任意通用的音乐格式(如wav、mp3)，对于每个音频应当有唯一的标题文本与之对应。

步骤S202，通过所述预训练语料对所述自回归语言模型进行预训练，获得第一预训练模型。

示例性地，可以使用Bert-Chinese模型进行预训练。

步骤S203，通过所述音乐数据集对所述乐曲特征提取器进行预训练，获得第二预训练模型。

示例性地，进行训练时可以在开源的音乐数据集(Million Song Dataset)上进行分类训练。音乐数据集的提取声学特征(梅尔频谱特征)作为输入，类别的one-hot作为模型输出，将音乐数据集按照一定比例进行测试划分，该比例＝训练集/测试集，不能大于0.99，然后对乐曲特征提取器进行训练，直到loss收敛，得到预训练模型。

步骤S204，通过所述乐曲标题数据集对所述第一预训练模型进一步进行训练，获得第三预训练模型。

示例性地，考虑到Bert-Chinese模型训练所用的数据集为中文维基百科，与乐曲标题是不同域的数据，为了提高模型生成文本的质量，所以可以进一步进行预训练：即加载Bert-Chinese模型和第一预训练模型的参数，在乐曲标题数据集上，构造自回归语言模型任务，训练模型。

步骤S205，通过所述音频与标题对应数据集对所述第二预训练模型和所述第三预训练模型进行微调训练，获得多模态乐曲标题生成模型。

示例性地，为了使结果更加准确，还可以以整个网络结构(包括乐曲特征提取器、特征融合模块以及自回归语言模型)作为整体的多模态乐曲标题生成模型，将第二预训练模型最后一层的参数去掉，其余参数加载到乐曲特征提取器中，将第一预训练模型概率输出层的参数去掉，其余参数加载到自回归语言模型中，将特征融合模块的所有层参数初始化，以音频与标题对应数据集中的音频数据的梅尔频谱特征作为输入，对应的标题作为输出，训练模型，直到模型收敛。

在一种实施方式中，为了使训练结果更加准确，上述方法还包括对训练数据集进行去重处理，删除重复的数据；根据设置的阈值范围筛选训练数据集中符合要求的文本数据和音频数据；对训练数据集中的文本数据和音频数据进行去噪处理。

具体地，去噪处理包括：对于训练数据集中的文本数据，根据设置的目标语言去除含有非目标语言的数据，同时去除噪声符号(包括标点符号、空白字符和控制字符等)；对于训练数据集中的音频数据，则删除静默时间超过50％的数据，同时统一音频数据的格式和采样率，提取音频数据的梅尔频谱特征。

文本数据的阈值范围为1-10个字；音频数据的阈值范围为10-60秒；若文本数据的字数多余10个字，则删除该文本数据；若音频数据的时间长度低于10秒，则删除音频数据；若音频数据的时间长度大于60秒，则截掉超过60秒的部分。

在一种实施方式中，本发明实施例还提供了一种多模态乐曲标题生成装置，包括存储器和处理器；存储器用于存储计算机程序；处理器用于执行计算机程序实现的方法。

在一种实施方式中，本发明实施例还提供了一种存储介质，该存储介质存储有计算机程序，计算机程序被处理器运行时实现上述的方法。

综上所述，本发明实施例提供一种多模态乐曲标题生成方法、装置及存储介质，包括：获取待生成标题的乐曲文件中的音频数据对应的梅尔频谱特征；通过乐曲特征提取器根据所述梅尔频谱特征生成对应的音频特征向量矩阵；获取所述乐曲文件的文本数据，并输入自回归语言模型；通过特征融合模块获取所述自回归语言模型中预设卷积块层输出的文本向量矩阵，对所述音频特征向量矩阵和所述文本向量矩阵进行几何特性对齐，并映射到同一分布空间后进行拼接，得到对应的融合向量矩阵；通过所述自回归语言模型中预设卷积块层后的各个卷积块层对所述融合向量矩阵进行处理后从输出层输出若干个乐曲标题，所述输出层包括概率输出层和采样算法处理层。通过上述方式，得生成的乐曲标题在更好地概括整个乐曲的同时更加多样化。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多模态乐曲标题生成方法，其特征在于，包括：

获取待生成标题的乐曲文件中的音频数据对应的梅尔频谱特征；

通过乐曲特征提取器根据所述梅尔频谱特征生成对应的音频特征向量矩阵；

获取所述乐曲文件的文本数据，并输入自回归语言模型；

通过特征融合模块获取所述自回归语言模型中预设卷积块层输出的文本向量矩阵，对所述音频特征向量矩阵和所述文本向量矩阵进行几何特性对齐，并映射到同一分布空间后进行拼接，得到对应的融合向量矩阵；

通过所述自回归语言模型中预设卷积块层后的各个卷积块层对所述融合向量矩阵进行处理后从输出层输出若干个乐曲标题，所述输出层包括概率输出层和采样算法处理层；

所述方法还包括：

构建训练数据集，所述训练数据集包括预训练语料、音乐数据集、乐曲标题数据集和音频与标题对应数据集；

通过所述预训练语料对所述自回归语言模型进行预训练，获得第一预训练模型；

通过所述音乐数据集对所述乐曲特征提取器进行预训练，获得第二预训练模型；

通过所述乐曲标题数据集对所述第一预训练模型进一步进行训练，获得第三预训练模型；

通过所述音频与标题对应数据集对所述第二预训练模型和所述第三预训练模型进行微调训练，获得多模态乐曲标题生成模型。

2.根据权利要求1所述的方法，其特征在于，所述微调训练包括：

将所述第二预训练模型最后一层的参数去掉，其余参数加载到乐曲特征提取器中，将第一预训练模型概率输出层的参数去掉，其余参数加载到所述自回归语言模型中，将所述特征融合模块的所有层参数初始化，以音频与标题对应数据集中的音频数据的梅尔频谱特征作为输入，对应的标题作为输出，训练模型，直到模型收敛。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述训练数据集进行去重处理，删除重复的数据；

根据设置的阈值范围筛选所述训练数据集中符合要求的文本数据和音频数据；

对所述训练数据集中的文本数据和音频数据进行去噪处理。

4.根据权利要求3所述的方法，其特征在于，所述去噪处理包括：

对于训练数据集中的文本数据，根据设置的目标语言去除含有非目标语言的数据，同时去除噪声符号；对于训练数据集中的音频数据，则删除静默时间超过50％的数据，同时统一音频数据的格式和采样率，提取所述音频数据的梅尔频谱特征。

5.根据权利要求4所述的方法，其特征在于，所述噪声符号包括标点符号、空白字符和控制字符。

6.根据权利要求3所述的方法，其特征在于，所述文本数据的阈值范围为1-10个字；所述音频数据的阈值范围为10-60秒；若所述文本数据的字数多余10个字，则删除所述文本数据；若所述音频数据的时间长度低于10秒，则删除所述音频数据；若所述音频数据的时间长度大于60秒，则截掉超过60秒的部分。

7.根据权利要求1所述的方法，其特征在于，所述自回归语言模型为Bert-Chinese模型。

8.一种多模态乐曲标题生成装置，其特征在于，包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序实现权利要求1-7任一项所述的方法。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器运行时实现权利要求1-7任一项所述的方法。