CN105931624A

CN105931624A - 基于语音输入的说唱音乐自动生成方法

Info

Publication number: CN105931624A
Application number: CN201610253692.XA
Authority: CN
Inventors: 汤影; 杨林
Original assignee: Chengdu Tuya Technology Co Ltd
Current assignee: Chengdu Tuya Technology Co Ltd
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2016-09-07

Abstract

本发明公开了一种基于语音输入的说唱音乐自动生成方法，包括以下步骤：S1.用户输入语音信息；S2.将用户输入的语音信息转换为文本信息；S3.对文本信息进行分词，得到多个词组；S4.根据步骤S3中得到的词组从素材库中筛选出备选Riff；S5.根据步骤S3中得到的词组和语音端点检测技术对原始的语音信息进行分段，得到分段语音；S6.向分段语音和备选Riff加入效果器；S7.输出说唱音乐。本发明通过机器学习等技术的帮助，使得普通大众能够参与到音乐制作、交互这种专业活动中创造属于自己的音乐，在此过程中用户只需输入语音信息，即可自动生成相应的说唱音乐。

Description

基于语音输入的说唱音乐自动生成方法

技术领域

本发明涉及音乐制作技术领域，特别是涉及一种基于语音输入的说唱音乐自动生成方法。

背景技术

回顾音乐的发展史，音乐的创作和交互方式从未发生过大的变化。在人类文明高度发展的今天，传统上音乐首先被专业人士创作出来，进而以磁带、CD、电台或互联网音频流等形式进入大众耳朵。现场演出会可能发生的部分即兴改编，或类似于“音乐背后的创作故事”等对话交流，音乐从被创作出来，直至在大众中传播之整个过程几乎不存在任何变化。同时，音乐本身和听众之间的交互也仅停留于“你写我听”的层面。由于听众类型、情绪、喜好等外在因素和音乐本身之间缺少感应传输媒介，音乐也无法随外界输入变化而变化。

近年来，在机器学习技术以及音频算法等前沿科技的驱动下，出现了PC端的音乐工作站及各类插件 (如Cubase，Protool，Ablton Live等)。Ablton Live的最新版本已支持音频文件的变速不变调以及分片操作。由于音频工作站专注于录音，缩混及后期制作，其使用局限于录音师、编曲、作曲等专业人士，其距离普通大众还很遥远。另外，音频工作站只负责提供“使用工具”，而无法胜任“创作工具”的角色。作为一种传递“人的想法”的媒介，音频工作站在人的指挥下，把人的想法落实到音乐上，把已经存在的demo加工成高品质歌曲(前提是编曲人员需要有完整的编曲思路，而音频工作站本身无法提供这种思路)。层出不穷的高质量插件(提供混响均衡等特殊音频处理)在效果上已经接近于硬件，这使得音频工作站的能力如虎添翼，然而迄今为止所有的音频工作站都无法实现“音乐自动生成”或交“互式音乐生成”。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于语音输入的说唱音乐自动生成方法，能够根据用户输入的语音信息，自动生成说唱音乐。

本发明的目的是通过以下技术方案来实现的：基于语音输入的说唱音乐自动生成方法，包括以下步骤：

S1.用户输入语音信息；

S2.将用户输入的语音信息转换为文本信息；

S3.对文本信息进行分词，得到多个词组；

S4.根据步骤S3中得到的词组从素材库中筛选出备选Riff；

S5.根据步骤S3中得到的词组和语音端点检测技术对原始的语音信息进行分段，得到分段语音；

S6.向分段语音和备选Riff加入效果器；

S7.输出说唱音乐。

所述步骤S4中，以步骤S3中得到的词组和配乐Riff之间、以及Riff和Riff之间在整体上协调性最大为目标，筛选素材库得到备选Riff。

所述协调性包括节奏型的和谐、速度的匹配和重音的吻合。

所述步骤S4和步骤S5之间还包括局部细调步骤S3中得到的各词组之间的相对位置的步骤。

所述步骤S5和S6之间还包括根据步骤S3中得到的各词组之间的相对位置对分段语音进行变速不变调操作。

所述步骤S7之后还包括将说唱音乐分享到社交媒体的步骤。

所述步骤S4之前还包括建立素材库，并标注素材库中Riff的属性的步骤。

所述步骤S6中效果器包括混响效果器、镶边效果器、延迟效果器和回声效果器。

本发明的有益效果是：本发明通过机器学习等技术的帮助，使得普通大众能够参与到音乐制作、交互这种专业活动中创造属于自己的音乐，在此过程中用户只需输入语音信息，即可自动生成相应的说唱音乐。

附图说明

图1为本发明基于语音输入的说唱音乐自动生成方法的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，基于语音输入的说唱音乐自动生成方法，包括以下步骤：

S1.用户输入语音信息，并对用户输入的语音信息进行包括降噪在内的预处理。

用于输入语音信息可以通过麦克风输入，由于现在智能手机已经普及，麦克风作为智能手机的一项标配，用户能够很方便的实现语音输入。

S2.将用户输入的语音信息转换为文本信息；本实施例中采用基于深度学习的语音识别技术实现语音信息到文本信息的转换。

S3. 对文本信息进行分词，得到多个词组。

S4.根据步骤S3中得到的词组从素材库中筛选出备选Riff。

所述步骤S4之前还包括建立素材库，并标注素材库中Riff的属性的步骤。对Riff的属性进行标注的方式包括半监督学习方式和人工标注方式，本实施例中以半监督学习方式为主，结合人工标注，为素材库中存储的所有Riff添加标签，即进行标注（如鼓、吉他、贝司等Riff的速度、长度、根音、节奏型，以及情绪类型等）。Riff包括Loop（如鼓、吉他、贝斯、弦乐、特殊音效等音频片段）和VST（包括midi文件和虚拟乐器采样），多个不同的Riff按音乐发挥在那的时间先后顺序排列构成一轨的Riff集，若干轨的Riff集（比如常见的鼓轨Riff集，吉他轨Riff集，贝斯轨Riff集，弦乐轨Riff集，特殊音效轨Riff集等）构成一首完整歌曲的音乐部分。

所述Riff的属性包括该Riff属于何种乐器、是什么拍子、速度、时长、最大时间拉伸/压缩比，以及Riff的风格(摇滚、民谣)、情绪(舒缓的、急躁的)，或最适合出现于哪个乐段(引子部分、高潮部分、副歌部分)。

所述步骤S4中，以步骤S3中得到的词组和配乐Riff之间、以及Riff和Riff之间在整体上协调性最大为目标，筛选素材库得到备选Riff。本发明采用最优匹配算法实现分词后的文本和配乐Riff之间、以及Riff和Riff之间在整体上的协调性；本实施例中最优匹配算法采用基因配对算法，比如Blast算法。

所述协调性包括节奏型的和谐、速度的匹配和重音的吻合。

所述步骤S4和步骤S5之间还包括局部细调步骤S3中得到的各词组之间的相对位置的步骤。最大化文本和Riff在局部上的协调性(这里可加多种正则项至优化目标，以达到某些特殊目的)。

S5. 根据步骤S3中得到的词组和语音端点检测技术（本实施例采用基于短时能量和短时过零率的端点检测技术）对原始的语音信息进行分段，得到分段语音；然后根据得到的分词后的词组之间的相对位置(即单词之间的“留白”时长)，对分段语音进行相应的时间拉伸/压缩(即变速不变调操作)，最终得到语音和Riff之间的最优配对，使得二者协调性最大。

所述步骤S5和S6之间还包括根据步骤S3中得到的各词组之间的相对位置对分段语音进行变速不变调操作。本实施例中采用SOLA算法实现对分段语音的变速不变调操作，SOLA算法可以使一段语音在语调不发生变化的前提下，加快、减慢语音速度，被广泛用于复读机、语音扫描等领域，商用音高修正等软件中的核心组成部分是在保持语音速度不变的前提下，SOLA算法可用于提高、降低语音之音调。

S6.对分段语音和备选Riff，在一定的约束下，分别随机加入适度的效果器（效果器以插件形式存在，单独制作），以实现说唱在整体上的悦耳性和多样性。

所述步骤S6之前还包括制作效果器的步骤。

S7.输出说唱音乐。将分段语音和备选Riff进行排序组合，生成说唱音乐并输出。

所述步骤S7之后还包括将说唱音乐分享到社交媒体的步骤。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于语音输入的说唱音乐自动生成方法，其特征在于：包括以下步骤：

S1.用户输入语音信息；

S2.将用户输入的语音信息转换为文本信息；

S3.对文本信息进行分词，得到多个词组；

S4.根据步骤S3中得到的词组从素材库中筛选出备选Riff；

S6.向分段语音和备选Riff加入效果器；

S7.输出说唱音乐。

2.根据权利要求1所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述步骤S4中，以步骤S3中得到的词组和配乐Riff之间、以及Riff和Riff之间在整体上协调性最大为目标，筛选素材库得到备选Riff。

3.根据权利要求2所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述协调性包括节奏型的和谐、速度的匹配和重音的吻合。

4.根据权利要求1所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述步骤S4和步骤S5之间还包括局部细调步骤S3中得到的各词组之间的相对位置的步骤。

5.根据权利要求4所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述步骤S5和S6之间还包括根据步骤S3中得到的各词组之间的相对位置对分段语音进行变速不变调操作。

6.根据权利要求1所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述步骤S7之后还包括将说唱音乐分享到社交媒体的步骤。

7.根据权利要求1所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述步骤S4之前还包括建立素材库，并标注素材库中Riff的属性的步骤。

8.根据权利要求1所述的基于语音输入的说唱音乐自动生成方法，其特征在于：所述步骤S6中效果器包括混响效果器、镶边效果器、延迟效果器和回声效果器。