CN116030774A

CN116030774A - 音乐生成方法、生成装置、电子设备及存储介质

Info

Publication number: CN116030774A
Application number: CN202211657070.5A
Authority: CN
Inventors: 赵晨旭; 郭尧; 曾通; 冷永才; 朱思邈
Original assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-28

Abstract

本申请提供一种音乐生成方法、生成装置、电子设备及存储介质，该方法包括：获取车内用户多维信息；获取车周多维场景信息；根据已训练的相似度模型将用户多维信息和车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征；基于用户专属音乐特征和已训练的深度学习模型生成第一音乐。本申请的方法，通过获取车内用户多维信息和车周多维场景信息，并根据车内用户多维信息和车周多维场景信息确定用户专属音乐特征，再基于用户专属音乐特征和已训练的深度学习模型生成贴合用户心境和用户所处场景的音乐。解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的问题。

Description

音乐生成方法、生成装置、电子设备及存储介质

技术领域

本申请涉及计算机领域技术，尤其涉及一种音乐生成方法、生成装置、电子设备及存储介质。

背景技术

行车过程中，用户保持同一姿势，精神高度集中，长时间目视前方，难免感觉枯燥。此时听觉上的享受，将缓解行程中的无聊乏味，结合心情与环境即兴创作的音乐，配合5D音乐座舱等新技术，将给用户带来优良的体验与惊喜。

现有技术中，在车载场景下，用户直接输入主题和风格，车载音乐引擎生成一段音乐。

然而，现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳。

发明内容

本申请提供一种音乐生成方法、生成装置、电子设备及存储介质，用以解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的技术问题。

第一方面，本申请提供一种音乐生成方法，所述方法包括：

获取车内用户多维信息；

获取车周多维场景信息；

根据已训练的相似度模型将所述用户多维信息和所述车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征；

基于所述用户专属音乐特征和已训练的深度学习模型生成第一音乐。

进一步地，获取车内用户多维信息，具体包括：

通过车载麦克风采集车内用户的语音信息；

通过车载摄像头采集车内用户的情绪信息。

进一步地，获取车周多维场景信息，具体包括：

通过车载预报系统采集车周场景的天气信息；

通过车载定位系统采集车周场景的位置信息。

进一步地，所述方法还包括：

获取多类型音乐数据；

基于已训练的预训练模型提取所述多类型音乐数据的特征向量；其中，所述特征向量包括：拍号、速度、小节、位置、乐器、音高以及时长；

基于分类模型对所述特征向量进行特征分类，将所述分类后的音乐特征存储到音乐特征库中。

进一步地，基于所述用户专属音乐特征和已训练的深度学习模型生成第一音乐之后，还包括：

基于调整算法调整所述第一音乐的节奏和播放速度，获得第二音乐。

第二方面，本申请提供一种生成装置，所述装置包括：

获取模块，用于获取车内用户多维信息；

所述获取模块，还用于获取车周多维场景信息；

处理模块，用于根据相似匹配度算法已训练的相似度模型将所述用户多维信息和所述车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征；

所述处理模块，还用于基于所述用户专属音乐特征和已训练的深度学习模型生成第一音乐。

进一步地，获取模块具体还用于：

通过车载麦克风采集车内用户的语音信息；

通过车载摄像头采集车内用户的情绪信息。

第三方面，本申请提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法。

本申请提供的音乐生成方法、生成装置、电子设备及存储介质，本方案中，通过获取车内用户多维信息和车周多维场景信息，并根据车内用户多维信息和车周多维场景信息确定用户专属音乐特征，再基于用户专属音乐特征和已训练的深度学习模型生成贴合用户心境和用户所处场景的音乐。解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的一种音乐生成方法的流程示意图；

图2为本申请实施例提供的另一种音乐生成方法的流程示意图；

图3为本申请实施例提供的一种获取音乐特征库方法的流程示意图；

图4为本申请实施例提供的再一种音乐生成方法的流程示意图

图5为本申请实施例提供的一种生成装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

针对上述问题，本申请实施例提供一种音乐生成方法、生成装置、电子设备及存储介质，旨在解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的技术问题。本申请的技术构思是：通过获取车内用户多维信息和车周多维场景信息，并根据车内用户多维信息和车周多维场景信息确定用户专属音乐特征，再基于用户专属音乐特征和已训练的深度学习模型生成贴合用户心境和用户所处场景的音乐。解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种音乐生成方法的流程示意图，如图1所示，该方法包括：

101、获取车内用户多维信息。

示例性地，本实施例的执行主体可以为电子设备、或者终端设备、或者音乐生成处理装置或设备、或者其他可以执行本实施例的装置或设备，对此不做限制。本实施例中以执行主体为电子设备进行介绍。

通过采集模块获取用户多维信息，采集模块包括：车载摄像头和车载麦克风，其中，用户信息可以包含用户画像，用户语音以及用户行为。用户画像主要考虑性别、年龄、过往爱好和偏好风格；用户语音主要涵盖用户此刻的情绪、语境以及语言内容；用户行为方面主要考虑用户此时用户自身行为及针对车内环境所执行的行为，如面部的情绪，肢体的动作，是否单人状态，及针对车身进行的操作和车内模式。本步骤中以车内用户多维信息的特征来确定风格及主题，便于后续生成贴合场景意境和车主心情的音乐。

102、获取车周多维场景信息。

示例性地，通过获取模块获取车周多维场景信息，获取模块包括：车载预报系统和车载定位系统，其中，车周多维场景包括车内外环境的时间信息、位置信息、及天气信息。

本步骤中以车周多维场景信息的特征来确定风格及主题，便于后续生成贴合场景意境和车主心情的音乐。

需要说明的是步骤101和102的逻辑顺序可以同时进行，也可以先后进行，在此不做限定，可任意顺序获取信息。

103、根据已训练的相似度模型将用户多维信息和车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征。

示例性地，将用户多维信息和车周多维场景信息输入到已训练的相似度模型，然后匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征。其中，已训练的相似度模型是已有的，可以是SimCSE模型；音乐特征库可以是直接利用已有的，也可以是经预训练模型提取大量音乐数据的特征而获得的；比如，匹配对应的特征，如“下雨，开心，跳舞的”最终匹配到的特征为“下雨，开心，舞曲”。

需要说明的是，SimCSE模型可以根据需求设定，在此不做限定。

104、基于用户专属音乐特征和已训练的深度学习模型生成第一音乐。

示例性地，通过“下雨，开心，舞曲”从音乐库中筛选出大量对应音乐及其表示，然后对对应音乐的表示利用已训练的深度学习模型进行组曲，生成一首新的音乐。其中，已训练的深度学习模型可以是diffusion model。

需要说明的是，diffusion model可以根据需求设定，在此不做限定。

示例性地，阳春三月，一位女车主携闺蜜驾车赴西湖郊游，两岸风景宜人，杨柳满长堤，花明路不迷，两位女士流连忘返，走走停停，此情此景，却无丝竹之乐，难免缺憾。一时想不到播放些什么音乐，女车主便对爱车说，能以此景创作一曲么。摄像头捕捉到车主携友同行，面露微笑，判断用户此刻心情愉悦，此时车外摄像头也拍到了外部照片，场景引擎也识别到当前天气为晴，将采集到的信息：女性、两人、十月、西湖、喜悦、晴天等，融为一体，再辅以当前20迈的车速，创作出一曲舒缓的中国风音乐，车外“乱花渐欲迷人眼”，车内“如听仙乐耳暂明”，心情愉悦的车主将拍到的美景配合音乐一键发送了车友圈，开启了一段互动。

本申请实施例中，通过获取车内用户多维信息和车周多维场景信息，并根据车内用户多维信息和车周多维场景信息确定用户专属音乐特征，再基于用户专属音乐特征和已训练的深度学习模型生成贴合用户心境和用户所处场景的音乐。解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的问题。

图2为本申请实施例提供的另一种音乐生成方法的流程示意图，如图2所示，该方法包括：

201、通过车载麦克风采集车内用户的语音信息。

示例性地，电子设备可以使用车载麦克风采集用户语音信息，其中用户语音主要涵盖用户此刻的情绪、语境以及语言内容；将收集的用户的语音信息转为文字序列，利用文本匹配提取文字序列中的目标特征，从而获得用户语音信息的情绪标签。比如，用户A在旅途中愉快地开车并要求播放一曲音乐，用户B在去上班的路上堵车并焦虑地要求播放一曲音乐，用户A和用户B是两个完全不同的情绪和语境。

202、通过车载摄像头采集车内用户的情绪信息。

示例性地，车内用户的情绪信息可以包括：用户画像信息和用户行为信息；电子设备可以通过车载摄像头和本地服务器采集用户画像信息，其中，用户画像信息主要考虑性别、年龄、过往爱好和偏好风格；将收集的用户画像信息输入到已训练的多模态预训练模型VisualBERT中，生成用户画像信息的情绪标签。比如，年轻的男性用户A在旅途中开车欢快的摇摆脑袋并要求播放一曲音乐，年级稍大的女性用户B在去上班的路上端庄的开车并要求播放一曲音乐，用户A和用户B是两个完全不同的性别、年龄、行为习惯。还可通过用户的面部的情绪识别得到用户当时的心情特征。其中，多模态预训练模型，可以是VisualBERT以视觉为基础的语言模型。

需要说明的是，VisualBERT模型可以根据需求设定，在此不做限定。

电子设备可以通过车载传感器和车载摄像头采集用户行为信息，其中，用户行为信息方面主要考虑用户此时用户自身行为及针对车内环境所执行的行为，如面部的情绪，肢体的动作，是否单人状态，及针对车身进行的操作和车内模式；将采集的用户行为信息通过多意图识别、动作姿态识别和手势识别技术直接获得用户行为信息的情绪标签。

203、通过车载预报系统采集车周场景的天气信息。

示例性地，车载预报系统可以包括：车载传感器和车载摄像头，电子设备可以使用车载传感器和车载摄像头采集车周天气场景，比如，用户A在下雨天中开车并要求播放一曲音乐，用户B在大晴天开车并要求播放一曲音乐，用户A和用户B是处于两个完全不同的天气场景；在获得车周天气场景的真实图像之后，利用第一已训练的深度卷积神经网络模型对车周天气场景的真实图像提取自然车周天气场景图像特征，进一步抽象成车周天气场景的场景标签。

204、通过车载定位系统采集车周场景的位置信息。

示例性地，电子设备可以通过车载定位系统和车载摄像头采集车周位置场景，比如，用户A在城区中开车并要求播放一曲音乐，用户B在山区开车并要求播放一曲音乐，用户A和用户B是处于两个完全不同的位置场景；在获得车周位置场景的真实图像之后，利用第二已训练的深度卷积神经网络模型对车周位置场景的真实图像提取自然车周位置场景图像特征，进一步抽象成车周位置场景的场景标签。

需要说明的是步骤201和204的逻辑顺序可以同时进行，也可以先后进行，在此不做限定，可任意顺序获取信息。

205、根据已训练的相似度模型将用户多维信息和车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征。

本步骤可以参见图1中的步骤103，不再赘述。

206、基于用户专属音乐特征和已训练的深度学习模型生成第一音乐。

本步骤可以参见图1中的步骤104，不再赘述。

本申请实施例中，通过获取车内用户多维信息和车周多维场景信息，其中，车内用户多维信息包括语音信息和情绪信息，车周多维场景信息包括天气信息和位置信息；并根据车内用户多维信息和车周多维场景信息确定用户专属音乐特征，确保深度学习模型对场景的全维度理解，再基于用户专属音乐特征和已训练的深度学习模型生成贴合用户心境和用户所处场景的音乐。解决现有模式下，车载音乐引擎生成的音乐固定且质化严重，不能够贴合用户心境和用户所处场景，导致用户体验感不佳的问题。

图3为本申请实施例提供的获取音乐特征库方法的流程示意图，如图3所示，该方法包括：

301、获取多类型音乐数据。

示例性地，为了能够开展大规模的预训练，电子设备可以构建一个大规模的多类型音乐数据集，其中，数据集包含上百万首音乐数据。

302、基于已训练的预训练模型提取多类型音乐数据的特征向量。

示例性地，首先是预训练模型，在模型选取上可以是MusicBERT，使用此模型用大规模音乐数据进行预训练，可以更好地理解音乐，并用于后续的情感分类、流派分类、旋律伴奏抽取和结构分析的任务。

需要说明的是，MusicBERT模型可以根据需求设定，在此不做限定。

在获取到多类型音乐数据集之后，使用OctupleMIDI编码方式提取多类型音乐数据的特征向量，其中含有多种基本的token；然后采用BERT的Masked Language Modeling训练方式，采用了bar-level的掩码策略，即一次性掩盖一个小节内相同类型的token，以防止信息泄露。

需要说明的是，OctupleMIDI编码方式可以根据需求设定，在此不做限定。

MusicBERT模型结构采用了基本的Transformer，同时在模型的输入和输出上针对OctupleMIDI的编码做了一些特殊的设计——输入时将8个token的embedding拼接后通过一个线性层映射到模型的隐层维度，在输出时接8个softmax矩阵分别预测相应的token。

303、基于分类模型对特征向量进行特征分类，将分类后的音乐特征存储到音乐特征库中。

示例性地，将多类型音乐数据的特征向量作为分类模型的输入，其中，分类模型可以是支持向量机；分类模型分类输出不同的音乐特征；比如，输出情绪特征与曲风特征，如中国风，民族风，西洋古典等。其中，特征向量包括：拍号、速度、小节、位置、乐器、音高以及时长；并将分类后的音乐特征存储到音乐特征库中，以便后续用户在生成最终音乐之前的音乐特征的匹配。

本申请实施例中，首先获取多类型音乐数据；再基于已训练的预训练模型提取多类型音乐数据的特征向量；其中，特征向量包括：拍号、速度、小节、位置、乐器、音高以及时长；最后，基于分类模型对特征向量进行特征分类，将分类后的音乐特征存储到音乐特征库中，以便后续用户在生成最终音乐之前的音乐特征的匹配。

图4为本申请实施例提供的再一种音乐生成方法的流程示意图，如图4所示，该方法包括：

401、获取车内用户多维信息。

本步骤可以参见图1中的步骤101，不再赘述。

402、获取车周多维场景信息。

本步骤可以参见图1中的步骤102，不再赘述。

403、根据已训练的相似度模型将用户多维信息和车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征。

本步骤可以参见图1中的步骤103，不再赘述。

404、基于用户专属音乐特征和已训练的深度学习模型生成第一音乐。

本步骤可以参见图1中的步骤104，不再赘述。

405、基于调整算法调整第一音乐的节奏和播放速度，获得第二音乐。

示例性地，为了使生成的音乐播放速度和节奏更能贴合行车场景，电子设备添加了转向、车速、档位相关特征，基于调整算法来对第一音乐的播放速度和节奏来做调整，生成第二音乐，即最终音乐。其中，调整算法可以是已有的调整深度学习算法，比如，以60km/h为基准，当车速大于该速度的时候，会按照一定的比例加快播放速度；当检测到大幅度转向或者提档行为，在当前播放小节提高音量，并加重节奏。

本申请实施例中，通过增加转向、车速、档位的车况特征，用以控制第一音乐旋律的节奏和速度，确保深度学习模型对场景的全维度理解，使得最终生成的第二音乐更匹配当前场景。

图5为本申请实施例提供的一种生成装置的结构示意图，如图3所示，该生成装置500包括：

获取模块501，用于获取车内用户多维信息；

获取模块501，还用于获取车周多维场景信息；

处理模块502，用于根据已训练的相似度模型将用户多维信息和车周多维场景信息匹配到分类后的音乐特征库中的音乐特征，确定用户专属音乐特征；

处理模块502，还用于基于用户专属音乐特征和已训练的深度学习模型生成第一音乐。

在一个实施例中，获取模块501，还具体用于：

通过车载麦克风采集车内用户的语音信息；

通过车载摄像头采集车内用户的情绪信息。

在一个实施例中，获取模块501，还具体用于：

通过车载预报系统采集车周场景的天气信息；

通过车载定位系统采集车周场景的位置信息。

在一个实施例中，

获取模块501，还用于获取多类型音乐数据；

处理模块502，用于基于已训练的预训练模型提取多类型音乐数据的特征向量；其中，特征向量包括：拍号、速度、小节、位置、乐器、音高以及时长；

处理模块502，还用于基于分类模型对特征向量进行特征分类，将分类后的音乐特征存储到音乐特征库中。

在一个实施例中，

处理模块502，还用于基于调整算法调整第一音乐的节奏和播放速度，获得第二音乐。

本实施例的装置，可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

图6为本申请实施例提供的一种电子设备的结构示意图，如图6所示，电子设备600包括：存储器601和处理器602；

其中，存储器601用于存储处理器可执行的计算机指令；

处理器602在执行计算机指令时实现上述实施例中方法中的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地，上述存储器601既可以是独立的，也可以跟处理器602集成在一起。当存储器601独立设置时，该检测设备还包括总线，用于连接存储器601和处理器602。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例提供的方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种音乐生成方法，其特征在于，所述方法包括：

获取车内用户多维信息；

获取车周多维场景信息；

2.根据权利要求1所述的方法，其特征在于，获取车内用户多维信息，具体包括：

通过车载麦克风采集车内用户的语音信息；

通过车载摄像头采集车内用户的情绪信息。

3.根据权利要求2所述的方法，其特征在于，获取车周多维场景信息，具体包括：

通过车载预报系统采集车周场景的天气信息；

通过车载定位系统采集车周场景的位置信息。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多类型音乐数据；

5.根据权利要求4所述的方法，其特征在于，基于所述用户专属音乐特征和已训练的深度学习模型生成第一音乐之后，还包括：

6.一种生成装置，其特征在于，所述装置包括：

获取模块，用于获取车内用户多维信息；

所述获取模块，还用于获取车周多维场景信息；

7.根据权利要求6所述的装置，其特征在于，获取模块具体还用于：

通过车载麦克风采集车内用户的语音信息；

通过车载摄像头采集车内用户的情绪信息。

8.一种电子设备，其特征在于，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-5任一项所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法。