CN110853675A

CN110853675A - 一种音乐联觉绘画的装置及其实现方法

Info

Publication number: CN110853675A
Application number: CN201911016122.9A
Authority: CN
Inventors: 黄文恺; 余铭锋; 陈代晟; 温泉河; 黎东鹏; 麦华明; 黄钦炫; 谭政超
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-28

Abstract

本发明公开了一种音乐联觉绘画的装置及其实现方法，装置包括音频文件获取模块，用于获取音频数据文件；A/D模数转换模块，用于将音频数据文件转换为数字信号；数字信号整理和分析模块，用于通过BP神经网络对数字信号进行分析，生成图画；数据处理模块，用于根据数字信号整理和分析模块的分析结果，触发工作信号；绘画机构，用于根据数据处理模块的工作信号，进行绘画操作；图画导出模块，用于导出绘画机构作出的图画。本发明实现了将音乐中的情感通过机器转化为绘画的功能，增强了人机交互性，丰富了情感表达，弥补了音乐与绘画两者在机器上联系的空缺，可广泛应用于人机交互技术领域。

Description

一种音乐联觉绘画的装置及其实现方法

技术领域

本发明涉及人机交互技术领域，尤其是一种音乐联觉绘画的装置及其实现方法。

背景技术

绘画，就是在纸上描绘出图画的意思，通常用于艺术品的绘制，绘画就是绘制图画。在日常生活中，绘画不仅需要纸笔和颜料等工具，而且还需要绘画者的艺术细胞和绘画能力。这使得绘画对于缺乏艺术细胞和绘画能力的人群是可望而不可即的。为了解决该问题，需要计算机辅助绘画。

情感表达的方式有声音、表情和动作等，通过该机器的绘画将声音(音乐)中的情感在纸张中表达出来。然而在现有技术无法将音乐中的情感通过机器转化为绘画。

发明内容

有鉴于此，本发明实施例提供一种人机交互性强、情感表达丰富的音乐联觉绘画的装置及其实现方法。

第一方面，本发明实施例提供了一种音乐联觉绘画的装置，包括：

音频文件获取模块，用于获取音频数据文件；

A/D模数转换模块，用于将音频数据文件转换为数字信号；

数字信号整理和分析模块，用于通过BP神经网络对数字信号进行分析，生成图画；

数据处理模块，用于根据数字信号整理和分析模块的分析结果，触发工作信号；

绘画机构，用于根据数据处理模块的工作信号，进行绘画操作；

图画导出模块，用于导出绘画机构作出的图画。

进一步，还包括：

USB数据读取模块，用于读取音频文件获取模块获取到的音频数据文件，并将其提供给A/D模数转换模块；

数据存储模块，用于存储获取到的音频数据文件；

显示屏，用于展示数字信号整理和分析模块生成的图画。

进一步，所述绘画机构包括：

纸张传送模块，用于根据数据处理模块的工作信号，将纸张从储纸盒传送到绘画板上；

颜料抽取模块，用于根据数据处理模块的工作信号，将颜料从颜料盒中抽取出来；

颜料喷涂模块，用于根据数据处理模块的工作信号，将颜料喷涂在绘画板上的纸张；

直流电机，用于在数据处理模块的工作信号下控制双轴型导轨上的滑块移动，以控制颜料喷涂模块的喷涂轨迹。

进一步，所述音频文件获取模块由麦克风、LM386音频功率放大器以及连接麦克风和LM386音频功率放大器的外围电路组成。

进一步，所述A/D模数转换模块由ADC0832芯片以及ADC0832芯片的外围电路组成。

进一步，所述纸张传送模块包括齿轮，电机、搓纸轮、搓纸辊以及摩擦片；所述储纸盒位于绘画板正下方；

所述颜料抽取模块包括水泵、塑料软管，以及水泵与数据处理模块之间的连接电路，所述水泵用于抽取颜料。

第二方面，本发明实施例提供了一种音乐联觉绘画的实现方法，包括以下步骤：

提取音频数据文件；

将音频数据文件转换为数字信号；

通过BP神经网络对数字信号进行分析，生成图画；

根据数字信号整理和分析模块的分析结果，触发工作信号；

根据数据处理模块的工作信号，进行绘画操作；

导出绘画操作得到的图画。

进一步，所述提取音频数据文件这一步骤，包括以下步骤：

对获取到的音频信号进行预加重处理；

对预加重处理后的音频信号进行分帧处理；

对分帧处理后的音频信号进行加窗处理；

对加窗处理后的音频信号进行傅里叶变换处理；

对傅立叶变换处理后的音频信号进行滤波处理；

根据滤波处理的结果进行离散余弦变换，得到Mel频率倒谱系数；

根据Mel频率倒谱系数得到音频信号的音频特征参数。

进一步，还包括构建情感分类模型的步骤，所述构建情感分类模型的步骤包括以下步骤：

从乐库中获取音乐进行情感模型训练；

根据乐库中的音乐对训练得到情感模型进行测试；

基于测试合格后的情感模型，选取音乐进行分析，得到特征向量，所述特征向量包括音长、音强和音高；

通过BP神经网络构建识别模型，将特征向量输入识别模型后，得到情感识别结果。

进一步，所述识别模型为Hevner情感模型。

上述本发明实施例中的一个或多个技术方案具有如下优点：本发明的实施例通过获取音频数据文件，然后基于BP神经网络对转换得到的数字信号进行分析，生成图画，进而触发工作信号控制绘画机构进行绘画操作，最终导出基于音频数据文件的图画；本发明实现了将音乐中的情感通过机器转化为绘画的功能，增强了人机交互性，丰富了情感表达，弥补了音乐与绘画两者在机器上联系的空缺。

附图说明

图1为本发明实施例的装置的整体结构示意图；

图2为本发明实施例的装置的下底座结构示意图；

图3为本发明实施例的装置的上底座结构示意图；

图4为本发明实施例的电路板表面结构示意图；

图5为本发明实施例的音乐情感识别流程图；

图6为本发明实施例的音乐特征参数提取流程图；

图7为本发明实施例的装置的数据处理模块的电路图；

图8为本发明实施例的纸张传送模块的电路原理图；

图9为本发明实施例的出纸模块的电路原理图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1、图2、图3和图4所示，本发明实施例提供了一种音乐联觉绘画的装置，包括绘画机主体1，该绘画机主体包括音频文件获取模块，A/D模数转换模块，数字信号整理和分析模块，数据处理模块，绘画机构，图画导出模块；

所述音频文件获取模块由声音采集模块2和USB数据读取模块3组成，所获取到的声音数据通过数据储存模块4进行储存，对于外部播放源的音乐，由于外部音乐的幅度一般较弱，本实施例通过Atemega328p单片机18控制录音子系统对原信号进行放大采集之后才能送入A/D转换器5(该过程即为从模拟信号转换成数字信号)；本实施例采用芯片设计音频放大电路进行采样和编码(其中，本实施例采用的lm386是一种音频集成功放，广泛用于录音机的芯片)；最终经过A/D转换变为wav音频格式，再通过数字信号整理和分析模块6进行分析进而形成图画，本实施例的图画在TFT显示屏7中显示出来，数据处理模块产生工作信号，先控制纸张传送模块9将纸张从储纸盒10传送到绘画板11，再控制颜料抽取模块12将颜料从颜料盒13中抽取出来，带动颜料喷涂模块14工作和驱动双轴型导轨15上的直流电机16来控制滑块的移动，绘画完成后，图画导出图画模块运行，将绘图画从绘画板11中导出来。

进一步作为优选的实施方式，对于外部播放源的音乐，由于外部音乐的幅度一般较弱，通过Atemega328p单片机18控制录音子系统对原信号进行放大采集之后才能送入A/D转换器5(从模拟信号转换成数字信号)，采用LM386芯片6设计音频放大电路(lm386是一种音频集成功放，广泛用于录音机)进行采样和编码，最终经过A/D转换变为wav音频格式。

进一步作为优选的实施方式，所述声音采集模块为一个或多个的麦克风、LM386音频功率放大器以及连接麦克风和LM386音频功率放大器的外围电路；

所述USB数据读取模块3包括一个USB3.0接口以及连接USB接口和数据储存模块4的外围电路；

所述数据储存模块包括内置SD卡以及外围接口电路；

所述A/D模数转换模块包括ADC0832芯片以及外围电路；

所述数字信号整理和分析模块为内置的Atemega328p单片机18；

所述显示屏7为一块嵌于绘画机主体外壳的TFT显示屏；

所述纸张传送模块包括齿轮，电机、搓纸轮、搓纸辊以及摩擦片；

所述储纸盒10位于画板11正下方；

所述绘画板11位于绘画机下底座的正上面；

所述颜料抽取模块12包括用于抽取颜料的水泵，连接水泵和Atemega328p单片机18的电路以及连接水泵的塑料软管；

所述颜料盒13位于绘画机主体一侧的四个塑料盒子；

所述颜料喷涂模块14包括喷头、连接喷头与水泵的塑料软管以及固定喷头的滑块；

所述双轴型导轨15位于画板11与颜料盒13中间，导轨上的滑块由直流电机16进行驱动，本实施例的直流电机的型号为L298N；

本装置对数据处理后，能够获得以下信息：

(1)通过声音采集模块2获取用户现场歌唱的音频资料和通过USB数据读取模块3读取用户上传的音频文件；

(2)在A/D模数转换模块将音频文件转化为数字信号后，数据整理和分析模块读取数字信号，分析音乐的音调、音色和旋律来确定图画的颜色、风格以及所表达出的情感；

为了研究音乐和情感之间的关系，本实施例通过建立情感模型对音乐的情感进行训练和推理，例如使用Hevner情感模型，具体过程如图5所示：

不同音乐或者同一首音乐都会随乐曲的演奏从而给人不同的情感体验。本装置的音乐情感识别是在一定的音乐模型上建立的，音乐是由若干小节的乐段构成，通过对乐段分解得到音乐每一片段的音长、强和音高三个特征向量。

本实施例首先构建3层的BP神经网络作为识别模型，通过输入解析乐段得到的三维向量，分别是音高，音长，音强作为输入，输入层节点为3。

输出结果为音乐的情感识别结果，根据Hevner模型将音乐分为神圣、悲伤、向往、抒情等八种类型，因此输出层节点为3。

根据Kolmogorov定理可以计算得到隐藏层节点数为7，则构建的BP网络结构为3×7×3。其中隐藏层和输出层的激活函数选择Sigmoid函数。通过预设数量的音乐对模型进行训练，将误差控制在一定范围内，可以保证对音乐情感识别的准确度。总体分析过程如图7所示。

根据以上的原理，如图6所示，本实施例实行以下步骤：

提取音乐特征参数的过程：

音乐信号波形的频谱、幅度、时间、频率等等与音乐的音高、音强、音长等等密不可分，在处理音频信号前先进行预处理排除一些干扰，再对频谱进行分析获得各个特征向量：

具体包括以下步骤：

一、预处理：

预加重：预加重处理其实是将音频信号通过一个高通滤波器：预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，突出高频的共振峰。

分帧：先将N个采样点集合成一个观测单位，称为帧。

加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

二、快速傅里叶变换(FFT)：由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同声音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。获取每一帧波形的平均幅度作为音强的向量，简单地将波形两个高峰之间的时间作为音长的向量。

三、Mel滤波：将能量谱通过一组Mel尺度的三角形滤波器组，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。

四、计算每个滤波器组输出的对数能量。

五、经离散余弦变换(DCT)得到Mel频率倒谱系数(MFCC)。在语音识别处理方面，最常用到的语音特征就是MFCC。可以区分了音高音色等音乐基本乐理，每一帧的MFCC在这里作为音高向量的主要参数。

六、每一帧的三个参数组成一个特征向量P(音高、音强、音长)，整段音乐的多个特征向量组成一个组。

另外，本实施例的装置主要由Atemega328p单片机、L298N电机驱动模块、PL2303USB转串口驱动等部分构成，能实现接收外界声音和读取音频文件并对其进行分析产生图像在显示屏中显示，同时提供打印功能。

具体的，如图8所示，其中有Atemega328p单片机、L298N电机驱动模块、5个电机。Atemega328p单片机根据处理结果选择绘图所需的颜色并控制电机1至4抽取颜料并通过喷口喷出颜料，同时控制电机5使滑轨上的滑块改变位置同时直至绘图结束。

如图7所示，其中有Atemega328p单片机、PL2303USB转串口驱动、USB接口、TFT显示屏、声音接收器器。机器开始工作，首先通过声音接收器接收外部声音或者通过USB接口接受音频文件传送给Atemega328p单片机，单片机处理接收到的声音或音频文件形成图画并显示在TFT显示屏中。如图7所示，Atemega328p单片机通过PL2303USB转串口驱动实现通过USB进行音频文件的读取。

如图9所示，其中有Atemega328p单片机、L298N电机驱动模块、电机。若要打印，则由Atemega328p单片机控制电机6，使其运作传送纸张。Atemega328p单片机驱动电机首先输送信号至L298N电机驱动模块，L298N电机驱动模块在根据信号驱动电机工作。

如图1-4所示，本实施例的绘画机主体的外壳的形状为长方体。

另外，本发明还提供了一种音乐联觉绘画的实现方法，包括以下步骤：

提取音频数据文件；

将音频数据文件转换为数字信号；

通过BP神经网络对数字信号进行分析，生成图画；

根据数字信号整理和分析模块的分析结果，触发工作信号；

根据数据处理模块的工作信号，进行绘画操作；

导出绘画操作得到的图画。

进一步作为优选的实施方式，所述提取音频数据文件这一步骤，包括以下步骤：

对获取到的音频信号进行预加重处理；

对预加重处理后的音频信号进行分帧处理；

对分帧处理后的音频信号进行加窗处理；

对加窗处理后的音频信号进行傅里叶变换处理；

对傅立叶变换处理后的音频信号进行滤波处理；

根据Mel频率倒谱系数得到音频信号的音频特征参数。

进一步作为优选的实施方式，还包括构建情感分类模型的步骤，所述构建情感分类模型的步骤包括以下步骤：

从乐库中获取音乐进行情感模型训练；

根据乐库中的音乐对训练得到情感模型进行测试；

进一步作为优选的实施方式，所述识别模型为Hevner情感模型。

综上所述，本发明实现了将音乐中的情感通过机器转化为绘画的功能，增强了人机交互性，丰富了情感表达，弥补了音乐与绘画两者在机器上联系的空缺。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种音乐联觉绘画的装置，其特征在于：包括：

音频文件获取模块，用于获取音频数据文件；

A/D模数转换模块，用于将音频数据文件转换为数字信号；

图画导出模块，用于导出绘画机构作出的图画。

2.根据权利要求1所述的一种音乐联觉绘画的装置，其特征在于：还包括：

数据存储模块，用于存储获取到的音频数据文件；

显示屏，用于展示数字信号整理和分析模块生成的图画。

3.根据权利要求1所述的一种音乐联觉绘画的装置，其特征在于：所述绘画机构包括：

4.根据权利要求1所述的一种音乐联觉绘画的装置，其特征在于：所述音频文件获取模块由麦克风、LM386音频功率放大器以及连接麦克风和LM386音频功率放大器的外围电路组成。

5.根据权利要求1所述的一种音乐联觉绘画的装置，其特征在于：所述A/D模数转换模块由ADC0832芯片以及ADC0832芯片的外围电路组成。

6.根据权利要求3所述的一种音乐联觉绘画的装置，其特征在于：

所述纸张传送模块包括齿轮，电机、搓纸轮、搓纸辊以及摩擦片；所述储纸盒位于绘画板正下方；

7.一种音乐联觉绘画的实现方法，其特征在于：包括以下步骤：

提取音频数据文件；

将音频数据文件转换为数字信号；

通过BP神经网络对数字信号进行分析，生成图画；

根据数字信号整理和分析模块的分析结果，触发工作信号；

根据数据处理模块的工作信号，进行绘画操作；

导出绘画操作得到的图画。

8.根据权利要求7所述的一种音乐联觉绘画的实现方法，其特征在于：所述提取音频数据文件这一步骤，包括以下步骤：

对获取到的音频信号进行预加重处理；

对预加重处理后的音频信号进行分帧处理；

对分帧处理后的音频信号进行加窗处理；

对加窗处理后的音频信号进行傅里叶变换处理；

对傅立叶变换处理后的音频信号进行滤波处理；

根据Mel频率倒谱系数得到音频信号的音频特征参数。

9.根据权利要求7所述的一种音乐联觉绘画的实现方法，其特征在于：还包括构建情感分类模型的步骤，所述构建情感分类模型的步骤包括以下步骤：

从乐库中获取音乐进行情感模型训练；

根据乐库中的音乐对训练得到情感模型进行测试；

10.根据权利要求9所述的一种音乐联觉绘画的实现方法，其特征在于：所述识别模型为Hevner情感模型。