CN108615536B

CN108615536B - 基于麦克风阵列的时频联合特征乐器音质评价系统及方法

Info

Publication number: CN108615536B
Application number: CN201810313228.4A
Authority: CN
Inventors: 韦岗; 严轲; 曹燕
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2020-12-22
Anticipated expiration: 2038-04-09
Also published as: CN108615536A

Abstract

本发明提出基于麦克风阵列的时频联合特征乐器音质评价系统及方法。该系统包括麦克风阵列模块、硬件预处理模块和时频联合评价模块；通过麦克风阵列采集乐器传播到不同位置处的立体声场声波信号，随后提取不同麦克风采集信号之间的关系作为声波信号时域特征值，以及各个麦克风采集信号的频域特征值，各自训练神经网络模型，然后通过生成的模型来自动对需要评价的乐器进行音质上的评价，获得评价结果。本系统采用对同一曲目不同麦克风所采集的声波信号作互相关来提取阵列相关时域特征，反应了声场的特性，另外采用时频联合特征来判断音质，可以提高评价的准确率。神经网络的自动评价节省了主观人力资源。

Description

基于麦克风阵列的时频联合特征乐器音质评价系统及方法

技术领域

本发明属于音乐学和信息科学的交叉技术领域，特别涉及基于麦克风阵列的时频联合特征乐器音质评价系统及方法。

背景技术

随着物质生活水平的不断提升，人们对精神生活的需求日益增加，其中，音乐艺术在人们的精神生活中所占的比重也越来越大，而乐器演奏则是作为音乐产生的重要一环。乐器的价位区间从低档到高档往往千差万别。如何去客观地评价同一价位乐器的音质，这是当前面临的问题。

乐器演奏出的音质的好坏，是用于评价乐器价位水平高低的最重要依据之一。影响乐器音质的主要因素包括有乐器本身的品质、乐器结构上的差异以及演奏者对同一种乐器的把控能力。当前乐器的音质评价方面完全依赖于人工的主观判断，一般乐器行有专业人员，对同一个价位的乐器，通过多人演奏反复做对比，得出判断的结果。主观判断往往能对特定乐器的不足提出很中肯的意见，但是，这样的缺点也是显而易见，评审人的审美疲劳，参考标准的变化，以及现场的环境变化都能影响到评审人的评判。此外，专业人员的缺失导致人力的高昂成本也是不可小视的问题。

乐器弹奏时，不同位置的观众一般会有不一样的听觉感官，这是因为声波按声源的辐射特性向各个方向不受阻碍和干扰地传播，也就有了声场的概念。目前，对于声场分布的探索，主流的方法都是倾向于麦克风阵列的研究，阵列一般用3到5个单声道麦克风组成，这种麦克风对于基本的声场定源等是足够的，但对于乐器演奏时的分布状态，显然，更多的麦克风，更合适的排布组成的阵列才更能提取出声场的时域特性。

音质评价主要应用在音响的生产领域上。主流的评判方法一般是通过提取音频的频率畸变，频率响应，输出波形的包络作为特征值，判断标准对应频率响应曲线是否平直，波形包络和乐器的音频特征接近程度等多方面。目前时域上的研究主要是基于单声道和双声道的采集数据，而没有进一步的考虑麦克风阵列采集到的信号之间的时域特征提取。另外，频域也反应了信号在不同频率分量成分的大小，同一种乐器不同品质在不同频率段上的能量各不相同。所以，若将这两者相结合能更显著的描述声场的特征。

神经网络天生具备拟合任何复杂数据的特点，因此神经网络的拟合能力很强，同时，由于神经网络的参数众多，可以通过调节参数得到比传统方法更好的结果。因此通过神经网络来拟合提取的时频特征生成评价模型是一个不错的选择。

相比现有的以主观评价为主的评价方法，本方法无需对特定乐器本身的音频特征做过多研究，通过结合神经网络，使计算机能够运用提取的时频特性自动耦合出结果，鲁棒性强，实现简单。

发明内容

针对现实生活中遇到的对乐器音质评价标准不一，以及同一价位的乐器不知如何选择的情况，本发明提出一种基于麦克风阵列的时频联合特征乐器音质评价系统，该系统通过麦克风阵列采集乐器声波信号，随后通过提取信号相应的时域、频域特征值的方法传入神经网络，获得评价模型，然后通过生成的模型来自动对需要评价的乐器进行音质上的评价，获得评价结果。

基于麦克风阵列的时频联合特征乐器音质评价系统，其包括麦克风阵列模块、硬件预处理模块和时频联合评价模块；麦克风阵列模块用于乐器演奏时的声波信号采集，硬件预处理模块用于把采集的电信号转数字信号以及前置放大滤波，时频联合评价模块主要生成神经网络模型，并通过模型判断乐器的音质；时频联合评价模块包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元。

进一步的，麦克风阵列模块由多组麦克风、支架组成；每个麦克风采集所在点的声波信号，并通过连接电路把收到的电信号传输到硬件预处理模块。

进一步的，通过多组支架对麦克风进行安放和调节。

进一步的，硬件预处理模块将串口、控制芯片、独立存储单元、滤波放大电路集成在同一个集成电路板中，目的是将传入的电信号转化为数字信号；连接在板上的多个麦克风所传入的电信号，通过前置滤波放大，获得预处理的信号，随后每块电路板通过控制芯片内置程序通过数模转换，把得到的电信号转化为数字信号；因为控制芯片通常将连接在同一个硬件预处理模块上的多路麦克风采集的信号解析在一组信号里，因此把生成的一组数字信号称为预处理数字信号组，并将预处理数字信号组存入每个电路板自带的独立存储单元中；为了提升信噪比，获取更理想的信号，在前置放大滤波电路后还有一个小的滑动变阻器，可以放大或缩小信号。

进一步的，时频联合评价模块的信号重组降噪单元主要连接硬件预处理模块，从每个硬件预处理模块的独立存储单元中导出各自生成的预处理数字信号组，通过对每一组预处理数字信号进行拼接和分帧，组合后生成可播放的音频文件，每个音频文件对应了一个麦克风单元；随后对生成好的音频文件降噪，去除采集时带入的白噪声和环境噪声。

进一步的，时频联合评价模块的声场时域特征值提取单元主要用于提取降噪后的音频文件的阵列相关时域特征值；同一种乐器在一次弹奏时采用n个麦克风同时采集，所得数据作为一组音频；根据声场分布的特性，这些不同位置的麦克风采集的声波信号是不同的；因为采集是同时进行的，对一组音频求取同一段时间内的两个音频之间的相关系数，最终组成一个n*n的相关系数矩阵；相关系数能够反映声场不同位置声波信号的相关性，即是能够反映出声场的时域特征，相关系数维度较大，需要进一步的降维，即需要对求得的矩阵求取特征值，一组特征值对应了乐器的一次演奏，反映了一次演奏的阵列相关时域特征。

进一步的，时频联合评价模块的频域特征值提取单元主要用于提取降噪后的音频文件的频域特征值；频率特征值选用较为常规的特征值提取方法，反映声场频域特征。

进一步的，时频联合评价模块的神经网络评价单元主要是对以上生成的特征值做标注后训练得到评价模型以及对需要评价的乐器音频求取评价结果；建立两个神经网络模型，一个用于时域的分析，一个用于频域的分析，当传入的是经过标注的训练数据时，将上面所得的特征值放入神经网络进行训练，通过参数的调整获得较为满意的评价模型；当传入的是未经评价的音频数据的时频特征时，通过对相应的时、频两个神经网络分别得出的结果求取平均值，便得到最终评价结果。

基于上述的基于麦克风阵列的时频联合特征乐器音质评价系统步骤如下：

模型训练部分步骤如下：

（1）乐器演奏时，按照声场的特性，以一定弧度安放和调整麦克风阵列，通过多路麦克风获得声场的最佳状态，同时麦克风连接硬件预处理模块。

（2）麦克风连接好硬件预处理模块后，打开硬件预处理模块的独立电源，这时麦克风阵列开始录音采集工作，采集特定时长的乐器演奏结果，通过内置控制芯片的处理，把得到的电信号转化为预处理数字信号组存入硬件预处理模块独立存储单元中。

（3）时频联合评价模块的信号重组降噪单元在收到预处理数字信号组文件夹后，对每组预处理数字信号文件进行信号重组，生成对应麦克风采集的可播放音频文件，这时的音频含有环境噪声，随后对音频进行降噪处理，处理后的音频声音清晰可辨。

（4）时频联合评价模块的声场时域特征值提取单元对于传入的同一组降噪后的音频，两两求得之间的相关系数，一组n个麦克风最终组成一个n*n的相关系数矩阵。对矩阵求特征值进行降维，求得的n个特征值便是提取的阵列相关时域特征。

（5）时频联合评价模块的频域特征值提取单元提取降噪后的音频文件的频域特征值。频率特征值选用较为常规的特征值提取方法作为音频的频域特征。

（6）分别接收提取的阵列相关时域特征值，频域特征值，并标注好每个特征值对应的乐器的音质评价结果，分别对应传入建立好的时、频训练神经网络中，调整参数，使得耦合出的评价模型结果达到理想状态，得到最终的神经网络评价模型。

乐器音质评价部分步骤如下：

（1）到（5）与模型训练部分相同。

（6）把处理得到的时域和频域特征分别传入模型训练后生成的时域和频域模型中，分别得到时域和频域的评价数值，最后对两个数值求取平均值得到系统的最后评价结果。

与现有技术相比，本发明具有以下优点：

（1）以往音乐数据采集仅通过单通道或双通道麦克风，无法将乐器的立体声数据考虑进去。本系统采集使用的是多麦克风组成阵列，通过多个麦克风一组，使得能够更好的采集到较为全面的声场信息。

（2）把麦克风阵列采集的声波信号，在软件上分析其互相关特性，进而提取声场时域特征。以往音质评价中都是基于单一信号采集源的时域特征，而没有运用不同信号采集源之间的关系作为声波信号时域特征值的研究，本系统采用对同一曲目不同麦克风所采集的声波信号作互相关来提取阵列相关时域特征，反应了声场的特性。

（3）本发明另外对每个麦克风路采集的声波信号提取了频域特征值，针对麦克风阵列相关时域特征和各个麦克风对应声波信号的频域特征各自训练神经网络模型，这样采用时频联合特征来判断音质，可以提高评价的准确率。

（4）人工智能如今已快速的进入到各个产业之中，通过简单调节一些不可控的因素，极大地解放了人力。本系统采用的神经网络的目的便在于评价乐器音质的时候节省有限的主观人力资源。

附图说明

图1是实施例的基于麦克风阵列的时频联合特征乐器音质评价系统结构框图

图2是实例中模型训练流程图。

图3是实例中音质评价流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明，但本发明的实施和保护不限于此。

基于麦克风阵列的时频联合特征乐器音质评价系统具体包括麦克风阵列模块、硬件预处理模块和时频联合评价模块。麦克风阵列模块主要用于乐器演奏时的声波信号采集，硬件预处理模块主要用于采集的电信号转数字信号以及前置放大滤波，时频联合评价模块主要生成神经网络模型，并通过模型判断乐器的音质。时频联合评价模块包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元。

所述的麦克风阵列模块由多组麦克风、支架组成。每个麦克风采集所在点的声波信号，并通过连接电路把收到的电信号传输到硬件预处理模块。为了能更好的测量声场，可以通过多组支架对麦克风进行安放和调节。

所述的硬件预处理模块将串口、控制芯片、独立存储单元、滤波放大电路等集成在同一个集成电路板中，目的是将传入的电信号转化为数字信号。连接在板上的多个麦克风所传入的电信号，通过前置滤波放大，获得预处理的信号，随后每块电路板通过控制芯片内置程序通过数模转换，把得到的电信号转化为数字信号。因为控制芯片通常将连接在同一个硬件预处理模块上的多路麦克风采集的信号解析在一组信号里，因此可以把生成的一组数字信号称为预处理数字信号组，并将预处理数字信号组存入每个电路板自带的独立存储单元中。为了提升信噪比，获取更理想的信号，在前置放大滤波电路后还有一个小的滑动变阻器，可以放大或缩小信号。

所述的时频联合评价模块的信号重组降噪单元主要连接硬件预处理模块，从每个硬件预处理模块的独立存储单元中导出各自生成的预处理数字信号组，通过软件单元对每一组文件进行拼接和分帧，组合后生成可播放的音频文件，每个音频文件对应了一个麦克风单元。随后对生成好的音频文件降噪，去除采集时带入的白噪声和环境噪声。

所述的时频联合评价模块的声场时域特征值提取单元主要用于提取降噪后的音频文件的阵列相关时域特征值。同一种乐器在一次弹奏时采用n个麦克风同时采集，所得数据作为一组音频。根据声场分布的特性，这些不同位置的麦克风采集的声波信号是不同的。因为采集是同时进行的，可以对一组音频求取同一段时间内的两个音频之间的相关系数，最终组成一个n*n的相关系数矩阵。相关系数能够反映声场不同位置声波信号的相关性，即是能够反映出声场的时域特征，但是维度较大，因此需要进一步的降维，这就需要对求得的矩阵求取特征值，一组特征值对应了乐器的一次演奏，反映了一次演奏的阵列相关时域特征。

所述的时频联合评价模块的频域特征值提取单元主要用于提取降噪后的音频文件的频域特征值。频率特征值选用较为常规的特征值提取方法，反映声场频域特征。

所述的时频联合评价模块的神经网络评价单元主要是对以上生成的特征值做标注后训练得到评价模型以及对需要评价的乐器音频求取评价结果。建立两个神经网络模型，一个用于时域的分析，一个用于频域的分析，当传入的是经过标注的训练数据时，将上面所得的特征值放入神经网络进行训练，通过参数的调整获得较为满意的评价模型。当传入的是未经评价的音频数据的时频特征时，通过对相应的时、频两个神经网络分别得出的结果求取平均值，便得到最终评价结果。

如图1所示，是本实例实现基于麦克风阵列的时频联合特征乐器音质评价系统的总体结构框图。由三部分组成：一是麦克风阵列模块，包括多组麦克风；二是硬件预处理模块，包括了前置放大滤波电路、独立存储单元、控制芯片和独立电源，用来对麦克风采集的电信号滤波、放大，以及转换成需要的数字信号；三是时频联合评价模块，包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元，用于对采集的信号降噪，获得清晰的乐器弹奏音频后分别提取其时域和频域特征，传入神经网络生成评价模型，再对需要评价的音频进行音质评价分析。

如图2所示，是本发明实现基于麦克风阵列的时频联合特征乐器音质评价系统模型训练的流程图，其主要逻辑为：

1）麦克风阵列采集：乐器弹奏时，n个麦克风连接好硬件预处理模块后，打开硬件预处理模块的独立电源，这时麦克风阵列工作开始采集；

2）硬件预处理：采集特定时长的乐器演奏结果，控制芯片以Arm芯片为例，通过Arm控制芯片的处理，把得到的电信号转化为以bin格式为例的预处理数字信号组，随后存入硬件预处理模块独立存储单元中；

3）软件重组降噪：时频联合评价模块的信号重组降噪单元在收到bin格式文件夹后，对每组bin格式文件信号重组，生成对应麦克风采集的可播放数字音频格式，这里以wav格式为例，这时的音频含有环境噪声，随后对音频进行降噪处理，处理后的音频声音清晰可辨；

4）时频特征值提取：

4-1）频域特征值提取：频域特征值提取单元以提取MFCC系数为例，对传入的一组降噪后的每一个音频进行分帧加窗，然后做快速傅里叶变换，获得频谱分布信息，之后将频域信号通过Mel刻度等间隔三角滤波器组，将线性频标变为Mel频标，最后将各滤波器的输出取对数，做离散余弦变换，得到MFCC系数矩阵，随后求取每一列的平均值将二维矩阵压缩为一维，作为音频的频域特征；

4-2）阵列相关时域特征值提取：声场时域特征值提取单元对于传入的同一组降噪后的音频，两两求得之间的相关系数，最终组成一个n*n的相关系数矩阵，对矩阵求特征值进行降维，求得的n个特征值便是提取的阵列相关时域特征；

5）神经网络模型生成：将时、频特征值以及其对应的标签传入对应的未经过训练的时、频神经网络中，生成评价模型。

如图3所示，是本发明实现基于麦克风阵列的时频联合特征乐器音质评价系统音质评价的流程图，其主要逻辑为：

1)到4)与图2模型训练部分相同；

5）评价结果生成：将时、频特征值分别传入训练好的时、频特征神经网络中，得到两个训练结果，通过求取平均值得到系统最终的评价值。

Claims

1.基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于包括麦克风阵列模块、硬件预处理模块和时频联合评价模块；麦克风阵列模块用于乐器演奏时的声波信号采集，硬件预处理模块用于把采集的电信号转数字信号以及前置放大滤波，时频联合评价模块主要生成神经网络模型，并通过模型判断乐器的音质；时频联合评价模块包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元；

时频联合评价模块的信号重组降噪单元主要连接硬件预处理模块，从每个硬件预处理模块的独立存储单元中导出各自生成的预处理数字信号组，通过对每一组预处理数字信号进行拼接和分帧，组合后生成可播放的音频文件，每个音频文件对应了一个麦克风单元；随后对生成好的音频文件降噪，去除采集时带入的白噪声和环境噪声。

2.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于麦克风阵列模块由多组麦克风、支架组成；每个麦克风采集所在点的声波信号，并通过连接电路把收到的电信号传输到硬件预处理模块。

3.根据权利要求2所述的基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于通过多组支架对麦克风进行安放和调节。

4.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于硬件预处理模块将串口、控制芯片、独立存储单元、滤波放大电路集成在同一个集成电路板中，目的是将传入的电信号转化为数字信号；连接在板上的多个麦克风所传入的电信号，通过前置滤波放大，获得预处理的信号，随后每块电路板通过控制芯片内置程序通过数模转换，把得到的电信号转化为数字信号；因为控制芯片通常将连接在同一个硬件预处理模块上的多路麦克风采集的信号解析在一组信号里，因此把生成的一组数字信号称为预处理数字信号组，并将预处理数字信号组存入每个电路板自带的独立存储单元中；为了提升信噪比，获取更理想的信号，在前置放大滤波电路后还有一个小的滑动变阻器，可以放大或缩小信号。

5.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于时频联合评价模块的声场时域特征值提取单元主要用于提取降噪后的音频文件的阵列相关时域特征值；同一种乐器在一次弹奏时采用n个麦克风同时采集，所得数据作为一组音频；根据声场分布的特性，这些不同位置的麦克风采集的声波信号是不同的；因为采集是同时进行的，对一组音频求取同一段时间内的两个音频之间的相关系数，最终组成一个n*n的相关系数矩阵；相关系数能够反映声场不同位置声波信号的相关性，即是能够反映出声场的时域特征，相关系数维度较大，需要进一步的降维，即需要对求得的矩阵求取特征值，一组特征值对应了乐器的一次演奏，反映了一次演奏的阵列相关时域特征。

6.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于时频联合评价模块的频域特征值提取单元主要用于提取降噪后的音频文件的频域特征值；频率特征值选用较为常规的特征值提取方法，反映声场频域特征。

7.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统，其特征在于时频联合评价模块的神经网络评价单元主要是对以上生成的特征值做标注后训练得到评价模型以及对需要评价的乐器音频求取评价结果；建立两个神经网络模型，一个用于时域的分析，一个用于频域的分析，当传入的是经过标注的训练数据时，将上面所得的特征值放入神经网络进行训练，通过参数的调整获得较为满意的评价模型；当传入的是未经评价的音频数据的时频特征时，通过对相应的时、频两个神经网络分别得出的结果求取平均值，便得到最终评价结果。

8.利用权利要求1~7任一项所述一种基于麦克风阵列的时频联合特征乐器音质评价系统的方法，其特征在于包括模型训练部分和乐器音质评价部分；

模型训练部分步骤包括：

（1）乐器演奏时，按照声场的特性，以设定弧度安放和调整麦克风阵列，通过多路麦克风获得声场的最佳状态，同时麦克风连接硬件预处理模块；

（2）麦克风连接好硬件预处理模块后，打开硬件预处理模块的独立电源，这时麦克风阵列开始录音采集工作，采集特定时长的乐器演奏结果，通过内置控制芯片的处理，把得到的电信号转化为预处理数字信号组存入硬件预处理模块独立存储单元中；

（3）时频联合评价模块的信号重组降噪单元在收到预处理数字信号组文件夹后，对每组预处理数字信号文件进行信号重组，生成对应麦克风采集的可播放音频文件，这时的音频含有环境噪声，随后对音频进行降噪处理，处理后的音频声音清晰可辨；

（4）时频联合评价模块的声场时域特征值提取单元对于传入的同一组降噪后的音频，两两求得之间的相关系数，一组n个麦克风最终组成一个n*n的相关系数矩阵；对矩阵求特征值进行降维，求得的n个特征值便是提取的阵列相关时域特征；

（5）时频联合评价模块的频域特征值提取单元提取降噪后的音频文件的频域特征值；频率特征值选用较为常规的特征值提取方法作为音频的频域特征；

（6）分别接收提取的阵列相关时域特征值，频域特征值，并标注好每个特征值对应的乐器的音质评价结果，分别对应传入建立好的时、频训练神经网络中，调整参数，使得耦合出的评价模型结果达到理想状态，得到最终的神经网络评价模型；

乐器音质评价部分包括如下步骤（1）~（6）：

（1）到（5）与所述模型训练部分相同；