CN108615536B - 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 - Google Patents
基于麦克风阵列的时频联合特征乐器音质评价系统及方法 Download PDFInfo
- Publication number
- CN108615536B CN108615536B CN201810313228.4A CN201810313228A CN108615536B CN 108615536 B CN108615536 B CN 108615536B CN 201810313228 A CN201810313228 A CN 201810313228A CN 108615536 B CN108615536 B CN 108615536B
- Authority
- CN
- China
- Prior art keywords
- time
- frequency
- evaluation
- musical instrument
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000011156 evaluation Methods 0.000 claims abstract description 59
- 238000007781 pre-processing Methods 0.000 claims abstract description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 25
- 230000006798 recombination Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000005215 recombination Methods 0.000 claims description 14
- 238000013210 evaluation model Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 1
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明提出基于麦克风阵列的时频联合特征乐器音质评价系统及方法。该系统包括麦克风阵列模块、硬件预处理模块和时频联合评价模块;通过麦克风阵列采集乐器传播到不同位置处的立体声场声波信号,随后提取不同麦克风采集信号之间的关系作为声波信号时域特征值,以及各个麦克风采集信号的频域特征值,各自训练神经网络模型,然后通过生成的模型来自动对需要评价的乐器进行音质上的评价,获得评价结果。本系统采用对同一曲目不同麦克风所采集的声波信号作互相关来提取阵列相关时域特征,反应了声场的特性,另外采用时频联合特征来判断音质,可以提高评价的准确率。神经网络的自动评价节省了主观人力资源。
Description
技术领域
本发明属于音乐学和信息科学的交叉技术领域,特别涉及基于麦克风阵列的时频联合特征乐器音质评价系统及方法。
背景技术
随着物质生活水平的不断提升,人们对精神生活的需求日益增加,其中,音乐艺术在人们的精神生活中所占的比重也越来越大,而乐器演奏则是作为音乐产生的重要一环。乐器的价位区间从低档到高档往往千差万别。如何去客观地评价同一价位乐器的音质,这是当前面临的问题。
乐器演奏出的音质的好坏,是用于评价乐器价位水平高低的最重要依据之一。影响乐器音质的主要因素包括有乐器本身的品质、乐器结构上的差异以及演奏者对同一种乐器的把控能力。当前乐器的音质评价方面完全依赖于人工的主观判断,一般乐器行有专业人员,对同一个价位的乐器,通过多人演奏反复做对比,得出判断的结果。主观判断往往能对特定乐器的不足提出很中肯的意见,但是,这样的缺点也是显而易见,评审人的审美疲劳,参考标准的变化,以及现场的环境变化都能影响到评审人的评判。此外,专业人员的缺失导致人力的高昂成本也是不可小视的问题。
乐器弹奏时,不同位置的观众一般会有不一样的听觉感官,这是因为声波按声源的辐射特性向各个方向不受阻碍和干扰地传播,也就有了声场的概念。目前,对于声场分布的探索,主流的方法都是倾向于麦克风阵列的研究,阵列一般用3到5个单声道麦克风组成,这种麦克风对于基本的声场定源等是足够的,但对于乐器演奏时的分布状态,显然,更多的麦克风,更合适的排布组成的阵列才更能提取出声场的时域特性。
音质评价主要应用在音响的生产领域上。主流的评判方法一般是通过提取音频的频率畸变,频率响应,输出波形的包络作为特征值,判断标准对应频率响应曲线是否平直,波形包络和乐器的音频特征接近程度等多方面。目前时域上的研究主要是基于单声道和双声道的采集数据,而没有进一步的考虑麦克风阵列采集到的信号之间的时域特征提取。另外,频域也反应了信号在不同频率分量成分的大小,同一种乐器不同品质在不同频率段上的能量各不相同。所以,若将这两者相结合能更显著的描述声场的特征。
神经网络天生具备拟合任何复杂数据的特点,因此神经网络的拟合能力很强,同时,由于神经网络的参数众多,可以通过调节参数得到比传统方法更好的结果。因此通过神经网络来拟合提取的时频特征生成评价模型是一个不错的选择。
相比现有的以主观评价为主的评价方法,本方法无需对特定乐器本身的音频特征做过多研究,通过结合神经网络,使计算机能够运用提取的时频特性自动耦合出结果,鲁棒性强,实现简单。
发明内容
针对现实生活中遇到的对乐器音质评价标准不一,以及同一价位的乐器不知如何选择的情况,本发明提出一种基于麦克风阵列的时频联合特征乐器音质评价系统,该系统通过麦克风阵列采集乐器声波信号,随后通过提取信号相应的时域、频域特征值的方法传入神经网络,获得评价模型,然后通过生成的模型来自动对需要评价的乐器进行音质上的评价,获得评价结果。
基于麦克风阵列的时频联合特征乐器音质评价系统,其包括麦克风阵列模块、硬件预处理模块和时频联合评价模块;麦克风阵列模块用于乐器演奏时的声波信号采集,硬件预处理模块用于把采集的电信号转数字信号以及前置放大滤波,时频联合评价模块主要生成神经网络模型,并通过模型判断乐器的音质;时频联合评价模块包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元。
进一步的,麦克风阵列模块由多组麦克风、支架组成;每个麦克风采集所在点的声波信号,并通过连接电路把收到的电信号传输到硬件预处理模块。
进一步的,通过多组支架对麦克风进行安放和调节。
进一步的,硬件预处理模块将串口、控制芯片、独立存储单元、滤波放大电路集成在同一个集成电路板中,目的是将传入的电信号转化为数字信号;连接在板上的多个麦克风所传入的电信号,通过前置滤波放大,获得预处理的信号,随后每块电路板通过控制芯片内置程序通过数模转换,把得到的电信号转化为数字信号;因为控制芯片通常将连接在同一个硬件预处理模块上的多路麦克风采集的信号解析在一组信号里,因此把生成的一组数字信号称为预处理数字信号组,并将预处理数字信号组存入每个电路板自带的独立存储单元中;为了提升信噪比,获取更理想的信号,在前置放大滤波电路后还有一个小的滑动变阻器,可以放大或缩小信号。
进一步的,时频联合评价模块的信号重组降噪单元主要连接硬件预处理模块,从每个硬件预处理模块的独立存储单元中导出各自生成的预处理数字信号组,通过对每一组预处理数字信号进行拼接和分帧,组合后生成可播放的音频文件,每个音频文件对应了一个麦克风单元;随后对生成好的音频文件降噪,去除采集时带入的白噪声和环境噪声。
进一步的,时频联合评价模块的声场时域特征值提取单元主要用于提取降噪后的音频文件的阵列相关时域特征值;同一种乐器在一次弹奏时采用n个麦克风同时采集,所得数据作为一组音频;根据声场分布的特性,这些不同位置的麦克风采集的声波信号是不同的;因为采集是同时进行的,对一组音频求取同一段时间内的两个音频之间的相关系数,最终组成一个n*n的相关系数矩阵;相关系数能够反映声场不同位置声波信号的相关性,即是能够反映出声场的时域特征,相关系数维度较大,需要进一步的降维,即需要对求得的矩阵求取特征值,一组特征值对应了乐器的一次演奏,反映了一次演奏的阵列相关时域特征。
进一步的,时频联合评价模块的频域特征值提取单元主要用于提取降噪后的音频文件的频域特征值;频率特征值选用较为常规的特征值提取方法,反映声场频域特征。
进一步的,时频联合评价模块的神经网络评价单元主要是对以上生成的特征值做标注后训练得到评价模型以及对需要评价的乐器音频求取评价结果;建立两个神经网络模型,一个用于时域的分析,一个用于频域的分析,当传入的是经过标注的训练数据时,将上面所得的特征值放入神经网络进行训练,通过参数的调整获得较为满意的评价模型;当传入的是未经评价的音频数据的时频特征时,通过对相应的时、频两个神经网络分别得出的结果求取平均值,便得到最终评价结果。
基于上述的基于麦克风阵列的时频联合特征乐器音质评价系统步骤如下:
模型训练部分步骤如下:
(1)乐器演奏时,按照声场的特性,以一定弧度安放和调整麦克风阵列,通过多路麦克风获得声场的最佳状态,同时麦克风连接硬件预处理模块。
(2)麦克风连接好硬件预处理模块后,打开硬件预处理模块的独立电源,这时麦克风阵列开始录音采集工作,采集特定时长的乐器演奏结果,通过内置控制芯片的处理,把得到的电信号转化为预处理数字信号组存入硬件预处理模块独立存储单元中。
(3)时频联合评价模块的信号重组降噪单元在收到预处理数字信号组文件夹后,对每组预处理数字信号文件进行信号重组,生成对应麦克风采集的可播放音频文件,这时的音频含有环境噪声,随后对音频进行降噪处理,处理后的音频声音清晰可辨。
(4)时频联合评价模块的声场时域特征值提取单元对于传入的同一组降噪后的音频,两两求得之间的相关系数,一组n个麦克风最终组成一个n*n的相关系数矩阵。对矩阵求特征值进行降维,求得的n个特征值便是提取的阵列相关时域特征。
(5)时频联合评价模块的频域特征值提取单元提取降噪后的音频文件的频域特征值。频率特征值选用较为常规的特征值提取方法作为音频的频域特征。
(6)分别接收提取的阵列相关时域特征值,频域特征值,并标注好每个特征值对应的乐器的音质评价结果,分别对应传入建立好的时、频训练神经网络中,调整参数,使得耦合出的评价模型结果达到理想状态,得到最终的神经网络评价模型。
乐器音质评价部分步骤如下:
(1)到(5)与模型训练部分相同。
(6)把处理得到的时域和频域特征分别传入模型训练后生成的时域和频域模型中,分别得到时域和频域的评价数值,最后对两个数值求取平均值得到系统的最后评价结果。
与现有技术相比,本发明具有以下优点:
(1)以往音乐数据采集仅通过单通道或双通道麦克风,无法将乐器的立体声数据考虑进去。本系统采集使用的是多麦克风组成阵列,通过多个麦克风一组,使得能够更好的采集到较为全面的声场信息。
(2)把麦克风阵列采集的声波信号,在软件上分析其互相关特性,进而提取声场时域特征。以往音质评价中都是基于单一信号采集源的时域特征,而没有运用不同信号采集源之间的关系作为声波信号时域特征值的研究,本系统采用对同一曲目不同麦克风所采集的声波信号作互相关来提取阵列相关时域特征,反应了声场的特性。
(3)本发明另外对每个麦克风路采集的声波信号提取了频域特征值,针对麦克风阵列相关时域特征和各个麦克风对应声波信号的频域特征各自训练神经网络模型,这样采用时频联合特征来判断音质,可以提高评价的准确率。
(4)人工智能如今已快速的进入到各个产业之中,通过简单调节一些不可控的因素,极大地解放了人力。本系统采用的神经网络的目的便在于评价乐器音质的时候节省有限的主观人力资源。
附图说明
图1是实施例的基于麦克风阵列的时频联合特征乐器音质评价系统结构框图
图2是实例中模型训练流程图。
图3是实例中音质评价流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明,但本发明的实施和保护不限于此。
基于麦克风阵列的时频联合特征乐器音质评价系统具体包括麦克风阵列模块、硬件预处理模块和时频联合评价模块。麦克风阵列模块主要用于乐器演奏时的声波信号采集,硬件预处理模块主要用于采集的电信号转数字信号以及前置放大滤波,时频联合评价模块主要生成神经网络模型,并通过模型判断乐器的音质。时频联合评价模块包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元。
所述的麦克风阵列模块由多组麦克风、支架组成。每个麦克风采集所在点的声波信号,并通过连接电路把收到的电信号传输到硬件预处理模块。为了能更好的测量声场,可以通过多组支架对麦克风进行安放和调节。
所述的硬件预处理模块将串口、控制芯片、独立存储单元、滤波放大电路等集成在同一个集成电路板中,目的是将传入的电信号转化为数字信号。连接在板上的多个麦克风所传入的电信号,通过前置滤波放大,获得预处理的信号,随后每块电路板通过控制芯片内置程序通过数模转换,把得到的电信号转化为数字信号。因为控制芯片通常将连接在同一个硬件预处理模块上的多路麦克风采集的信号解析在一组信号里,因此可以把生成的一组数字信号称为预处理数字信号组,并将预处理数字信号组存入每个电路板自带的独立存储单元中。为了提升信噪比,获取更理想的信号,在前置放大滤波电路后还有一个小的滑动变阻器,可以放大或缩小信号。
所述的时频联合评价模块的信号重组降噪单元主要连接硬件预处理模块,从每个硬件预处理模块的独立存储单元中导出各自生成的预处理数字信号组,通过软件单元对每一组文件进行拼接和分帧,组合后生成可播放的音频文件,每个音频文件对应了一个麦克风单元。随后对生成好的音频文件降噪,去除采集时带入的白噪声和环境噪声。
所述的时频联合评价模块的声场时域特征值提取单元主要用于提取降噪后的音频文件的阵列相关时域特征值。同一种乐器在一次弹奏时采用n个麦克风同时采集,所得数据作为一组音频。根据声场分布的特性,这些不同位置的麦克风采集的声波信号是不同的。因为采集是同时进行的,可以对一组音频求取同一段时间内的两个音频之间的相关系数,最终组成一个n*n的相关系数矩阵。相关系数能够反映声场不同位置声波信号的相关性,即是能够反映出声场的时域特征,但是维度较大,因此需要进一步的降维,这就需要对求得的矩阵求取特征值,一组特征值对应了乐器的一次演奏,反映了一次演奏的阵列相关时域特征。
所述的时频联合评价模块的频域特征值提取单元主要用于提取降噪后的音频文件的频域特征值。频率特征值选用较为常规的特征值提取方法,反映声场频域特征。
所述的时频联合评价模块的神经网络评价单元主要是对以上生成的特征值做标注后训练得到评价模型以及对需要评价的乐器音频求取评价结果。建立两个神经网络模型,一个用于时域的分析,一个用于频域的分析,当传入的是经过标注的训练数据时,将上面所得的特征值放入神经网络进行训练,通过参数的调整获得较为满意的评价模型。当传入的是未经评价的音频数据的时频特征时,通过对相应的时、频两个神经网络分别得出的结果求取平均值,便得到最终评价结果。
如图1所示,是本实例实现基于麦克风阵列的时频联合特征乐器音质评价系统的总体结构框图。由三部分组成:一是麦克风阵列模块,包括多组麦克风;二是硬件预处理模块,包括了前置放大滤波电路、独立存储单元、控制芯片和独立电源,用来对麦克风采集的电信号滤波、放大,以及转换成需要的数字信号;三是时频联合评价模块,包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元,用于对采集的信号降噪,获得清晰的乐器弹奏音频后分别提取其时域和频域特征,传入神经网络生成评价模型,再对需要评价的音频进行音质评价分析。
如图2所示,是本发明实现基于麦克风阵列的时频联合特征乐器音质评价系统模型训练的流程图,其主要逻辑为:
1)麦克风阵列采集:乐器弹奏时,n个麦克风连接好硬件预处理模块后,打开硬件预处理模块的独立电源,这时麦克风阵列工作开始采集;
2)硬件预处理:采集特定时长的乐器演奏结果,控制芯片以Arm芯片为例,通过Arm控制芯片的处理,把得到的电信号转化为以bin格式为例的预处理数字信号组,随后存入硬件预处理模块独立存储单元中;
3)软件重组降噪:时频联合评价模块的信号重组降噪单元在收到bin格式文件夹后,对每组bin格式文件信号重组,生成对应麦克风采集的可播放数字音频格式,这里以wav格式为例,这时的音频含有环境噪声,随后对音频进行降噪处理,处理后的音频声音清晰可辨;
4)时频特征值提取:
4-1)频域特征值提取:频域特征值提取单元以提取MFCC系数为例,对传入的一组降噪后的每一个音频进行分帧加窗,然后做快速傅里叶变换,获得频谱分布信息,之后将频域信号通过Mel刻度等间隔三角滤波器组,将线性频标变为Mel频标,最后将各滤波器的输出取对数,做离散余弦变换,得到MFCC系数矩阵,随后求取每一列的平均值将二维矩阵压缩为一维,作为音频的频域特征;
4-2)阵列相关时域特征值提取:声场时域特征值提取单元对于传入的同一组降噪后的音频,两两求得之间的相关系数,最终组成一个n*n的相关系数矩阵,对矩阵求特征值进行降维,求得的n个特征值便是提取的阵列相关时域特征;
5)神经网络模型生成:将时、频特征值以及其对应的标签传入对应的未经过训练的时、频神经网络中,生成评价模型。
如图3所示,是本发明实现基于麦克风阵列的时频联合特征乐器音质评价系统音质评价的流程图,其主要逻辑为:
1)到4)与图2模型训练部分相同;
5)评价结果生成:将时、频特征值分别传入训练好的时、频特征神经网络中,得到两个训练结果,通过求取平均值得到系统最终的评价值。
Claims (8)
1.基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于包括麦克风阵列模块、硬件预处理模块和时频联合评价模块;麦克风阵列模块用于乐器演奏时的声波信号采集,硬件预处理模块用于把采集的电信号转数字信号以及前置放大滤波,时频联合评价模块主要生成神经网络模型,并通过模型判断乐器的音质;时频联合评价模块包括信号重组降噪单元、声场时域特征值提取单元、频域特征值提取单元以及神经网络评价单元;
时频联合评价模块的信号重组降噪单元主要连接硬件预处理模块,从每个硬件预处理模块的独立存储单元中导出各自生成的预处理数字信号组,通过对每一组预处理数字信号进行拼接和分帧,组合后生成可播放的音频文件,每个音频文件对应了一个麦克风单元;随后对生成好的音频文件降噪,去除采集时带入的白噪声和环境噪声。
2.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于麦克风阵列模块由多组麦克风、支架组成;每个麦克风采集所在点的声波信号,并通过连接电路把收到的电信号传输到硬件预处理模块。
3.根据权利要求2所述的基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于通过多组支架对麦克风进行安放和调节。
4.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于硬件预处理模块将串口、控制芯片、独立存储单元、滤波放大电路集成在同一个集成电路板中,目的是将传入的电信号转化为数字信号;连接在板上的多个麦克风所传入的电信号,通过前置滤波放大,获得预处理的信号,随后每块电路板通过控制芯片内置程序通过数模转换,把得到的电信号转化为数字信号;因为控制芯片通常将连接在同一个硬件预处理模块上的多路麦克风采集的信号解析在一组信号里,因此把生成的一组数字信号称为预处理数字信号组,并将预处理数字信号组存入每个电路板自带的独立存储单元中;为了提升信噪比,获取更理想的信号,在前置放大滤波电路后还有一个小的滑动变阻器,可以放大或缩小信号。
5.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于时频联合评价模块的声场时域特征值提取单元主要用于提取降噪后的音频文件的阵列相关时域特征值;同一种乐器在一次弹奏时采用n个麦克风同时采集,所得数据作为一组音频;根据声场分布的特性,这些不同位置的麦克风采集的声波信号是不同的;因为采集是同时进行的,对一组音频求取同一段时间内的两个音频之间的相关系数,最终组成一个n*n的相关系数矩阵;相关系数能够反映声场不同位置声波信号的相关性,即是能够反映出声场的时域特征,相关系数维度较大,需要进一步的降维,即需要对求得的矩阵求取特征值,一组特征值对应了乐器的一次演奏,反映了一次演奏的阵列相关时域特征。
6.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于时频联合评价模块的频域特征值提取单元主要用于提取降噪后的音频文件的频域特征值;频率特征值选用较为常规的特征值提取方法,反映声场频域特征。
7.根据权利要求1所述的基于麦克风阵列的时频联合特征乐器音质评价系统,其特征在于时频联合评价模块的神经网络评价单元主要是对以上生成的特征值做标注后训练得到评价模型以及对需要评价的乐器音频求取评价结果;建立两个神经网络模型,一个用于时域的分析,一个用于频域的分析,当传入的是经过标注的训练数据时,将上面所得的特征值放入神经网络进行训练,通过参数的调整获得较为满意的评价模型;当传入的是未经评价的音频数据的时频特征时,通过对相应的时、频两个神经网络分别得出的结果求取平均值,便得到最终评价结果。
8.利用权利要求1~7任一项所述一种基于麦克风阵列的时频联合特征乐器音质评价系统的方法,其特征在于包括模型训练部分和乐器音质评价部分;
模型训练部分步骤包括:
(1)乐器演奏时,按照声场的特性,以设定弧度安放和调整麦克风阵列,通过多路麦克风获得声场的最佳状态,同时麦克风连接硬件预处理模块;
(2)麦克风连接好硬件预处理模块后,打开硬件预处理模块的独立电源,这时麦克风阵列开始录音采集工作,采集特定时长的乐器演奏结果,通过内置控制芯片的处理,把得到的电信号转化为预处理数字信号组存入硬件预处理模块独立存储单元中;
(3)时频联合评价模块的信号重组降噪单元在收到预处理数字信号组文件夹后,对每组预处理数字信号文件进行信号重组,生成对应麦克风采集的可播放音频文件,这时的音频含有环境噪声,随后对音频进行降噪处理,处理后的音频声音清晰可辨;
(4)时频联合评价模块的声场时域特征值提取单元对于传入的同一组降噪后的音频,两两求得之间的相关系数,一组n个麦克风最终组成一个n*n的相关系数矩阵;对矩阵求特征值进行降维,求得的n个特征值便是提取的阵列相关时域特征;
(5)时频联合评价模块的频域特征值提取单元提取降噪后的音频文件的频域特征值;频率特征值选用较为常规的特征值提取方法作为音频的频域特征;
(6)分别接收提取的阵列相关时域特征值,频域特征值,并标注好每个特征值对应的乐器的音质评价结果,分别对应传入建立好的时、频训练神经网络中,调整参数,使得耦合出的评价模型结果达到理想状态,得到最终的神经网络评价模型;
乐器音质评价部分包括如下步骤(1)~(6):
(1)到(5)与所述模型训练部分相同;
(6)把处理得到的时域和频域特征分别传入模型训练后生成的时域和频域模型中,分别得到时域和频域的评价数值,最后对两个数值求取平均值得到系统的最后评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810313228.4A CN108615536B (zh) | 2018-04-09 | 2018-04-09 | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810313228.4A CN108615536B (zh) | 2018-04-09 | 2018-04-09 | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108615536A CN108615536A (zh) | 2018-10-02 |
CN108615536B true CN108615536B (zh) | 2020-12-22 |
Family
ID=63659834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810313228.4A Expired - Fee Related CN108615536B (zh) | 2018-04-09 | 2018-04-09 | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615536B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517701B (zh) * | 2019-07-25 | 2021-09-21 | 华南理工大学 | 一种麦克风阵列语音增强方法及实现装置 |
CN111816207B (zh) * | 2020-08-31 | 2021-01-26 | 广州汽车集团股份有限公司 | 声音分析方法、系统、汽车及存储介质 |
CN114822587B (zh) * | 2021-01-19 | 2023-07-14 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN117116289B (zh) * | 2023-10-24 | 2023-12-26 | 吉林大学 | 病区医护对讲管理系统及其方法 |
CN117863175A (zh) * | 2023-12-25 | 2024-04-12 | 之江实验室 | 一种弹琴机器人离线评优系统及方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798B (zh) * | 2009-02-17 | 2011-01-05 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN201893930U (zh) * | 2010-12-06 | 2011-07-06 | 上海山景集成电路技术有限公司 | 一种音频校准系统 |
CN105469785B (zh) * | 2015-11-25 | 2019-01-18 | 南京师范大学 | 通信终端双麦克风消噪系统中的语音活动检测方法及装置 |
CN106816158B (zh) * | 2015-11-30 | 2020-08-07 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN105719661B (zh) * | 2016-01-29 | 2019-06-11 | 西安交通大学 | 一种弦乐器演奏音质自动判别方法 |
US9959747B1 (en) * | 2016-05-26 | 2018-05-01 | The United States Of America As Represented By The Secretary Of The Air Force | Network for detection and monitoring of emergency situations |
CN106205577A (zh) * | 2016-09-07 | 2016-12-07 | 广州丰谱信息技术有限公司 | 一种具有空间音效感的可柔性配置扬声器阵列的电子乐器 |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
CN106971059B (zh) * | 2017-03-01 | 2020-08-11 | 福州云开智能科技有限公司 | 一种基于神经网络自适应健康监测的可穿戴设备 |
CN107346664A (zh) * | 2017-06-22 | 2017-11-14 | 河海大学常州校区 | 一种基于临界频带的双耳语音分离方法 |
CN107464552B (zh) * | 2017-08-24 | 2021-03-09 | 北京安声科技有限公司 | 一种分布式车载主动降噪系统及方法 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
-
2018
- 2018-04-09 CN CN201810313228.4A patent/CN108615536B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108615536A (zh) | 2018-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615536B (zh) | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 | |
CN107221319A (zh) | 一种语音识别测试系统和方法 | |
CN101448180B (zh) | 一种移动电话扬声器测试系统 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN101023469B (zh) | 数字滤波方法和装置 | |
EP3166239B1 (en) | Method and system for scoring human sound voice quality | |
CN204482023U (zh) | 一种啸叫抑制系统 | |
CN101426169B (zh) | 一种快速检测发声体声响应参数的时域跟踪滤波器及系统 | |
Ioannidou et al. | Effect of modulation depth, frequency, and intermittence on wind turbine noise annoyance | |
CN102973277A (zh) | 一种频率跟随响应信号测试系统 | |
CN101867863A (zh) | 音频测试系统 | |
JP2017090888A (ja) | 楽器の特性をモデル化する方法 | |
Kendrick et al. | Perceived audio quality of sounds degraded by non-linear distortions and single-ended assessment using HASQI | |
AU2014331433B2 (en) | Method and apparatus for auscultating inaudible signals | |
CN112908347A (zh) | 一种杂音检测方法及终端 | |
CN201271249Y (zh) | 一种全频段纯音听力计 | |
CN101545805B (zh) | 一种pop噪声测试系统及测试方法 | |
CN111885474A (zh) | 麦克风测试方法及装置 | |
CN115691556B (zh) | 一种设备端多通道语音质量的检测方法 | |
CN210016636U (zh) | 一种扬声器异音测试系统 | |
CN217306099U (zh) | 可剔除稳态干扰声音的声级计 | |
TW201142820A (en) | Acoustical wave identification system and the method thereof | |
CN109831707B (zh) | 音效参数设置方法、音效采集效果器及乐器系统 | |
CN116959491A (zh) | 一种针对wav音频的分贝、回声、底噪及啸叫检测方法 | |
Schwär et al. | A Dataset of Larynx Microphone Recordings for Singing Voice Reconstruction. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201222 |