CN114822589B - 室内声学参数测定方法、模型构建方法、装置及电子设备 - Google Patents
室内声学参数测定方法、模型构建方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114822589B CN114822589B CN202210351843.0A CN202210351843A CN114822589B CN 114822589 B CN114822589 B CN 114822589B CN 202210351843 A CN202210351843 A CN 202210351843A CN 114822589 B CN114822589 B CN 114822589B
- Authority
- CN
- China
- Prior art keywords
- audio data
- processed
- indoor acoustic
- target
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims abstract description 11
- 238000005259 measurement Methods 0.000 claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 239000012634 fragment Substances 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000000630 rising effect Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000003556 assay Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000036278 prepulse Effects 0.000 claims description 3
- 238000000691 measurement method Methods 0.000 abstract description 16
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000004035 construction material Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010892 electric spark Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请公开一种室内声学参数测定方法、模型构建方法、装置及电子设备,其中的室内声学参数测定方法包括获取与当前所在的待测房间中的目标声信号对应的待处理音频数据;基于所述待处理音频数据生成相应的目标语谱图;基于所述目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得所述待测房间的目标室内声学参数;目标声信号为猝发声或脉冲信号中的一种;该测定方法的操作时间极短,通过简单的录音设备获得音频数据即可,故对人员、设备的要求较低,极大地提高了室内声学参数测定的便捷性并有效降低测定成本;进一步,该测定方法基于机器学习方法预先构建的室内声学参数测定模型实现,能有效实现室内声学参数的准确测定。
Description
技术领域
本申请涉及声学测量领域,尤其涉及室内声学参数测定方法、模型构建方法、装置及电子设备。
背景技术
室内的声学参数,如混响时间等,对于建筑声学设计、实施和改造具有关键的意义,同时也是评估该房间是否满足声学设计和声学功能的核心指标。
传统的测量方法分为直接法和间接法,参见GB/T36075-2018“声学室内声学参量测量”和GB/T 4959-2011“厅堂扩声特性测量方法”。直接法如声源中断法,即在房间内播放宽频噪声信号,然后突然中断,通过声级计、数字采集设备等记录下该信号衰减的过程并分析得到室内的混响时间;间接法通过在室内产生一个脉冲信号,如发令枪、扎气球、点燃鞭炮等,或者用人工声源播放MLS序列、扫频信号等形式,记录并得到该房间内的脉冲响应,利用脉冲响应对时间方向积分的方法得到混响时间、语音传输指数、早期反射声、清晰度和明晰度等室内声学指标。
上述的两种方法,对硬件、软件和测量人员,都有较高的要求:硬件上需要用功率放大器、无指向多面体声源、信号发生器、连接的线缆等,软件上需要相关的专用声学分析、计算软件,这些软硬件都价格昂贵,且体积较大,携带不方便;人员方面需要熟悉测量的标准,具有一定的测量经验,经过专业的培训方可执行测量任务,同时根据待测房间的大小不同,至少需要配备2人以上方可完成。这些特性都大大限制了室内声学参数测量的效率、测量成本居高不下、甚至在广大二三线城市都无法找到专业设备和合格人员进行测量,造成了大量功能房间(如办公室、教室、培训室、会议室等)声学性能无法获知,更谈不上针对性的声学改造和提升。
近些年来随着机器学习的技术不断发展,利用在室内录取一段清晰的语音信号,获取目标语谱图,再利用机器学习的各种模型和算法,加入事先用传统方法测量得到的声学参数进行训练,可以实现在新的房间测量室内声学参数的目的,如专利CN111785292A。但是该方法对于背景噪声的要求较高,也需要录取较长时间的语音,并且在此期间需要保持较安静的状态,不利于短时间大规模的测量,测量结果也被房间内的信噪比所影响。
因此,需要寻找一种测定方法简单便捷且测定结果准确的室内声学参数测定方法。
申请内容
本申请的目的在于提供一种室内声学参数测定方法、模型构建方法、装置及电子设备,其能简便快捷地测定待测房间的室内声学参数。
为实现上述申请目的,本申请提出了如下技术方案:
第一方面,提供室内声学参数测定方法,所述测定方法包括:
获取与当前所在的待测房间中的目标声信号对应的待处理音频数据;
基于所述待处理音频数据生成相应的目标语谱图;
基于所述目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得所述待测房间的目标室内声学参数;
所述目标声信号为猝发声或脉冲信号中的一种。
在一种较佳的实施方式中,所述获取与当前所在的待测房间中的目标声信号对应的待处理音频数据,包括:
获取当前所在待测房间中预设时长的初始音频数据;
对所述初始音频数据进行预处理获得待处理音频数据;
判断所述待处理音频数据是否为猝发声或脉冲信号。
在一种较佳的实施方式中,所述判断所述待处理音频数据是否为猝发声或脉冲信号,包括:
对所述待处理音频数据进行端点检测;
将所述待处理音频数据进行分帧并计算每一音频帧的平均幅度,并确定平均幅度最大的音频帧Max;
确定有效脉冲前边界帧及有效脉冲后边界帧以确定有效脉冲宽度;
分别所述计算待处理音频数据的上升比及下降比;
根据所述有效脉冲宽度、所述上升比及所述下降比判断所述待处理音频是否为猝发声或脉冲信号。
在一种较佳的实施方式中,所述基于所述待处理音频数据生成相应的目标语谱图,包括:
将所述待处理音频数据按照预设时长划分为至少一个单位音频数据;
对每一所述单位音频数据进行端点检测以获得至少一段有效声音片段;
基于所述至少一段有效声音片段生成至少一个目标语谱图。
在一种较佳的实施方式中,所述对每一所述单位音频数据进行端点检测以获得至少一段有效声音片段,包括:
对所述单位音频数据进行分帧处理获得至少一个音频帧;
对所述至少一个音频帧进行特征提取,获得至少一个与任一所述音频帧对应的特征参数;
根据所述至少一个所述特征参数对所述至少一个音频帧进行分类,确定所述至少一个音频帧中的至少一个有效音频帧;
将所述至少一个有效音频帧合并获得所述至少一段有效声音片段。
在一种较佳的实施方式中,所述根据所述至少一个所述特征参数对所述至少一个音频帧进行分类,确定所述至少一个音频帧中的至少一个有效音频帧,包括:
基于所述至少一个音频帧的音频率计算相应的能量;
判断任一所述音频帧的能量是否属于预设阈值;
若是,则任一所述音频帧为有效音频帧。
在一种较佳的实施方式中,所述基于所述至少一段有效声音片段生成至少一个目标语谱图,包括:
将所述至少一段有效声音片段进行滤波处理获得至少一端滤波后有效声音片段;
将所述至少一端滤波后有效声音片段进行傅里叶变换获得至少一个目标语谱图,所述至少一个目标语谱图包括至少一个频带的声信号能量随时间的分布。
在一种较佳的实施方式中,所述测定方法还包括:预先构建室内声学参数测定模型,包括:
获取至少一个房间的至少一个音频数据样本及相应测得的至少一个室内声学参数样本;
基于所述至少一个音频数据样本生成相应的至少一个语谱图样本;
基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型。
在一种较佳的实施方式中,所述基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型,包括:
对所述至少一个语谱图样本进行特征提取获得至少一个语谱图特征;
基于所述至少一个语谱图特征及所述至少一个室内声学参数样本,在预设损失函数的监督下进行预设神经网络的参数更新,获得所述室内声学参数测定模型。
在一种较佳的实施方式中,所述待处理音频数据及至少一个音频数据样本的信噪比大于25dB。
第二方面,提供一种室内声学参数测定模型构建方法,所述测定模型构建方法包括:
获取至少一个房间的至少一个音频数据样本及相应测得的至少一个室内声学参数样本;
基于所述至少一个音频数据样本生成相应的至少一个语谱图样本;
基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型;
所述音频数据样本为猝发声或脉冲信号中的一种。
第三方面,提供一种室内声学参数测定装置,所述测定装置包括:
获取模块,用于获取与目标声信号对应的待处理音频数据;所述目标声信号为猝发声或脉冲信号中的一种;
生成模块,用于基于所述待处理音频数据生成相应的目标语谱图;
测定模块,用于基于所述目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得相应的目标室内声学参数。
第四方面,提供一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面中任意一项所述的操作。
第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,
其中,该程序被处理器执行时实现如第一方面中任一项所述的方法。
与现有技术相比,本申请具有如下有益效果:
本申请提供了一种室内声学参数测定方法、模型构建方法、装置及电子设备,其中的室内声学参数测定方法包括获取与当前所在的待测房间中的目标声信号对应的待处理音频数据;基于待处理音频数据生成相应的目标语谱图;基于目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得所述待测房间的目标室内声学参数;音频数据样本为猝发声或脉冲信号中的一种;该室内声学参数测定方法的操作时间极短,通过简单的录音设备获得音频数据并结合预设模型即可测定待测房间的室内声学参数,故对人员、设备的要求较低,极大地提高了室内声学参数测定的便捷性并有效降低测定成本;进一步,该测定方法基于机器学习方法预先构建的室内声学参数测定模型实现,以待处理音频数据相应的目标语谱图为输入,以目标室内声学参数为输出,从而实现室内声学参数的准确测定。
附图说明
图1是本实施例中室内声学参数测定方法的流程图;
图2是本实施例中判断待处理音频数据是否为猝发声或脉冲信号的流程图;
图3是本实施例中室内声学参数测定模型构建方法的流程图;
图4是本实施例中室内声学参数测定装置的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
针对目前室内声学参数测定方法对于测定人员、设备要求较高的现状,本实施例体提供一种简单快捷的室内声学参数测定方法,其对于测定人员及设备要求较低,且测定精度较高。
下面将结合具体的实施例对室内声学测定方法、模型构建方法、装置及电子设备做进一步具体的描述。
实施例
如图1所示,本实施例提供一种室内声学参数测定方法,包括如下步骤:
S1、获取与当前所在的待测房间中的目标声信号对应的待处理音频数据。
通常的,本实施例中的待处理音频数据的信噪比大于25dB,以能清楚地与环境音做区分。
示例性的,目标声信号为在当前所在的待测房间内发出猝发声或脉冲信号中的一种,包括但不限于单次的发令枪声、扎破大气球的声音、鞭炮声、电火花声、鼓掌声等。此类声信号的脉冲声压级较高,较易与环境音区分以进行目标声信号提取,故可以在很多背景噪声影响大的场所进行测量,测量的有效频段也向低频延伸,对环境的要求大大降低。
具体地,步骤S1包括:
S11、获取当前所在待测房间中预设时长的初始音频数据;
具体的,本实施例可采用普通的/便携式的录音设备,如手机、录音笔等设备录制该初始音频数据。针对前述涉及的目标声信号类型,录制时间可以为1~10分钟等较短的时长。因此,该室内声学参数测定方法对设备要求不高,录制时间短,快捷方便。
S12、对初始音频数据进行预处理获得待处理音频数据。
在一种优选的实施方式中,对初始音频数据进行预处理通常包括但不限于预加重、分帧、加窗等,目的是消除发声设备本身和由于初始音频信号的设备所带来的混叠、高次谐波失真、高频等等因素,对初始音频信号质量的影响,尽可能保证后续音频处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高音频处理质量。
S13、判断待处理音频数据是否为猝发声或脉冲信号。
具体的,如图2所示,步骤S13包括:
S131、对待处理音频数据进行端点检测,找到声音的开始点和结束点。
S132、将待处理音频数据进行分帧并计算每一音频帧的平均幅度,并确定平均幅度最大的音频帧Max,其平均幅度为M(Max)。
具体的,采用如下公式(1)计算任一音频帧的平均幅值M(i):
其中,p表示第i个音频帧中任一采样位点序数;L表示每一音频帧的采样位点数,示例性的,当采样率为16000Hz时,L取160。将待处理音频数据所有的音频帧按序排列并将平均幅度最大的音频帧记为Max。
S133、确定有效脉冲前边界帧及有效脉冲后边界帧以确定有效脉冲宽度。
具体的,在步骤S132确定平均幅度最大的音频帧Max之后,向前n帧找到有效脉冲前边界帧,记为Max-n。该有效脉冲前边界帧的平均幅度为M(Max)*Tv1,Tv1取值优选0.2。以及,在音频帧Max向后m帧找到有效脉冲后边界帧,记为Max+m,该有效脉冲后边界帧的平均幅度为M(Max)*Tv2,Tv2取值优选0.3。因此,该有效脉冲声的宽度为m+n帧。其中,m、n分别为音频帧间隔数量,且m>1,n>1。
S134、分别计算上升比R1及下降比R2。
上升比R1是有效脉冲声宽度m+n帧的平均幅度与有效脉冲声开始前的前V帧平均幅度的平均值之比,以如下公式(2)所示计算获得:
其中,j、h均为整数,且k≥1。
下降比R2是脉冲声m+n帧平均幅度与有效脉冲声结束后的后m帧平均幅度的平均值之比,以如下公式(3)所示计算获得:
其中,j、h均为整数,且h≥1。
S135、根据有效脉冲宽度、上升比及下降比判断待处理音频是否为猝发声或脉冲信号。
判断待处理音频数据的脉冲宽度(m+n)是否小于预先设置的音频数据的脉冲宽度阈值TW,以及判断上升比R1是否大于预设上升比阈值TR1,以及判断下降比R2是否大于下降比阈值TR2。若判断结果均为是,则判断待处理音频数据为猝发声或脉冲信号,执行下述步骤S2,若其中任一项判断结果为否,则判断不是猝发声或脉冲信号,结束。
示例性的,TW为10,TR1为40,TR2为30。
S2、基于待处理音频数据生成相应的目标语谱图。
步骤S2具体包括:
S21、将待处理音频数据按照预设时长划分为至少一个单位音频数据。
S22、对每一单位音频数据进行端点检测以获得至少一段有效声音片段。
进一步,步骤S22具体包括:
S221、对任一单位音频数据进行分帧处理获得至少一个音频帧;
S222、对至少一个音频帧进行特征提取,获得至少一个与任一音频帧对应的特征参数;
S223、根据至少一个特征参数对至少一个音频帧进行分类,确定至少一个音频帧中的至少一个有效音频帧。
更进一步的,步骤S223包括:
基于至少一个音频帧的音频率计算相应的能量;
判断任一音频帧的能量是否属于预设阈值;
若是,则该任一音频帧为有效音频帧用于下一步骤S224;若否,则该任一音频帧为无效音频帧,舍弃。
示例性的,在对音频帧进行能量计算时,第i帧语音信号yi(n)的短时能量公式为采用如下式(4)计算获得:
式中,yi(n)是分帧处理后第i帧的语音信号数值,n=1,2,…,L,i=1,2,…,fn,L表示每一音频帧的采样位点数,E(i)为第i帧的短时能量。
yi(n)满足如下式(5):
yi(n)=w(n)*x((i-1)*inc+n) (5)
式中,x(n)为语音波形时域信号,w(n)为加窗函数,inc为帧移长度;n为分帧后的总帧数。1≤n≤L,1≤i≤f。
S224、将至少一个有效音频帧合并获得至少一段有效声音片段。
当然,在步骤S214后,还需对获得的至少一段有效声音片段作平滑处理,以便后续处理。
S23、基于至少一段有效声音片段生成至少一个目标语谱图。
进一步,步骤S23包括:
S231、将至少一段有效声音片段进行滤波处理获得至少一段滤波后有效声音片段;
S232、将至少一端滤波后有效声音片段进行傅里叶变换获得至少一个目标语谱图,所述至少一个目标语谱图包括至少一个频带的声信号能量随时间的分布。
当然,上述至少一个频带,也可以是倍频程或三分之一倍频程等预设值,此处不作限制。
需要说明的是,当划分后的一个单位音频时长t(t>0),则任一目标语谱图包括至少一个频带的声信号能量在t时长内随时间的分布。
S3、基于目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得该待测房间的目标室内声学参数。
室内声学参数,指房间的混响时间、语音传输指数、早期反射声、清晰度和明晰度等,与房间本身的结构及所采用的建筑材料相关。
进一步的,当获得目标语谱图后,通过室内声学参数测定模型对目标语谱图进行特征提取获得至少一个目标语谱图特征;基于至少一个目标语谱图特征,通过室内声学参数测定模型获得该待测房间目标室内声学参数,包括但不限于各频带的混响时间、语音传输指数、早期反射声、清晰度和明晰度。
当然,在进行测定之前,如图3所示,该测定方法还包括S0、预先构建室内声学参数测定模型,故本实施例进一步提供一种室内声学参数测定模型构建方法,该测定模型构建方法包括:
S01、获取至少一个房间的至少一个音频数据样本及相应测得的至少一个室内声学参数样本。其中,音频数据样本为猝发声或脉冲信号中的一种。
同样的,本实施例中的至少一个室内声学参数样本的信噪比均大于25dB,以能清楚地与环境音做区分。
S02、基于至少一个音频数据样本生成相应的至少一个语谱图样本;该步骤S02的操作与上述步骤S2相似,此处不再赘述。
S03、基于至少一个语谱图样本及至少一个室内声学参数样本构建室内声学参数测定模型。
其中,步骤S03具体包括:
S03a、对至少一个语谱图样本进行特征提取获得至少一个语谱图特征;
S03b、基于至少一个语谱图特征及至少一个室内声学参数样本,在预设损失函数监督下进行预设神经网络的参数更新,获得室内声学参数测定模型。
在一种较佳的实施方式中,预设神经网络包括但不限于卷积神经网络CNN、循环神经网络RNN、卷积循环神经网络CRNN等。当采用CNN/CRNN进行训练时,网络结构包括P个block,每个block包含但不限于卷积层、归一化层、激活层、LSTM层等。
以及,预设损失函数采用回归损失函数,包括安不限于L1 Loss、L2 Loss及smoothL1 Loss。
综上,本实施例提供的室内声学参数测定方法的操作时间极短,通过简单的录音设备获得音频数据即可,故对人员、设备的要求较低,极大地提高了室内声学参数测定的便捷性并有效降低测定成本;进一步,该测定方法基于机器学习方法预先构建的室内声学参数测定模型,以待处理音频数据相应的目标语谱图为输入,以目标室内声学参数为输出,从而实现室内声学参数的准确测定。
本实施例还提供一种室内声学参数测定装置,如图4所示,该测定装置包括:
获取模块,用于获取与当前所在的待测房间中的目标声信号对应的待处理音频数据;其中,目标声信号为猝发声或脉冲信号中的一种。
生成模块,用于基于所述待处理音频数据生成相应的目标语谱图。
进一步,生成模块包括:
划分子模块,用于将所述待处理音频数据按照预设时长划分为至少一个单位音频数据;
第一生成子模块,用于对每一所述单位音频数据进行端点检测以获得至少一段有效声音片段。
更进一步,第一生成子模块包括:
第一处理单元,包括对任一所述单位音频数据进行分帧处理获得至少一个音频帧。
第一提取单元,用于对所述至少一个音频帧进行特征提取,获得至少一个与任一所述音频帧对应的特征参数。
分类单元,用于根据所述至少一个所述特征参数对所述至少一个音频帧进行分类,确定所述至少一个音频帧中的至少一个有效音频帧。
具体地,分类单元具体用于:
基于所述至少一个音频帧的音频率计算相应的能量;
判断任一所述音频帧的能量是否属于预设阈值;
若是,则任一所述音频帧为有效音频帧。
合并单元,用于将所述至少一个有效音频帧合并获得所述至少一段有效声音片段。
第二生成子模块,用于基于所述至少一段有效声音片段生成至少一个目标语谱图。
具体地,第二生成子模块包括:
滤波单元,用于将所述至少一段有效声音片段进行滤波处理获得至少一段滤波后有效声音片段;
第二处理单元,用于将至少一段滤波后有效声音片段进行傅里叶变换获得至少一个目标语谱图,所述至少一个目标语谱图包括至少一个频带的声信号能量随时间的分布。
测定模块,用于基于所述目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得所述待测房间的目标室内声学参数。
该室内声学参数测定装置还包括模型构建模块,用于预先构建室内声学参数测定模型,模型构建模块包括:
获取子模块,用于获取至少一个房间的至少一个音频数据样本及相应测得的至少一个室内声学参数样本;所述音频数据样本为猝发声或脉冲信号中的一种。
第三生成子模块,用于基于所述至少一个音频数据样本生成相应的至少一个语谱图样本;
模型构建子模块,用于基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型。
其中,模型构建子模块包括:
第二提取单元,用于对所述至少一个语谱图样本进行特征提取获得至少一个语谱图特征;
模型构建单元,用于基于所述至少一个语谱图特征及所述至少一个室内声学参数样本,在预设损失函数的监督下进行预设神经网络的参数更新,获得所述室内声学参数测定模型。
需要说明的是:上述实施例提供的室内声学参数测定装置在进行室内声学参数测定业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的室内声学参数测定装置与室内声学参数测定方法的实施例属于同一构思,即该装置是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
以及,本实施例还提供一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如室内声学参数测定方法任意一项所述的操作。
关于执行程序指令所执行的室内声学参数测定方法,具体执行细节及相应的有益效果与前述方法中的描述内容是一致的,此处将不再赘述。
以及,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如室内声学参数测定方法中任一项所述的方法。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,即可将任意多个实施例进行组合,从而获得应对不同应用场景的需求,均在本申请的保护范围内,在此不再一一赘述。
需要说明的是,以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.室内声学参数测定方法,其特征在于,所述测定方法包括:
获取与当前所在的待测房间中的目标声信号对应的待处理音频数据;
基于所述待处理音频数据生成相应的目标语谱图;
基于所述目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得所述待测房间的目标室内声学参数;
所述目标声信号为猝发声或脉冲信号中的一种;
所述测定方法还包括预先构建室内声学参数测定模型,包括:
获取至少一个房间的至少一个音频数据样本及相应测得的至少一个室内声学参数样本;
基于所述至少一个音频数据样本生成相应的至少一个语谱图样本;
基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型;
所述音频数据样本为猝发声或脉冲信号中的一种。
2.如权利要求1所述的测定方法,其特征在于,所述获取与当前所在的待测房间中的目标声信号对应的待处理音频数据,包括:
获取当前所在待测房间中预设时长的初始音频数据;
对所述初始音频数据进行预处理获得待处理音频数据;
判断所述待处理音频数据是否为猝发声或脉冲信号。
3.如权利要求2所述的测定方法,其特征在于,所述判断所述待处理音频数据是否为猝发声或脉冲信号,包括:
对所述待处理音频数据进行端点检测;
将所述待处理音频数据进行分帧并计算每一音频帧的平均幅度,并确定平均幅度最大的音频帧Max;
确定有效脉冲前边界帧及有效脉冲后边界帧以确定有效脉冲宽度;
分别计算所述待处理音频数据的上升比及下降比;
根据所述有效脉冲宽度、所述上升比及所述下降比判断所述待处理音频是否为猝发声或脉冲信号。
4.如权利要求1所述的测定方法,其特征在于,所述基于所述待处理音频数据生成相应的目标语谱图,包括:
将所述待处理音频数据按照预设时长划分为至少一个单位音频数据;
对每一所述单位音频数据进行端点检测以获得至少一段有效声音片段;
基于所述至少一段有效声音片段生成至少一个目标语谱图。
5.如权利要求4所述的测定方法,其特征在于,所述对每一所述单位音频数据进行端点检测以获得至少一段有效声音片段,包括:
对任一所述单位音频数据进行分帧处理获得至少一个音频帧;
对所述至少一个音频帧进行特征提取,获得至少一个与任一所述音频帧对应的特征参数;
根据所述至少一个所述特征参数对所述至少一个音频帧进行分类,确定所述至少一个音频帧中的至少一个有效音频帧;
将所述至少一个有效音频帧合并获得所述至少一段有效声音片段。
6.如权利要求5所述的测定方法,其特征在于,所述根据所述至少一个所述特征参数对所述至少一个音频帧进行分类,确定所述至少一个音频帧中的至少一个有效音频帧,包括:
基于所述至少一个音频帧的音频率计算相应的能量;
判断任一所述音频帧的能量是否属于预设阈值;
若是,则任一所述音频帧为有效音频帧。
7.如权利要求4所述的测定方法,其特征在于,所述基于所述至少一段有效声音片段生成至少一个目标语谱图,包括:
将所述至少一段有效声音片段进行滤波处理获得至少一段滤波后有效声音片段;
将所述至少一段所述滤波后有效声音片段进行傅里叶变换获得至少一个目标语谱图,所述至少一个目标语谱图包括至少一个频带的声信号能量随时间的分布。
8.如权利要求1所述的测定方法,其特征在于,所述基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型,包括:
对所述至少一个语谱图样本进行特征提取获得至少一个语谱图特征;
基于所述至少一个语谱图特征及所述至少一个室内声学参数样本,在预设损失函数的监督下进行预设神经网络的参数更新,获得所述室内声学参数测定模型。
9.如权利要求1所述的测定方法,其特征在于,所述待处理音频数据及至少一个音频数据样本的信噪比大于25dB。
10.室内声学参数测定装置,其特征在于,所述测定装置包括:
获取模块,用于获取与当前所在的待测房间中的目标声信号对应的待处理音频数据;所述目标声信号为猝发声或脉冲信号中的一种;
生成模块,用于基于所述待处理音频数据生成相应的目标语谱图;
测定模块,用于基于所述目标语谱图,通过预先构建的室内声学参数测定模型进行预测获得所述待测房间的目标室内声学参数;
模型构建模块,用于预先构建室内声学参数测定模型,模型构建模块包括:
获取子模块,用于获取至少一个房间的至少一个音频数据样本及相应测得的至少一个室内声学参数样本;所述音频数据样本为猝发声或脉冲信号中的一种;
第三生成子模块,用于基于所述至少一个音频数据样本生成相应的至少一个语谱图样本;
模型构建子模块,用于基于所述至少一个语谱图样本及所述至少一个室内声学参数样本构建所述室内声学参数测定模型。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1~9中任意一项所述的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210351843.0A CN114822589B (zh) | 2022-04-02 | 2022-04-02 | 室内声学参数测定方法、模型构建方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210351843.0A CN114822589B (zh) | 2022-04-02 | 2022-04-02 | 室内声学参数测定方法、模型构建方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114822589A CN114822589A (zh) | 2022-07-29 |
CN114822589B true CN114822589B (zh) | 2023-07-04 |
Family
ID=82531997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210351843.0A Active CN114822589B (zh) | 2022-04-02 | 2022-04-02 | 室内声学参数测定方法、模型构建方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822589B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
TW201828285A (zh) * | 2017-01-19 | 2018-08-01 | 阿里巴巴集團服務有限公司 | 音頻識別方法和系統 |
CN110600048A (zh) * | 2019-08-23 | 2019-12-20 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN111599377A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 基于音频识别的设备状态检测方法、系统及移动终端 |
CN111785292A (zh) * | 2020-05-19 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN113436646A (zh) * | 2021-06-10 | 2021-09-24 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
CN113920985A (zh) * | 2021-06-18 | 2022-01-11 | 清华大学苏州汽车研究院(相城) | 一种适用于车内语音识别系统的语音端点检测方法及模块 |
-
2022
- 2022-04-02 CN CN202210351843.0A patent/CN114822589B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
TW201828285A (zh) * | 2017-01-19 | 2018-08-01 | 阿里巴巴集團服務有限公司 | 音頻識別方法和系統 |
CN110600048A (zh) * | 2019-08-23 | 2019-12-20 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN111599377A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 基于音频识别的设备状态检测方法、系统及移动终端 |
CN111785292A (zh) * | 2020-05-19 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN113436646A (zh) * | 2021-06-10 | 2021-09-24 | 杭州电子科技大学 | 一种采用联合特征与随机森林的伪装语音检测方法 |
CN113920985A (zh) * | 2021-06-18 | 2022-01-11 | 清华大学苏州汽车研究院(相城) | 一种适用于车内语音识别系统的语音端点检测方法及模块 |
Also Published As
Publication number | Publication date |
---|---|
CN114822589A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN110415681B (zh) | 一种语音识别效果测试方法及系统 | |
CN108806720B (zh) | 话筒、数据处理器、监测系统及监测方法 | |
CN107767847B (zh) | 一种智能钢琴演奏测评方法及系统 | |
WO2020037555A1 (zh) | 评估麦克风阵列一致性的方法、设备、装置和系统 | |
JPH06332492A (ja) | 音声検出方法および検出装置 | |
US6675114B2 (en) | Method for evaluating sound and system for carrying out the same | |
CN112017693B (zh) | 一种音频质量评估方法及装置 | |
CN108206027A (zh) | 一种音频质量评价方法及系统 | |
CN109903778B (zh) | 实时演唱评分的方法与系统 | |
WO2022052940A1 (zh) | 基于音频识别被弹奏琴键的方法及系统 | |
CN114822589B (zh) | 室内声学参数测定方法、模型构建方法、装置及电子设备 | |
CN110475181A (zh) | 设备配置方法、装置、设备和存储介质 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
CN114464184B (zh) | 语音识别的方法、设备和存储介质 | |
KR102077642B1 (ko) | 시창평가 시스템 및 그것을 이용한 시창평가방법 | |
CN106710602B (zh) | 一种声学混响时间估计方法和装置 | |
CN115512718A (zh) | 用于存量语音文件的语音质量评价方法、装置及系统 | |
JP2002062186A (ja) | 地域環境騒音の計測・心理評価の方法及び装置 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
JP4590545B2 (ja) | 音響評価方法およびそのシステム | |
CN111885474A (zh) | 麦克风测试方法及装置 | |
CN109697985B (zh) | 语音信号处理方法、装置及终端 | |
US20050004792A1 (en) | Speech characteristic extraction method speech charateristic extraction device speech recognition method and speech recognition device | |
CN115691556B (zh) | 一种设备端多通道语音质量的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |